基于SciBERT与ChatGPT数据增强的研究流程段落识别

被引:4
|
作者
张恒
赵毅
章成志
机构
[1] 南京理工大学经济管理学院信息管理系
关键词
学术文本; 研究流程段落; 文本分类; SciBERT; ChatGPT数据增强;
D O I
10.16353/j.cnki.1000-7490.2024.01.020
中图分类号
TP18 [人工智能理论]; TP391.1 [文字信息处理];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
[目的/意义]在阅读文献的过程中,研究流程是研究者需要特别关注的一个重要方面,自动识别学术文本中描述研究流程的段落对辅助文献阅读、学习研究设计等有着重要意义。[方法/过程]文章以自然语言处理领域为例,收集代表性会议论文构建数据集。分别基于传统机器学习模型、神经网络分类工具以及预训练语言模型构建分类器识别研究流程段落,然后对不同模型的分类效果进行评估,确定性能最优的模型。为进一步提升研究流程段落识别效果,在最优模型的基础上,基于ChatGPT进行了数据增强。[结果/结论]实验结果表明,在所有分类器中,SciBERT具有最好的研究流程段落识别效果。基于ChatGPT的数据增强可使SciBERT模型的分类性能进一步提高,最终准确率(Acc)和F1值分别达到了0.9414和0.9409。
引用
收藏
页码:164 / 172+153 +153
页数:10
相关论文
共 18 条