SikuBERT与SikuRoBERTa:面向数字人文的《四库全书》预训练模型构建及应用研究

被引:64
作者
王东波 [1 ]
刘畅 [1 ]
朱子赫 [1 ]
刘江峰 [1 ]
胡昊天 [2 ]
沈思 [3 ]
李斌 [4 ]
机构
[1] 南京农业大学信息管理学院
[2] 南京大学信息管理学院
[3] 南京理工大学经济管理学院
[4] 南京师范大学文学院
关键词
数字人文; 四库全书; 预训练模型; 深度学习;
D O I
暂无
中图分类号
G250.7 [图书馆自动化、网络化];
学科分类号
1205 ; 120501 ;
摘要
数字人文研究需要大规模语料库和高性能古文自然语言处理工具的支持。面向英语和现代汉语的预训练语言模型已在相关领域提升了文本挖掘精度,数字人文研究的兴起亟须面向古文自动处理领域的预训练模型。文章以校验后的高质量《四库全书》全文语料作为无监督训练集,基于BERT模型框架,构建面向古文智能处理任务的SikuBERT和SikuRoBERTa预训练语言模型。实验进一步设计面向《左传》语料的古文自动分词、断句标点、词性标注和命名实体识别等验证任务,分别对SikuBERT、SikuRoBERTa预训练模型和其他3种基线模型(BERT-base、RoBERTa、GuwenBERT)进行对比试验。结果显示:SikuBERT和SikuRoBERTa模型在全部4个下游验证任务中的表现均超越其他基线预训练模型,表明文章提出的预训练模型具有较强的古文词法、句法、语境学习能力和泛化能力。基于验证任务效果最优的SikuRoBERTa预训练模型,进一步构建“SIKUBERT典籍智能处理平台”。该平台提供典籍自动处理、检索和自动翻译等在线服务,可以辅助哲学、文学、历史学等领域学者在不具备数据挖掘与深度学习的专业背景下,以直观可视化方式对典籍文本进行高效率、多维度、深层次、细粒化的知识挖掘与分析。
引用
收藏
页码:31 / 43
页数:13
相关论文
共 23 条
[1]   基于深度学习的语言模型研究进展 [J].
王乃钰 ;
叶育鑫 ;
刘露 ;
凤丽洲 ;
包铁 ;
彭涛 .
软件学报, 2021, 32 (04) :1082-1115
[2]   面向海量典籍文本的深度学习自动断句与标点平台构建研究 [J].
王倩 ;
王东波 ;
李斌 ;
许超 .
数据分析与知识发现 , 2021, (03) :25-34
[3]   基于Lattice LSTM的古汉语命名实体识别 [J].
崔丹丹 ;
刘秀磊 ;
陈若愚 ;
刘旭红 ;
李臻 ;
齐林 .
计算机科学, 2020, 47(S2) (S2) :18-22
[4]   自然语言处理预训练模型的研究综述 [J].
余同瑞 ;
金冉 ;
韩晓臻 ;
李家辉 ;
郁婷 .
计算机工程与应用 , 2020, (23) :12-22
[5]   数字人文视域下的古文献文本标注与可视化研究——以《左传》知识库为例 [J].
李斌 ;
王璐 ;
陈小荷 ;
王东波 .
大学图书馆学报, 2020, 38 (05) :72-80+90
[6]  
Pre-trained models for natural language processing: A survey[J]. QIU XiPeng,SUN TianXiang,XU YiGe,SHAO YunFan,DAI Ning,HUANG XuanJing.Science China(Technological Sciences). 2020(10)
[7]  
数字人文忧思录[J]. 史睿.数字人文. 2020(02)
[8]   古籍数字化、数字人文与古代文学研究——访中国社会科学院郑永晓教授 [J].
郑永晓 ;
段海蓉 .
吉首大学学报(社会科学版), 2020, 41 (02) :144-151
[9]   古籍数字化研究进展述评(2009-2019) [J].
李明杰 ;
张纤柯 ;
陈梦石 .
图书情报工作, 2020, 64 (06) :130-137
[10]   四库学建构的思考 [J].
何宗美 .
苏州大学学报(哲学社会科学版), 2017, 38 (01) :172-181