面向数字人文研究的大规模古籍文本可视化分析与挖掘

被引:114
|
作者
欧阳剑 [1 ,2 ]
机构
[1] 上海师范大学语言研究所
[2] 广西民族大学图书馆
关键词
数字人文; 文本可视化; 数据挖掘; 古籍文献;
D O I
10.13530/j.cnki.jlis.160011
中图分类号
G255.1 [善本、线装古籍]; G353.1 [情报资料的分析和研究];
学科分类号
050104 ; 060202 ;
摘要
传统的古籍开发与应用模式已难以适应人文学科研究的需要,人文学科研究者期待一个技术逻辑和人文逻辑相耦合的数字人文研究范式的出现。本文从古籍文献深层次开发与利用出发,利用新的信息技术与面向数字人文研究跨学科方法,以大规模中国古籍文本为研究对象,采用大数据研究理念,对古籍进行整理、标注、自动分词等处理,以词频分析统计为研究核心,采用数据降噪、基于窗口时间单位的统计分析计算、滑动窗口预测等分析与挖掘方法,采用大数据实时分析技术,实现了实时、在线、立体、可视化、定量分析字词的历史词频分布规律,创建了一个以语言学、历史文献学、历史地理学等人文学科研究为主的古籍实时统计分析平台,可辅助研究者在大量的古籍文献中发现新的模式、现象、趋势等,实现古籍开发与应用模式创新的初步尝试。图11。参考文献36。
引用
收藏
页码:66 / 80
页数:15
相关论文
共 21 条
  • [11] 大陆古籍数字化的现状及存在的问题[A]. 杨琳.第一届中国古籍数字化国际学术研讨会论文集[C]. 2007
  • [12] 大数据推动社会科学研究深挖潜力[N]. 陈云松,黄超.中国社会科学报. 2015 (B01)
  • [13] 构建文学地理学“立体图景”[N]. 曾大兴.中国社会科学报. 2011 (011)
  • [14] 中国文学与人文地理[N]. 杨义.人民日报. 2010 (024)
  • [15] 词汇化[M]. 商务印书馆 , 董秀芳, 2011
  • [16] 汉语史稿[M]. 中华书局 , 王力著, 2004
  • [17] 计量史学方法导论[M]. 上海译文出版社 , (英)罗德里克·弗拉德(RoderickFloud)著, 1997
  • [18] 汉语词汇史[M]. 商务印书馆 , 王力著, 1993
  • [19] 吕叔湘文集[M]. 商务印书馆 , 吕叔湘著, 1992
  • [20] 汉语词汇史纲要[M]. 华东师范大学出版社 , 史存直著, 1989