文献中的词语分布、词型等级和风格计算

被引:9
作者
马创新 [1 ]
陈小荷 [2 ]
机构
[1] 江苏师范大学语言科学与艺术学院
[2] 南京师范大学文学院
关键词
词语分布; 离散; 集中; 检索; 风格;
D O I
暂无
中图分类号
H14 [语法];
学科分类号
0501 ; 050103 ;
摘要
文献的语言风格是作者在语言运用方面的思维定势的体现,对于文献之间语言风格的差异,以前的研究大多采用定性分析的方式加以比较和概括,而在文献检索和文本分类领域需要得到量化的语言风格相似度。该文首先分析文献中词语分布的普遍规律,以先秦八部经典文献为观察语料,发现这些文献中的词语既呈离散分布,又呈集中分布;然后通过计算文献之间词型等级的相关系数,来获取量化的语言风格相似度,构建了八部文献之间的相似度矩阵,验证了语言风格的差异不仅体现在使用的常用词上,还更细微地体现在常用词的使用频率等级上。
引用
收藏
页码:20 / 27
页数:8
相关论文
共 16 条
[1]   计量特征在语言风格比较及作家判定中的应用——以韩寒《三重门》与郭敬明《梦里花落知多少》为例 [J].
陈芯莹 ;
李雯雯 ;
王燕 .
计算机工程与应用, 2012, 48 (03) :137-139+208
[2]   基于引文分析的古籍文献影响力评估 [J].
马创新 ;
陈小荷 .
大学图书馆学报, 2016, 34 (01) :16-24
[3]   跨语言信息检索进展研究 [J].
刘伟成 ;
孙吉红 .
中国图书馆学报, 2008, (01) :88-92
[4]   基于CRF的先秦汉语分词标注一体化研究 [J].
石民 ;
李斌 ;
陈小荷 .
中文信息学报, 2010, (02) :39-45
[5]   基于语句节奏特征的作者身份识别研究 [J].
王少康 ;
董科军 ;
阎保平 .
计算机工程, 2011, 37 (09) :4-5+8
[6]   文本挖掘在人文社会科学研究中的典型应用述评 [J].
陆宇杰 ;
许鑫 ;
郭金龙 .
图书情报工作, 2012, 56 (08) :18-25
[7]  
汉语词汇史纲要[M]. 华东师范大学出版社 , 史存直著, 1989
[8]  
Human Behavior and the Principle of Least Effort. Zipf G K. . 1949
[9]  
A law of occurrences for words of low frequency. W.D. Booth. Information and Control . 1967
[10]   古汉语双字词自动获取方法的比较与分析 [J].
段磊 ;
韩芳 ;
宋继华 .
中文信息学报, 2012, 26 (04) :34-42