一种基于字同现频率的汉语文本主题抽取方法

被引:45
作者
马颖华
王永成
苏贵洋
张宇萌
机构
[1] 上海交通大学计算机科学与工程系
[2] 上海交通大学计算机科学与工程系 上海
[3] 上海
关键词
自然语言处理; 主题抽取; 同现频率;
D O I
暂无
中图分类号
TP391.12 [];
学科分类号
081203 ; 0835 ;
摘要
主题抽取是文本自动处理的基础工作之一 ,而主题的抽取一直以分词或者抽词作为第 1步 由于汉语词间缺少明显的间隔 ,因此分词和抽词的效果往往不够理想 ,从而在一定程度上影响了主题抽取的质量 提出以字为处理单位 ,基于字同现频率的汉语文本主题自动抽取的新方法 该方法速度快 ,适应多种文体类型 ,并完全避开了分词和抽词过程 ,可以广泛应用在主题句、主题段落等主题抽取的多个层面 ,而且同样适用于其他语言的文本主题抽取 主题句自动抽取实验表明 ,该方法抽取新闻文本主题句的正确率达到 77 19% 汉语文本的主题抽取比较实验还表明 ,省略分词步骤并没有降低抽取算法的正确率
引用
收藏
页码:874 / 878
页数:5
相关论文
共 3 条
[1]   中文文献主题的自动标引 [J].
王永成 ;
顾晓明 ;
王丽霞 .
情报学报, 1998, (03) :60-66
[2]   基于情境的文本主题求解 [J].
麻志毅 ;
姚天顺 ;
不详 .
计算机研究与发展 , 1998, (04) :57-61
[3]   汉语分词研究漫谈 [J].
董振东 .
语言文字应用, 1997, (01)