首页
学术期刊
论文检测
AIGC检测
热点
更多
数据
知识抽取中的停用词处理技术
被引:41
作者
:
论文数:
引用数:
h-index:
机构:
化柏林
机构
:
[1]
中国科学技术信息研究所
来源
:
现代图书情报技术
|
2007年
/ 08期
关键词
:
知识抽取;
停用词;
中文分词;
自然语言处理;
文本信息分析;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
081203 ;
0835 ;
摘要
:
在知识抽取的分词过程中,需要提前把停用词标引出来。停用词处理的关键在于停用词的认定、停用词表的获取与组织技术以及停用词匹配技术。停用词的识别常常需要停用词表,识别过程中需要判断假停用词以降低噪声。实验表明,对停用词进行单独处理可以大大加快词语切分速度以及后续的句法分析归约速度。
引用
收藏
页码:48 / 51
页数:4
相关论文
共 10 条
[1]
信息检索用户查询语句的停用词过滤
[J].
熊文新
论文数:
0
引用数:
0
h-index:
0
机构:
北京外国语大学中国外语教育研究中心
北京外国语大学中国外语教育研究中心
熊文新
;
宋柔
论文数:
0
引用数:
0
h-index:
0
机构:
北京语言大学语言信息处理研究所
北京外国语大学中国外语教育研究中心
宋柔
.
计算机工程,
2007,
(06)
:195
-197
[2]
基于新的关键词提取方法的快速文本分类系统
[J].
罗杰
论文数:
0
引用数:
0
h-index:
0
机构:
武汉大学电子信息学院
罗杰
;
陈力
论文数:
0
引用数:
0
h-index:
0
机构:
武汉大学电子信息学院
陈力
;
论文数:
引用数:
h-index:
机构:
夏德麟
;
王凯
论文数:
0
引用数:
0
h-index:
0
机构:
武汉大学电子信息学院
王凯
.
计算机应用研究,
2006,
(04)
:32
-34
[3]
中文停用词表的自动选取
[J].
顾益军
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,中国公安大学信息安全工程系北京 ,北京 ,北京 ,北京 ,北京
顾益军
;
论文数:
引用数:
h-index:
机构:
樊孝忠
;
王建华
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,中国公安大学信息安全工程系北京 ,北京 ,北京 ,北京 ,北京
王建华
;
论文数:
引用数:
h-index:
机构:
汪涛
;
黄维金
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,中国公安大学信息安全工程系北京 ,北京 ,北京 ,北京 ,北京
黄维金
.
北京理工大学学报,
2005,
(04)
:337
-340
[4]
文本自动分类系统文本预处理方法的研究
[J].
周钦强
论文数:
0
引用数:
0
h-index:
0
机构:
广东工业大学自动化学院,广东技术师范学院,广东工业大学自动化学院广东广州,广东广州,广东广州
周钦强
;
孙炳达
论文数:
0
引用数:
0
h-index:
0
机构:
广东工业大学自动化学院,广东技术师范学院,广东工业大学自动化学院广东广州,广东广州,广东广州
孙炳达
;
王义
论文数:
0
引用数:
0
h-index:
0
机构:
广东工业大学自动化学院,广东技术师范学院,广东工业大学自动化学院广东广州,广东广州,广东广州
王义
.
计算机应用研究,
2005,
(02)
:85
-86
[5]
用隐马尔柯夫模型对汉语进行切分和标注排歧
[J].
论文数:
引用数:
h-index:
机构:
刘颖
.
计算机工程与设计,
2001,
(04)
:58
-62+68
[6]
汉语自动分词词典机制的实验研究
[J].
孙茂松
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系!北京,清华大学计算机科学与技术系!北京,清华大学计算机科学与技术系!北京
孙茂松
;
论文数:
引用数:
h-index:
机构:
左正平
;
论文数:
引用数:
h-index:
机构:
黄昌宁
.
中文信息学报,
2000,
(01)
:1
-6
[7]
书面汉语的自动分词与一个自动分词系统—CDWS
[J].
梁南元
论文数:
0
引用数:
0
h-index:
0
梁南元
.
北京航空学院学报,
1984,
(04)
:97
-104
[8]
中文文本自动分词和标注[M]. 商务印书馆 , 刘开瑛著, 2000
[9]
Some critical remarks on the stop word lists of ISI publications
[J].
Tomov, DT
论文数:
0
引用数:
0
h-index:
0
机构:
Med Univ Varna, Lib & Informat Serv, BG-9002 Varna, Bulgaria
Med Univ Varna, Lib & Informat Serv, BG-9002 Varna, Bulgaria
Tomov, DT
.
JOURNAL OF DOCUMENTATION,
2001,
57
(06)
:798
-808
[10]
Stop word location and identification for adaptive text recognition
[J].
Ho T.K.
论文数:
0
引用数:
0
h-index:
0
机构:
Bell Laboratories, Lucent Technologies, Murray Hill, NJ 07974, 700 Mountain Avenue
Bell Laboratories, Lucent Technologies, Murray Hill, NJ 07974, 700 Mountain Avenue
Ho T.K.
.
International Journal on Document Analysis and Recognition,
2000,
3
(1)
:16
-26
←
1
→
共 10 条
[1]
信息检索用户查询语句的停用词过滤
[J].
熊文新
论文数:
0
引用数:
0
h-index:
0
机构:
北京外国语大学中国外语教育研究中心
北京外国语大学中国外语教育研究中心
熊文新
;
宋柔
论文数:
0
引用数:
0
h-index:
0
机构:
北京语言大学语言信息处理研究所
北京外国语大学中国外语教育研究中心
宋柔
.
计算机工程,
2007,
(06)
:195
-197
[2]
基于新的关键词提取方法的快速文本分类系统
[J].
罗杰
论文数:
0
引用数:
0
h-index:
0
机构:
武汉大学电子信息学院
罗杰
;
陈力
论文数:
0
引用数:
0
h-index:
0
机构:
武汉大学电子信息学院
陈力
;
论文数:
引用数:
h-index:
机构:
夏德麟
;
王凯
论文数:
0
引用数:
0
h-index:
0
机构:
武汉大学电子信息学院
王凯
.
计算机应用研究,
2006,
(04)
:32
-34
[3]
中文停用词表的自动选取
[J].
顾益军
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,中国公安大学信息安全工程系北京 ,北京 ,北京 ,北京 ,北京
顾益军
;
论文数:
引用数:
h-index:
机构:
樊孝忠
;
王建华
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,中国公安大学信息安全工程系北京 ,北京 ,北京 ,北京 ,北京
王建华
;
论文数:
引用数:
h-index:
机构:
汪涛
;
黄维金
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,中国公安大学信息安全工程系北京 ,北京 ,北京 ,北京 ,北京
黄维金
.
北京理工大学学报,
2005,
(04)
:337
-340
[4]
文本自动分类系统文本预处理方法的研究
[J].
周钦强
论文数:
0
引用数:
0
h-index:
0
机构:
广东工业大学自动化学院,广东技术师范学院,广东工业大学自动化学院广东广州,广东广州,广东广州
周钦强
;
孙炳达
论文数:
0
引用数:
0
h-index:
0
机构:
广东工业大学自动化学院,广东技术师范学院,广东工业大学自动化学院广东广州,广东广州,广东广州
孙炳达
;
王义
论文数:
0
引用数:
0
h-index:
0
机构:
广东工业大学自动化学院,广东技术师范学院,广东工业大学自动化学院广东广州,广东广州,广东广州
王义
.
计算机应用研究,
2005,
(02)
:85
-86
[5]
用隐马尔柯夫模型对汉语进行切分和标注排歧
[J].
论文数:
引用数:
h-index:
机构:
刘颖
.
计算机工程与设计,
2001,
(04)
:58
-62+68
[6]
汉语自动分词词典机制的实验研究
[J].
孙茂松
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系!北京,清华大学计算机科学与技术系!北京,清华大学计算机科学与技术系!北京
孙茂松
;
论文数:
引用数:
h-index:
机构:
左正平
;
论文数:
引用数:
h-index:
机构:
黄昌宁
.
中文信息学报,
2000,
(01)
:1
-6
[7]
书面汉语的自动分词与一个自动分词系统—CDWS
[J].
梁南元
论文数:
0
引用数:
0
h-index:
0
梁南元
.
北京航空学院学报,
1984,
(04)
:97
-104
[8]
中文文本自动分词和标注[M]. 商务印书馆 , 刘开瑛著, 2000
[9]
Some critical remarks on the stop word lists of ISI publications
[J].
Tomov, DT
论文数:
0
引用数:
0
h-index:
0
机构:
Med Univ Varna, Lib & Informat Serv, BG-9002 Varna, Bulgaria
Med Univ Varna, Lib & Informat Serv, BG-9002 Varna, Bulgaria
Tomov, DT
.
JOURNAL OF DOCUMENTATION,
2001,
57
(06)
:798
-808
[10]
Stop word location and identification for adaptive text recognition
[J].
Ho T.K.
论文数:
0
引用数:
0
h-index:
0
机构:
Bell Laboratories, Lucent Technologies, Murray Hill, NJ 07974, 700 Mountain Avenue
Bell Laboratories, Lucent Technologies, Murray Hill, NJ 07974, 700 Mountain Avenue
Ho T.K.
.
International Journal on Document Analysis and Recognition,
2000,
3
(1)
:16
-26
←
1
→