互联网社区中网络化知识实体抽取研究

被引:7
作者
王怀波 [1 ]
郑勤华 [2 ]
机构
[1] 北京师范大学系统科学学院
[2] 北京师范大学远程教育研究中心
关键词
互联网社区; 网络化知识; 知识实体; 知识抽取;
D O I
10.19605/j.cnki.kfxxyj.2022.02.002
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
互联网社区中“群体贡献、生产众筹”的知识涌现和汇聚现象,颠覆了知识稳定、权威的本质特征,改变了知识的表征形式与抽取方式。已有研究从理论层面提出“网络化知识”内涵及其表征模型,但缺少实践层面的落地应用。为此,本研究重点探究一套适用于互联网社区中网络化知识实体抽取的方法框架,以适应新时期网络化知识抽取的需要。抽取框架包括“数据采集与处理、分词与实体抽取、实体过滤与统一”三个环节。该框架综合考虑网络化知识的境遇化和动态性特征,通过设定一套基于话题文档的分类规则,将文本内容处理到相对独立的语境中;同时探索关键词、词语组合、命名实体识别三种方式获取候选实体;最终借助实体语义相似度计算等方法完成实体的过滤与统一。最后,研究借助cMOOC联通主义学习社区中网络化知识实体的抽取进行框架的应用与验证。
引用
收藏
页码:7 / 16
页数:10
相关论文
共 31 条
[31]   命名实体识别研究 [J].
张晓艳 ;
王挺 ;
陈火旺 .
计算机科学, 2005, (04) :44-48