电子病历中命名实体的智能识别

被引:49
作者
叶枫 [1 ]
陈莺莺 [1 ]
周根贵 [1 ]
李昊旻 [2 ]
李莹 [2 ]
机构
[1] 浙江工业大学经贸管理学院
[2] 浙江大学生物医学工程与仪器科学学院
关键词
电子病历; 命名实体识别; 机器学习; 条件随机场;
D O I
暂无
中图分类号
R197.324 [医院自动化管理]; TP391.4 [模式识别与装置];
学科分类号
1004 ; 120402 ; 0811 ; 081101 ; 081104 ; 1405 ;
摘要
电子病历中命名实体的识别对于构建和挖掘大型临床数据库以服务于临床决策具有重要意义,而我国目前对此的研究相对较少。在比较现有的实体识别方法和模型后,采用条件随机场模型(CRF)机器学习的方法,对疾病、临床症状、手术操作3类中文病历中常见的命名实体进行智能识别。首先,通过分析电子病历的数据特征,选择以语言符号、词性、构词特征、词边界、上下文为特征集。然后,基于随机抽取的来自临床医院多个科室的电子病历数据,构建小规模语料库并进行标注。最后,利用条件随机场算法执行工具CRF++进行3次对照实验。通过逐步分析特征集中的多种特征对CRF自动识别的影响,提出在中文病历环境下CRF特征选择和模板设计的一些基本规则。在对照实验中,本方法取得了良好效果,3类实体的最佳F值分别达到了92.67%、93.76%和95.06%。
引用
收藏
页码:256 / 262
页数:7
相关论文
共 5 条
[1]   生物医学命名实体识别的研究与进展 [J].
郑强 ;
刘齐军 ;
王正华 ;
朱云平 .
计算机应用研究, 2010, 27 (03) :811-815+832
[2]   基于条件随机域的生物命名实体识别 [J].
彭春艳 ;
张晖 ;
包玲玉 ;
陈昌平 .
计算机工程, 2009, 35 (22) :197-199
[3]   基于条件随机场的中医命名实体识别 [J].
王世昆 ;
李绍滋 ;
陈彤生 .
厦门大学学报(自然科学版), 2009, 48 (03) :359-364
[4]   基于层叠隐马尔可夫模型的中文命名实体识别 [J].
俞鸿魁 ;
张华平 ;
刘群 ;
吕学强 ;
施水才 .
通信学报, 2006, (02) :87-94
[5]   Enhancing HMM-based biomedical named entity recognition by studying special phenomena [J].
Zhang, J ;
Shen, D ;
Zhou, GD ;
Su, J ;
Tan, CL .
JOURNAL OF BIOMEDICAL INFORMATICS, 2004, 37 (06) :411-422