HTML文件的文本信息预处理技术

被引:12
作者
王志琪
王永成
机构
[1] 上海交通大学计算机科学与工程系
关键词
HTML; 文本信息; 预处理;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
介绍了一种常用的文件类型HTML文件的文本信息预处理技术。该方法能够解析HTML文件的组成结构,并从中提取出主体文本以供处理。测试表明该方法能有效地得到大部分HTML网页的主体部分。文中对HTML文件的解析不仅可以用于提取出HTML文件的主体文本,也可以用于得到HTML文件中其他的元素的内容,具有推广应用价值。
引用
收藏
页码:46 / 48+67 +67
页数:4
相关论文
共 2 条
[1]  
HTML Web页面制作教程[M]. 清华大学出版社 , (美)LauraLemay, 2000
[2]  
Technology Text Mining:Turning Information into Knowledge .2 Tkach D. . 1998