一种基于XML的非结构化数据转换方法

被引:24
作者
杨晶
周双娥
机构
[1] 湖北大学计算机与信息工程学院
关键词
大数据; 非结构化数据; 可扩展标记语言; 文档解析技术;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
XML作为半结构化的语言,因其能预先定义标记等优势被普遍应用于非结构化到结构化信息的转换中。利用POI技术把网络上繁杂的非结构化数据转化为XML半结构化数据,把半结构化数据转化为结构化数据,使用户能够简便地查询所需信息。通过实验对SAX,DOM的解析效率进行了对比,实验表明解析相同大小的XML文件,SAX比DOM效率更高,而且此种差距会随着XML文件的增大而逐渐增大。
引用
收藏
页码:414 / 417
页数:4
相关论文
共 11 条
[1]   POI实现Excel的数据导入导出的研究 [J].
戴维 .
科技信息, 2013, (01) :107-107
[2]   基于XML技术的非结构化数据到结构化数据转换的研究 [J].
李爱民 ;
谭献海 .
铁路计算机应用, 2012, 21 (10) :12-15+18
[3]   一种基于关系的XML文档模型映射方法 [J].
鉴保瑞 ;
宋余庆 ;
陈健美 ;
邹为伟 .
计算机应用研究, 2011, 28 (12) :4621-4624
[4]   XML解析技术研究 [J].
冯进 ;
丁博 ;
史殿习 ;
张瞩熹 ;
许凯 .
计算机工程与科学, 2009, 31 (02) :120-124
[5]   基于SAX的XML数据结构聚簇存储方法 [J].
杨治 ;
鞠时光 .
计算机工程, 2008, (18) :72-74
[6]   XML编程中的DOM与SAX技术 [J].
赵俊岚 .
计算机工程, 2004, (24) :70-72
[7]   基于DOM的XML数据库的索引技术研究 [J].
贾福林 ;
王国仁 ;
于戈 ;
不详 .
计算机研究与发展 , 2004, (01) :175-186
[8]   XML数据的结构化处理方法 [J].
施伟斌 ;
孙未未 ;
施伯乐 .
计算机研究与发展, 2002, (07) :819-826
[9]  
非结构化到结构化数据转换的研究与实现[D]. 万里鹏.西南交通大学. 2013
[10]   Expressiveness and complexity of XML Schema [J].
Martens, Wim ;
Neven, Frank ;
Schwentick, Thomas ;
Bex, Geert Jan .
ACM TRANSACTIONS ON DATABASE SYSTEMS, 2006, 31 (03) :770-813