文档数据化:概念、框架与方法

被引:27
作者
杨建梁
刘越男
祁天娇
机构
[1] 中国人民大学信息资源管理学院、数据工程与知识工程教育部重点实验室、中国人民大学电子文件管理研究中心
基金
中国博士后科学基金;
关键词
文档; 数据化; 非结构化数据; 结构化; 量化;
D O I
10.13530/j.cnki.jlis.2022024
中图分类号
G250.7 [图书馆自动化、网络化];
学科分类号
1205 ; 120501 ;
摘要
数据价值已经得到社会各界的高度认可。为进一步利用大数据、人工智能等技术释放数据的价值,文档数据化的概念被提出并日益受到重视,也成为图书情报与档案管理学科数字转型的新领域。经多学科概念与方法的综合和推演,本文对文档数据化的概念内涵、内容框架和关键方法展开系统研究。研究发现,文档数据化是面向文档的开发利用,将文档转变为机器可识别、可分析、可计算的数据的过程;智能技术允许机器参与到文档数据化的决策过程中,使得文档数据化呈现出人机协同、利用驱动、粒度细化、面向计算的特点。基于以上研究,本文提出文档数据化的任务框架,包含转录识别、描述增强、关联构建和矢量处理四项任务,呈现出结构化、语义化和智能化三个维度上面向机器的演进机制。对各项任务涉及的基础方法和关键方法进行梳理后可知,以深度学习、自然语言处理等技术为核心的文档数据化方法正在发挥越来越重要的作用。图6。表6。参考文献36。
引用
收藏
页码:63 / 78
页数:16
相关论文
共 28 条
[1]   图书馆高质量发展的赋能机制 [J].
柯平 ;
彭亮 .
中国图书馆学报, 2021, 47 (04) :48-60
[2]   大规模中国历代存世典籍知识图谱构建研究 [J].
欧阳剑 ;
梁珠芳 ;
任树怀 .
图书情报工作 , 2021, (05) :126-135
[3]   数据的语义增强——解读图档博支持数字人文的新动向 [J].
曾蕾 ;
谭旭 .
数字人文研究, 2021, 1 (01) :65-86
[5]   基于网络新闻语料的公共危机事件知识图谱构建 [J].
申云凤 ;
王英杰 .
情报科学, 2021, 39 (01) :72-80
[6]   融入数据管理 做电子文件管理追风人 [J].
冯惠玲 .
北京档案, 2020, (12) :6-7
[7]   新文科背景下我国图书情报学科的发展前景 [J].
马费成 ;
李志元 .
中国图书馆学报, 2020, 46 (06) :4-15
[8]   “数智”赋能时代图情档变革之思考 [J].
孙建军 ;
李阳 ;
裴雷 .
图书情报知识 , 2020, (03) :22-27
[9]   学科探路时代——从未知中探索未来 [J].
冯惠玲 .
信息资源管理学报, 2020, 10 (03) :4-10
[10]   知识图谱驱动的科研档案大数据管理系统构建研究 [J].
雷洁 ;
赵瑞雪 ;
李思经 ;
鲜国建 ;
寇远涛 .
数字图书馆论坛, 2020, (02) :19-27