文档数据化:概念、框架与方法

被引:27
作者
杨建梁
刘越男
祁天娇
机构
[1] 中国人民大学信息资源管理学院、数据工程与知识工程教育部重点实验室、中国人民大学电子文件管理研究中心
基金
中国博士后科学基金;
关键词
文档; 数据化; 非结构化数据; 结构化; 量化;
D O I
10.13530/j.cnki.jlis.2022024
中图分类号
G250.7 [图书馆自动化、网络化];
学科分类号
1205 ; 120501 ;
摘要
数据价值已经得到社会各界的高度认可。为进一步利用大数据、人工智能等技术释放数据的价值,文档数据化的概念被提出并日益受到重视,也成为图书情报与档案管理学科数字转型的新领域。经多学科概念与方法的综合和推演,本文对文档数据化的概念内涵、内容框架和关键方法展开系统研究。研究发现,文档数据化是面向文档的开发利用,将文档转变为机器可识别、可分析、可计算的数据的过程;智能技术允许机器参与到文档数据化的决策过程中,使得文档数据化呈现出人机协同、利用驱动、粒度细化、面向计算的特点。基于以上研究,本文提出文档数据化的任务框架,包含转录识别、描述增强、关联构建和矢量处理四项任务,呈现出结构化、语义化和智能化三个维度上面向机器的演进机制。对各项任务涉及的基础方法和关键方法进行梳理后可知,以深度学习、自然语言处理等技术为核心的文档数据化方法正在发挥越来越重要的作用。图6。表6。参考文献36。
引用
收藏
页码:63 / 78
页数:16
相关论文
共 28 条
[21]   国外高校图书馆按需数字化服务实践与启示 [J].
徐健晖 .
国家图书馆学刊, 2018, 27 (02) :68-74
[22]   技术变迁环境下档案对象管理空间演化初探 [J].
钱毅 .
档案学通讯, 2018, (02) :10-14
[23]   图档博领域的智慧数据及其在数字人文研究中的角色 [J].
曾蕾 ;
王晓光 ;
范炜 .
中国图书馆学报, 2018, 44 (01) :17-34
[24]   科研院所图书馆数字化服务探究 [J].
夏梦蝶 ;
薛岳 ;
候梦洁 .
图书情报工作, 2017, (S1) :70-72+84
[25]   地方历史文献的数字化、数据化与文本挖掘:以《中国地方历史文献数据库》为例 [J].
赵思渊 .
清史研究, 2016, (04) :26-35
[26]   档案大数据研究热的冷思考 [J].
于英香 .
档案学通讯, 2015, (02) :4-8
[27]   数字图书馆合理使用问题研究 [J].
王知津 ;
潘永超 .
图书馆学研究 , 2009, (01) :21-24+59
[28]   数字图书馆信息自由权和知识产权的冲突 [J].
顾朝晖 ;
朱伟铃 ;
孙红卫 .
现代情报 , 2008, (09) :73-75