基于标签语义注意力的多标签文本分类

被引:68
作者
肖琳
陈博理
黄鑫
刘华锋
景丽萍
于剑
机构
[1] 交通数据分析与挖掘北京市重点实验室(北京交通大学)
基金
北京市自然科学基金;
关键词
多标签学习; 文本分类; 标签语义; 注意力机制;
D O I
10.13328/j.cnki.jos.005923
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
自大数据蓬勃发展以来,多标签分类一直是令人关注的重要问题,在现实生活中有许多实际应用,如文本分类、图像识别、视频注释、多媒体信息检索等.传统的多标签文本分类算法将标签视为没有语义信息的符号,然而,在许多情况下,文本的标签是具有特定语义的,标签的语义信息和文档的内容信息是有对应关系的,为了建立两者之间的联系并加以利用,提出了一种基于标签语义注意力的多标签文本分类(LAbel Semantic Attention Multi-label Classification,简称LASA)方法,依赖于文档的文本和对应的标签,在文档和标签之间共享单词表示.对于文档嵌入,使用双向长短时记忆(bi-directional long short-term memory,简称Bi-LSTM)获取每个单词的隐表示,通过使用标签语义注意力机制获得文档中每个单词的权重,从而考虑到每个单词对当前标签的重要性.另外,标签在语义空间里往往是相互关联的,使用标签的语义信息同时也考虑了标签的相关性.在标准多标签文本分类的数据集上得到的实验结果表明,所提出的方法能够有效地捕获重要的单词,并且其性能优于当前先进的多标签文本分类算法.
引用
收藏
页码:1079 / 1089
页数:11
相关论文
共 7 条
[1]  
Multi-Label Classification: An Overview[J] . Grigorios Tsoumakas,Ioannis Katakis.International Journal of Data Warehousing and Mining (IJDWM) . 2007 (3)
[2]  
M L-KNN : A lazy learning approach to multi-label learning[J] . Min-Ling Zhang,Zhi-Hua Zhou.Pattern Recognition . 2007 (7)
[3]   Multilabel neural networks with applications to functional genomics and text categorization [J].
Zhang, Min-Ling ;
Zhou, Zhi-Hua .
IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, 2006, 18 (10) :1338-1351
[4]  
Framewise phoneme classification with bidirectional LSTM and other neural network architectures[J] . Alex Graves,Jürgen Schmidhuber.Neural Networks . 2005 (5)
[5]   Learning multi-label scene classification [J].
Boutell, MR ;
Luo, JB ;
Shen, XP ;
Brown, CM .
PATTERN RECOGNITION, 2004, 37 (09) :1757-1771
[6]   Improved boosting algorithms using confidence-rated predictions [J].
Schapire, RE ;
Singer, Y .
MACHINE LEARNING, 1999, 37 (03) :297-336
[7]   Long short-term memory [J].
Hochreiter, S ;
Schmidhuber, J .
NEURAL COMPUTATION, 1997, 9 (08) :1735-1780