基于LSTM自动编码机短文本聚类方法.docVIP

下载本文档

531
0
约8.08千字
约 16页
2018-08-28 发布于福建
举报
版权申诉

基于LSTM自动编码机短文本聚类方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于LSTM自动编码机短文本聚类方法

基于LSTM自动编码机短文本聚类方法　　摘要：一种基于文本向量化的短文本聚类方法。该方法以词向量作为基本特征，使用基于LSTM的自动编码机，对表征文本的词向量进行压缩编码，从而将文本不定长的词向量特征统一提取为统一输入长度的文本特征向量。这些文本特征向量的聚类结果即为短文本的聚类结果。对这一方法使用带标注的数据集进行了测试，使用基尼非纯度作为指标衡量该方法的聚类效果与人工聚类的拟合度；同时，使用聚类中心平均距离来衡量聚类结果中句子之间的结构相似度。结果表明，该方法更着重于匹配整体的文档结构，得到的聚类的句子间的结构相似度较高。　　关键词：自然语言处理；短文本；聚类；长短期记忆网络；自动编码机　　中图分类号：TP183文献标识码：A 　　Abstract：A short text clustering method，which is based on text vectorization，is proposed in this article.Word vectors are used as basic features in this method，and are encoded and compressed by LSTMAutoEncoder to get fixed length vectors to represent the texts.These fixed length vectors are used for the final clustering.A test with labeled dataset is applied for this method，with Gini impurity used to measure the similarity of the result of the clustering of this method and human clustering.Meanwhile，innercluster distance is used as evaluation for the structural similarity within a cluster.The result shows that，this method is focused on matching the structural information of the text，as the result got a relatively high similarity within the cluster. 　　Key words：natural language processing；short text；clustering；long shortterm memory network；autoencooder 　　1引言　　在自然?Z言处理的应用领域中，文本聚类是一个重要的任务。通过文本聚类，可以根据文本内容的性质对海量文本进行初步的划分，为后续如数据挖掘、标签化处理、知识图谱等一系列的应用提供一定的信息。同时，文本聚类的结果对一些业务本身，诸如客服回复、病例整理等存在参考价值。在文本聚类中，以词在文档中的出现情况作为特征维度，组建特征向量并进行聚类的方法是一类较经典的方法。该类方法依赖于两个文档之间共有词的比较，需要对文档中词的出现情况进行编码，并比较两个编码后的向量。在该类方法中，较经典的文档编码方法是直接将词出现情况进行编码的词袋（Bag of words）方法[1]以及进一步衍生的以词频-逆向文档频率（Term FrequencyInverse Document Frequency，TFIDF）作为权重的编码方法。使用当文本长度较长时，文本间存在足够多的相同词汇，得到的表征文本的特征向量较稠密，能够较好地应用于文本聚类上。然而，短文本（通常在10～100词之间）聚类问题因其文本长度短，基于词出现情况生成的词袋向量非常稀疏，词和词之间的重合率较低，容易由于同义词/近义词的语义鸿沟现象产生相似度漂移，传统的聚类方式效果差强人意。　　另一方面，词袋模型在操作时并没有考虑文本的结构信息（Semantic Information）。虽然改进的词袋模型使用n元（ngram）词能够保留部分结构信息，但并非完整的结构信息。　　针对于短文本易受同义词影响的特性，可以使用词向量（Word vector）作为基础特征。近义词和同义词的词向量具有高相似度，可以利用这一特性，解决原先在词袋模型中，同义词无法识别的问题。使用词向量作为基础特征、LSTM整合处理的组合方法能有效地对文本内在含义进行抽取，这一点已经被最近的一些自然语言推断（Natural Language Inference）方法充