基于word2vec 的一种文档向量表示 - 计算机科学.pdf

基于word2vec 的一种文档向量表示 - 计算机科学.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于word2vec 的一种文档向量表示 - 计算机科学

Vo l. 43 No.6 第 43 卷第6 期 计算机科学 2016 年 6 月 Computer Science June 2016 基于 Word2Vec 的一种文档向量表示 唐明朱磊邹显春 (西南大学计算机与信息科学学院 重庆 400715) 摘 要在文本分类中,如何运用 word2vec 词向量高效地表达一篇文档一直是一个难点。目前,将 word2vec 模型与 聚类算法结合形成的 doc2vec 模型能有效地表达文档信息。但是,这种方法很少考虑羊个词对整篇文档的影响力。 为了解决这个问题,手IJ 用 TF-IDF 算法计算每篇文档中词的权重,并结合 word2vec i司向量生成文档向量,最后将其应 用于中文文档分类。在搜狗中文语料库上的实验验证了新方法的有效性。 关键词 TF-IDF ,word2vec ,doc2vec ,文本分类 中圄法分类号 TP181 文献标识码 A DOI 10. 11896/j. issn. 1002-137X. 2016. 6. 043 Document Vector Representation ßased on Word2Vec T ANG Ming ZHU Lei ZOU Xian-chun CSchool of Computer and Information Science.Southwest University.Chongqing 400715 ,China) Abstract In text classification issues ,it is difficult to express a document efficiently by the word vector of word2vec. At present ,doc2vec built on the combination of word2vec and clustering algorithm can express the information of document very wel l. However ,this method rarely considers a single word s influence for the entire document. To solve this pro- bler丑, in this paper ,TF-IDF algorithm was used to calculate the right weight of words in documents , and word2vec was combined to generate document vectors ,which were used for Chinese text classification. Experiments on the Sogou Chi nese corpus laboratory demonstrate the efficiency of this newly proposed algorithm. Keywords TF-IDF ,Word2vec ,Doc2vec ,Text classification 的值为 0 ,但是我们知道土豆与马铃薯是同一种食物;4) 引言 词袋法很难区分同一个词在不同语境中的意义,如先生,根 目前,使用最广泛的文档表示方法几乎都基于词袋法

文档评论(0)

wujianz + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档