73_利用词的分布式表示改进作文跑题检测.pdfVIP

下载本文档

0
0
约1.79万字
约 9页
2017-10-09 发布于江西
举报
版权申诉

73_利用词的分布式表示改进作文跑题检测.pdf

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

73_利用词的分布式表示改进作文跑题检测

文章编号：利用词的分布式表示改进作文跑题检测 1,2 1,2 3 陈志鹏，陈文亮，朱慕华（1.苏州大学计算机科学与技术学院，江苏苏州 215006 ；2.软件新技术与产业化协同创新中心，江苏苏州 215006 ；3.淘宝（中国）软件有限公司，浙江杭州 311100 ）摘要：作文跑题检测任务的核心问题是文本相似度计算。传统的文本相似度计算方法一般基于向量空间模型，即把文本表示成高维向量，再计算文本之间的相似度。这种方法只考虑文本中出现的词项(词袋模型)，而没有利用词项的语义信息。本文提出一种新的文本相似度计算方法：基于词扩展的文本相似度计算方法，将词袋模型(Bag-of-Words)方法与词的分布式表示相结合，在词的分布式表示向量空间中寻找与文本出现的词项语义上相似的词加入到文本表示中，实现文本中单词的扩展。然后对扩展后的文本计算相似度。本文将这种方法运用到英文作文的跑题检测中，构建一套跑题检测系统，并在一个真实数据中进行测试。实验结果表明本文的跑题检测系统能有效识别跑题作文，性能明显高于基准系统。关键词：文本相似度；词分布式表示；跑题检测；文本表示中图分类号：TP391 文献标识码：A Exploiting Distributed Representation of Words for Better Off-topic Essays Detection CHEN Zhipeng1,2, CHEN Wenliang1,2,ZHU Muhua3 (1.School of Computer Science and Technology, Soochow University ,Suzhou ,Jiangsu 215006, China; 2.Collaborative Innovation Center of Novel Software Technology and Industrialization, Suzhou ,Jiangsu 215006, China;3.Taobao (China) Software Co., Ltd,Hangzhou,Zhejiang 311100, China) Abstract: Similarity measure is the core component of off-topic essays detection. For computing similarity, the bag-of-words model is widely used. The model represents a text as a vector in which each dimension corresponds to a word, and then computes text similarity. Obviously, such a model leaves out the word semantic information. This paper proposes a new method to compute text similarity: a method exploits word distributed representation. The new method combines the traditional bag-of-words model with the word semantic information. For each word in a text, we search for a set of similar words in a text collection, and then extend the text vector with these words. Finally we compute text similarity with the updated text. Experimental results show that our new method is more effective than baseline systems. Keywords: text s