- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
73_利用词的分布式表示改进作文跑题检测
文章编号:
利用词的分布式表示改进作文跑题检测
1,2 1,2 3
陈志鹏 ,陈文亮 ,朱慕华
(1.苏州大学 计算机科学与技术学院,江苏 苏州 215006 ;2.软件新技术与产业化协同创新中心,江苏
苏州 215006 ;3.淘宝(中国)软件有限公司,浙江 杭州 311100 )
摘要:作文跑题检测任务的核心问题是文本相似度计算。传统的文本相似度计算方法一般基于向量空间
模型,即把文本表示成高维向量,再计算文本之间的相似度。这种方法只考虑文本中出现的词项(词袋模
型),而没有利用词项的语义信息。本文提出一种新的文本相似度计算方法:基于词扩展的文本相似度计
算方法,将词袋模型(Bag-of-Words)方法与词的分布式表示相结合,在词的分布式表示向量空间中寻找与
文本出现的词项语义上相似的词加入到文本表示中,实现文本中单词的扩展。然后对扩展后的文本计算相
似度。本文将这种方法运用到英文作文的跑题检测中,构建一套跑题检测系统,并在一个真实数据中进行
测试。实验结果表明本文的跑题检测系统能有效识别跑题作文,性能明显高于基准系统。
关键词:文本相似度;词分布式表示;跑题检测;文本表示
中图分类号:TP391 文献标识码:A
Exploiting Distributed Representation of Words for Better Off-topic
Essays Detection
CHEN Zhipeng1,2, CHEN Wenliang1,2,ZHU Muhua3
(1.School of Computer Science and Technology, Soochow University ,Suzhou ,Jiangsu 215006,
China; 2.Collaborative Innovation Center of Novel Software Technology and Industrialization,
Suzhou ,Jiangsu 215006, China;3.Taobao (China) Software Co., Ltd,Hangzhou,Zhejiang
311100, China)
Abstract: Similarity measure is the core component of off-topic essays detection. For computing
similarity, the bag-of-words model is widely used. The model represents a text as a vector in
which each dimension corresponds to a word, and then computes text similarity. Obviously, such
a model leaves out the word semantic information. This paper proposes a new method to compute
text similarity: a method exploits word distributed representation. The new method combines the
traditional bag-of-words model with the word semantic information. For each word in a text, we
search for a set of similar words in a text collection, and then extend the text vector with
these words. Finally we compute text similarity with the updated text. Experimental results show
that our new method is more effective than baseline systems.
Keywords: text s
您可能关注的文档
- 5安全生产培训意见.pdf
- 5串珠编结幸运饰品.pdf
- 5工业企业职工听力保护规范.pdf
- 5寶刻類編8卷.pdf
- 5月14日YY讲座笔记整理.pdf
- 5月7日殷敏老师YY讲座笔记整理.pdf
- 5寰宇訪碑錄校勘記11卷.pdf
- 5月7日殷敏YY讲座讲义——1980年买卖公约.pdf
- 5東都冢墓遺文1卷.pdf
- 5种食物让男人 不举.pdf
- 2025年智能快递驿站行业政策与市场机遇报告.docx
- 2025年校园安全防范中新能源电动巡逻车采购可行性分析.docx
- 2025年智能垃圾分类智慧监管平台在智慧旅游区的应用前景研究.docx
- 2025年智能家居报告:人工智能伦理风险的法律责任与用户隐私保护.docx
- 2025年智能垃圾分类与垃圾分类信息化管理结合的可行性研究.docx
- 2025年智慧社区远程医疗诊断中心在基层医疗机构运营管理中的应用报告.docx
- 2025年智慧社区:老年活动广场智能化升级研究.docx
- 2025年智能社区新能源电动巡逻车市场应用前景分析报告.docx
- 2025年智能垃圾分类智慧监管平台在垃圾分类回收与处理中的智能化改造路径.docx
- 2025年本土半导体材料产业链国产化战略布局报告.docx
文档评论(0)