- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
论文相似度的计算研究 —— 基于VSM模型*
刘 翔
(浙江理工大学图书馆,杭州,310018)
摘要:基于VSM模型,采用ICTCLAS分词技术及MS OLE自动化技术,探讨了论文提交与发布系统中实现论文相似度计算的方法。
关键词:VSM模型 ICTCLAS OLE自动化
The research to counting similarity of the papers
—— based on VSM model*
Liu Xiang , Ding Zurong
(Library of Zhejiang Sci-Tech University,Hangzhou 310018)
Abstract: Based the model of VSM and adopting ICTCLAS dividing words technology and MS OLE Automation technology, we discuss how to realize the methods of counting the similarity of the papers under the system of publishing and presenting the papers.
Keywords: VSM Model ICTCLAS OLE Automation
1 引 言
目前,已经通过CALIS认证的四套学位论文提交与发布系统,其基本功能大致相同,都具有6大功能模块:论文提交模块、论文审核与编目模块、文档标准化制作模块、论文发布与检索模块、论文回溯制作模块和服务器管理模块。这四个系统均可以良好的完成论文提交和发布功能,但在论文内容的深度处理上无相应的功能。如果在系统中实现论文相似性的分析,则可以很大程度上提高学生论文的质量,督促导师对学生论文的指导。本文从文本相似度研究入手,探讨了VSM模型在论文发布系统中的应用。
2系统实现所涉及的技术
2.1文本相似度计算
文本相似度计算是指利用计算机自动计算文本间的相似度,文本相似度是表示两个或多个文本之间匹配程度的一个度量参数,相似度越大表明文件相似程度越高。目前,国内外有很多学者在研究文本相似度计算问题,其中向量空间模型VSM(Vector Space Model)是近年来使用较多且效果较好的一种信息检索模型。该模型对需要比较相似度的文本进行分析,根据文本中的词语将文本映射为n维空间向量,然后通过比较向量间的余弦系数确定文本间的相似度,余弦值越大其相似度越高,计算公式为[1]:
其中,T、T’分别为待比较的两个文本的特征向量,Ti、Ti’ 分别为向量的第i维,n为特征向量的维数。
2.2中文分词算法
要对论文进行文本相似度计算,首先必须对论文进行分词。目前的中文分词算法归纳起来主要有两大类:一类是由字典匹配法和基于频度的方法组成,此类方法相对具体、实用;另一类是模拟人类的阅读过程,但由于中文的语法、语义相当复杂,受开发人员主观判断影响较大,所以效果并不如前一种理想,只在某一领域适用。现在常用的中文分词算法有逐词遍历法、二次扫描法和基于词频统计的分词法等。目前,由中国科学院计算技术研究所研制的汉语词法分析系统ICTCLAS[2]是在中文分词领域较为先进的系统,已经向国内外的企业和学术机构颁发了50,000多份授权,在ICTCLAS的众多版本中提供了开源的ICTCLAS版本,可从/Download.html 下载使用。
2.3 OLE自动化
应用程序间互相通信的方法有多种:OLE对象链接与嵌入、DDE动态数据交换等。当前OLE技术已经逐步取代了DDE技术,OLE已经成为应用程序间共享对象的工业标准。目前,论文提交方式大都采用Word文档方式提交,Word 文档本身是带格式的文件,除了可以在可视环境下进行文档编辑处理,还可以利用Word提供的OLE Automation[3]自动化程序接口即COM组件对象模型,采用VC++等编程语言实现Word文档操作的自动化。Word中有一百多个可以使用的对象,所有这些对象都可以通过OLE自动化来访问,例如利用该COM组件中TablesOfContents 类的pTablesOfContents方法可以提取论文的目录,可按提取的目录自动查找论文中的相关内容,实现对论文各部分的相似性比较,如摘要、论文内容和参考文献的比较。
3 系统设计与方案实现
由于目前的论文提交均是通过WEB方式提交服务器,服务器端收集了所有论文的Word文档。因此,可在服务器端直接运行论文相似性分析的程序,可利用夜间服务器的闲暇时间定时运行,减少对论文发布系统的干扰。在设计中笔者采用了Visual C++ 编写了原形模型,论文相似性计算系统结构图如图1所
您可能关注的文档
最近下载
- 百货商场总监述职报告.pptx
- 小学计算能力提升的有效教学方法教学研究课题报告.docx
- 山阳县大众尾矿烧结砖项目可行性研究报告.pdf VIP
- 海南师范大学2020-2021学年《现代心理与教育统计学》期末考试试卷(A卷)含参考答案.docx
- 海南师范大学2021-2022学年《现代心理与教育统计学》期末考试试卷(B卷)含参考答案.docx
- 海南师范大学2021-2022学年《现代心理与教育统计学》期末考试试卷(A卷)含参考答案.docx
- 法律常识教学课件.pptx VIP
- 政府机关公务员个人简历表格[共3页].doc VIP
- 有机硅化学课件—硅烷交联剂和硅烷偶联剂.pptx VIP
- 绿色建筑设计方案可行性分析报告.docx
文档评论(0)