基于领域数字出版物检测系统实现.docVIP

下载本文档

2
0
约7.09千字
约 13页
2018-08-31 发布于福建
举报
版权申诉

基于领域数字出版物检测系统实现.doc

1、本文档共13页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于领域数字出版物检测系统实现

基于领域数字出版物检测系统实现　　〔摘要〕数字出版物的侵权检测能够提高数字出版物质量，净化数字出版物市场，为数字出版物的发展提供良性循环。本文从出版机构所处的领域出发，以其自身所有的资源为基础，利用现有的文献检测技术，在句子层次上实现了数字出版物的相似性检测，从而为出版机构提供一个符合其自身需求的检测系统。　　〔关键词〕数字出版物；侵权检测；相似性检测　　DOI：10.3969/j.issn.1008-0821.2015.09.014 　　〔中图分类号〕G2376 〔文献标识码〕A 〔文章编号〕1008-0821（2015）09-0075-04 　　〔Abstract〕The digital publishing anti-plagiarism system can promote the quality of the publishing，clear the digital publishing market and establish the virtuous circle mechanism of the digital publishing development.This article built a digital publishing anti-plagiarism system by the sentences comparison.This system could help publishing institutions solve their plagiarism problem based on their own resources. 　　〔Key words〕digital publishing；anti-plagiarism system；similarity detection 　　近年来，随着国家加强文化工程的建设，以及数字阅读需求的爆发式增长，数字出版物得到了前所未有的发展。在发展的同时，很多出版机构为了追求赢利而忽略数字出版物的质量，特别是在书籍、资料等文献领域，内容重复、剽窃侵权现象严重，极大地损害了原创者的利益。已有的数字出版物检测系统贪大求全，忽略了出版机构对于检测系统的专、精、深的特定需求，造成资源浪费严重。同时，专业领域内的文献资源往往比较混杂，即有书籍、报刊、也有一些共开的文件以及内部资料等等，需要检测系统能够进行跨文档、跨格式检测。而当前已有的检测系统大都只专注于论文及网页的检测，所检测的对象比较单一，并不涉及书籍、资料、内部文献等多重格式的文献检测。因此，如何解决专业领域内数字出版物剽窃的检测是当前我们急需解决的重要问题。　　提高数字出版物的质量，净化数字出版物市场，降低编辑审阅的成本，减少读者的阅读干扰因素，打造良好的市场培育能力是当前一些出版机构的当务之急。这首先需要解决领域内的出版物剽窃现象，加强数子出版物相似性检测，杜绝劣质数字出版物的产生。本文从数字出版物所涉及的领域入手，以数字出版物的句子为基本单元，利用已有的编辑距离检测方法实现了领域内数字出版物的相似性检测。本检测系统简单，容易操作，配置要求相对较低，适合各个小的出版单位自行解决领域内数字出版物的文献抄袭行为。　　1 相关的研究　　文献相似性检测主要涉及两个方面：一是检测对象，即对应的数字资源。二是采取可靠的检测技术，主要是相似度的计算。首先从检测技术来看，在文档检测领域的研究中，主要从3个方面来实现文档相似性的比较。一个是利用词频统计的方法来实现文献相似性的比较。该方法通常是将文本中的低频词忽略掉，以高频词作为相似性检测的对象，通过相似词的词频并结合一些特征判断的方法来实现相似的检测。典型的是1995年Garia-Molina等提出的SCAM系统[1]。这类检测系统的优点是简单、速度快，缺点是结果并不理想。第二种方法是从文档的结构出发以某一结构中包含相似字句作为比较的对象来实现文档相似性的检测。利用文档结构来实现检测的系统通常以文档的章节、段落、句子作为结构处理对象，以句子或文本的词性、词序与之相结合作为相似度的比较依据，并通过香港理工大学的Si和Leong在1997年研发的CHECK系统[2]利用关键词统计再加上文本结构信息实现文本相似性检测。宋擒豹等于2003年提出的CDSDG系统[3]以及鲍军鹏在2006年提出的DCDGrid系统[4]也是在检测系统中利用了文档、句子的结构。杨思春提出了一种改进的句子相似度计算模型，以关键词抽取，结合同义词比较，并以词形加词序来实现句子相似度的计算[5]。程克明以文本的结构和内容作为检测对象，从文本中抽取其目录作为目录树，利用关键词统计和加权树性结构来实现文献相似性检测[6]。从结构入手能够大幅提高检测结果的质量，但是检测效率有待