分布计算09011325.ppt

  1. 1、本文档共32页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
分布计算09011325

从抄袭识别各种技术的应用实践来看, 数字指纹和词频统计技术较好. 即使对上述国外的英文文本抄袭识别系统来说, 目前的识别效果也不尽如人意, 存在的主要问题是区分度不高, 错查、漏查现象严重.由于计算机在自然语言理解方面有欠缺, 而抄袭又不仅仅局限于照抄照搬式的, 很难达到准确的抄袭识别. 将自然语言转换为形式语言(形式语言的判别已经取得不错的效果),可能适用于某一些特定的场合,但通用性明显不够,实用价值低 将现有的算法相互借鉴、融合、综合,或许会有进展 人机配合(个人认为在现有算法下,具有很高的实用性) 分层 词频统计技术 空间向量模型 设置阈值 一个阈值是门限值,只要高于这个阈值就可以怀疑抄袭,当然有可能误查,需要进一步人工判定;另一个阈值是临界值,只要超过此临界值,就判定为抄袭,不再需要人工判定 步骤1:提取指定论文的中图分类号与关键词序列并保存; 步骤2:在论文库中,先通过中图分类号进行筛选,若相同或相近则进入下一步,否则排除; 步骤3:在摘要中检索,若有一个或多个关键词与指定论文的关键词序列相同,则进入下一步,否则排除; 步骤4:对于指定论文和筛选过的论文库中的任一篇论文进行比较: (1)对指定论文进行分词,设去除虚词、语气词和停用词 后单词个数为n; (2)所有的段落表示成n 维的向量; (3)两篇论文的相似度计算如下: 1) 先把两篇论文的所有段落任意配对,计算出所有可 能的配对的段落相似度; 2) 取相似度最大的一对,并将它们归为一组,并记录相 似度值simi; 3) 在剩下的段落的配对相似度中,取最大的一对,并归 为一组,记录其相似度值,以此类推,直到所有段落都完成 分组; 4) 如果相似度值simi 低于门限值(这里取15%) 则排 除,超过门限值而没有超过临界值(这里取50%)则判定为 疑似抄袭,超过临界值则直接判定为抄袭; (4)分别在两个窗口输出抄袭论文和原论文的指定段落, 以供用户查看; 步骤5:从筛选过的论文库中取出另一篇再与指定论文进行比较,比较过程同前,直到文件夹中的所有论文都与指定论文比较完为止。 由于最后做出的结论有一定误差,还需要人工进一步判定,所以在两个窗口中输出抄袭论文和原论文的疑似抄袭的段落,这样使得用户不必再从整篇论文中查找、定位抄袭内容,方便用户直接查看与判定。 机器的意义在于解放人的劳动,通过人机配合,这样先大致找个范围即疑似抄袭,然后再人工或人工智能进一步判定,能够达到速度与准确度的一个相对平衡或是优化。 By ZhV 刘智伟如果仿造者很出色,我会很乐于坐下来在画上签字的! 抄袭识别技术属于复制检测(copydetection) 技术中的一种. 抄袭识别的思路是, 将每一篇论文看做是一系列Token (标记) 的集合, 这些Token 可以是字符、词、句、段落和章节等. 在其数学模型中, 这些Token 的集合应该是可计算的. 假设通过某种提取算法从论文(文档) a 和b 中得到各自Token 集合A 和B , 则通过比较A 和B 可以确定a 和b 的关系。比如复制、部分抄袭等 形式语言文本(例如数据文件、计算机程序代码等).其有着严格的形式化语法、清晰的语义表达, 容易分析处理。所以进展最早,而且取得了较好效果。方法有:属性计数法(attribute counting) 检测 自然语言文本(比如小说、论文等),没有形式化语法约束, 语义具有歧义性, 较难进行抄袭识别.1991 年才出现自然语言文本抄袭识别软WordCheck, 该软件由Richard 采用关键词匹配算法开发,此后进展较快。 数字指纹技术 词频统计技术 数字指纹是通过某种选取策略对论文中的某些特征Token 进行Hash 计算而生成的, 这Hash 函数可以为论文的每一特征语句或段落产生惟一整数值. 特定的指纹序列就代表了论文的内容特征, 通过比较这些指纹来计算论文间的相似程度. 例如, 当比较论文a 与b 时, 先生成a 和b各自的数字指纹,再对这些数字指纹进行匹配, 根据a 和b 中指纹匹配的数量来计算其相似程度. 指纹的生成 指纹粒度 指纹分辨率 指纹选取策略 指纹的生成(finger print generation) 过程对于数字指纹技术的效率有重要影响。为了保证数字指纹技术的速度和精确性, 指纹生成过程必须满足以下要求: ① 可再现性, 相同的字符串在不同的运行时刻应该产生相同的指纹; ② 高速度, 每篇论文需要生成大量的指纹, 因此对指纹生成速度要求很高; ③ 指纹的高度分布性, 为了防止不同字符串产生相同的指纹, 指纹的Hash 值应该在0 到一个很

文档评论(0)

yaocen + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档