改进的TF-IDF算法在作品抄袭判定中的应用--以《梦里花落知多少》和《圈里圈外》为例.pdfVIP

改进的TF-IDF算法在作品抄袭判定中的应用--以《梦里花落知多少》和《圈里圈外》为例.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
改进的TF-IDF算法在作品抄袭判定中的应用--以《梦里花落知多少》和《圈里圈外》为例.pdf

瓣言学 黧黼 黧 《 改进 的TF—ID 法在作 品抄袭判定 中的应用 以《梦里花落知多少》和 《圈里圈外》为例 吉志薇 (南京师范大学 文学院,江苏 南京 210097) 摘 要 :TF-IDF算法在文本相似性的度量中有着广泛地应用,但也存在着明显的缺陷。本文运用一种综合考虑词频、逆 向文本频率、类间信息熵和类 内信息熵四个方面的改进的TF—IDF算法计算了郭敬明的 《梦里花落知多少》和庄羽的 《圈里圈 外》的相似性 ,从定量的角度判定了前者的确抄袭 了后者。 关键词:TF—IDF算法 文本相似度 梦里花落知多少 圈里圈外 0.引言 对权重的计算有多种不同的方法,主要有布尔函数 、频 目前在 国内外 ,文学作品、学术著作 的抄袭行为广泛 度函数 、开根号函数、对数函数 、熵函数及TF-IDF函数等。特 存在,这种现象不仅侵犯了原作者的著作权,也助长了不 征项的权重取值 ,在很大程度上会影响文本分类算法的整 良的学术风气 。因此 ,加强对作品抄袭 的判定研究有着巨 体性能。其中,TF—IDF因其算法相对简单,并有较高的准确 大的价值 。作品抄袭的判定研究是建立在对数字文本的分 率和召回率 ,一直受到相关研究人员和众多领域的青睐。④ 析处理基础上的。数字文本可分为 自然语言文本 (比如小 1.TF—IDF及其改进算法 说 、论文等)和形式语言文本 (例如数据文件 、计算机程序 1.1TF-IDF算法 代码等)。形式语言文本具有严格的形式化语法 、清晰的语 TF—IDF最早 由G.salton在 1973年提 出⑤。TF(termfre. 义表达 、容易分析处理 ,所 以形式化 的语言文本 的抄袭判 queney)是指关键词词频 ,即一篇文章中关键词出现的频 定研究已经取得了丰硕的成果 。而 自然语言文本 ,由于没 率 ;IDF(inversedocumentfrequency)是指逆向文本频率 ,即 有形式化语法约束 、语义具有歧义性 的缺陷,较难进行抄 关键词在不同文档中的分布情况 。它的基本思路是 :一个 袭判 定。直到 1991年用于查询重复基金 申请 书 的软件 词在一个文本中出现的频率越高 。说 明它区分该文本的能 WordCheck出现及应用 .自然语言文本 的抄袭判定研究才 力越强 (TF);一个词在不同文本中出现 的范围越广 ,说 明 有了较大的进展。④ 它区分文本的能力越低 (IDF)。经过sahon的多次论证,信息 判定作品抄袭的研究思路是 :将作品看作一系列标记 检索领域广泛地使用TF—IDF算法计算权重 ,其经典计算公 (token)的集合 ,这些标记可以是字符 、词 、句 、段落和章节 式为: 等。运用某种算法从作品A和B中得到各 自的标记集合a和b, 通过 比较a和b的关系来确定作品A和B的相似度。目前常用 = 吒×id:《tf=j 的判定作品抄袭的技术有数字指纹、词频统计、图像匹配以 w;;表示特征项ti在文本Dj中的权重,t£;表示特征项ti在文 及诸 如MDR~、RKR—GST (Running—Karp—Rabin—Greedy— 本D中出现的频度,ni表示训练集 中出现特征项ti的文档数 , String—Tiling)~@字符串匹配等方法。综合考虑精度和速度 等因素,效果较好的是数字指纹和

文档评论(0)

月光般思恋 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档