基于KNN的NIPS论文集文档相似度分析.docx

基于KNN的NIPS论文集文档相似度分析.docx

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

基于KNN的NIPS论文集文档相似度分析

?

?

尧涛

摘要:以2015年NIPS会议(世界上顶级的机器学习会议之一)上收录的论文集为研究对象,通过一系列的相关数据处理方法将其整理成实验数据(提供下载),基于Abstract和Fulltext模型下建立TF-IDF矩阵,通过KNN算法来计算和对比二者的文档相似度。实验结果发现,Abstract模型下建立TF-IDF矩阵的时间要远优于Fulltext模型;二者模型下的共同相似文档个数随着Knearestneighborhood(KNN)算法K的增大而增大。与以往单方面在Fulltext模型下进行文档相似度计算而言,Abstract模型在为我们进一步研究文档相似度提供了更好的依据。

关键词:相似论文AbstractFulltextTF-IDFKNN

:TP311:A:1672-3791(2017)03(a)-0217-03

现如今随着越来越多的学术会议的召开,学术成果数量的日益增长,如何快速查找相关论文变得非常重要。对于一篇给定的论文来查找当前论文集的其他相似论文,文档相似度的有效计算是进行信息处理[1]的关键。文档相似度[2]是表示两个或者多个文档直接匹配程度的一个度量参数,相似度越大说明两者文档相似程度高,反之则文档相似程度低。大多数情况下研究者对TF-IDF建立文档矩阵只会考虑Fulltext,而忽略Abstract。基于这一点,本文通过尝试性的实验研究來对论文相似度进行比较分析。主要是以2015年NIPS(NeuralInformationProcessingSystems)收录的论文为研究对象,基于Abstract和Fulltext的模型下先建立TF-IDF矩阵,再利用KNN[3]算法进行相似度的分析,这为进一步研究文档相似度提供新方法。

1相关知识

1.1自定义文档分块

文档分块[4]是通过识别文档的组织结构,并根据结构将文档划分为多个块。比如一般的论文,被划分为标题(Title)、摘要(Abstract)、正文(body)、参考文献(References)等部分,从而构建出一个文档块向量空间模型[5],并根据各文档块的文本内容建立与之对应的特征项向量。下面给出文档块定义。

定义1:文档块,指文档经过分块处理后得到的第j个具有特殊作用的文档部分,记作。正如前面提到的标题、摘要、正文、参考文献等文档部分都可以作为文档块,从而可以将文档di用公式表示:

(1)

式中n表示文档di经过划分后得到的文档块数量。

在文档块向量空间模型中,一个文本被分割为无数个文本块,每个文本块代表该文本中一个独特的部分,可能只包含一个句子(如标题),可能包含一个自然段的文本(如摘要),也可能是很多个自然段的组合(如正文)。

1.2KNN:k-最近邻

KNN是一种分类方法,又叫k近邻算法。其主要思想:给定一个训练集D和一个测试对象z,该测试对象是一个由属性值和一个未知的类别标签组成的向量,该算法需要计算z和每个训练对象之间的距离(或相似度),这样就可以确定最近邻的列表。然后,将最近中实例数量占优的类别赋给z,当然也不是只能采取这一种策略,例如,甚至可以从训练集中随机选择一个类或选择最大类。

基本的KNN算法如下:

(1)Input:D,是训练集;z,测试对象,它是属性值构成的向量;L,对象的类别标签集合。

(2)Output:cz属于L,即z的类别。

(3)foreachy属于Ddo。

(4)计算d(y,z),即y和z的距离;或者sim(y,z),即y和z的相似度。

(5)end。

(6)从数据集D中选出子集N,N包含k个距z最近的训练对象。

(7)。

(8)I(.)是一个指标函数,当其值为true时返回值为1,否则返回0。

2实验开展

2.1实验数据

该文整理了2015年在NIPS会议上收录的403篇论文,将其构造成2015-nips-data.zip供研究者下载(下载地址:https:///Yiutto/2015-nips-data.zip/)。2015-nips-data.zip主要包括Papers.csv、Author.csv、PaperAuthors.csv。

(1)Papers.csv:该文件包含2015年共收录得403篇NIPSpapers,包括以下字段:

*Id-论文的唯一标识符

*Title-论文的标题

*EventType-是否为poster、oral、或者spotlightpresentation

*PdfName-pdf文档的名

*Abstract-论文的摘要

*Fulltext-pdf格式文档转换为text文档

(2)Authors.csv:该文件包含这一年在NIPS会议上的作者标识符和作者名(

文档评论(0)

186****3950 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档