基于KNN的NIPS论文集文档相似度分析.docx

下载文档

0
0
约4.49千字
约 10页
2024-09-07 发布于湖北
举报
版权申诉
保障服务

基于KNN的NIPS论文集文档相似度分析.docx

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于KNN的NIPS论文集文档相似度分析

尧涛

摘要：以2015年NIPS会议（世界上顶级的机器学习会议之一）上收录的论文集为研究对象，通过一系列的相关数据处理方法将其整理成实验数据（提供下载），基于Abstract和Fulltext模型下建立TF-IDF矩阵，通过KNN算法来计算和对比二者的文档相似度。实验结果发现，Abstract模型下建立TF-IDF矩阵的时间要远优于Fulltext模型；二者模型下的共同相似文档个数随着Knearestneighborhood（KNN）算法K的增大而增大。与以往单方面在Fulltext模型下进行文档相似度计算而言，Abstract模型在为我们进一步研究文档相似度提供了更好的依据。

关键词：相似论文AbstractFulltextTF-IDFKNN

：TP311：A：1672-3791（2017）03（a）-0217-03

现如今随着越来越多的学术会议的召开，学术成果数量的日益增长，如何快速查找相关论文变得非常重要。对于一篇给定的论文来查找当前论文集的其他相似论文，文档相似度的有效计算是进行信息处理[1]的关键。文档相似度[2]是表示两个或者多个文档直接匹配程度的一个度量参数，相似度越大说明两者文档相似程度高，反之则文档相似程度低。大多数情况下研究者对TF-IDF建立文档矩阵只会考虑Fulltext，而忽略Abstract。基于这一点，本文通过尝试性的实验研究來对论文相似度进行比较分析。主要是以2015年NIPS（NeuralInformationProcessingSystems）收录的论文为研究对象，基于Abstract和Fulltext的模型下先建立TF-IDF矩阵，再利用KNN[3]算法进行相似度的分析，这为进一步研究文档相似度提供新方法。

1相关知识

1.1自定义文档分块

文档分块[4]是通过识别文档的组织结构，并根据结构将文档划分为多个块。比如一般的论文，被划分为标题（Title）、摘要（Abstract）、正文（body）、参考文献（References）等部分，从而构建出一个文档块向量空间模型[5]，并根据各文档块的文本内容建立与之对应的特征项向量。下面给出文档块定义。

定义1：文档块，指文档经过分块处理后得到的第j个具有特殊作用的文档部分，记作。正如前面提到的标题、摘要、正文、参考文献等文档部分都可以作为文档块，从而可以将文档di用公式表示：

（1）

式中n表示文档di经过划分后得到的文档块数量。

在文档块向量空间模型中，一个文本被分割为无数个文本块，每个文本块代表该文本中一个独特的部分，可能只包含一个句子（如标题），可能包含一个自然段的文本（如摘要），也可能是很多个自然段的组合（如正文）。

1.2KNN：k-最近邻

KNN是一种分类方法，又叫k近邻算法。其主要思想：给定一个训练集D和一个测试对象z，该测试对象是一个由属性值和一个未知的类别标签组成的向量，该算法需要计算z和每个训练对象之间的距离（或相似度），这样就可以确定最近邻的列表。然后，将最近中实例数量占优的类别赋给z，当然也不是只能采取这一种策略，例如，甚至可以从训练集中随机选择一个类或选择最大类。

基本的KNN算法如下：

（1）Input：D，是训练集；z，测试对象，它是属性值构成的向量；L，对象的类别标签集合。

（2）Output：cz属于L，即z的类别。

（3）foreachy属于Ddo。

（4）计算d（y，z），即y和z的距离；或者sim（y，z），即y和z的相似度。

（5）end。

（6）从数据集D中选出子集N，N包含k个距z最近的训练对象。

（7）。

（8）I（.）是一个指标函数，当其值为true时返回值为1，否则返回0。

2实验开展

2.1实验数据

该文整理了2015年在NIPS会议上收录的403篇论文，将其构造成2015-nips-data.zip供研究者下载（下载地址：https：///Yiutto/2015-nips-data.zip/）。2015-nips-data.zip主要包括Papers.csv、Author.csv、PaperAuthors.csv。

（1）Papers.csv：该文件包含2015年共收录得403篇NIPSpapers，包括以下字段：

*Id-论文的唯一标识符

*Title-论文的标题

*EventType-是否为poster、oral、或者spotlightpresentation

*PdfName-pdf文档的名

*Abstract-论文的摘要

*Fulltext-pdf格式文档转换为text文档

（2）Authors.csv：该文件包含这一年在NIPS会议上的作者标识符和作者名（

您可能关注的文档

文档评论（0）

186****3950 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

基于KNN的NIPS论文集文档相似度分析.docx