个性化信息检索系统中文本聚类研究.pdfVIP

  • 5
  • 0
  • 约3.61万字
  • 约 29页
  • 2017-08-27 发布于安徽
  • 举报

个性化信息检索系统中文本聚类研究.pdf

优秀硕士毕业论文,完美PDF格式,可在线免费浏览全文和下载,支持复制编辑,可为大学生本专业本院系本科专科大专和研究生学士硕士相关类学生提供毕业论文范文范例指导,也可为要代写发表职称论文提供参考!!!

学位论文使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规定,即: 东北师范大学有权保留并向国家有关部门或机构送交学位论文的复印件和电子版, 允许论文被查阅和借阅。本人授权东北师范大学可以将学位论文的全部或部分内容 编入有关数据库进行检索,可以采用影印、缩印或其它复制手段保存、汇编本学位 论文。 学位论文作者毕业后去向: 工作单位: 电话:—— 通讯地址: 邮编:—— 摘 要 展和普及,“检索已经成为人们生活中的一部分。互联网已 一起,如何从浩瀚的信息海洋中找到自己想要的东西呢,答案 统中,对于学术研究最有用的当属文献检索了,但是当前的文 能进行关键字匹配的检索,抓不住用户的兴趣,如果检索系统 趣,就可以使用户在一次又一次的检索中会发现自己想要的文 序的最前面,肯定大大方便了用户,使其对所使用的检索系统 大家赞赏并决定长期使用,这无论对用户还是检索平台都是大有益处的。 本着以上的思想,本小组开始制作这样一个检索系统,它能通过用户的检索 行为来获取用户的兴趣,并将兴趣相似的用户组成用户组,以方便用户的交流, 共享资源。本文讨论的是我们小组所做的检索系统中的基础部分,包括文本预处 理,对文本向量进行聚类构建系统底层部分。本人的工作具体是完成了文本处理 程序可以对文献进行预处理,它可以将分词后的文本转化为向量;可以对题目, 关键词,摘要加权,并调整其权重;可以按词性提取特征;完成对其停用词表的 控制;程序可以生成文档频数,tfidf的特征向量,支持向量机的特征向量等多 种特征向量。并且在随后聚类试验中,改进APⅢ(Affinity propagation clustering)聚类,使其获得更好的聚类结果。 AP聚类有一个优点,就是如果使用者不知道数据的类数,不用指定类数也 可以很好的进行分类,但是有时侯我们知道类数,那么我们怎么能提高分类的效 果昵?本篇论文提出了一种改进的AP聚类算法来处理这种情况。当你知道数据 类数的时候,可以指定AP最终聚成的类数。实验也表明了,它不低于原AP聚类 算法的效果 关键词:信息检索;特征提取;文本聚类;改进的AP聚类算法 Abstract Withthe anddisseminationofthe becomea developing internet,‘Retrieval’’has howcail fmdwhat of live.Interactallovertheworld we partdaily joins together,but weneed?111eanswerisretrieval. forresearchersin retrieval LiteratureretrievaliSmostusefulness many systems. retrieval on of Butnowmostretrieval Can have techniquematching systemsonly itCan’t theinterestsoftheusers.Ifthe Can

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档