Web挖掘与搜索智能研究-电子与通信工程专业论文.docxVIP

Web挖掘与搜索智能研究-电子与通信工程专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web挖掘与搜索智能研究-电子与通信工程专业论文

万方数据 万方数据 Dissertation Submitted to Hangzhou Dianzi University for the Degree of Master Intelligent Research on Web Mining and Search Candidate: Jiang Zhao Long Supervisor: Prof. Zhao Zemao May,2015 杭州电子科技大学 学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明: 所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除 文中已经注明引用的内容外,本论文不含任何其他个人或集体已经发表或撰写过的作品或成果。对本文的 研究做出重要贡献的个人和集体,均已在文中以明确方式标明。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 论文作者签名: 日期: 年 月 日 学位论文使用授权说明 本人完全了解杭州电子科技大学关于保留和使用学位论文的规定,即:研究生在校攻读学位期间论 文工作的知识产权单位属杭州电子科技大学。本人保证毕业离校后,发表论文或使用论文工作成果时署名 单位仍然为杭州电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论 文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。(保密论文在解密后遵守此规 定) 论文作者签名: 日期: 年 月 日 指导教师签名: 日期: 年 月 日 杭州电子科技大学硕士学位论文 杭州电子科技大学硕士学位论文 摘 要 近几年来,随着互联网技术的快速发展,Web 数据正以惊人的速度增长,人类已经进入 了一个信息爆炸的数据时代。面对日益增长的 Web 数据,如何高效快速地从海量的数据中获 取有价值的信息和模式,正成为互联网发展的迫切需要。由于 Web 数据具有异构性、半结构 化、实时性以及海量等特性,传统的数据挖掘技术很难适用于 Web 数据。缺乏有效的 Web 挖掘与搜索方法,导致人们虽淹没在数据的海洋中却依旧信息匮乏。因此,为了能够快速、 方便、准确地从大数据海洋中搜索并挖掘到人们所需要的信息,从文本内容、链接结构及用 户浏览角度,将 Web 数据的特性与传统数据挖掘的技术相结合,对 Web 挖掘与搜索领域中的 搜索结构排序、用户点击、文本分类和聚类等方面进行了研究,所获得的结论及相关的研究 工作如下: (1)阐述了 Web 挖掘与搜索所涉及到的一些基础理论知识,对 Web 挖掘与搜索所涉及 到的一些算法进行了简单的介绍。 (2)将朴素贝叶斯分类器应用于用户点击分析,得到用户在执行各种查询时对各个 URL 的偏爱概率,改进了纯粹的基于索引的搜索。结合索引、PageRank 算法和用户点击技术,利 用互联网的结构和用户点击特性来改进搜索结果。通过实验表明,新的方案能够根据用户点 击的模式,分析用户与搜索引擎的交互行为发现用户的兴趣和主观目的,找到用户每次查询 时最符合其需求的链接,为不同的搜索用户提供不同的搜索结果,从而实现搜索结果的个性 化。 (3)提出了一种新的 DocumentRank 算法,用于处理类似 Word 或 PDF 这样无链接结构 的文档排序。DocumentRank 算法利用 Lucene 技术得到文本的分词结果以及每个词汇出现的 频率,根据词汇在文档之间出现的频率比值来构建衡量文档重要性的矩阵。在实验中,采集 上百篇 Word 文档进行测试,文档搜索的实验结果表明,相比索引技术,DocumentRank 算法 在查询精确度上有了较大的提高,提升了搜索引擎的可信度,而且该算法只需要计算一次, 得到的结果就能反复使用。 (4)基于贝叶斯概率分类器的思想,对 ROCK 聚类算法作了改进。通过对 ROCK 算法 的分析,发现 ROCK 算法虽然用链接的概念替代了直接的距离比较,非常适用于处理类别型 数据。但是由于 ROCK 算法依赖于相似度阙值,只考虑数据点是否相似,忽略了对相似程度 的考虑。因此,在有些情况下会出现大量单例(只有一个元素的聚簇)的问题。改进的算法 通过设定一个链接概率,并不是相似性度量来衡量两个数据点是否相似。最后,对新闻数据 集的实验结果表明,改进的算法聚类质量要优于 ROCK 算法。 关键词:数据挖掘,Web 挖掘,DocumnetRank 算法,ROCK 算法,聚类 I ABSTRACT In recent years, with the rapid development of Internet technology, Web data is growing at an alarming rate, human beings have entered a data era of informa

您可能关注的文档

文档评论(0)

peili2018 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档