- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web挖掘与搜索智能研究-电子与通信工程专业论文
万方数据
万方数据
Dissertation Submitted to Hangzhou Dianzi University for the Degree of Master
Intelligent Research on Web Mining and
Search
Candidate: Jiang Zhao Long
Supervisor: Prof. Zhao Zemao
May,2015
杭州电子科技大学
学位论文原创性声明和使用授权说明
原创性声明
本人郑重声明: 所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除 文中已经注明引用的内容外,本论文不含任何其他个人或集体已经发表或撰写过的作品或成果。对本文的 研究做出重要贡献的个人和集体,均已在文中以明确方式标明。
申请学位论文与资料若有不实之处,本人承担一切相关责任。
论文作者签名: 日期: 年 月 日
学位论文使用授权说明
本人完全了解杭州电子科技大学关于保留和使用学位论文的规定,即:研究生在校攻读学位期间论 文工作的知识产权单位属杭州电子科技大学。本人保证毕业离校后,发表论文或使用论文工作成果时署名 单位仍然为杭州电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论 文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。(保密论文在解密后遵守此规 定)
论文作者签名: 日期: 年 月 日
指导教师签名: 日期: 年 月 日
杭州电子科技大学硕士学位论文
杭州电子科技大学硕士学位论文
摘 要
近几年来,随着互联网技术的快速发展,Web 数据正以惊人的速度增长,人类已经进入 了一个信息爆炸的数据时代。面对日益增长的 Web 数据,如何高效快速地从海量的数据中获 取有价值的信息和模式,正成为互联网发展的迫切需要。由于 Web 数据具有异构性、半结构 化、实时性以及海量等特性,传统的数据挖掘技术很难适用于 Web 数据。缺乏有效的 Web 挖掘与搜索方法,导致人们虽淹没在数据的海洋中却依旧信息匮乏。因此,为了能够快速、 方便、准确地从大数据海洋中搜索并挖掘到人们所需要的信息,从文本内容、链接结构及用 户浏览角度,将 Web 数据的特性与传统数据挖掘的技术相结合,对 Web 挖掘与搜索领域中的 搜索结构排序、用户点击、文本分类和聚类等方面进行了研究,所获得的结论及相关的研究 工作如下:
(1)阐述了 Web 挖掘与搜索所涉及到的一些基础理论知识,对 Web 挖掘与搜索所涉及 到的一些算法进行了简单的介绍。
(2)将朴素贝叶斯分类器应用于用户点击分析,得到用户在执行各种查询时对各个 URL 的偏爱概率,改进了纯粹的基于索引的搜索。结合索引、PageRank 算法和用户点击技术,利 用互联网的结构和用户点击特性来改进搜索结果。通过实验表明,新的方案能够根据用户点 击的模式,分析用户与搜索引擎的交互行为发现用户的兴趣和主观目的,找到用户每次查询 时最符合其需求的链接,为不同的搜索用户提供不同的搜索结果,从而实现搜索结果的个性 化。
(3)提出了一种新的 DocumentRank 算法,用于处理类似 Word 或 PDF 这样无链接结构 的文档排序。DocumentRank 算法利用 Lucene 技术得到文本的分词结果以及每个词汇出现的 频率,根据词汇在文档之间出现的频率比值来构建衡量文档重要性的矩阵。在实验中,采集 上百篇 Word 文档进行测试,文档搜索的实验结果表明,相比索引技术,DocumentRank 算法 在查询精确度上有了较大的提高,提升了搜索引擎的可信度,而且该算法只需要计算一次, 得到的结果就能反复使用。
(4)基于贝叶斯概率分类器的思想,对 ROCK 聚类算法作了改进。通过对 ROCK 算法 的分析,发现 ROCK 算法虽然用链接的概念替代了直接的距离比较,非常适用于处理类别型 数据。但是由于 ROCK 算法依赖于相似度阙值,只考虑数据点是否相似,忽略了对相似程度 的考虑。因此,在有些情况下会出现大量单例(只有一个元素的聚簇)的问题。改进的算法 通过设定一个链接概率,并不是相似性度量来衡量两个数据点是否相似。最后,对新闻数据 集的实验结果表明,改进的算法聚类质量要优于 ROCK 算法。
关键词:数据挖掘,Web 挖掘,DocumnetRank 算法,ROCK 算法,聚类
I
ABSTRACT
In recent years, with the rapid development of Internet technology, Web data is growing at an alarming rate, human beings have entered a data era of informa
您可能关注的文档
- UNIX服务器无代理监控与报警系统的设计与实现-软件工程专业论文.docx
- UOE焊管坡口形状与引弧板开口角研究-材料加工工程专业论文.docx
- UNIAN公司实施信息化的研究-工商管理专业论文.docx
- Union-2000治疗系统治疗原发性骨质疏松近期疗效观察-内科学(内分泌与代谢)专业论文.docx
- uPA合成抑制剂Amiloride对人宫颈癌细胞体外侵袭迁移及凋亡影响-妇产科学(妇科肿瘤学)专业论文.docx
- uPA和VEGF165单基因真核质粒共转染人脐静脉内皮细胞对细胞增殖的影响-外科学(血管外科)专业论文.docx
- uPA合成抑制剂Amiloride对人宫颈癌细胞体外侵袭迁移及凋亡的影响-妇产科学(妇科肿瘤学)专业论文.docx
- UPLC法测定食品中多种色素、抗氧化剂、防腐剂和甜味剂-食品工程专业论文.docx
- UNIX平台下软件开发安全配置管理的系统实现-软件工程专业论文.docx
- UPR100弧焊机器人焊缝跟踪控制策略-机械电子工程专业论文.docx
- WEB快速开发框架的设计与实现-软件工程专业论文.docx
- WEB快速开发框架设计与实现-软件工程专业论文.docx
- Web技术在智能温室控制系统中应用-电路与系统专业论文.docx
- Web挖掘技术在远程教学系统中的应用-软件工程专业论文.docx
- Web敏感信息监测优化方法分析-计算机应用技术专业论文.docx
- Web数据库技术的应用研究-计算机软件与理论专业论文.docx
- Web数据库大小估算方法的研究与应用-计算机应用技术专业论文.docx
- Web数据抽取技术的研究-计算机应用技术专业论文.docx
- Web敏感信息监测优化方法研究-计算机应用技术专业论文.docx
- WEB数据挖掘及其在社交网络的应用研究-计算机软件与理论专业论文.docx
文档评论(0)