- 1、本文档共61页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
web链接结构掘中hits算支的分析与改进
摘 要
近年来,随着Internet/Web 技术的快速普及和迅猛发展,它为人们提供了丰富
的信息资源的同时,其所具有的海量数据、复杂性、极强的动态性和用户的多态性
等特点也给Web 资源的发掘造成了相当的难度。因此,将数据挖掘技术和Web 结
合起来,进行Web 数据挖掘也就随之成为解决Web 挖掘问题的重要途径。
在传统的信息检索技术己经成熟的现状下,从 Web 数据本身的特点出发,充
分地挖掘Web 上庞大的超链接资源,通过超链接进行搜索,建立有效的Web 信息
检索模型,从而找到我们需要的信息。但传统的基于超链接的网页搜索排序算法是
纯粹地基于链接分析(即Web 结构挖掘)来发现权威网页,没有考虑网页的具体内
容,存在所谓的“主题漂移”问题,即算法的结果往往包含这样一些网页,它们相互
链接密度较高,但在内容上却偏离了查询主题。
本文通过对经典的Web 结构挖掘算法HITS 算法的研究学习,针对HITS 算法
中只考虑Web 页面之间的超链接分析而忽略了Web 页面的内容,从而导致分析结
果出现“主题偏移”和主题之间的多重加强关系等不足,提出了一种结合超链接分
析和内容相关性分析的关于HITS 算法的改进算法——G-HITS 算法,该算法通过
对不同Web 页面进行内容分析并赋予链接之间不同的权重来实现对HITS 算法的
改进,一定程度上改善了 HITS 算法的不足,更好的实现了权威网页的查找。最后
通过实验证明G-HITS 算法的有效性。
关键字:Web ;结构挖掘;超链接;HITS ;G-HITS
II
Abstract
Recently, along with the quick popularization and development of the Internet and
Web technology, it supplies people with abundant information. Internet constructed
based on huge volume of data and its complexity, extreme dynamic and all kinds of
clients have made the internet source development difficult.Therefore,locating valuable
information in the Web has become the important issue in the area of Web Data
mining.The traditional method of information browser has been mature and under the
circumstance, we mine huge linkage resource on the Web according to the attribute of
it.Then we search and build the Web indormation retrieval model to find information
we need.
The current method of locating the ring web page is based on the hyperlink ranking
algorithm.However,such method may cause the topic drift problem,which is the results
of algorithm is often irrelevant with the searching topic,but has high link density.
By studying the classical Web structure mining algorithm HITS and considering
that the HITS only calculates the hyperlink among
您可能关注的文档
最近下载
- (完整)婚介登记表.doc
- 浙江省宁波市区县社区街道乡镇村名称统计.pdf
- 法雷奥供应商手册supplierqualitymanual2104rev09资料.pdf
- 2023年汕头市潮阳区卫健系统招聘医学类专业技术人员笔试真题.docx VIP
- 2024年义务教育化学课程标准2022年版(多选题)考试专项题库及答案.docx
- 海阳市各级文物保护单位一览表(2024版).docx VIP
- 2025届高考英语模拟卷(新高考Ⅰ卷)两套(word版有答案).docx
- 2025年建设美丽乡村示范村实施方案.pdf VIP
- 论金宇澄小说《繁花》的艺术特色.docx VIP
- 国际金融案例分析题参考答案.docx
文档评论(0)