Web链接结构挖掘中HITS算支的分析与改进-计算机应用技术专业论文.docxVIP

下载本文档

4
0
约6.15万字
约 61页
2018-09-06 发布于上海
举报
版权申诉

Web链接结构挖掘中HITS算支的分析与改进-计算机应用技术专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Web链接结构挖掘中HITS算支的分析与改进-计算机应用技术专业论文

II II 摘要近年来,随着 Internet/Web 技术的快速普及和迅猛发展,它为人们提供了丰富的信息资源的同时,其所具有的海量数据、复杂性、极强的动态性和用户的多态性等特点也给 Web 资源的发掘造成了相当的难度。因此,将数据挖掘技术和 Web 结合起来,进行 Web 数据挖掘也就随之成为解决 Web 挖掘问题的重要途径。在传统的信息检索技术己经成熟的现状下,从 Web 数据本身的特点出发,充分地挖掘 Web 上庞大的超链接资源,通过超链接进行搜索,建立有效的 Web 信息检索模型,从而找到我们需要的信息。但传统的基于超链接的网页搜索排序算法是纯粹地基于链接分析(即 Web 结构挖掘)来发现权威网页,没有考虑网页的具体内容,存在所谓的“主题漂移”问题,即算法的结果往往包含这样一些网页,它们相互链接密度较高,但在内容上却偏离了查询主题。本文通过对经典的 Web 结构挖掘算法 HITS 算法的研究学习,针对 HITS 算法中只考虑 Web 页面之间的超链接分析而忽略了 Web 页面的内容,从而导致分析结果出现“主题偏移”和主题之间的多重加强关系等不足,提出了一种结合超链接分析和内容相关性分析的关于 HITS 算法的改进算法——G-HITS 算法,该算法通过对不同 Web 页面进行内容分析并赋予链接之间不同的权重来实现对 HITS 算法的改进,一定程度上改善了 HITS 算法的不足,更好的实现了权威网页的查找。最后通过实验证明 G-HITS 算法的有效性。关键字：Web；结构挖掘；超链接；HITS；G-HITS III III Abstract Recently, along with the quick popularization and development of the Internet and Web technology, it supplies people with abundant information. Internet constructed based on huge volume of data and its complexity, extreme dynamic and all kinds of clients have made the internet source development difficult.Therefore,locating valuable information in the Web has become the important issue in the area of Web Data mining.The traditional method of information browser has been mature and under the circumstance, we mine huge linkage resource on the Web according to the attribute of it.Then we search and build the Web indormation retrieval model to find information we need. The current method of locating the ring web page is based on the hyperlink ranking algorithm.However,such method may cause the topic drift problem,which is the results of algorithm is often irrelevant with the searching topic,but has high link density. By studying the classical Web structure mining algorithm HITS and considering that the HITS only calculates the hyperlink among the web and ignores the content of web result in the drawback of topic drift, we propose an improved HITS algorithm —G-HITS that combines hyperlink analysis and content analysis.The new algorithm improves the HITS by analyzing the content of