社区发现技术中的HITS算法研究及改进.pdfVIP

  • 41
  • 0
  • 约7.14万字
  • 约 59页
  • 2017-09-16 发布于安徽
  • 举报

社区发现技术中的HITS算法研究及改进.pdf

优秀硕士毕业论文,完美PDF内部资料。支持编辑复制!!!

摘 要 Web (World Wide Web )是一个由复杂超文本所组成的巨大信息源,而且它 以很快的速度在不断的扩大。针对这样一个不断变化的信息源,如何利用和发 现Web 中有用的信息变得具有挑战性。搜索引擎是目前最主要的Web 检索工具, 然而搜索引擎返回的文档质量参差不齐,难以满足用户对高质量检索结果的需 求。 将传统的数据挖掘技术和 Web 结合起来,进行 Web 挖掘成为解决这一问题 的重要途径。结构挖掘是Web 挖掘的一个重要方面,研究表明 Web 上的链接结 构含有非常丰富和重要的信息,链接分析技术已经被成功的用于分析 Web 超链 接数据来确定权威信息源。在各种对网页进行链接分析并提取主题的算法中, HITS (Hyperlink-Induced Topic Search )算法是最典型的。通过对HITS 算法的 深入研究,发现该算法存在一些缺陷。Web 链接结构的自组织性往往导致迭代 结果收敛于链接结构图中与查询主题不太相关的紧密连接区域(TKC ),从而发 生主题偏移。针对以上不足,本文提出了基于 WordNet 语义相关度的 HITS 算 法——S-HITS ,并开发了系统,对该算法进行验证。实验结果表明改进后的算 法较原算法更准确,更有效。 本文的主要贡献概括如下: ① 改进 Lesk 校正算法(Extended Gloss Overlap Measure ),使该算法对两 个词的语义相关度有更合理评分。 ② 通过对网页内容分析给网页赋予了主题相关度权重,并提出了链接与主 题相关度的计算方法; ③ 对 HITS 算法进行了改进,提出了基于 WordNet 语义相关度的 HITS 算 法——S-HITS ,使主题相关度较高的网页得到较高的排序分值,解决了 HITS 算法容易主题漂移的问题。 关键词:超链接;Web 社区;HITS ;WordNet ;语义相关度 1 Abstract Web(World Wide Web) is a huge information resource which is composed of a great deal of complicated hypertext.Furthermore,it has been expanding with very high speed.Hence,it is a challenging task that finding and making use of the information from Web.Search engine is the most commonly used tool for Web information retrieval.But the quality of documents returned by the search engine is not too good to satisfy the users’ requirements for high quality documents. It is a very important method to implement Web data mining by combining traditional data mining technology and Web.Web structure mining is important demension in web data mining.Researchers have discovered that the structure of hyperlinks in Web pages contain rich and import information.And,hyperlink analysis has been successfully

文档评论(0)

1亿VIP精品文档

相关文档