面向网页结构特征的Hopfield算法_李光敏.pdf

面向网页结构特征的Hopfield算法_李光敏.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
面向网页结构特征的Hopfield算法_李光敏

2011 年 第 20 卷 第 7 期 计 算 机 系 统 应 用 面向网页结构特征的Hopfield 算法① 李光敏,陈年生,许新山 (湖北师范学院 计算机科学与技术学院,黄石 435000) 摘 要:针对目前互联网信息资源广泛、网页结构复杂、噪音信息较多的现状,主题爬虫获取有效信息过程中 精确度低、耗费时间长等问题。结合经典的 Hopfield 算法,提出了针对网页结构特征进行分块的主题爬行改进 算法,实验证明该改进算法在一定程度上能有效地解决目前信息获取过程中所面临的问题。 关键词:垂直搜索;网页分块;主题爬行;相关度计算 Hopfield Algorithm Orienting for Web Page Structure-Feature LI Guang-Min, CHEN Nian-Sheng, XU Xin-Shan (College of Computer Science and Technology, Hubei Normal University, Huangshi 435000, China) Abstract: As the Web continues to grow, it has become increasingly obvious that information overload and is terribly noisy. In this paper, to address such issues as low precision, much time-consumption, we present an improved Hopfield algorithm orienting web page structure feature. The experimental results show that the proposed approach is practical. Key words: vertical search; page segmentation; topic crawling; relevance computation 1 引言 等人在此基础上提出的 Shark-Search 算法。后者主要 Internet 的出现使得互联网的信息容量按指数规 包括有 Chakrabarti[4]等人提出的分层主题分类的方式 律飞速增长,对于学术研究方面的信息增长同样也不 来选择待爬行的链接、Aggarwal[5]等人建立的统计分 例外。目前通用搜索引擎很难满足学术研究人员对特 析主题特征的学习模型来供爬行。这两种爬行策略在 定领域范围内高质量、个性化、即时化信息检索的需 Web 信息获取的召回率和精确度上都有很好的效果, 求,但垂直搜索引擎能很好的解决这一窘境,它对抓 但也存在一些不足之处,即它们都是对整个网页内容 取的信息进行分析、挖掘、筛选,精准的定位,从而 和链接综合评价,这样导致有大量不相关的内容和链 确保了学术研究人员能够迅速准确地了解最新学术研 接会被优先分析爬行[6] 。同时Michael Chau 在文献[7] 究动态、分享交流研究经验。为了保证垂直搜索引擎 中对比分析的 Hopfield 爬行算法要明显优于传统的网 信息资源的充足有效,而主题爬虫的高效爬取方式则 络爬虫算法。因此本文提出的专门针对在线期刊论文 担当其重要角色。 的网页结构特征且结合应用 Hopfield 算法的爬行策略 避免了对整个网页进行评价的粒度过粗问题,又在保 2 相关工作 证信息的召回率和精确度的同时,提高爬行效率。 早期主题爬虫的爬行策略主要分基于网页链接分 针对网页结构特征进行分块的算法,许多学者[8,9] 析和基于网页内容分析,前者经典的算法有

文档评论(0)

yan698698 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档