面向HTML网页资源的网页主题信息提取研究.pdf

面向HTML网页资源的网页主题信息提取研究.pdf

  1. 1、本文档共69页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
优秀硕士毕业论文,完美PDF内部资料。支持编辑复制!

摘 要 随着互联网的发展与普及,Web 资源成为人们获取信息的重要来源,而且 相当多的资源只有通过互联网才能获得(例如内部的学术报告、研究手册等)。 但是随着网络资源的急剧增加,如何充分地利用网络资源变得越来越重要。设 计合适的系统或工具,能够根据用户的需求把 web 中的相关资源及时反馈给用 户,越来越引起产业界的重视。本文的工作是提出一种面向主题 Web 信息服务 的架构及实现方案,设计一个基于主题的主要面向 HTML 网页资源的Web 信息 服务系统。 本文的研究目标是在中国人民大学经济学学科知识检索系统的基础上设计 一个基于主题的主要面向 HTML 网页资源的Web 信息服务系统,用户可以根据 自己的研究需要,定制相应的主题服务,系统则按定制的主题将web 资源尤其 是 Html 网页资源推荐给用户。该系统在实质上是一个用户驱动的个性化集成定 制系统,提供以网络资源为主的资源集合的个性化定制功能,其目的是根据用 户的具体需求特征,通过用户注册、定制、系统检索和推荐功能,为用户提供 个性化的信息服务,减少由于信息过载对用户造成的困扰。 该系统涉及到的主要的研究内容包括以下几个方面: 1. 主题描述:对主题给出具体而精确的定义,研究主题描述的方式,选择 一种合适的方式描述主题,既可以方便用户的使用,不增加用户的负担,又可 以对不同主题有较好的区分度并便于扩展,同时又便于主题爬虫进行抓取的工 作。 2. 用户需求描述:对用户的需求进行个性化的扩展和规范,将用户的模糊 的、直觉上的信息需求通过我们的系统加以扩充和修正,得到一个较为清晰和 规范的用户需求模型。 3. 主题爬虫:针对用户的不同需求和不同资源类型研究主题爬虫的实现方 式,既需要有较高的查准率,又要有较高的查全率,并保证主题不发生偏移。 4. 网页分析:分析抓取到的网页资源的结构,在此基础上通过某种高效的 算法确定网页中的主要信息块。 5. 信息抽取:给出主题信息的详细而精确的定义。研究文本信息抽取技术, 特别针对包含信息量大、格式相对规范的网页资源,提出一种有效的主题信息 抽取算法。 6. 资源展示:一方面设计一个集成的、易扩展的网络资源抓取系统的模型; 另一方面针对经济学学科知识检索系统,选择一种对用户友好的推荐资源展示 界面。 本文研究的重点是网络资源的获取技术和网页主题信息的提取技术,主要 做了以下两方面的工作: 一是构建了一种集成式的、服务式的、易扩展的网络资源抓取系统模型, 提供了对类型繁多的网络资源进行抓取的统一接口。这种模型是一对多的,当 产生了一种新的资源类型的获取需求时,我们通过注册或安装插件的方式,就 可以生成面向这种新资源的一个抓取系统。这些新生成的抓取系统之间是松耦 合的,通过注册器中参数的设定和控制来进行彼此之间的通信和资源共享。 二是提出了一种对HTML网页资源进行抓取和分析、进而提取主题信息的方 法。具体又可分为网页分块算法和确定主块算法。一方面改进了以<TABLE>标 签作为分块标识的网页分块算法,既扩充了分块算法的适用范围,又消除了由 于 HTML 标签嵌套而引起的信息遗失的问题。另一方面提出了一种基于分块基 础上的网页主块识别技术,给出了主要针对主题型网页和目录型网页的确定网 页主块算法。实验证明,这种主块确定算法具有较高的精确度和实用性。 关键词:主题爬虫,网络资源抓取,网页分块,主块,主题信息提取 Abstract With the development and popularity of Internet, Web has been becoming one of the most important way to obtain information, and lots of information can only be obtained from Web. However, with the rapid growth of the World Wide Web, it becomes extremely challenging to fully utilize Web resources. To design appropri

文档评论(0)

文献大师 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档