多策略的web信息采集系统的研究计算机应用专业论文.docxVIP

多策略的web信息采集系统的研究计算机应用专业论文.docx

  1. 1、本文档共114页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多策略的web信息采集系统的研究计算机应用专业论文

中圆科学拄术人学}雌lj学位沦文摘要 中圆科学拄术人学}雌lj学位沦文 摘要 随着互联网的发展,大量动态、广泛分布的Web信息造成了所谓的“信 息过载”现象。为了实现对Web信息的有效获取与利用,许多基于多智能体 (Multi—Agent)的Web信息系统得到研发,提高了采集动态、分如的Web信息 的能力。但是,目前的Web信息Multi—Agent系统都是基于单 策略的,难以 应对复杂的Web信息采集任务。为此,本文结合国家自然科学基金项目——具 有突现智能的多主体模型及应用和国家科技部项目——互联网竞 争情报智能监测系统的研究,对基于多策略协作的Web信息采集系统进行了研 究和实践。 对于多策略的Web信息采集系统的研究,本文对系统所涉及到的基本技 术:Web信息检索技术、Web信息抽取技术以及多Agent系统中多策略协作的 规划问题进行了研究,并在这些工作的基础上,实现了一个基于多策略协作的 Web信息采集系统: 本文首先对Web信息检索的核心技术之一——网页的排序算法进行了研 究。在HITS算法[Kleinber999]的基础卜.,引入了网页内容与奄询主题的相似 度的影响因素,提出了一种基于超链接和网页内容的嘲页排序算法——sHITs (Similarity—HITS)算法。 其次,本文对表格式Web页面的信息抽取进行了研究。针对已有的基于 路径学习的信息抽取方法[于琨03,蔡智02]具有人工维护代价较大的缺点,提 出了一种多策略联合的信息抽取方法——MScIE(Multi.Strmegy Combination web Informmion Extraction)。MSCIE由于采用了不同的学习策略,通过协作共 同完成信息抽取任务,使得浚方法能够以较小的人]二维护代价、较高的准确率 和召回率对大量Web站点的表格式网页进行信息抽取。 对多Agent系统中策略协作学习的协作规划和协作效益问题,本文也进行 了初步研究,从参与协作的Agent的功能合成的角度出发,提出了一种多策略 协作的规划方法。该方法不需要对复杂任务进行分解,不仅能够对给定任务的 协作求解的可行性进行判定,而且能够直接获得所育的协作求解方案。 多策略的Web 多策略的Web f卉息采集系统的{!Jf究 摘坚 最后,则介绍了本文所实现的一个基于多策略协作的Web信息采集系统 ——互联网竞争情报智能监测系统CIS.net,浚系统采用了多种策略的Web信息 检索技术和信息抽取技术,能够对大量Web站点中的商品供求信息、厂商信息 等企业生产相关的竞争情报信息进行检索和抽取。 本文的创新之处如下: (1).提出了一种基于超链接和网页内容的网页排序算法——SHITS算法: 将HITS算法中的基于0、1值的网页链接矩阵改进为由网页问链接系数构成的 :矩阵来计算网页的authority和hub值,利用超文本链接所指向的目标网页往往 是超文本链接的一个详细描述来弓l入网页与检索主题的相似度值,用于计算网 页问的链接系数,解决了由于只依赖网页间的链接结构来排序网页造成的“主 题偏离”的问题,提高网页排序结果中排在Topl0至Top50的网页的准确率。 (2).提出了一种多策略联合信息抽取方法——MSCIE。MSCIE将对表格 式网页的信息抽取分为基于网页结构特征分析的信息抽取和基于模式匹配的信 息抽取,提出了一种基于无监督学习机制的冗余信息剪枝分析的方法和一种基 于有监督学习机制的特征模式发现算法分别用于这两部分的信息抽取,并通过 两种策略联合完成信息抽取工作。应用于互联网竞争情报智能监测系统中,对 大量的表格式Web页面进行信息抽取,具有高准确率、召回率和低人工维护代 价的优点。 (3).提出了一种多策略协作的规划方法:对学习Agent的能力进行了刻画, 提出了联合Agent的概念,通过对联合Agent的求解,对给定任务协作求解的 可行性进行判定,并直接获得所有的协作求解方案。此外,对多策略协作的效 益的获取也进行了探讨。 (4).设计了一个基于多策略协作的Web信息采集系统,通过系统中多种 策略的Web信息检索和信息抽取技术的协作,完成了许多复杂的Web信息采集 任务,具有较好的性能。 关键词:w曲信息检索,Web信息抽取,多Agent系统,多策略协作,网页排 序 !望!!兰丝查叁兰竺!.竺些堡茎ABSTRACT !望!!兰丝查叁兰竺!.竺些堡茎 ABSTRACT As the development of the World Wide Web,vast dynamic and distributed widely web infor

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档