Deep+Web集成查询系统预处理关键技术研析.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文摘要 摘要 随着信息化技术的发展,人们越来越倾向于从网络上获取资源。传统搜索引 擎能够检索到的网络资源称为Sumcew曲,而SumceW曲仅占整个Web资源的 很少一部分。那些隐藏在W曲数据库中,靠提交查询生成动态页面获取的资源称 Web信息含量大,领域相关度强,如何高效的获取这些资源成 为De印W曲。Deep 为当前研究的关键问题。 De印w曲集成查询系统是由同领域的De印W曲入口集成的一个全局查询接 口,通过对这个集成接口提交查询,可以同时检索到不同W曲数据库中的资源。 预处理阶段是系统集成过程中的初始阶段,它主要分三步进行:W曲入口的发现、 查询接口模式抽取、查询接口集成,其最终结果的好坏对后面查询处理和结果处 理有着重要影响。因此上述预处理阶段各个步骤采用哪种技术能够获得更高的效 率是本文研究的出发点。本文的主要研究工作如下: 1 分析了De印W曲查询表单的特征,针对现阶段W曲入口发现技术的优缺 点,提出将多分类器聚焦爬行技术应用到W曲入口发现上,重点给出各分类器的 实现方法,并介绍了种子URL的选取策略;根据查询表单分类过程的启发式规则 提出采用基于决策树的表单分类方法,区分出那些非W曲入口的查询表单。 2 研究W曲入口的模式特征,针对HTML页面的结构性特征提出基于DOM 树和DwI对象模型的模式抽取方法,首先通过网页解析器将接口页面解析成DOM 树结构,然后遍历DOM树找出属性元素及其对应的标签,最后用DWI对象模型 将查询接口的模式信息表示出来。 3 比较现有模式匹配技术的优劣势,针对查询接口属性元素的特点,提出基 于语义的模式匹配方法,该方法从简单匹配和复杂匹配两个角度分别给出了属性 相似度的计算公式,使得模式匹配具有更高的效率。 针对所提出的预处理阶段相关技术,本文分别设计了具体实验,用实验结果 证明上述各个方法的有效性。 关键词:Deep№b;Web入口发现;模式抽取;模式匹配 英文摘要 ABSTRACT Wim info肌ation the of are inclined deVelopment tecllllology,peopleincreasin酉y toobtainresources舶mthen抓Vork.The resourcesthatcaJlberetrieVedtraditional by searCh arecalledSurface accountcdfor Web,w蜘ch asmallfi.actionoftlle en舀ne only wholewebresources.TheresourCeshiddeninWeb beobtained databaSe,which only by a to arel nownas submittingque巧fomgeneratedyn锄ic C0ntainsa nlIn曲erof howtoaccesstotheseresources 1a唱e specializedinf.o砷ation,so h嬲beComet11e issueof efjficieIltly key c岍铋tresearch. isa De印WebInte刚edQue拶SysteIIlglobalque巧systeITl、 l恤chinte黟ate dif融.饥t illthesamefield.We resources舶mdi蜀衙entWeb que巧interfaces c肌get datab嬲es in isthefirSt bysubmittingque叮fomtllis酉obal interface.Pr印roceSsing iIlme of containsthree stage proCesssysteIllintegration,itmainly st印s:medisCoVe叮 Web 0fthe sch锄aex的ction孤d interface,que拶interfacc que叫interfaceime伊砒ion. Itsfinalresult onthenext of a11dresult h弱a黟eatirIlpact stageque拶processing e简ci%tmethodsin is processing.Therefore,findingeVe拶st印ofpr印rocessingstage t11e oft11isarticle.Themainresearchworksoftms are嬲f01lows: staningpoint p印er oft11ech姬烈甜sticsoftlle 1 AmalySising De印Web me and ofc

文档评论(0)

llllss930 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档