网页信息抽取方法研究.docVIP

下载本文档

4
0
约2.77千字
约 7页
2018-05-26 发布于福建
举报
版权申诉

网页信息抽取方法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

网页信息抽取方法研究

网页信息抽取方法研究　　[关键词]网页抽取;网页模板;网页相似度;网页聚类　　　　一、相关技术　　　　1.常规抽取方法介绍　　基于定义规则的信息抽取是指由用户根据待抽取信息节点特征,定义一种抽取规则(例如用正则表达式来描述规则)来进行信息抽取。这种方法的优点是简单、精确、技术难度低、方便快速部署。其缺点是需要针对每一个信息源的网站模板进行单独的设定。所以这种方式适合少量信息源的信息处理,不是搜索引擎级的应用,很难满足用户对查全率的需求。　　基于HTML结构的信息抽取技术是依靠HTML文件固有的结构特性进行信息抽取的。在进行信息抽取之前,先把HTML文件转换成解析树,这个解析树反映其层次结构。接着,半自动地或者自动地生成抽取规则,并把它应用于这棵树上。基于HTML结构的信息抽取又可细分为很多类,此类方法有一个最大的不足是HTML结构过于灵活,难以正确识别HTML所表述的结构化信息。　　基于知识工程的信息抽取通过运用应用领域的知识手工地建立系统的语法表示规则。知识工程师的技能对系统的性能起着决定性的作用。　　基于自然语言方式的信息抽取是使用自然语言处理进行信息抽取,需要经过的处理步骤包括:句法分析、语义标注、专有对象的识别(如人物公司)和抽取规则。基于自然语言处理方式在含有大量自由文本且句子完整、适合语法分析的网页中的信息抽取取得了较好效果。这种基于自然语言理解方式的信息抽取技术,要获得有效的抽取规则需要大量的样本学习。　　2.常规抽取技术分析　　虽然性能最好的系统通常都是手工建立的,即基于知识工程的方法,但是由于创建的过程非常费时、费力,而且需要有合适的领域专家的帮助,适应性较差。　　归纳学习方法通过学习产生规则,这些规则在应用于新文档抽取时健壮性不够,准确性也不高。基于HMM的方法由于使用统计原理,应用于新文档时抽取效果较好。但是基于HMM方法的研究主要仍集中在传统的纯文本抽取上,而Web页面不完整的语句以及特有的结构,难以较好地应用该方法。　　基于页面模式分析的Wrapper构造方法是专门针对Web文档设计的。它们利用了Web文档的语法以及文档结构等特性,能较好地从包括大量重复模式的文档中识别数据。但是Web页面的模式如此丰富,不同的网站即使相同的网站也会使用不同的页面模式来介绍不同的内容以吸引用户,这样,大多数算法将不得不对不同模式的页面收集网页进行标记训练生成专用的Wrapper。　　由上分析可知适应性的Web信息抽取技术的瓶颈在于获得标记过的训练数据。使用机器学习方法的动力就在于通常认为标记文档的代价比人工书写Wrapper抽取规则小,然而标记文档可能也需要丰富的领域知识,而且这项工作单调又容易出错。　　目前的信息抽取研究的基本点都在为不同的抽取任务寻找最合适的技术,现在要判别抽取系统的优劣还需要专业知识和经验。最终,希望有半自动化的方法能够对各种异构的文档使用统一的标准来衡量,用更简单的方法获得满意的效果。　　　　二、基于模板的信息抽取算法　　　　1.设计思想　　选择基于模板的方法源于以下几点考虑:(1)当前的绝大多数Web页面是动态页面,是基于数据库的。(2)使用这种方法不需要分析Web页面中文字的语义关系。(3)不需要进行网页去噪工作。　　2.算法概述　　基于模板的信息抽取方法主要包含如下几个步骤:(1)随机抽取目标网站的N个网页作为样本。如果把具有相似版面的网页归为一类的话,对样本数量的要求是尽量包含所有类的网页,每种类别至少t篇以上,这里暂且定为t=10。将样本网页集合标记为C。(2)将样本网页转化为DOM树。网页是由HTML标签来组织的,这些标签表面是字符串序列,本质上是具有嵌套关系的树形结构,即DOM树。DOM树能够体现网页的结构,基于模板的信息提取本质上就是提取DOM树中的公共节点。因此将网页转化为DOM树是以下所有工作的前提。(3)判断网页的相似性。确切的说是判断DOM树的结构相似性,目的是为了区分不同结构的网页,为网页聚类做准备。(4)依据相似性对网页聚类。在某个网页集合中,具有相同相似度的网页可以看做是同一个模板产生的网页,也就是说这组网页具有相似的DOM树结构。因此这个网页集合可以划分出k个类,在下一步中依次提取每个类的模板。(5)提取同一类的模板。模板是指某一类网页中公共的DOM树,即所有DOM树的一个交集。(6)对模板进行人工修正。在经过第(5)步之后,网页集合中每个类别都会有一个模板,这个模板的叶节点便是潜在的信息节点。但并不是所有信息节点都是本文想要的,因此需要人工筛选。在人工筛选之前,应过滤掉一些明显的无用节点,例如广告信息。过滤时可使用启发式规则。(7)利用模板提取目标站点中的其他网页。经过模板