- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
eepWeb信息抽取研究.doc
Deep Web信息抽取研究
[ ]针对DeepWeb信息资源的利用问题,指 出对其进行信息抽取的意义,分析对比在信息抽取过 程中处理查询接口和抽取结构化数据这两个主要步骤 所使用的技术,采用基于关键词查询和建立文档对象 模型的方法对专利数据库进行抽取实验。通过分析实 验结果,验证抽取方法的准确性,指出不足之处和解 决的途径,以期达到充分利用DeepWeb信息资源的目 的。
[关键词]Deep Web信息抽取查询接口命 名实体识别文档对象模型
[分类号]TP31I
1、Deep Web的特点
随着网络信息资源的爆炸式增长,如何从中获取 用户所需要的信息成为人们所关注的焦点问题。人们 可以通过搜索引擎来获取需要的信息,但这是建立在 搜索引擎对网页进行索引的基础上。而有很多网页是 搜索引擎所无法建立索引的,这些具有隐形特性的网
页集合被人们称之为Deep Web或Hid_denWeb。 Deep Web 的概念最初由 Dr.Jill Ellsworth 在 1994
年提出,指的是常规搜索引擎不能索引到的网络资源。
根据 2001 年 Michael K Bergman 关于 Deep Web 研究 的白皮书数据,相对可以被搜索引擎索引到的Surface Web而言,Deep Web的规模是其400至500倍,而 根据文献[2]中关于DeepWeb的调查报告,从2000年 到2004年,它的规模增长了 3?7倍,并且还在不断 增长中。由以上的研究数据可知,如果能够将如此规 模庞大的网络资源的信息内容有序地抽取、整理出来, 对于情报分析和研究工作是很有意义的。
2、抽取方法概述
Deep Web中的信息资源,根据文献[2]中的分析, 基本上是以网络数据库的结构进行存储。那么在访问 时,首先要经过数据库的访问接口,普通搜索引擎不 能索引Deep Web内容的原因也就在于其不能同Web 表单进行交互,因此也就无法取得检索结果页面进行 索引。那么要实现对这种资源类型的信息抽取,除必 要的抽取程序外,还需要处理数据库查询接口的交互 问题,以下分两部分进行介绍。
2.1处理查询接口
Web表单,其实质是后台数据库查询接口。用户 通过查询接口输入相应的信息来查询数据库内容,而 抽取程序通过特殊定制的表单交互程序来访问数据库
按交互程序的特点,可以分为两类:
2.1.1通过关键词覆盖的方法使查询有选择地覆 盖结果集。此类方法的原理可以表述为:给定查询q, 使用P(q,)表示对于查询qi服务器所返回的结果页面 占所有可能结果页面的比例,那么目标就是寻找一个 查询集合(ql: q 2,…,qn)使得返回结果P(ql V q2 V… Vqn)值最大化。在实际查询中,有两种关键词选择策 略:一是随机策略,即从候选词典中随机选取关键词 用于提交查询表单;另一种是适应性策略,通过分析 之前查询所返回的结果集,估测待选查询关键词的返 回页面数,并找到可能返回数最高的关键词。适应性 策略是一个迭代计算的过程,步骤上比随机策略复杂, 但根据文献[5]中的实验结论可知其查询覆盖率一般 要优于随机策略。
2.1.2根据对表单形式的查询接口进行的研究所 总结出的基于查询接口模型的方法表单内一般含有以 下常见的控件元素:文本框、选择列表框、单选按钮、 复选按钮等。这种方法将表单内各种控件元素进行归 纳分析,解析控件元素的标签元素和值域类型以构造 出一个查询接口模型。此模型的形式如二元关系组的 集合:F={(E, DI), (E2,D2),…,(En,Dn)},其中 F 代 表当前表单,E是标签元素,D是值域。如专利数据 库的查询表单通常由专利类型、申请专利号、专利名 称、申请专利权人等元素构成,有以下结构的模型: F={(专利类型,■{发明专利,实用新型专利,外观 设计专利}),
(申请专利号,字符串),
(专利名称,字符串),
(申请专利权人,字符串>,
(…,…))
这个模型描述了这个专利数据库的查询接口特征 用(L,V)的二元关系来表示输入表单的信息,其中L 是标签名,V是输入值,所有的(L,V)关系组成集合Label Value Set(Lvs)0对于每个标签元素E,它的标签名是 L=label(E),对应有V={vl, v2,…,vn}的值集合来满 足输入条件。那么对于一个表单F,其所有可能的输 入集是(F,Lvs)=VlXv2X…Xvn,所需要的输入集就是 使有 P({E1 —//VI,En^Vn})=l-ll(l-Mv),其中 Mv 是 值v的相关度。这里的相关指的是该输入值与值域的
相关性,其计算有不同的实现方法,常见的方法有计 算相关性权重以及计算特征向量的夹角等。
2.2抽取结构化数据
信息抽取的信息类型主要分为:结构化信息、半 结构化信息和自由格式文
文档评论(0)