- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文信息抽取第十一章剖析
第11章 Web信息抽取
11.1 概 述
Web信息抽取就是将 Web页面作为信息抽取的信息源, 它的主要功能是从Web 页面中抽取出特定的事实信息 。 比如, 从新闻报道中抽取出恐怖事件的详细情况:时间、地点、作案者、受害者、袭击目标和使用的武器等;从经济新闻中抽取出公司发布新产品的情况:公司名称、产品名称、发布时间和产品性能等,从病人的医疗记录中抽取出症状、诊断记录、检验结果、处方等或者直接抽取文章中某句话或某段话的信息 。 通常, 被抽取出来的信息以结构化的形式描 述, 可以直接存入数据库中 , 供用户査询以及进一步分析利用。
11. 2 语义 Web
语义 Web并不是要取代现有的 Web,而是扩展。扩展的方式是对现有信息进行形式化的描述,目的是使机器可理解,使计算机能够更好地提供信息服务。简单地说 , 语义Web就是要给Web加上注释,为了让计算机能够理解,这种注释必须用一种形式化的语言进行描述,并且支持推理。为了多个系统之间能够进行交流,这种注释还应该遵循统一明确的词汇表。在 Tim的构想中,语义 Web表现为图11. 1的层次结构。
自底向上来看, 第一层规定了文档中字符的编码方式和资源的统一标识。 第二层, XMI和XML Schema,使用自定义的标签对文档的结构进行标注, 规范文档的语法格式, 就可以方便地利用计算机处理文档,第三层,明确文档中标引对象之间的关系,即资源描述层 RDF+RDF schema。 RDF定义了元素之间的关系,表现为三元组的集合(类似于句子的主语、谓语、宾语), XML加上 RDF(S)就相当于建立了人工智能中的语义网络可以进行一定的推理。
使用XML十RDFS(S),人们可建立各自的语义网, 只要有一组自成体系的术语就可以了, 第四层, 明确标引项的精确含义, 要让计算机相互理解对方的内容, 需要有一组共同的标准的概念体系,这就是 Ontology。 XML+RDF(S)+Onto1ogy构成了计算机相互理解的基础。这样每增加一个层次,计算机在知识处理上就多一份能力。在Onto1ogy之上进一步要做一些逻辑推理的工作, 接下来就是保证信息是可信赖的, 这成了一个多层次的语义网。
语义 Web的实现还需 一个长期的过程 。从目前的情况来看, 语义网下面三层的研究已经开展较长时 间, 研究成果相对较多, 并推出了一系列的标准, 可以说打下了比较坚实的基础 。
Onto1ogy层和逻辑层,正在引起更多的关注。作为语义 Web中从语法处理向语义处理的转折, 这两层起着至关重要的作用, 相关研究正处在探索之中, 有很多有意义的尝试和应用,却还没有成熟的技术和标准,因此成为相关领域研究热点
11.2.2 本体描述语言
11.3 格式转换
将 HTML格式转換为 XML格式,使用 JTIDY工具完成转換工作。 HTML和 XML都是从 SGML派生出来的标记-i再言, HTML的设计目标是显示数据并集中于数据外观,而作为数据交换标准的 XML有很多优点: 自述性强,重在描述数据本身、数据和显示分离,文件以纯文本的形式输出,与形式无关。显然,它的出现对解决上述的问题带来新的活力 。 XMl 是一种极灵活的、 传递数据的方式, 为了能获取抽取信息的 XML文件,借助 JTIDY工具将 HTMI.文件转换为 XML格式是本方法的关键。
JTIDY 读取输入 HTML格式文件, 然后如果发现有任何不匹配或遗漏的闭合标记地,纠正不完整标记, 最后输出一个格式良好的 XML文档。
11.4 信息解析
处理XML文档有多种解析方式,如 SAX、 DOM、 JAXP JDOM等, JDOM许多优点: JDOM是一个开放源代码的纯 Java 数式应用程序接口, 用来分析;建立和序列化 XML文档; 它是包含了 Java语言的语法及语义,提供了一个简单、轻量的XML文档操作方法; JDOM使用标准的 Java编码模式; JDOM将XML文档表示为树,包括了元素、属性、说明、处里指令、文本节点和 CDATA段等,整个树结构可以在内存中随时生成,利用可以访问树结构中的任何部分; JDOM可以通过标准的构造器和 set方法支持XML文档的修改。
11. 5 基于DOM子树的抽取规则抽取算法
11.5.1 DOM
文档对象模型(documentobiectmode, DOM)是一组抽象接口,用于模型化 XML数据,定义了 XML文档的逻辑结构, 给出了一种访问和处理 XML文档的方法,它与语言和平台无关, DOM树结构清晰简单,意义表述明确,成为描述和操作标准 HTML文档最流行的方式之一,它将 HTML语言里面的标记作为DOM树的节点, 是 HT
文档评论(0)