基于WEB资源的信息抽取技术-上海交通大学图书馆.docVIP

下载本文档

3
0
约 6页
2017-01-16 发布于天津
举报
版权申诉

基于WEB资源的信息抽取技术-上海交通大学图书馆.doc

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于WEB资源的信息抽取技术-上海交通大学图书馆

基于WEB资源的信息抽取技术郭志红（上海交通大学情报研究所，上海200030）　 web资源含有大量的有用信息，但由于它们欠结构化，不能为传统的数据库型查询系统所利用。如何将这些信息抽取出来，转化成结构化信息，供其它信息集成系统所利用，成为该顶域的研究热点。本文介绍了一个简单的web信息抽取模型，对基于该模型的wrapper归纳技术进行了探讨，并描述了一个wrapper自动生成系统的原型。关键词信息抽取 wrapper归纳技术自动生成原型系统 The Technology of Information Extraction for WEB Resource Guo Zhihong （Information Research Institute, Shanghai Jiaotong university, Shanghai 200030）　Abstract There is plenty of useful information in web resource. It cant be used by the traditional database query system because it is not well-structured. Recently considerable attention has been received on how to extract it from web resource and transfer it to structured information that can be used by other information integration systems. This paper presents a simple web information extraction model, discusses the technology of wrapper induction based on the model and describes automatic generation prototype system of wrapper. Keywords information extraction wrapper induction automatic generation prototype system 　引言 ??? Internet是一个巨大的信息资源库，它上面有着各种各样的在线信息：天气预报，股票价格，商品目录，政府法规和税收政策，个人爱好，研究报告等等。所有这些web资源信息都有两个共同的特征：（１）文本内容以html形式发布。（２）通过浏览方式或基于格式的查询方式来实现对其内容的存取。由于html标记更关注字体大小，颜色，位置等，而文档的结构却隐含在这些标记中，故html页中的大量信息都是半结构化的。而基于这种半结构化信息的查询，即web查询，与传统的基于结构化信息的数据库查询是不同的，其查询结果往往是互不相关的html页面，而且相同的查询往往得到的是不同的结果。故要直接查询页面上的精确信息显得十分困难。为了解决这个问题，需要针对各种类型的web资源集构建相应的wrapper，利用该wrapper 去抽取html页中的半结构化信息，并转化成结构化数据，供其它信息集成系统利用。由于网上新资源的频繁加入，现存的资源格式又经常变化，手工构建wrapper将极其乏味而且容易出错。因此，开发出自动构建wrapper的技术及其系统则是该顶域的发展趋势。 web信息抽取模型　　一个简单的web信息抽取模型可概括为：向特定资源库发出一个查询请求，得到相应的响应页，然后wrapper从响应页中抽取出所需要的信息，将其映射成相应的标记信息，如图１所示。　Q是以查询语言Q.构造的查询表达式，表达了用户所需要的信息。它可能是SQL或KQML语句，也有可能是CGI脚本参数所组成的语句。P 为查询响应页，可以把它看成是ASCII字符集∑中的字符串，含有一个或多个所需信息的元组（例如，假设我们要抽取的信息为各个国家所对应的电话号码区域号，则具体的〈国家，区域号〉即为一个元组。它有两个属性：国家，区域号。形式地讲，一个元组可表达为一个具有k个字符串属性的向量A1,A2,…,Ak）S为特定的信息资源库，可以看成是一个将查询表达式转化成响应页P的函数。L为标记信息集，一个标记信息集L就是一个响应页中所要抽取的所有信息元组集合。其形式化表示如下所示：即该响应页中含有│L│0个元组，每个元组具有K0个属性。整数１≤k≤K是属性索引号，而整数１≤m≤∣L∣则是该响应页中的元组索引号，每个bm,k,em,k表示为一个单一的属性集。bm,k是第m个元组的第k个属性在该响应页中的