网页结构化信息抽取技术方法研究_郝爱峰.pdfVIP

下载本文档

6
0
约1.17万字
约 3页
2017-08-21 发布于广东
举报
版权申诉

网页结构化信息抽取技术方法研究_郝爱峰.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

山西电子技术　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　研究探讨 2008 年第 4 期网页结构化信息抽取技术方法研究郝爱峰 (忻州师范学院 ,山西忻州 034 100) 摘　要 :分析了两种当前主流的网页结构化信息抽取技术方法 :基于模版的分装器方法和不依赖模版的基于视觉的网页信息抽取技术方法 ,并在此基础上实现了一种新的网页结构化信息抽取算法 ,一定程度上提高了抽取效率和精度。关键词 :垂直搜索引擎 ;信息抽取 ;分装器 ;模版中图分类号 : TP39 1 　　文献标识码 :A 0 　引言对某一特定信息源的 IE 应用系统。 1 . 2 　基于视觉分析的网页信息抽取技术搜索引擎自 1994 年面世后 ,迅速成为人们网上搜索的基于 Web 视觉分析的信息抽取的主要依据是在同一个有效工具。目前 ,尽管搜索引擎的发展已较成熟 ,但要准确、网页中待提取信息在视觉样式上往往有着相同的特征 ,且待快速地查找所需信息却越来越困难。在这种情况下垂直搜提取信息在视觉样式与其它信息有着明显的分隔符 ;根据这索引擎的应运而生 ,垂直搜索引擎 ,即专业或专用搜索引擎 , 一原则该方法首先就是要找出这些可视化的线索 ,然后再根就是专为查询某一学科或主题的信息而产生的查询工具 ,对据这些线索来进行信息抽取。为此 ,可将 Ht ml 元素分成以解决实际查询问题要比搜索引擎门户有效得多。垂直搜索下几类 :1) 简单对象 :不能包含其它 ht ml 元素的元素 ,如引擎是有相当的发展前景的 ,而 web 结构化信息抽取的技术 mig 、 hr 等 ;2) 容器对象 : 由至少一个简单对象和其它水平是决定垂直搜索引擎质量的重要技术指标 ,因此结构化的信息抽取技术成为了垂直搜索引擎的关键技术之一。容器对象组成的 ht ml 元素 ,如 table ;3) 分组对象 :全部由简单对象组成的元素。该方法首先分析简单对象的视觉 ( ) 信息抽取 Information Extraction : IE 是把文本里包含的信息进行结构化处理 ,变成表格一样的组织形式。输入信特征 ,然后在从里层到外层依次分析分组对象或容器对象 , 息抽取系统的是原始文本 ,输出的是固定格式的信息点。信它的难点在于分析过程中既有精确的分析又有模糊分析 ; 网息抽取技术对于从大量的文档中抽取需要的特定事实来说页分析完成后再对结果进行频率分析 , 以推导出哪些对象是是非常有用的 ,互联网上就存在着这么一个文档库。结构化要抽取的信息。信息抽取就是将网页的非结构化数据抽取成特定的结构化 2 　系统的设计和实现信息数据。它是垂直搜索引擎和通用搜索引擎最大的差别。由于本系统只是为了实现并测试所设计的信息抽取算网页结构化