网页结构化信息抽取技术方法研究_郝爱峰.pdfVIP

网页结构化信息抽取技术方法研究_郝爱峰.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
山西电子技术                                   研究探讨 2008 年第 4 期 网页结构化信息抽取技术方法研究 郝爱峰 (忻州师范学院 ,山西 忻州 034 100) 摘  要 :分析了两种当前主流的网页结构化信息抽取技术方法 :基于模版的分装器方法和不依赖模版的基于 视觉的网页信息抽取技术方法 ,并在此基础上实现了一种新的网页结构化信息抽取算法 ,一定程度上提高了抽取 效率和精度 。 关键词 :垂直搜索引擎 ;信息抽取 ;分装器 ;模版 中图分类号 : TP39 1   文献标识码 :A 0  引言 对某一特定信息源的 IE 应用系统 。 1 . 2  基于视觉分析的网页信息抽取技术 搜索引擎自 1994 年面世后 ,迅速成为人们网上搜索的 基于 Web 视觉分析的信息抽取的主要依据是在同一个 有效工具 。目前 ,尽管搜索引擎的发展已较成熟 ,但要准确 、 网页中待提取信息在视觉样式上往往有着相同的特征 ,且待 快速地查找所需信息却越来越困难 。在这种情况下垂直搜 提取信息在视觉样式与其它信息有着明显的分隔符 ;根据这 索引擎的应运而生 ,垂直搜索引擎 ,即专业或专用搜索引擎 , 一原则该方法首先就是要找出这些可视化的线索 ,然后再根 就是专为查询某一学科或主题的信息而产生的查询工具 ,对 据这些线索来进行信息抽取 。为此 ,可将 Ht ml 元素分成以 解决实际查询问题要比搜索引擎门户有效得多 。垂直搜索 下几类 :1) 简单对象 :不能包含其它 ht ml 元素的元素 ,如 引擎是有相当的发展前景的 ,而 web 结构化信息抽取的技术 mig 、 hr 等 ;2) 容器对象 : 由至少一个简单对象和其它 水平是决定垂直搜索引擎质量的重要技术指标 ,因此结构化 的信息抽取技术成为了垂直搜索引擎的关键技术之一 。 容器对象组成的 ht ml 元素 ,如 table ;3) 分组对象 :全部 由简单对象组成的元素 。该方法首先分析简单对象的视觉 ( ) 信息抽取 Information Extraction : IE 是把文本里包含 的信息进行结构化处理 ,变成表格一样的组织形式 。输入信 特征 ,然后在从里层到外层依次分析分组对象或容器对象 , 息抽取系统的是原始文本 ,输出的是固定格式的信息点 。信 它的难点在于分析过程中既有精确的分析又有模糊分析 ; 网 息抽取技术对于从大量的文档中抽取需要的特定事实来说 页分析完成后再对结果进行频率分析 , 以推导出哪些对象是 是非常有用的 ,互联网上就存在着这么一个文档库 。结构化 要抽取的信息 。 信息抽取就是将网页的非结构化数据抽取成特定的结构化 2  系统的设计和实现 信息数据 。它是垂直搜索引擎和通用搜索引擎最大的差别 。 由于本系统只是为了实现并测试所设计的信息抽取算 网页结构化

文档评论(0)

7号仓库 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档