- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
山西电子技术
研究探讨
2008 年第 4 期
网页结构化信息抽取技术方法研究
郝爱峰
(忻州师范学院 ,山西 忻州 034 100)
摘 要 :分析了两种当前主流的网页结构化信息抽取技术方法 :基于模版的分装器方法和不依赖模版的基于
视觉的网页信息抽取技术方法 ,并在此基础上实现了一种新的网页结构化信息抽取算法 ,一定程度上提高了抽取
效率和精度 。
关键词 :垂直搜索引擎 ;信息抽取 ;分装器 ;模版
中图分类号 : TP39 1 文献标识码 :A
0 引言 对某一特定信息源的 IE 应用系统 。
1 . 2 基于视觉分析的网页信息抽取技术
搜索引擎自 1994 年面世后 ,迅速成为人们网上搜索的
基于 Web 视觉分析的信息抽取的主要依据是在同一个
有效工具 。目前 ,尽管搜索引擎的发展已较成熟 ,但要准确 、
网页中待提取信息在视觉样式上往往有着相同的特征 ,且待
快速地查找所需信息却越来越困难 。在这种情况下垂直搜
提取信息在视觉样式与其它信息有着明显的分隔符 ;根据这
索引擎的应运而生 ,垂直搜索引擎 ,即专业或专用搜索引擎 ,
一原则该方法首先就是要找出这些可视化的线索 ,然后再根
就是专为查询某一学科或主题的信息而产生的查询工具 ,对
据这些线索来进行信息抽取 。为此 ,可将 Ht ml 元素分成以
解决实际查询问题要比搜索引擎门户有效得多 。垂直搜索
下几类 :1) 简单对象 :不能包含其它 ht ml 元素的元素 ,如
引擎是有相当的发展前景的 ,而 web 结构化信息抽取的技术
mig 、 hr 等 ;2) 容器对象 : 由至少一个简单对象和其它
水平是决定垂直搜索引擎质量的重要技术指标 ,因此结构化
的信息抽取技术成为了垂直搜索引擎的关键技术之一 。 容器对象组成的 ht ml 元素 ,如 table ;3) 分组对象 :全部
由简单对象组成的元素 。该方法首先分析简单对象的视觉
( )
信息抽取 Information Extraction : IE 是把文本里包含
的信息进行结构化处理 ,变成表格一样的组织形式 。输入信 特征 ,然后在从里层到外层依次分析分组对象或容器对象 ,
息抽取系统的是原始文本 ,输出的是固定格式的信息点 。信 它的难点在于分析过程中既有精确的分析又有模糊分析 ; 网
息抽取技术对于从大量的文档中抽取需要的特定事实来说 页分析完成后再对结果进行频率分析 , 以推导出哪些对象是
是非常有用的 ,互联网上就存在着这么一个文档库 。结构化 要抽取的信息 。
信息抽取就是将网页的非结构化数据抽取成特定的结构化 2 系统的设计和实现
信息数据 。它是垂直搜索引擎和通用搜索引擎最大的差别 。
由于本系统只是为了实现并测试所设计的信息抽取算
网页结构化
您可能关注的文档
最近下载
- 2025年执业药师之西药学专业一模考预测题库(夺冠系列).docx VIP
- ISO 15614-13 2023 金属材料焊接工艺规程及评定 电阻对焊和闪光焊(中文版).pdf
- 过敏性休克抢救指南2025版.docx
- 扩张型心肌病的护理查房课件.pptx VIP
- 第一章 食品工艺学导论.ppt VIP
- 系统性红斑狼疮(共44张PPT).pptx VIP
- 3.1 标志设计 (课件)人教版七年级美术上册.pptx VIP
- genesis2000脚本编写,Perl╱TK常见问答中文版.pdf VIP
- 2024《广西农产品电商物流SWOT-PEST分析及发展策略研究(数据图表论文)》16000字.docx VIP
- 剑桥国际少儿英语KB1第1-12单元文本-(英汉版).pdf VIP
文档评论(0)