基于伪属性语义匹配的Deepweb信息抽取.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于伪属性语义匹配的Deepweb信息抽取.PDF

第 4 1卷 第 2 期 四 川 大 学 学 报 ( 工 程 科 学 版 ) Vol. 4 1 No. 2 2009 年 3 月 JOURNAL OF SICHUAN UN IV ER SITY ( EN GIN EER IN G SC IENCE ED ITION ) M ar. 2009 文章编号 :(2009) 02 017306 基于伪属性语义匹配的 D eep web信息抽取 1, 2 1 1 1 1, 3 郑皎凌 ,唐常杰 , 姜  玥 ,杨  宁 ,李红军 ( 1. 四川大学 计算机学院数据库与知识工程研究所 , 四川 成都 610065; 2. 成都信息工程学院 软件工程系 , 四川 成都 6 10225; 3. 西南科技大学 计算机学院 , 四川 绵阳 62 1010) 摘  要 : 已有的 D eep W eb信息抽取算法主要对结构规范的网页进行模版的提取 , 目前多数 D eep W eb 网页在结构 上是非规范的 ,网页中记录属性字段可能缺失或重复 、原子属性字段可能被 h tm l标签分隔 。为了正确抽取这些非 规范网页 ,提出了一种新方法 :引入了记录的伪属性及其语义匹配概念 ,通过实现记录间伪属性序列的语义匹配实 现信息抽取 ;提出了伪属性序列的模型及其语义匹配算法和记录 W rapp er模型及其生成算法 。实验表明 ,在结构不 规范 deep web 网页的抽取上 ,能达到 9 1%的查全率和 93%的查准率 ,相对其它算法有一定优势 。 关键词 : deep web;信息抽取 ;伪属性 ;语义匹配 中图分类号 : TP391 文献标识码 : A D eep W eb Inform a tion Extraction Ba sed on Sem an tic M a tch over P seudo A ttr ibutes 1 , 2 1 1 1 1, 3 ZHEN G J iaoling , TAN G Chang j ie , J I AN G Yue , YAN G N ing , L I H ong jun ( 1. In st. of D atabase and Know ledge Eng. , Schoole of Compu ter Sci. , Sichuan Un iv. , Chengdu 6 10065 , Ch ina; 2. D ep t. of Software Eng. , Chengdu Un iv. of Info. Technol. , Chengdu 6 10225 , Ch ina; 3. College of Compu ter Sc. , Sou th W est Un iv. of Sci. and Technol. ,M ianyang 62 1010 , Ch ina) A b stract: Existing deep web inform ation extraction m ethod s focu sed on extracting the temp l

文档评论(0)

sunyangbill + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档