基于伪属性语义匹配的Deepweb信息抽取.PDF

下载文档 降价啦

2
0
约3.1万字
约 6页
2017-09-02 发布于天津
举报
版权申诉
保障服务

基于伪属性语义匹配的Deepweb信息抽取.PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第 4 1卷第 2 期四川大学学报 ( 工程科学版 ) Vol. 4 1 No. 2 2009 年 3 月 JOURNAL OF SICHUAN UN IV ER SITY ( EN GIN EER IN G SC IENCE ED ITION ) M ar. 2009 文章编号 :(2009) 02 017306 基于伪属性语义匹配的 D eep web信息抽取 1, 2 1 1 1 1, 3 郑皎凌 ,唐常杰 , 姜　玥 ,杨　宁 ,李红军 ( 1. 四川大学计算机学院数据库与知识工程研究所 , 四川成都 610065; 2. 成都信息工程学院软件工程系 , 四川成都 6 10225; 3. 西南科技大学计算机学院 , 四川绵阳 62 1010) 摘　要 : 已有的 D eep W eb信息抽取算法主要对结构规范的网页进行模版的提取 , 目前多数 D eep W eb 网页在结构上是非规范的 ,网页中记录属性字段可能缺失或重复、原子属性字段可能被 h tm l标签分隔。为了正确抽取这些非规范网页 ,提出了一种新方法 :引入了记录的伪属性及其语义匹配概念 ,通过实现记录间伪属性序列的语义匹配实现信息抽取 ;提出了伪属性序列的模型及其语义匹配算法和记录 W rapp er模型及其生成算法。实验表明 ,在结构不规范 deep web 网页的抽取上 ,能达到 9 1%的查全率和 93%的查准率 ,相对其它算法有一定优势。关键词 : deep web;信息抽取 ;伪属性 ;语义匹配中图分类号 : TP391 文献标识码 : A D eep W eb Inform a tion Extraction Ba sed on Sem an tic M a tch over P seudo A ttr ibutes 1 , 2 1 1 1 1, 3 ZHEN G J iaoling , TAN G Chang j ie , J I AN G Yue , YAN G N ing , L I H ong jun ( 1. In st. of D atabase and Know ledge Eng. , Schoole of Compu ter Sci. , Sichuan Un iv. , Chengdu 6 10065 , Ch ina; 2. D ep t. of Software Eng. , Chengdu Un iv. of Info. Technol. , Chengdu 6 10225 , Ch ina; 3. College of Compu ter Sc. , Sou th W est Un iv. of Sci. and Technol. ,M ianyang 62 1010 , Ch ina) A b stract: Existing deep web inform ation extraction m ethod s focu sed on extracting the temp l