Web信息抽取中的数据交叉定位.pdfVIP

下载本文档

1
0
约2.24万字
约 6页
2017-10-01 发布于北京
举报
版权申诉

Web信息抽取中的数据交叉定位.pdf

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Web信息抽取中的数据交叉定位.pdf

华南理工大学学报(自然科学版) 第36卷第5期 JournalofSouthChina of V01．36No．5 UniversityTechnology 2008年5月 Science 2008 (Natural Edition) May Web信息抽取中的数据交叉定位木陈天黄敏 (华南理工大学软件学院，广东广州510006) 摘要：通常，当网页发生的变化超出包装器脚本的容忍度时，只能通过修改包装器脚本来重新定位待抽取数据．为此，文中提出了一种基于交叉定位的数据定位方法．该方法通过设立多个坐标系对待抽取数据进行定位，当一个坐标系失效后，其余坐标系能对失效坐标系进行修复并能正确抽取数据．实验结果表明，使用交叉定位的Web包装器能在不降低信息抽取性能的情况下，大幅提高包装器脚本对HTML页面变化的容忍度．关键词：Web信息抽取；信息检索；包装器；交叉定位中图分类号：TP391；TP393文献标识码：A Web信息抽取就是从无结构或半结构化的HTML 1 现有数据定位方法页面中抽取用户感兴趣的信息，将它转换为结构化的数据进行存储．为了有效地实现半结构化HTML 现有的Web包装器描述语言从数据定位方法网页内容的识别与抽取，近年来人们进行了大量的上可以分为三大类，第一类是将HTML页面看成纯研究工作，取得了许多研究成果¨。5J．这些研究结果粹的文本流，利用文本序列特征模式匹配、正则表达中所采用的方法，都是由人工或者计算机自动归纳 J 式等方法从HTML页面中抽取数据，如IEPAD帕‘7 出某类HTML网页中的数据表示模式，并利用某种就采取这种方法．这种方法具有信息抽取效率高、速包装器描述语言记录下这种数据表示模式，再由信度快等优点，但忽略了HTML文档树状结构所包含息抽取程序利用包装器描述语言解释HTML页面的有用信息，其约束性过强的抽取规则导致无法很簇，实现数据的自动抽取．信息抽取过程可形式化表好地容忍页面的细微变化．第二类是直接采用某种示为比较高级的脚本语言，如VBScript脚本语言，利用脚 W：S．D，本语言预定义好一些可用对象进行数据定位．这种其中，5表示HTML源文档集合{|s。，．s：，…，5。}；S，，方法的特点是灵活性高，具有较强的表达能力，但脚 S：，…，|s。的HTML结构具有相似性；D表示结构化本语言往往会比较复杂，不利于计算机自动归纳生的数据集合{D。，见，…，D。}，可以是数据库或XML 成，WebL【8o就属于这种类型．第三类方法是将HTML 格式的数据；D。，D：，…，D。的结构相同；W是．s到D 文档转换为一棵DOM树，然后用一个路径表达式的映射，即信息抽取