- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于CSS视觉分块Web碎片信息抽取算法
基于CSS视觉分块Web碎片信息抽取算法
摘 要:为进一步解决在半结构化的Web页面中抽取Web碎片信息的困难,针对Web页面设计的目的是给用户显示相关的信息,浏览器只是呈现的中间手段,在抽取Web碎片信息时应该“以人为本”,从“人”的视觉效果出发,将Web页面按照CSS视觉效果进行分块,提出一种基于CSS视觉分块的Web碎片信息抽取算法。以随机输入的1000个Web碎片信息站点作为实验对象,实验结果表明,算法具有良好的性能,达到了较高的召回率与查准率。
关键词:Web;Web碎片信息;CSS;信息抽取
中图分类号:TP391
随着网络技术的发展,互联网的信息呈现方式正在发生日新月异的变化,微博的出现使人们随时随地都可以分享自己的信息。同时,微博的出现也正在改变着人们关注信息的习惯,网民们获取信息的方式越来越“碎片化”,从传统的“一对多”的信息分享方式变成的“多对多”的信息分享方式。也就是说,在信息碎片化的时代,每个人都是信息的制造者,也是信息的获取者。由于每个人均可以通过碎片信息发布平台(如新浪微博、腾讯微博)发布信息,使得碎片信息出现了很大的随意性,信息的构成不再像传统方式的规范化,而出现了多元化、异构化及碎片化。在进行碎片信息抽取的时候,由于其本身可能只是“只言片语”,就有可能被当成信息“噪声”过滤了,因此给信息的抽取与整合带来了一定的困难,针对碎片信息所固有的特点,考虑到信息的分享者是“人”,而非浏览器本身,对信息的抽取应该从浏览器给人的视觉分块出发,提出了一种基于CSS视觉分块的Web碎片信息抽取算法。首先对Web信息抽取的技术进行分析,其次基于CSS视觉分块的Web碎片信息抽取算法,然后通过实验对提出的算法进行验证与分析,最后对算法进行总结。
1 Web信息抽取技术
Web信息抽取的目的就是便于检索或者数据挖掘,从松散的、半结构化的Html网页中抽取出有价值的、隐含的数据信息,并将其结构化存入数据库中。这一概念最早是由Gwiederhold提出的[1]。相应地,Web碎片信息抽取就可以引申为:从无结构或半结构的Web碎片信息网页制取出用户关心的、有价值的信息片段,并形成结构化数据的过程[2]。
目前,有很多研究者在研究Web信息抽取的技术,力求达到准确、高效的效果。纵观目前关于Web信息抽取的研究成果,不难发现,抽取的效果取决于是否能准确找出Web页面中的抽取规则,即抽取规则的生成。通常有基于统计理论的抽取技术、基于DOM树的抽取技术及基于归纳的抽取技术。
基于统计理论的抽取技术是一种传统的抽取方法,主要思想是通过统计网页标签所包含的信息量或链接文本与普通文本的比值来获取网页的主题信息。如孙承杰等人提出的通过获取网页中的标签的源码信息,去掉所有的HTML标签,对文本的长短进行统计,长度较大的就是主题信息[3]。如Gupta等人提出利用链接文本与普通文本的比值来确定页面中的正文分块,如果普通文本比例较大,则认为是所要抽取的目标文本,否则认为是噪声(如广告信息)[4]。可针对Web信息碎片的抽取,这种方法有其局限性,因为Web信息碎片所占的比重小,有可能会被当作噪声去掉,会直接影响抽取算法的召回率。
基于DOM树的抽取技术是通过DOM解析器将Web页面解析为Dom语法树[5],Dom语法树的本质就是在内存中构建XML语法树,它主要包括根元素(Document Element)与节点(Node),其中Node能反映出所有Web页面的所有结构信息,包括文本信息与属性信息,方便了对各节点的操作。基于DOM树的Web信息抽取算法在抽取时先获取HTML源码,再经过预处理,构造XML语法树,然后去噪,最后根据需求抽取信息。如刘军等人提出的基于DOM的网页主题信息的提取技术[6],那赫提出的基于DOM的Web主题信息提取系统的设计与实现[7]。
基于归纳的抽取技术是基于样本训练的模式,假设某网站具有信息公用模板,并且此模板下生成了大量的页面,然后对这些页面进行样本训练,寻找出网页的结构及文本特征的变化规律,从而获得页面之间相对稳定的相似结构特征,发生变化的只有文本特征。以此来归纳内网页的统一公用模板,并利用公用模板抽取出页面的信息。如石倩等人提出的基于规则归纳的信息抽取系统实现[8]。但基于归纳的抽取技术需要大量的相似页面作为训练的对象,不适应一些页面较少的网站。
2 基于CSS视觉分块的Web碎片信息抽取算法
众所周知,HTML页面的编写具有很强的灵活性与随意性,不同的网页设计者可以按自己的方式设计页面,就导致了页面呈现出异构性,给信息的抽取带来了困难。但网页开发的目标是在浏览器上显示所设计的内容,把设计的视觉效果通过浏览器根据设计的CSS样式将其展现给用户
文档评论(0)