- 1、本文档共1页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于 DOM树的通用论坛抽取技术
邓 垦 胡 勇
(四川大学电子信息学院 四川 610065)
【摘 要】web论坛中蕴含着海量的信息资源,抽取论坛数据意义重大,因此本文提 出了一种基于DOM树的通用论坛
抽取方法,通过统计页面中的div标签频率,抽取出分布于各楼层 中的主题信息。该方法无需人工干预 ,能够实现完全的自
动化抽取。实验结果证明,该方法在bbs论坛网页抽取中具有较高的准确率和通用性。
【关键词】web论坛;抽取 ;DOM ;自动化
中图分类号:TP391.1 文献标识码:A 文章编号:1009—6833(2015)01-020—01
O 引言 ”[\、s】? le[^】? s\\S】? s]?\V 】?styte[~\s]?”、注
网络论坛作为互联网站点的一种重要组成部分,从最初的 释信息则可 以使用正则表达式”!一 w\\w\r\ 7一”进行清洗。
电子布告栏系统 (BulletinBoardSystem)发展到现在,我国中 1.2_3 生成抽取规则
文论坛数量已经超过 了百万个。每天都会有成千上万 的人在不 这一步的目标是在众多的div标签中,找到那些重复出现包
同的论坛交流信息,发表看法。多年的积累,使得论坛数据是 含着主题信息的divclass=xxx节点。首先,统计出页面中所有
一 个巨大的信息宝库。web论坛形式多样,内容布局不一。要 div标签的class属性的出现次数,生成一个次数集合,然后,将
实现论坛的数据抽取,就要解决一下两个问题: (1)不同于新 那些出现次数少于3次的作为噪声节点从集合中排出。接着,将
闻网页等单主题网页,论坛网页的正文信息分布于各个楼层之 集合中的元素依次随机取一个标签样本,计算该标签内容的锚文
中,每个楼层的作者、时间、内容等信息都不相同,抽取时应 本比例,将锚文本 比例为0的标签进行记录。如果最终只有一个
对每个楼层单独抽取。 (2)由于 div+css布局的兴起,网页风 标签样本的锚文本为0,则将该样本对应标签和统计集合中所有
格愈发的多样化,如何找到一种通用性强并且准确率高的抽取 出现次数与之接近的 (上下浮动3)都作为主题标签进行主题抽
方法是我们需要解决的问题。 取。如果出现多个标签样本的锚文本比例为0,则找出其中出现
1 基于DOM树的论坛信息抽取方法 次数在集合中重复最多的那个数字,集合中所有与该数字接近的
1.1 web论坛布局特点 (上下浮动3)对应标签都作为主题标签进行抽取。
目前,网站流行使用DIV+CSS进行网页布局。其中,DIV 2 实验分析
表示网页html源码中的div标签,CSS是层叠样式表的英文缩写。 为了验证抽取方法的正确性和通用性,在实验数据上选取
使用 DIV+CSS能够让网页布局模版化。通过预先编辑好一些 当前热度较高的十个论坛,每个论坛选择 100个页面,这些页
布局的模版,编写网页代码时在 html源码中插入标签div 面尽量取 自不同的版块。在评测标准上,考虑到论坛网页与一
class=”XXX”或者divid=”XXX” (XXX为预先编写好的CSS 般网页的区别,未使用 SEWM2008标准,即精确度和召回率来
类名或主键名)就可以直接调用预先编写好的模板。从而使网 评价。而是选择了抽取楼层比和楼层完整比这两个参数。其中,
页代码更加精简,编写网页更加的效率,也使得网页看起来更 抽取楼层LL=抽取到楼层数/实际楼层数,楼层完整LL=内容正确
加的规范整洁。 的楼层数/实际楼层数。最终测试结果如表 1所示 。
从视觉上看,论坛网页与新闻网页有着明显的区别。新闻
网页的主题内容往往集中在一起,主题信息周围被导航、广
文档评论(0)