一种DOM树标签路径和行块密度结合Web信息抽取方法.docVIP

下载本文档

15
0
约6.95千字
约 15页
2018-08-13 发布于福建
举报
版权申诉

一种DOM树标签路径和行块密度结合Web信息抽取方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种DOM树标签路径和行块密度结合Web信息抽取方法

一种DOM树标签路径和行块密度结合的Web信息抽取方法　　摘要：本文提出了一种标签路径和行块分布函数相结合的信息抽取方法来实现Web页面的信息抽取。该方法将Web页面解析成DOM树，使用视觉特征和标签过滤的规则将树进行剪枝，引入标签路径特征的方法粗略划分出网页的正文内容和噪音内容，最终使用行块分布函数的方法进行抽取，获得正文文本。实验结果表明，这种抽取方法有效地防止了正文内容误删及噪音内容漏删的现象，使得提取的正文信息更加准确，准确度达到91%，召回率达到95%，F值达到93%。本算法对于包含过多短文本的网页抽取的准确度还有待提高。　　关键词： DOM树；视觉特征；标签路径特征；行块分布函数　　中图分类号：TP391 　　文献标志码：A 　　文章编号：2095-2163（2017）04-0013-05 　　0引言　　Web页面是目前人们获取信息的主要方式之一，也是舆情监测、数据分析和处理的一个重要来源。常见的Web页面除了包含有用的正文信息外，还包含了大量的与正文主题无关的链接、图片、脚本等内容。因此，从纷杂的信息中快速准确地提取所需信息就显得尤为重要，Web页面的信息抽取也成为了研究的一个热点问题。　　刘秉权[1]等提出了基于DOM树的方法，根据HTML标签把网页解析为一颗树，在树上通过DES算法、MDR算法等应用算法抽取网页中有效信息。聂卉[2]等深入研究了一种基于GATE语义标注的Web信息自动抽取技术，这种技术通过领域本体对网页进行语义标注准确定位目标项，再通过从构建好的DOM树中抽取语义项的特征描述构建样本实例，最后运用归纳算法实现抽取。陈鑫[3]则重点探讨了在经过初步过滤后的HTML中，结合正文区的密度，以行为自变量，行块长度为因变量建立线性行块分布函数，通过分布函数图找出阈值，从而得到有效的正文内容。朱泽德[4]等建立了一个融合结构和语言特征的统计模型，利用高斯平滑运算对密度序列进行计算以获取平滑文本密度，再由最大子序列分割平滑文本密度抽取正文内容。张乃洲等[5]用节点密度熵为度量分割DOM树，再采用K最近邻标签传播的半监督法和SVM分类器对页面进行分类，抽取有用类。微软亚洲研究院[6]最早开展了基于视觉特征的信息抽取技术研究，可将人对一个网页的视觉感受作为依据，区分出不同主题的主题块，对所需主题块进行提取。孙璐等人[7]还在此方法基础上做出了实用升级改进，利用VIPS算法将去除无关信息的DOM树来拓展执行语义分块，而后根据位置特征找到基准块，以此作为中心，遍历DOM树找到所有相似块并引入抽取处理，提高了抽取效率。此外，还有基于模板的技术。顾韵华等人[8]在领域本体的引导下建立了双模板――DIV块模板和表格模板，可用其分别实现粗粒度和细粒度的信息抽取。郭少华等[9]基于模板提出正交过滤算法，过滤掉模板中的噪音信息，改善了生成的模板。随着研究的深入，后期出现了基于机器学习等多种抽取技术，在上述抽取方式中，以DOM树方法应用最为广泛。本文即在DOM树的基础上提出了一种根据标签特征、行块分布函数以及链接密度精确抽取正文的方法。研究设计内容可做如下论述。　　[BT4]1抽取系统实现框架　　本文致力于探讨的这种研究方法大致可分为3步。首先将经过规范化的网页解析成DOM树，由标签过滤和链接密度过滤的方式去除不必要的分枝，使一颗结构复杂的树简洁化。其次，遍历DOM树，对树中的所有标签路径、文本标签及标点个数提供数理运算统计，分别计算所有可到达文本长度之和与标签路径的比值和所有可到达标点路径之和与标签路径的比值，大致区分正文和噪音部分。最后，使用行块分布函数法对已划分出的正文和噪音完善推演、并设计进一步的过滤、抽取，最终能够高精度地从网页中抽取得到有效信息。　　[BT5]1.1构建DOM树　　DOM树具有结构性强，将无序网页有序化的特点，能够清晰地展示一个网页的结构。因此，为了使网页结构更加直观，方便正文抽取工作，首先可将网页转换成DOM树。设计过程可详述如下。　　1.1.1规范化HTML语法　　在将网页解析成DOM树前，需使用W3的HTML Validator工具检验HTML代码是否合法，对不合法的代码进行修正，获取规范的HTML文档。本文所采用的部分语法规范准则如表1所示。　　1.1.2解析DOM树　　通过标签属性对，将获取的HTML文档解析为一颗以html为根节点的DOM树，现以图1所示网页为例，解析后生成的DOM树结构如图2所示。　　1.2降噪处理　　初步构建好的DOM树分支多，其中大量分支放置着无意义内容，如脚本信息、链接广告等。这样的树若是不拓展设置降噪环节，不但会将之后正文抽取的工作复杂化，还会在一定程度上降低抽取的效率和精确度。本文用视觉特