- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于标签信息抽取预处理算法
基于标签信息抽取预处理算法
[摘 要]针对现有现有HTML网页的特点,提出了一种基于标签的Web 网页的清洗技术,该方法基于HTML各种标签的特点,对修饰性等与内容无关的标签进行清洗,首先界定清洗的规则,对可清洗的标签进行定义;然后根据清洗规则对HTML网页进行处理。本论文所提方法没有改变文档的半结构特点,使后续信息的抽取较之未改进有明显的优势。
[关键词]标签 规则 网页清洗
[中图分类号]S896.1[文献标识码]A[文章编号]1007-9416(2009)11-0107-02
1 引言
HTML是一种基于标签的网页开发语言,其开发的网页是一种半结构化的数据,可以根据标签来判定页面的实体内容。一个HTML文档由一系列的元素和标签组成,元素名不区分大小写,HTML用标签来规定元素的属性和它在文件中的位置。在HTML文档中,标签是成对出现的,开始标签和结束标签对每个元素来说是必须的,但由于网页浏览器的容错性,使得Web网页上的HTML很不规范,甚至出现一些错误的HTML标记文件,例如缺少匹配的结束标签等等,但是这在浏览器上仍然能正常的显示,这使得网页源码显得层次错乱,层次性很差,进而对Web信息的抽取造成了很大的障碍。另一方面,HTML文档中有相当一部分的内容,对于信息的提取没有意义,如一些脚本语言、标签属性、部分类型的标签和装饰性标签等等,这些都影响了信息抽取的效率和精确度。本文提出的基于标签的方法对提高信息抽取的效率和精确度有很好的改善。
2 清洗规则界定
针对HTML网页中大量的装饰性和无实际内容的标签,本文采取的方法,充分利用源码中标签的特点,可以准确地标记元素之间的嵌套关系。另外,为了删除页面上的噪音信息,提出了一种内容无关标签删除规则,对页面标签元素进行清洗。相关原则定义:
原则一:标签的属性删除,如;
原则二:注释、脚本语言、内联代码、命名空间和nbsp等内容删除,如;
原则三:内容为空的标签删除,如var _userid = ;var _siteid =2230;var _istoken = 1;var _model = Model03; WebPageSpeed =219; UrchinTrack();;
原则四:select和input及其相关的标签可删除;
原则五:具有隐藏属性的标签可删除,如hidden类型;
原则六:样式标签可删除,如style、font等;
原则七:超链接可删除,如。
以上原则构成可删除元素集合DELETE,需要声明的是,以上原则并不是固定的,可以根据需要对DELETE集合进行扩展和缩减。
3 清洗算法定义
根据上面的思想和可删除元素集合DELETE,本文给出一个网页清洗的算法,来根据源码标签实现网页的清洗,定义算法CleaningHTMLTool:
输入:HTML相关的源码HTMLSourse
输出:清洗后的HTML文档
结构算法:
Algorithm ClearningHTMLTool(prePtr, HTMLSourse)
(1) for each element curElem in HTMLSourse
(2) if(curElem in DELETE)
(3) delete curElem;
(4) while(outerElem’s content is null)
(5) prePtr=outerElem-parent;
(6) delete outerElem;//递归删除外层空标记
(7) update CleanedHTMLSource;
(8) else
(9) 输出此标签及信息;
(10) return CleanedHTMLSource;
本段代码描述了网页清洗的方法,首先将包含在集合DELETE中的可删除元素删除(代码2~3),代码4~7通过递归调用删除无主题内容信息的标签,并最终输出经过清理的HTML源码。上面的工作对源码清除了一些脚本语言、标签属性、部分类型的标签和装饰性标签等,为了更好的适应适应后续处理,需要对清洗后的源码进行相应的结构化处理,因为经过此算法清洗后的网页仍是一个半结构化的文档,仍需对其进行结构化处理。
4 结构化处理
在目前,绝大多数的Web网页采用HTML语法格式,其中包含文字、标记、图片和超链接等内容。HTML中的数据和格式由标记来封装,多数的标一记由一对起始标记和结束标一记组成,并且在文档中成对出现,例如和var _userid = ;var _siteid =
文档评论(0)