- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于内容的Web网页信息处理方法.pdf
基于内容的Web 网页信息处理方法
杜娟,关泽群
(武汉大学遥感信息工程学院,湖北武汉 430079)
dusongjuan@ zequng@
摘 要:本文提出了一种新的基于内容的网页信息处理方法:利用顺序滤波直接对网页
页面内容进行过滤处理,再根据设置的阈值将过滤后的网页页面变为黑白页面,从而提取
出网页中的图像信息。对多个包含图像信息的网页进行处理的结果表明此方法能较有效的
提取出网页中的图像信息。基于此方法和网页文本信息提取方法的不同原理,还尝试构建
了一种基于内容的网页信息处理系统。
关 键 词:Internet;信息提取;顺序滤波;图像信息
1 引言
自从WWW1991 年诞生以来,已经发展成为拥有近亿用户和约400 万站点、3 亿页面的
巨大分布式信息空间,而且其信息容量仍在以指数形式飞速增长。用户在享受它方便和快
捷的同时,也为其所包含的庞大芜杂的信息所淹没,人们要在日益增加的浩瀚的信息资源
中找出自己需要的内容,无异于大海捞针。如何快速从Internet 上庞大芜杂的信息中找
到自己感兴趣的有用信息已成为一个很重要、迫切的问题。
目前大多数运行在Internet 上的信息过滤和信息提取系统主要是处理文本信息,有
关图像信息过滤与提取方面的研究较少。本文提出了一种新的基于内容的网页信息处理方
法,利用顺序滤波从网页页面中的图文混合信息中提取出图像信息。
2 Web 网页文本信息的提取与过滤
2.1 网页信息的基本特征
(1)文本前有明显的标识符。在忽略图像和表格等数据的情况下,通常可将HTML 信息
分成两部分:一是起控制作用的标识符(TagString),由“〈”和“〉”以及它们中间的字串
组成,如〈TITLE〉;二是文本字串,即浏览网页时所看到的字符。一对标识符之间的空间称
为容器(Container),容器中可填入文本字串。
(2)完整句少。大多数网页中,文本字串不是很多,因而完整的句子少,语义上的跳
跃性比较大,给文本的分析造成了一定难度。
(3)文本属性信息较为丰富。与纯文本不同,网页中的文本可以具有丰富的属性,如
颜色、字体、是否加粗等。
(4)结构信息明显。在HTML 文档中,识别标题、段首句等结构信息都用特定的标识符
来标明。
2.2 对网页文本信息的提取与过滤
一种较常用的网页文本信息提取和过滤方法是采用布尔模型对文本信息进行处理。该模
型的过滤方法是:用户把表示网页信息的关键词构成布尔表达式作为信息查询条件,在一次
查询中,如果两个关键词之间用AND 相关联,则在过滤后的网页中必须同时包含这两个关键
词,若用OR 相关联,则只要有一个关键词包含在过滤后的网页中即可。
由于网页中的图像信息是以图像超链接的形式呈现给用户的,因此这种基于HTML 文档
结构的信息处理方法不能提取出图像信息。
输入网页的源代码
图像信息 文本信息
输入关键词,构建布尔表达式
逐行寻找标识符的符号
去除标识符中包含的字符串
提取出一对标识符之间的文字
输出符合表达式的文本信息
图1 网页文本信息提取程序流程图
将某大学主页的源代码以文本文件形式输入到程序中,输出结果如下图所示:
图2
文档评论(0)