一种基于语义Web挖掘方法探究.docVIP

  • 0
  • 0
  • 约3.12千字
  • 约 7页
  • 2017-11-28 发布于福建
  • 举报
一种基于语义Web挖掘方法探究

一种基于语义Web挖掘方法探究   摘要:在已有的基于DomTree的网页信息提取算法基础上,通过对Html标签进行分类,逐个分析各Html标签所包含的结构信息,设计了一种自底向上的网页分块方法,并在此基础上,实现了文本相似度比较的网页主题内容信息块识别算法,提高了主题内容信息块的识别精确度。 关键词:语义Web;Web挖掘;网页分块 中图分类号:TP311.5 文献标识码:A 文章编号文章编号2014)001005402 基金项目基金项目:国家科技支撑计划项目(2012BAH27B03);石河子大学自然科学与技术创新联合资助一般项目(ZRKXYB-LH23) 作者简介作者简介:李伟(1980-)男,硕士,石河子大学信息科学与技术学院讲师,研究方向为Web开发技术、计算机网络。 0 引言 面对互联网海量的信息,政府机关、企事业单位和研究机构都迫切希望获取与自身工作相关的有价值信息,如何方便快捷地获取这些信息就变得至关重要了。本文探讨了一种网页分块方法,能识别出网页中的主题内容信息块,从而提取出有价值的主题内容。这种方法可以去除网页中的噪音,极大地方便后续数据挖掘与Web分析。 1 研究现状 语义信息主要包括网页中包含的HTML标签信息、HTML DOM树的结构信息、文字内容信息、超链接信息等,现有网页分块算法是在网页分块的过程中完成内容提取的[1]。SiteLevel算法实现了分析一个网站或者网页集内部的所有网页,从中提取导航栏、广告等噪音信息。采用正则表达式来改进SiteLevel算法则增加了算法的召回率[2]。PageLevel算法能够适应各种不同网页结构的内容抽取,算法通过提取一些网页节点来完成分块工作[3,4],以上工作需要给出标准的网页分块[5],其对不标准的分块效果不理想。 2 语义挖掘算法 2.1 网页分块方法 在借鉴上述研究基础上,本文分析了W3C制定的HTML4.01格式规范,将所有规范的Html标签进行分类,分类标签如表1所示。 在明确了各html标签的类别之后,利用DomTree中各标签节点的类别信息和内部文字长度,以及其子标签节点的类别信息,对DomTree自底向上遍历,在遍历的过程中不断判断出新的网页块,并加入网页块池中,当遍历到最上部的html根节点时,算法结束,网页分块完毕。分块方法的核心伪码如下: INPUT : 某单个网页构建的DomTree,定制标签节点列表 BEGIN ①用DomTree的叶子节点,也就是文字节点建立一个当前节点队列,开始自底向上遍历; ②取当前节点队列的第一个节点; ③如果遇到S型节点,则立即将此节点加入网页块池; ④如果遇到C型节点,则立即将此节点加入网页块池; ⑤如果遇到B型节点,则判断该节点内部的文字长度是否已超过阈值,或者该节点内部的L型节点比例是否超过阈值,如果满足上述两个条件之一,则将此节点加入网页块池;否则将其内部文字长度信息和自身信息向父节点传递,然后将父节点加入当前节点队列,回到②; ⑥如果遇到L型节点,则将其内部文字长度信息和其自身信息向父节点传递,然后将父节点加入当前节点队列,回到②; ⑦如果遇到D型或A型节点,则将其内部文字长度信息向父节点传递,然后将父节点加入当前节点队列,回到②; ⑧当前节点队列为空时,遍历结束,算法终止。 END 2.2 挖掘算法 采用基于规则和基于Bayes的语义分析相交的方法判断每个网页块的类型,然后对它们求交集,只有两个方法共同认定的主题内容块才能最终被认定。算法的伪码阐述如下: 2.2.1 基于文本相似度的方法 (1)首先,把所有网页块中,文本长度最大的那个网页块判定为主题内容块。 (2)用其余网页块逐个与最大的网页块比较文本相似度。文本相似度的计算如下: ① 将两个网页块分别切词,去除停用词后,存储成token流;②对两个token流分别排序;③ 对排序后的两个token流计算token的重复数; ④ 用token的重复数除以较小的token流中的token个数,得到两个网页块的文本相似度。 (3)若文本相似度大于一个阈值,则该网页块也判定为主题内容块。 2.2.2 基于Bayes的方法 利用Bayes概率的计算公式,计算出每个网页块是不是主题内容块的后验概率。若该后验概率大于0.5,则判定该网页块为主题内容块,否则反之。 2.2.3 求交 两个方法共同判定的主题内容块即为最后认定的主题内容块。 3 系统设计 语义挖掘的目的就是把对方网站上网页中的某块文 字或者图片等资源下载到自

文档评论(0)

1亿VIP精品文档

相关文档