- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于背景Web广泛主题发现方法
基于背景Web广泛主题发现方法
摘要:提出了一种主题背景的概意,认为Web上的所有内容都有一个背景分布,通过此背景分布可以发现Web广泛主题:主要介绍了几种基于背景的广泛主题发现方法,同时也指出这些方法的不足和发展方向。
关键词:背景 广泛主题 噪声 过滤
中图分类号:TP393 文献标识码:A 文章编号:1002-2422(2010)02-0080-02
背景信息方便了从互联网上提取知识,例如:(1)在搜索引擎中使用Web背景链接信息,能够缩小查询范围,快速定位到用户所需的知识;(2)门户网站通过识别和区分这些背景,可以更有效地组织目录层次,使得互联网的自动分类成为可能;(3)研究和发现这些背景可以深入了解互联网的进化过程。基于链接分析的背景分析的基础是将Web看作有向图G=。v是指顶点集,每个顶点表示Web上的一个页面,E是指边集,每个表示页面间的链接。通过分析图内蕴涵的背景链接结构特征和语义关系来发现背景。图1是背景分布抽象图。
1 基于页面重要性分析的PageRank算法
PageRank算法是建立在基于重要度传递关系构造的机游动模型上的。基本思想是:如果存在从页面p到的链接,页面p的作者含蓄地将页面p的部分重要度赋予q,用户在Web上的随机漫步(即有两种途径进入页面p),或以概率d随意地选择p,或是以1-d的概率从沿着其他网的链接中到达页面p。该算法的收敛速度较快,收敛过程可以在不超过100次的递归内完成。PageRank算法是一个著名的页面重要性分析算法,且与主题无关。有学者认为用户浏览的游动模型是基于主题的:选择任意一个与自己感兴趣的主题相关的页面进入,然后沿着链接到达与该主题相关的其他页面。根据这一思想,算法可以发现与主题相关的背景,但是这种算法只能发现一个背景,即确定大于阈值的页面是背景的成员,而小于阈值的页面不属于社区。PageRank算法中,假设Web上有一个随机的浏览者,这个随机的浏览者从一个任意给定的页面出发,按照页面上的链接前进,在每一个页面,浏览者都有可能不再对其页面的链接感兴趣,从而随机选择一个新的页面开始新的浏览,对于某一网页A,设定一个名为Pagerank的值表示浏览者访问到页面A的概率。系统全局地为每个页面计算一个Pagerank的值,作为页面的质量评分。评价一个网页的价值仅仅看被链接的网页的数量是不够的,因为如果一个网页被大量低质量的网页链接不能表示它就比一个被少量高质量网页链接的网页质量高,所以PageRank算法采取了迭代的思想,即在测度每个链接到特定网页的链接时,要考察链接起点网页的质量。
通过PageRank算法,可以很好的衡量网页的重要性,从而可以决定一个页面是否为背景的成员,从而达到发现广泛主题的目的。
2 基于共引用与共耦合关系的背景发现方法:HITS技术
hub/authority方法的基本思想是:Web页面可分为两种类型,即目录型页面和权威页面。权威页面是指人们公认的在某一主题上内容权威的页面,中心页面是指页面上有很多指向权威页面链接的页面。中心页面与权威页面因此形成一个相互加强的关系:好的目录型页面指向许多好的权威页面,而好的权威页面被许多好的目录型页面所指。这种关系将Web页面描述成一个稠密的二分图,权威型网页对于一个特定的检索,能提供最好的相关信息,目录型网页提供很多指向其它高质量权威型网页的超链接。
此方法可以发现特定主题的权威页面,从而找到广泛主题背景。3基于完全二分图背景核的方法
基于完全二分图核的算法是建立在Web页面上集中页面与权威页面的二分图关系上的。从二分有向图的角度对互联网上的广泛主题给出了一种明确的定义描述。根据随机二分图的理论,一个足够大而稠密的随机二分图将以很高的概率包含一个完全二分有向图,那么如果将某个包含广泛主题的网页的链接结构看作一个大而稠密的二分有向图,则背景的核就可以用一个完全二分有向图来表示。具体到互联网环境中,可以对上述概念有如下直观的理解:如果在互联网上存在一个某种主题的背景,那么这种二分的核必将包含在其中。
基于该方法提取的Web背景核心是主题相关的,且通常不是已存在的Web目录的部分,故反映了核心是Web背景的自然表现。但该方法提取的是背景核心,无法确定背景的边界,且无法确定层次化的背景树。
4 基于背景内容过滤的web广泛主题发现方法
Web广泛主题的简洁性将主题的长度限制在词和词组级别,时效性则使得一些主题词汇因为尚未收录进词典而被切分成碎片。无论这二者中的任意一种,都能够通过切分结果的拼接获得。因此,切分结果的拼接将作为广泛主题发现的基础。
在用语习惯上,对于时常谈及的主
文档评论(0)