1. 1、本文档共97页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Web搜索

* * * * * * * * * 网页预处理 正文提取核心算法: 用光师兄发现、文勖修正 正文后处理 * * * * * 解决方法 – 核心算法 * 如果判断方法采用a标签所占比例数时如果table中的p包含链接时会误删某一段正文,例如p中只含有一个a标签包含的链接以及一段正文文字。 如果判断方法采用a标签所占比例数时如果table中的p包含链接时会误删某一段正文,例如p中只含有一个a标签包含的链接以及一段正文文字。 如果只用a包含的文字数所占比例会多提取一些噪声,比如一个不是正文的p包含链接信息以及不是链接的时间信息,而时间信息文字比较长,就会把它当作正文来提取了 * * * * * * * * * * * * * * * * * * * * * * * * PageRank与Hits算法 它们都利用了网页和超链组成的有向图,根据相互链接的关系进行递归的运算。 但是,两者又有很大的区别,主要在于运算的时机 Google是在网页搜集告一段落时,离线的使用一定的算法计算每个网页的权值,在检索时只需要从数据库中取出这些数据即可,而不用做额外的运算,这样做的好处是检索的速度快,但丧失了检索时的灵活型。 HITS使用即时分析运算策略,每得到一个检索,它都要从数据库中找到相应的网页,同时提取出这些网页和链接构成的有向子图,再运算获得各个网页的相应链接权值。这种方法虽然灵活性强,并且更加精确,但在用户检索时进行如此大量的运算,检索效率显然不高。 链接分析技术小结 提供了一种衡量网页质量的客观方法 独立于语言,独立于内容,不需人工干预就能自动发现WEB上重要的资源 挖掘出WEB上重要的社区,自动实现文档分类 链接分析技术小结(影响因素) 根集的质量。根集质量应该是很高的,否则,扩展后的网页集会增加很多无关的网页,产生主题漂移,主题泛化等一系列的问题,计算量也增加很多。算法再好,也无法在低质量网页集找出很多高质量的网页。 噪音链接。WEB上不是每个链接都包含了有用的信息,比如广告,站点导航,赞助商,用于友情交换的链接,对于链接分析不仅没有帮助,而且还影响结果。如何有效的去除这些无关链接,也是算法的一个关键点。 * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 提取正文 第三步:提取正文 对于最大权重正文块: 遍历此正文块所有节点 计算每个节点噪声权重 如果噪声权重小于阈值则提取 使用这种方法可以减少噪声 提取标题 同一个网站标题一般存放在统一的标签里 对于一般网页直接提取title标签内容并删除掉一些噪声词(如:_新浪体育等),噪声词存放在配置文件中 对于标题不放在title中的网站:在可配置文件中定义特定网站名和此网站标题所在的标签以及属性来抽取特定标签中的内容 相关排序 搜索引擎的排序最为重要 排序很重要 65%一70%的网民点击搜索结果的第一页 20%-25%的网民点击搜索结果第二页 3%-4%的网民点击其他的网页 排序算法为各公司的机密。 Google 拥有PageRank技术 全球最大的中文搜索引擎—百度之所以能脱颖而出,在短短的几年时间内飞速发展,就是因为它们都拥有自己的核心技术:百度拥有超链分析技术。 传统的相关排序技术 文档d和查询q的相关性可以由它们包含的共有词汇情况来刻画 对于网页近似为普通的文本,采用上述方法 该方法只考虑网页中用户可见的文字部分,忽略标记和超链等内容 早期的基于词频和位置的排序 早期的搜索引擎结果排序都是基于这一思想的,如Infoseek, Excite, Lycos等 词频的加权 VSM等模型 词位置的加权 网页标题元、网页描述/关键字元、正文标题、正文内容、文本链接、ALT标识等,版式包括:字体、字号、有无加粗强调等 网页和普通文本的不同 HTML标签 HTML设计有丰富的标签,主要追求的是视觉效果 网页的字体、布局等等标签能给我们提示其中文字的重要程度 许多著名搜索引擎在网页的预处理阶段记录了这些信息,并用于结果排序。例如Alta Vista, Inktomi, Excite, Infoseek等等 网页和普通文本的不同(续) 网页之间的超链接 链接反映的是网页之间形成的“参考”、“引用”和“推荐”关系 可以合理的假设,若一篇网页被较多的其他网页链接,则它相对较被人关注,其内容应该是较重要、或者较有用 因此,可以认为一个网页的“入度”(指向它的网页的个数)是衡量它重要程度的一种有意义的指标。这和科技论文的情况类似,被引用较多的就是较好的文章 同时,人们注意到,网页的“出度”(从它连出的超链个数)对分析网上信息的状况也很有意义的,因此可以考虑同时用两个指标来衡量网页 链接分析技术分类 基于随机漫游模

文档评论(0)

676200 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档