06Web搜索精要.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * * * * * * * * 网页预处理 正文提取核心算法: 用光师兄发现、文勖修正 正文后处理 * * * * * 解决方法 – 核心算法 * 如果判断方法采用a标签所占比例数时如果table中的p包含链接时会误删某一段正文,例如p中只含有一个a标签包含的链接以及一段正文文字。 如果判断方法采用a标签所占比例数时如果table中的p包含链接时会误删某一段正文,例如p中只含有一个a标签包含的链接以及一段正文文字。 如果只用a包含的文字数所占比例会多提取一些噪声,比如一个不是正文的p包含链接信息以及不是链接的时间信息,而时间信息文字比较长,就会把它当作正文来提取了 * 如果判断方法采用a标签所占比例数时如果table中的p包含链接时会误删某一段正文,例如p中只含有一个a标签包含的链接以及一段正文文字。 如果判断方法采用a标签所占比例数时如果table中的p包含链接时会误删某一段正文,例如p中只含有一个a标签包含的链接以及一段正文文字。 如果只用a包含的文字数所占比例会多提取一些噪声,比如一个不是正文的p包含链接信息以及不是链接的时间信息,而时间信息文字比较长,就会把它当作正文来提取了 * 引入正文间最大链接个数可以去除尾部含有相关链接+关于此链接的摘要(含标点)这种情况的噪声。因为正文和这种摘要之间大部分情况下都会有链接群或者分隔线(div、hr)或者各种按钮(input、form) * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 构造子图 对一个特定的Q,从标准的搜索引擎返回的文档集合作为根集R 对R初始化 S 将指向R中任意网页的所有网页加入到S中 将所有被R中网页所指的网页加入到S中 R S 迭代算法 采用迭代算法收敛互指的hubs 和 authorities集合. 保证每个网页p ? S: Authority score: ap (vector a) Hub score: hp (vector h) HITS 更新规则 权威网页被许多好的中心性网页所指: 中心性网页指向许多好的权威网页: 更新规则说明 5 7 6 2 3 a4 = h1 + h2 + h3 1 4 4 h4 = a5 + a6 + a7 迭代算法 以S中的Hub网页为顶点集Vl,以权威网页为顶点集V2, 对V1中的任一个顶点v,用h(v)表示网页v的Hub值,对V2中的顶点u,用a(u)表示网页的Authority值。 开始时h(v)=a(u)=1,对u执行I操作修改它的a(u),对v执行O操作修改它的h(v),然后规范化a(u),h(v),如此不断的重复计算下面的操作I,O,直到a(u),h(v)收敛。 HITS算法的公式 I 操作: O操作: 每次迭代后要进行归一化 收敛性 如果无限迭代算法会收敛到一个固定点. 定义A是S定义的子图的邻接矩阵. Aij = 1 for i ? S, j ? S iff i?j 权威向量, a, 收敛到 ATA的主特征向量 中心向量, h, 收敛到 AAT 的主特征向量 一般情况下, 20次迭代就可以产生十分稳定的结果. Results Authorities for query: “Java” comp.lang.java FAQ Authorities for query “search engine” Y E L A Authorities for query “Gates” M 根据链接结构寻找相似网页 给定网页P,令R(根集)中t (e.g. 200) 个网页指向P. 从R中获得基集S. 在S上运行 HITS. 返回S中最好的权威网页作为P的最相似网页. 相似网页结果 Given “” PageRank与Hits算法 它们都利用了网页和超链组成的有向图,根据相互链接的关系进行递归的运算。 但是,两者又有很大的区别,主要在于运算的时机 Google是在网页搜集告一段落时,离线的使用一定的算法计算每个网页的权值,在检索时只需要从数据库中取出这些数据即可,而不用做额外的运算,这样做的好处是检索的速度快,但丧失了检索时的灵活型。 HITS使用即时分析运算策略,每得到一个检索,它都要从数据库中找到相应的网页,同时提取出这些网页和链接构成的有向子图,再运算获得各个网页的相应链接权值。这种方法虽然灵活性强,并且更加精确,但在用户检索时进行如此大量的运算,检索效率显然不高。 链接分析技术小结 提供了一种衡量网页质量的客观方法 独立于语言,独立于内容,不需人工干预就能自动发现WEB上重要的资

文档评论(0)

阿里山的姑娘 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档