06Web搜索精要.ppt

下载文档 降价啦

2
0
约2.59万字
约 139页
2016-11-18 发布于湖北
举报
版权申诉
保障服务

06Web搜索精要.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

* * * * * * * * * * 网页预处理正文提取核心算法: 用光师兄发现、文勖修正正文后处理 * * * * * 解决方法 – 核心算法 * 如果判断方法采用a标签所占比例数时如果table中的p包含链接时会误删某一段正文，例如p中只含有一个a标签包含的链接以及一段正文文字。如果判断方法采用a标签所占比例数时如果table中的p包含链接时会误删某一段正文，例如p中只含有一个a标签包含的链接以及一段正文文字。如果只用a包含的文字数所占比例会多提取一些噪声，比如一个不是正文的p包含链接信息以及不是链接的时间信息，而时间信息文字比较长，就会把它当作正文来提取了 * 如果判断方法采用a标签所占比例数时如果table中的p包含链接时会误删某一段正文，例如p中只含有一个a标签包含的链接以及一段正文文字。如果判断方法采用a标签所占比例数时如果table中的p包含链接时会误删某一段正文，例如p中只含有一个a标签包含的链接以及一段正文文字。如果只用a包含的文字数所占比例会多提取一些噪声，比如一个不是正文的p包含链接信息以及不是链接的时间信息，而时间信息文字比较长，就会把它当作正文来提取了 * 引入正文间最大链接个数可以去除尾部含有相关链接+关于此链接的摘要（含标点）这种情况的噪声。因为正文和这种摘要之间大部分情况下都会有链接群或者分隔线(div、hr)或者各种按钮(input、form) * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 构造子图对一个特定的Q,从标准的搜索引擎返回的文档集合作为根集R 对R初始化 S 将指向R中任意网页的所有网页加入到S中将所有被R中网页所指的网页加入到S中 R S 迭代算法采用迭代算法收敛互指的hubs 和 authorities集合. 保证每个网页p ? S: Authority score: ap (vector a) Hub score: hp (vector h) HITS 更新规则权威网页被许多好的中心性网页所指: 中心性网页指向许多好的权威网页: 更新规则说明 5 7 6 2 3 a4 = h1 + h2 + h3 1 4 4 h4 = a5 + a6 + a7 迭代算法以S中的Hub网页为顶点集Vl，以权威网页为顶点集V2，对V1中的任一个顶点v，用h(v)表示网页v的Hub值，对V2中的顶点u，用a(u)表示网页的Authority值。开始时h(v)＝a(u)＝1，对u执行I操作修改它的a(u)，对v执行O操作修改它的h(v)，然后规范化a(u),h(v),如此不断的重复计算下面的操作I，O，直到a(u),h(v)收敛。 HITS算法的公式 I 操作： O操作：每次迭代后要进行归一化收敛性如果无限迭代算法会收敛到一个固定点. 定义A是S定义的子图的邻接矩阵. Aij = 1 for i ? S, j ? S iff i?j 权威向量, a, 收敛到 ATA的主特征向量中心向量, h, 收敛到 AAT 的主特征向量一般情况下, 20次迭代就可以产生十分稳定的结果. Results Authorities for query: “Java” comp.lang.java FAQ Authorities for query “search engine” Y E L A Authorities for query “Gates” M 根据链接结构寻找相似网页给定网页P,令R(根集)中t (e.g. 200) 个网页指向P. 从R中获得基集S. 在S上运行 HITS. 返回S中最好的权威网页作为P的最相似网页. 相似网页结果 Given “” PageRank与Hits算法它们都利用了网页和超链组成的有向图，根据相互链接的关系进行递归的运算。但是，两者又有很大的区别，主要在于运算的时机 Google是在网页搜集告一段落时，离线的使用一定的算法计算每个网页的权值，在检索时只需要从数据库中取出这些数据即可，而不用做额外的运算，这样做的好处是检索的速度快，但丧失了检索时的灵活型。 HITS使用即时分析运算策略，每得到一个检索，它都要从数据库中找到相应的网页，同时提取出这些网页和链接构成的有向子图，再运算获得各个网页的相应链接权值。这种方法虽然灵活性强，并且更加精确，但在用户检索时进行如此大量的运算，检索效率显然不高。链接分析技术小结提供了一种衡量网页质量的客观方法独立于语言，独立于内容，不需人工干预就能自动发现WEB上重要的资