- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
深圳大学未来媒体技术与计算研究所 网页级别的优化 1.影响网页级别的因素 (1)页面的特定因素 (2)入链锚的文字内容 (3)PageRank 这里页面的特定因素包是指:网页内容、标题内容和文档的URL。 * 深圳大学未来媒体技术与计算研究所 网页级别的优化 2.PageRank值的范围 PageRank理论上拥有最大值(Nd+(1-d)),这里的N为互联网网页总数,d为通常被设为0.85,计算出的PageRank值和工具栏显示出的数值成一定的比例关系。普遍认同的是,它们之间的比例并非线性的,而是成对数关系。如果设阻尼系数d为0.85而PageRank的最低值为0.15(因为0.85+0.15=1),并且对数的基数为6,我们得到下表所示的比例关系。 * 深圳大学未来媒体技术与计算研究所 PageRank值的范围 * 深圳大学未来媒体技术与计算研究所 网页级别的优化 3.网页级别的优化 如图所示,为两组相同的网页,不同的是网页B和C之间有无链接。我们假设阻尼系数为0.5,则PR(X)/C(X)=10。 * 深圳大学未来媒体技术与计算研究所 网页级别的优化 (1)BC之间无链接时 PR(A) = 0.5 + 0.5 (10 + PR(B) + PR (C)) PR(B) = 0.5 + 0.5 (PR(A) / 2) PR(C) = 0.5 + 0.5 (PR(A) / 2) 得到: PR(A) = 8 PR(B) = 2.5 PR(C) = 2.5 (2)BC之间互相链接时 PR(A) = 0.5 + 0.5 (10 + PR(B) / 2 + PR(C) / 2) PR(B) = 0.5 + 0.5 (PR(A) / 2 + PR(C) / 2) PR(C) = 0.5 + 0.5 (PR(A) / 2 + PR(B) / 2) 得到: PR(A) = 7 PR(B) = 3 PR(C) = 3 * 深圳大学未来媒体技术与计算研究所 网页内容的获取 1.正文分块 正文具有分块保存的特性,因此我们引入文本块的概念,对于那些诸如P/P等标签间的文本认为是一个文本块。例如TD搜索引擎基础教程:第1章/TD 称为一个文本块。一般来说,网页会出现3种类型的文本块。 (1)主题型文本块 主题型文本块是大段文字的文本块,如:“TD搜索引擎基础教程:第1章/TD” (2)目录型文本块 目录型文本块是描述链接的文本块,如:“a href=” ”搜索引擎基础教程:第1章/a” (3)图片型文本块 图片型文本块是描述图片的文本块,如:“img src=” ”搜索引擎基础教程:第1章/img” * 深圳大学未来媒体技术与计算研究所 网页内容的获取 2.投票算法 目录型文本块和图片型文本块相对容易被区分;而主题型文本块中可能包含广告等其他内容,必须与正文相区别。判断哪个文本块是正文采用称为”投票算法”的计算方法,这种方法在搜索引擎中特别常用。 投票算法的过程是:首先定义一系列规则,然后通过这些规则为每一个文本块打分。得分最高的被认是正文的可能性足够大,并且可以接受。 * 深圳大学未来媒体技术与计算研究所 网页内容的获取 3.提取正文 打分之后的工作就是将一个个文本块组织成一个正文。深度优先遍历DOM树并依次记录主题类型的文本块,即可得到该网页的正文。如图4-2所示,按照深度优先,我们可以依次提取文本块并按照顺序组织成正文“搜索引擎基础教程:第1章搜索引擎基础教程:第2章搜索引擎基础教程:第3章”。 * 深圳大学未来媒体技术与计算研究所 4.2 文本处理 文本预处理 文本词法分析 中文分词 * 深圳大学未来媒体技术与计算研究所 文本预处理的过程 (1)文本的词法分析,它主要是对文本中的数字、连接符、标点符号和字符的大小写进行处理; (2)无用词汇的删除,它主要是过滤掉那些对于信息获取过程来说区分能力低的词汇; (3)词干提取,它主要是去除词缀(前缀和后缀),这样可以允许所获取的文档包含一些查询词条的变换形式; (4)索引词条/词干的选择,在选择的时候通常按照单词的习惯用法,实际上名词往往要比形容词、副词和动词包含更多的语义; (5)构造词条的分类结构,例如词典或者结构抽取,利用它可以进行查询的扩展。 * 深圳大学未来媒体技术与计算研究所 文本的词法分析 词法分析的过程是将字符串(文档中的文本)转换成词条的过程,这些词条可能被用来作为索引词条。因此词法分析的主要目的就是识别文本中的词条。 在对英文进行分词的过程中,除了空格分隔符,还有几种特殊的情况要处理:数字、连字符、标点符号和字母的大小写。 数字一般不适合用作索引词条,因为对于数字来说,如果不参考上下文,它就没有明确的含义。 * 深圳大学未来媒体
文档评论(0)