网页信息预处理题库.ppt

下载文档 降价啦

27
0
约1.22万字
约 66页
2017-02-25 发布于湖北
举报
版权申诉
保障服务

网页信息预处理题库.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

深圳大学未来媒体技术与计算研究所网页级别的优化 1．影响网页级别的因素（1）页面的特定因素（2）入链锚的文字内容（3）PageRank 这里页面的特定因素包是指：网页内容、标题内容和文档的URL。 * 深圳大学未来媒体技术与计算研究所网页级别的优化 2．PageRank值的范围 PageRank理论上拥有最大值（Nd+(1-d)），这里的N为互联网网页总数，d为通常被设为0.85，计算出的PageRank值和工具栏显示出的数值成一定的比例关系。普遍认同的是，它们之间的比例并非线性的，而是成对数关系。如果设阻尼系数d为0.85而PageRank的最低值为0.15（因为0.85+0.15=1），并且对数的基数为6，我们得到下表所示的比例关系。 * 深圳大学未来媒体技术与计算研究所 PageRank值的范围 * 深圳大学未来媒体技术与计算研究所网页级别的优化 3．网页级别的优化如图所示，为两组相同的网页，不同的是网页B和C之间有无链接。我们假设阻尼系数为0.5，则PR(X)/C(X)=10。 * 深圳大学未来媒体技术与计算研究所网页级别的优化（1）BC之间无链接时 PR(A) = 0.5 + 0.5 (10 + PR(B) + PR (C)) PR(B) = 0.5 + 0.5 (PR(A) / 2) PR(C) = 0.5 + 0.5 (PR(A) / 2) 得到： PR(A) = 8 PR(B) = 2.5 PR(C) = 2.5 （2）BC之间互相链接时 PR(A) = 0.5 + 0.5 (10 + PR(B) / 2 + PR(C) / 2) PR(B) = 0.5 + 0.5 (PR(A) / 2 + PR(C) / 2) PR(C) = 0.5 + 0.5 (PR(A) / 2 + PR(B) / 2) 得到： PR(A) = 7 PR(B) = 3 PR(C) = 3 * 深圳大学未来媒体技术与计算研究所网页内容的获取 1．正文分块正文具有分块保存的特性，因此我们引入文本块的概念，对于那些诸如P/P等标签间的文本认为是一个文本块。例如TD搜索引擎基础教程：第1章/TD 称为一个文本块。一般来说，网页会出现3种类型的文本块。（1）主题型文本块主题型文本块是大段文字的文本块，如：“TD搜索引擎基础教程：第1章/TD” （2）目录型文本块目录型文本块是描述链接的文本块，如：“a href=” ”搜索引擎基础教程：第1章/a” （3）图片型文本块图片型文本块是描述图片的文本块，如：“img src=” ”搜索引擎基础教程：第1章/img” * 深圳大学未来媒体技术与计算研究所网页内容的获取 2．投票算法目录型文本块和图片型文本块相对容易被区分；而主题型文本块中可能包含广告等其他内容，必须与正文相区别。判断哪个文本块是正文采用称为”投票算法”的计算方法，这种方法在搜索引擎中特别常用。投票算法的过程是：首先定义一系列规则，然后通过这些规则为每一个文本块打分。得分最高的被认是正文的可能性足够大，并且可以接受。 * 深圳大学未来媒体技术与计算研究所网页内容的获取 3．提取正文打分之后的工作就是将一个个文本块组织成一个正文。深度优先遍历DOM树并依次记录主题类型的文本块，即可得到该网页的正文。如图4-2所示，按照深度优先，我们可以依次提取文本块并按照顺序组织成正文“搜索引擎基础教程：第1章搜索引擎基础教程：第2章搜索引擎基础教程：第3章”。 * 深圳大学未来媒体技术与计算研究所 4.2 文本处理文本预处理文本词法分析中文分词 * 深圳大学未来媒体技术与计算研究所文本预处理的过程（1）文本的词法分析，它主要是对文本中的数字、连接符、标点符号和字符的大小写进行处理；（2）无用词汇的删除，它主要是过滤掉那些对于信息获取过程来说区分能力低的词汇；（3）词干提取，它主要是去除词缀（前缀和后缀），这样可以允许所获取的文档包含一些查询词条的变换形式；（4）索引词条/词干的选择，在选择的时候通常按照单词的习惯用法，实际上名词往往要比形容词、副词和动词包含更多的语义；（5）构造词条的分类结构，例如词典或者结构抽取，利用它可以进行查询的扩展。 * 深圳大学未来媒体技术与计算研究所文本的词法分析词法分析的过程是将字符串（文档中的文本）转换成词条的过程，这些词条可能被用来作为索引词条。因此词法分析的主要目的就是识别文本中的词条。在对英文进行分词的过程中，除了空格分隔符，还有几种特殊的情况要处理：数字、连字符、标点符号和字母的大小写。数字一般不适合用作索引词条，因为对于数字来说，如果不参考上下文，它就没有明确的含义。 * 深圳大学未来媒体