- 1、本文档共30页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* * 网络机器人(Web robot)又叫做网络爬虫(Web crawler)、网页蜘蛛(Web spider),它是一个自动提取网页的程序,它为搜索引擎从Internet网上下载网页,是搜索引擎的重要组成部分。爬虫的作用是为搜索引擎抓取大量的数据,抓取的对象是整个互联网上的网页。网络爬虫在搜索引擎中占有重要位置,对搜索引擎的查全、查准都有影响,决定了搜索引擎数据容量的大小,而且网络爬虫的好坏直接影响搜索结果页中的死链接的个数。 * 1.关键词能够代表网页源文件内容的一些特征,其提取是预处理阶段的一个基本任务; 2.重复或转载网页对网民来说有正面意义,因为有了更多的信息访问机会,但对于搜索引擎来说,主要是负面的,因为不仅消耗机器时间和网络带宽资源,也会引来用户的抱怨。因此,重复或转载网页的消除是预处理阶段的一个重要任务。 3.HTML文档中所含的指向其他文档的链接信息不仅给出了网页之间的关系,而且还对判断网页的内容有很重要的作用。 4.重要程度的计算是在预处理阶段形成的,因此和用户查询无关,其核心思想是”被引用多的就是重要的“。 * 1.语词是信息表达的最小单位,由于语词切分中存在切分歧义,切分需要利用各种上下文知识。语词词法分析是指识别出各个语词的词干,以便根据词干建立信息索引。 2.词性标注是指利用基于规则和统计(马尔科夫链)的科学方法对语词进行标注。自然语言处理是运用计算机对自然语言进行分析和理解,从而使计算机在某种程度上具有人的语言能力。将自然语言处理应用在信息检索中,可以提高信息检索的精度和相关性。 3.使用倒排文件的方式建立检索项索引,一般包括”检索项“、”检索项所在文件位置信息“以及”检索项权重“等内容。 4.搜索引擎的检索结果通常包含大量文件,用户不可能一一浏览,因此搜索引擎一般按与查询的相关程度对检索结果进行排列,最相关的文件通常排在最前面。搜索引擎确定相关性的方法有概率方法、位置方法、摘要方法、分类或聚类方法等。 * 1.文本的词法分析主要是对文本中的数字、连接符、标点符号和字符的大小写进行处理,将文本分割成单词序列; 2.无用词汇的删除主要是过滤掉那些对于信息获取过程来说区分能力低的词汇; 3.词干提取是把所有同根的词变成统一的词根形式; 4.索引词条/词干的选择,在选择的时候通常按照单词的习惯用法,实际上名词往往要比形容词、副词和动词包含更多的语义; 5.构造词条的分类结构,例如词典或者结构抽取,利用它可以进行查询的扩展。 * 例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词的结果是:我/是/一个/学生。 * 数字一般不作为索引词的例子。例如,用户要查询2000年到2009年间有关信息产业发展方面的网页,查询中的数字2000和2009可能导致检索出只涉及这两年的网页,而遗漏这两年之间的重要网页,所以,有时候可忽略查询中的数字信息。但对于电话号码,信用卡号等数字序列,如果忽略数字,则可能查到无意义的网页,所以这时,数字应该作为关键词。 * * 1.二分法举例。对“北京邮电大学”进行二分法切分,结果为“北京/京邮/邮电/电大/大学”。 2.词库分词举例。例如词库中已经存在“天生我材必有用”这个词时,分词器就会把它当作一个词条加入索引。 * 以“计算机科学和工程”为例说明正向最大匹配法。假设词库中最长词为7字词,于是先取“计算机科学和工”为匹配字段来匹配分词词库,由于词库中没有该词,故匹配失败,去掉最后一个字成为“计算机科学和”,重新匹配词库,同样匹配失败,取“计算机科学”作为新的匹配字段来匹配词库,由于词库中有“计算机科学”一词,从而匹配成功,于是切分出“计算机科学”一词。 * “结合成分子时”,用FMM法和BMM法进行切分,结果都是“结合/成分/子时”,均不正确。 * 以“这种设计方法学的理论,不可能有用”为例来解释设立切分标识法。由于“的”是非自然切分标识,“,”是自然切分标识,从而该方法把这个句子首先切分为“这种设计方法学/的/理论/不可能有用”,然后再使用FMM法或BMM法把它们加以细分成“这/种/设计/方法学/的/理论/不/可能/有/用”。 * 1.“表面的”可以分成“表面/的”和“表/面的”; 2.在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词; 3. “乒乓球拍卖完了”,可以切分成“乒乓/球拍/卖/完/了”,也可切分成“乒乓球/拍卖/完/了”。 * 例如,“蚁族”、“**门”、“拼客”、“房奴”、“考霸”、“蜗居”,当这些新词
您可能关注的文档
- 我与班级 同事 领导.ppt
- 我们想要什么样的社区新闻.ppt
- 我们的咖啡厅营销策略.ppt
- 我国是目前世界上发现原始人类遗迹最多的国家.ppt
- 我国现行税制的主要内容.ppt
- 我国蚕桑产业可持续发展研究.ppt
- 我在用的孙权劝学.ppt
- 我心目中的偶像.ppt
- 我想成为坐在路边鼓掌的人Byxinhuoli.ppt
- 我愿是一条急流.ppt
- 2024-2025学年度公务员(国考)高分题库带答案详解(名师推荐).docx
- 2024-2025学年度公务员(国考)高频难、易错点题【有一套】附答案详解.docx
- 2024-2025学年度公务员(国考)高分题库附参考答案详解(满分必刷).docx
- 2024-2025学年度公务员(国考)高分题库及答案详解【最新】.docx
- 2024年公务员(国考)模拟题库审定版附答案详解.docx
- 2024公务员(国考)模拟试题参考答案详解.docx
- 2024年公务员(国考)考试黑钻押题【必考】附答案详解.docx
- 2024公务员(国考)全真模拟模拟题及完整答案详解(各地真题).docx
- 2024丽江市公务员行测含答案详解【A卷】.docx
- 2024年公务员(国考)复习提分资料及参考答案详解【满分必刷】.docx
文档评论(0)