- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
*第二章搜索引擎的架构搜索引擎是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎使用情况分析报告搜索引擎使用情况分析报告2.1什么是软件架构*1软件架构是在一个特殊的抽象层次用于描述系统的工具2通常包括软件组件、软件提供的接口以及各组件之间的联系3搜索引擎架构的需求4效果(effectiveness):对于一个用户查询,希望检索到最多的相关文档;5效率(efficiency):尽可能快地处理用户的查询2.2基本构件*索引处理01020304建立可查找的数据结构查询处理使用这些数据结构和用户的查询生成一个排好序的文档列表2.3组件及其功能*2015索引处理构件2019查询处理构件2016文本采集2020用户交互2017文本转换2021排序2018索引创建2022评价文本采集*爬虫为搜索引擎发现和抓取文档;许多类型,web,enterprise,desktop,主题爬虫网络爬虫通过追踪网页上的超链接来找到并下载新的页面能够高效处理互联网上大量出现的新网页抓取任务可以限制在一个单独的站点主题爬虫采用分类技术限制所访问的网页是同一主题文本采集(Cont.)*侧重搜索引擎系统需求:高效4收集的内容:网页、链接关系5爬虫(Cont.)1及时、高效的收集数量尽可能多的有用的万维网页面,以及建立它们之间的超链接关系2侧重用户需求:及时、数量多、有用3文本采集(Cont.)*运行原理文本采集(Cont.)*信息源(Feeds)是一种存取实时文档流的机制;-e.g.,新闻信息源是一个持续不断的新闻流及新闻的更新-RSS是互联网信息源采用的一个通用标准;-RSS“阅读器”用于支持RSS信息源,采用XML数据格式。阅读器检测信息源,可以获取信息源更新的内容;转换(Conversion)e.g.HTML,XML,Word,PDF,etc.→XML文本编码转换以适用不同语言-Unicode是一个通常使用16位进行编码的标准编码方案,可以表示世界上绝大多数语言中使用的文字文本采集(Cont.)*文档数据库存储文本、元数据和另一些文档相关的内容文档元数据,如文档类型、创建时间另一些内容如超链接、锚文本为搜索引擎组件提供对文档内容的快速存取e.g.resultlistgeneration010302文本转换*解析器处理文档中的文本词素序列,以识别文档中的结构化元素-e.g.,titles,links,headings,etc.词素切分是指识别文档中的词素由空格分开的字母和数字构成的字符串-包括处理特殊字符,如大小写、连接符、单撇号-E.g.“apple”and“Apple”;”on-line”;”O’Connor”文档结构通常由HTML、XML等标记语言指定-使用tag定义文档元素,E.g.,h2Overview/h2-文档解析器使用标记语言的句法知识识别文档的结构文本转换(Cont.)*停用词去除不具有实际意义的功能词,去除后不影响搜索效果-e.g.,“and”,“or”,“the”,“in”根据实际应用确定停用词表-避免“tobeornottobe”词干提取去除词缀得到词根的过程得到单词最一般的写法-e.g.,“computer”,“computers”,“computing”,“compute”文本转换(Cont.)*超链接的抽取和分析抽取内容:超链接和锚文本链接分析向搜索引擎提供一个页面的关注度,并在一定程度上提供页面的权威度e.g.,PageRank锚文本是网络链接上可以点击的文本,给出了链接所指向页面的内容概要文本转换(Cont.)*信息抽取识别更加复杂的索引项,而不是一个单独的词-E.g.一个黑体、加粗的词,题目中的词识别指定语义的特征-命名实体识别,E.g.人名、公司名、日期、地名分类器识别与类别相关的数据。i.e.,assignslabelstodocuments辨别一个文档是否是垃圾文档识别文档中的非内容部分,如广告等2.3.3索引的创建*文档统计汇总和记录词、特征及文档的统计信息;E.g.索引项在各文档中出现的频
您可能关注的文档
最近下载
- 大学文科《高等数学》(全册教案).pdf VIP
- 神奇的纳米机器人在医学领域.pptx VIP
- 酒店室内装修施工组织计划.doc
- 初级消防设施操作员(监控初级)真题及答案解析一.doc
- 1956-1977象棋爱好者必选中国象棋棋谱.doc VIP
- Haier海尔滚筒全自动洗衣机 XQG60-1281 使用说明书.PDF VIP
- 提高住院患者抗菌药物治疗前病原学送检率专项培训考核试题.pdf VIP
- SAE-ARP4754A民用飞机和系统开发指南翻译文稿.pdf
- 公安院校公安专业本专科招生体检表(2022年西藏报考公安院校公安专业招生).doc VIP
- 车门外板冲压模具三维造型与工艺参数优化设计.doc VIP
文档评论(0)