- 1、本文档共26页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
搜索引擎原理——使用Perl 周 恒 LinuxMEhiko@ 搜索引擎原理(使用Perl)-主要目的 介绍典型的Web搜索引擎原理 使用Perl,来和大家一起完成一个简单Web搜索引擎的主要部分(perlBEE) 和大家一起交流,共同探讨Perl、推广Perl 搜索引擎原理(使用Perl)-主流搜索引擎 搜索引擎原理(使用Perl)-PerlBEE搜索引擎 假设在学校内部,不同组织维护着多个Http及Ftp服务器,向校内提供服务。 使用perl,编写一个简单的搜索引擎,检索这些服务器内的资源。 Linux+Apache + MySQL + Perl (old version) 搜索引擎原理(使用Perl)-基本要求 接受用户提交的关键字(q) 在一个可以接受的时间内返回一个和该用户查询匹配的网页信息列表(L) 可以接受的时间: 匹配: 列表: 搜索引擎原理(使用Perl)-三段式工作流程 网页搜集: 预处理: 提供服务: 搜索引擎原理(使用Perl)-网页搜集 网页数据库的基本策略: 1)定期搜集: 2)增量搜集: 网页的抓取策略: 1)“爬取”策略: 2)维护URL: 搜索引擎原理(使用Perl)-定期搜索 定期搜索,隔一段时间后对整个网页重新搜集一遍,替换以前的内容。 优点:实现起来较简单 缺点:开销较大,两次搜集的时间间隔不会很短,“时新性(freshness)”不高 搜索引擎原理(使用Perl)-增量搜索 开始时搜集一遍,然后: 1.搜集新出现的网页 2.搜集更新了的网页 3.发现有网页已经不存在,则从库中删除 搜索引擎原理(使用Perl)- “爬取”策略 将Web看作是一个有向图,搜集过程从给定的起始url集合S开始,沿着网页中的链接,按照一定的策略(先深/先宽/others)遍历。 这个过程象蜘蛛(spider)在蜘蛛网(Web)上爬行(crawl) 搜索引擎原理(使用Perl)-维护URL 系统进行第一次全面的网页搜集之后,维护相应的URL集合,以后的搜索基于此集合。 搜索引擎原理(使用Perl)-存储网页 搜集到的网页将存储到知识库(repository)中。 知识库包含每个网页的docID,长度,URL以及网页的全部HTML。 由于网页数量会很多,所以,网页在存入知识库时要进行压缩处理。 搜索引擎原理(使用Perl)-PerlBEE的网页搜集部分 手动执行脚本,进行资源搜集 从维护的url列表当中获得url 支持http和ftp协议 获得的网页按照文件的形式存入知识库中。 搜索引擎原理(使用Perl)-PerlBEE的网页搜集部分 对知识库进行索引,以便快速定位网页原文 搜索引擎原理(使用Perl)-预处理 链接分析 网页重要程度计算 关键词提取 搜索引擎原理(使用Perl)-链接分析 链接是分析网页重要的信息 1.链接描述文字准确的反映了网页的内容 2.网页之间的链接关系,反映了网页的重要程度(PageRank Google) 搜索引擎原理(使用Perl)-网页重要程度计算 PageRank(Google) 指向一个网页的链接越多,说明这个网页越重要。 把整个web结构看作一个矩阵。N个网页就形成一个n×n的矩阵。 搜索引擎原理(使用Perl)-关键词提取 建立倒排索引 英文的分词 中文的分词 搜索引擎原理(使用Perl)-中文分词技术 中文分词是中文搜索引擎的核心 中文分词技术 基于字符串匹配的分词方法 基于统计的分词方法 搜索引擎原理(使用Perl)-基于字符串匹配的分词算法 正向减字最大匹配法(MM) 逆向减字最大匹配法(RMM) 将上述两种方法结合起来 搜索引擎原理(使用Perl)-PerlBEE的预处理部分 读取网页 英文按照空格切开 中文按照正/逆向最大匹配的方法切词 将词编入索引文件 搜索引擎原理(使用Perl)-查询服务 查询方式和匹配 结果排序 文档摘要 搜索引擎原理(使用Perl)-查询方式和匹配 布尔模型 向量模型 概率模型 搜索引擎原理(使用Perl)-文档摘要 搜索引擎原理(使用Perl)-PerlBEE的查询服务.CGI 对用户输入进行切分 查找结果 对结果进行合并 搜索引擎原理(使用Perl)-使用Perl * * docID Web原文 获取的时间 url docID Web原文 获取的时间 url 69 12387 2 12387 0 1 length Position docID Word DocID DocID * * * 解释: 可以接受的时间 、 匹配 、 列表 解释: 网页搜集、预处理、服务 Google,更新一次大概需要一个月
您可能关注的文档
- 仇人和恩人―献给上班族的你.ppt
- 一个人的遭遇 高中必修四.ppt
- 秋天的雨教学课件袁付锰.ppt
- 理想流反应器.ppt
- 商务礼仪培训(讲义).ppt
- 习语和四字格的翻译.ppt
- MyeHR人力资源管理系统.ppt
- 柏拉圖 魚骨圖.ppt
- 2013年重庆中考历史复习(三).ppt
- 六年级上册unit 3 period 3.ppt
- 基于人工智能教育平台的移动应用开发,探讨跨平台兼容性影响因素及优化策略教学研究课题报告.docx
- 高中生物实验:城市热岛效应对城市生态系统服务功能的影响机制教学研究课题报告.docx
- 信息技术行业信息安全法律法规研究及政策建议教学研究课题报告.docx
- 人工智能视角下区域教育评价改革:利益相关者互动与政策支持研究教学研究课题报告.docx
- 6 《垃圾填埋场渗滤液处理与土地资源化利用研究》教学研究课题报告.docx
- 小学音乐与美术教师跨学科协作模式构建:人工智能技术助力教学创新教学研究课题报告.docx
- 《航空航天3D打印技术对航空器装配工艺的创新与效率提升》教学研究课题报告.docx
- 教育扶贫精准化策略研究:人工智能技术在区域教育中的应用与创新教学研究课题报告.docx
- 《区块链技术在电子政务电子档案管理中的数据完整性保障与优化》教学研究课题报告.docx
- 《中医护理情志疗法对癌症患者心理状态和生活质量提升的长期追踪研究》教学研究课题报告.docx
文档评论(0)