- 1、本文档共73页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* * * * * * * * * * * * * * * * 检索流程 QE? Query 已处理 Query 查询结果 扩展的Query 查询解释 查询匹配 Cache 查询分析 Pipelined Filter 内容分析 词语切分 去停用词 Stemming … 查询Cache 索引Cache 查询优化 查询权重计算 相似度计算 文档打分器 倒排索引数据库 排序组件 Document Rank Queue 过滤组件 索引处理框架 索引存取 针对域的特征设计索引器 文档集处理 内容分析 格式解释 文档集统计 Corpus Query 查询解释 查询权重计算 相似度计算 文档打分 过滤 排序 查询反馈 查询扩展 查询Cache 索引Cache 索引处理框架 查询结果 插件管理 子系统 倒排 索引 前向 索引 统计 信息 检索模型 LOG记录 XML配置 索引系统 检索系统 存储系统 内存管理 索引存储 倒排索引 域索引器 不同域具有不同的特征,例如URL域,时间域,数字域和正文域具有不同的特征,使用统一的分析器和索引器必然降低效率 针对域的特征设计索引器 根据域的特征采用不同的索引结构和算法,可以提高效率 开发者无需“大动干戈”就可以向FirteX中添加自己的索引器 内容分析 格式解释 插件管理 子系统 实时在线索引 内存管理 索引存储 倒排索引 文档集处理 文档集统计 Corpus Query 查询解释 查询权重计算 相似度计算 文档打分 过滤 排序 查询反馈 查询扩展 查询Cache 索引Cache 查询结果 倒排 索引 前向 索引 统计 信息 检索模型 LOG记录 XML配置 索引系统 检索系统 存储系统 允许索引、检索和文档删除操作交叉或同时进行,新增加的文档即刻可供检索 新闻搜索、产品搜索,生活搜索等应用,数据变化非常快,而要求提供持续的搜索服务,在线索引是最佳的解决方案 在线索引的性能实验 域索引器 索引处理框架 FirteX的性能 文档集处理 内容分析 格式解释 内存管理 索引存储 倒排索引 文档集统计 Corpus Query 查询解释 查询权重计算 相似度计算 文档打分 过滤 排序 查询反馈 查询扩展 查询Cache 索引Cache 索引处理框架 查询结果 域索引器 插件管理 子系统 倒排 索引 前向 索引 统计 信息 检索模型 LOG记录 XML配置 快速中文分词技术 高效索引算法 用户可控的内存Cache技术,大幅提升性能 实时在线索引技术 允许用户限定索引和检索内存使用量 快速中文分词技术 高效索引算法 用户可控的内存Cache技术,大幅提升性能 搜索引擎关键技术实例分析(三)一个搜索引擎的工作原理 案例:一个搜索引擎的工作原理 文档集处理 内容分析 格式解释 内存管理 索引存储 倒排索引 文档集统计 Corpus Query 查询解释 查询权重计算 相似度计算 文档打分 过滤 排序 查询反馈 查询扩展 查询Cache 索引Cache 索引处理框架 查询结果 域索引器 插件管理 子系统 倒排 索引 前向 索引 统计 信息 检索模型 LOG记录 XML配置 案例:一个搜索引擎的工作原理 文档集处理 内容分析 格式解释 内存管理 索引存储 倒排索引 文档集统计 Corpus Query 查询解释 查询权重计算 相似度计算 文档打分 过滤 排序 查询反馈 查询扩展 查询Cache 索引Cache 索引处理框架 查询结果 域索引器 插件管理 子系统 倒排 索引 前向 索引 统计 信息 检索模型 LOG记录 XML配置 海量数据 案例:一个搜索引擎的工作原理 文档集处理 内容分析 格式解释 内存管理 索引存储 倒排索引 文档集统计 Corpus Query 查询解释 查询权重计算 相似度计算 文档打分 过滤 排序 查询反馈 查询扩展 查询Cache 索引Cache 索引处理框架 查询结果 域索引器 插件管理 子系统 倒排 索引 前向 索引 统计 信息 检索模型 LOG记录 XML配置 案例:一个搜索引擎的工作原理 文档集处理 内容分析 格式解释 内存管理 索引存储 倒排索引 文档集统计 Corpus Query 查询解释 查询权重计算 相似度计算 文档打分 过滤 排序 查询反馈 查询扩展 查询Cache 索引Cache 索引处理框架 查询结果 域索引器 插件管理 子系统 倒排 索引 前向 索引 统计 信息 检索模型 LOG记录 XML配置 */73 本讲结束 谢谢! * * 图引用:yhf’s ppt《可扩展Web信息搜集系统的设计、实现与应用初探》 王继成《基于元数据的web信息检索技术研究》,南大 其中的文档检索是典型的IR系统,SE使用的检索模型:扩展的bool模型, it’s the f
您可能关注的文档
- 理解句子的含义PPT.ppt
- 理解人际沟通.ppt
- 理论力学-刚体的平面运动.ppt
- 理论前沿性与论文创新性.ppt
- 理论力学复习.ppt
- 琥珀郡园阶段执行171902998.ppt
- 瑞士商业投资定居计划.ppt
- 瑞年企业有奖问答.ppt
- 琳琅网(琳琅至家)排毒是健康之本.ppt
- 瑞昌一中 生物奥赛辅导 课时1.ppt
- 2025年青岛航空科技职业学院单招职业倾向性测试题库最新.docx
- 2025年青岛航空科技职业学院单招职业倾向性测试题库推荐.docx
- 2025年青岛航空科技职业学院单招职业技能测试题库附答案.docx
- 2024年文物保护工程从业资格题库完美版带答案分析.docx
- 2025年青岛航空科技职业学院单招职业技能测试题库最新.docx
- 2025年青岛航空科技职业学院单招职业倾向性考试题库及答案1套.docx
- 2025年青岛航空科技职业学院单招综合素质考试题库必考题.docx
- 2024年文物保护工程从业资格题库精编答案分析.docx
- 2025年青岛航空科技职业学院单招综合素质考试题库推荐.docx
- 2025年青岛航空科技职业学院单招综合素质考试题库最新.docx
文档评论(0)