《信息检索教程》课件.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

信息检索教程数字时代的关键技能解决信息爆炸难题数据到知识的桥梁

信息检索基础概念定义范围从海量数据中查找相关信息数据信息知识由低到高的认知层次时代挑战应对信息过载和质量参差

信息检索发展历史1手工检索时代图书馆卡片目录系统2计算机检索20世纪60年代布尔检索3互联网搜索90年代搜索引擎兴起4人工智能检索语义理解与智能推荐

信息检索系统架构数据采集爬虫抓取与处理建立索引创建倒排索引结构查询处理分析匹配排序结果用户界面呈现结果收集反馈

文本预处理技术文档解析提取纯文本内容分词处理切分文本为词元停用词过滤去除无意义词汇词形还原规范化词汇形式

中文分词技术基于词典最大匹配法统计方法基于词频共现概率机器学习CRF与深度学习模型常用工具jieba、THULAC、HanLP

文本表示模型一:布尔模型基本原理文档表示为词项存在与否查询使用布尔逻辑表达式完全匹配不考虑权重布尔模型文档匹配示意图

文本表示模型二:向量空间模型N维向量表示文档词项为向量坐标TF-IDF权重计算词频与逆文档频率余弦值相似度向量夹角衡量相关性

文本表示模型三:概率模型相关性概率估计文档与查询相关概率BM25算法经典概率排序函数词项权重考虑词频和文档长度

文本表示模型四:语言模型统计语言模型计算文档生成查询概率平滑技术解决零概率问题参数调优混合模型权重调整

倒排索引结构词典词项及其指针倒排列表包含词项的文档ID位置信息词项在文档中位置

倒排索引构建文档收集收集并处理原始文档词项提取分词并生成词项列表排序合并BSBI或SPIMI算法索引优化压缩和增量更新

索引压缩技术必要性减少存储空间提高检索速度字典压缩前缀树结构哈希映射技术倒排列表压缩差值编码可变字节编码

查询处理基础查询处理流程:分析→改写→扩展→优化关键技术:同义词扩展、拼写纠错、分词优化

查询处理算法

检索模型评价指标精确率与召回率查准率与查全率的权衡F值精确率和召回率的调和平均NDCG考虑位置的排序质量指标

检索系统评测方法离线评测TREC评测集用户研究用户满意度调查A/B测试在线对比实验日志分析点击行为评估

Web信息检索基础Web信息特征海量、异构、动态变化网页抓取爬虫策略与礼节信息提取结构化数据抽取网页索引大规模分布式索引

网页爬虫技术URL管理优先级队列维护网页下载HTTP请求与响应内容解析提取链接与正文数据存储分布式文件系统

链接分析算法一:PageRank基本原理基于网页链接结构的重要性计算随机冲浪者模型:用户随机点击链接矩阵迭代计算:收敛至稳定值网页间链接结构与重要性传递示意图

链接分析算法二:HITS权威值与中心值互相增强的双重角色Hub页面指向多个权威页面Authority页面被多个中心页面指向

网页排序技术排序因子内容相关性、链接分析、用户行为机器学习排序LambdaRank、LambdaMART个性化排序考虑用户偏好与上下文

查询日志分析日志收集查询词与点击行为模式挖掘查询-点击关系分析查询建议自动补全与推荐系统优化基于用户行为改进

文本分类技术问题定义为文档分配预定义类别特征工程TF-IDF、词袋模型分类算法贝叶斯、SVM、神经网络

朴素贝叶斯分类器垃圾邮件过滤情感分析新闻分类文档归类

SVM与深度学习分类支持向量机寻找最优分类超平面核函数处理非线性问题适合小规模高维数据深度学习CNN处理文本序列BERT预训练模型端到端训练无需特征工程

文本聚类技术聚类基本概念无监督将相似文档分组相似度计算余弦距离、欧氏距离聚类方法层次、划分、密度、模型

层次聚类与K-means层次聚类自底向上或自顶向下K-means基于质心的划分聚类评价指标轮廓系数、DBI指数

主题模型一:LSI词项-文档矩阵表示词与文档关系SVD分解降维提取潜在语义低维表示揭示词项间隐含关系

主题模型二:LDA主题生成每个主题是词分布文档表示主题混合比例词生成基于文档主题分布模型推断吉布斯采样或变分推断

信息抽取基础命名实体识别人名、地点、组织等实体序列标注问题关系抽取实体间语义关系识别模式匹配与机器学习方法事件抽取文本中事件要素识别触发词与论元结构

问答系统技术问题分析问题类型识别与分类信息检索查询关键段落文档答案提取定位抽取精确答案答案验证评估可信度排序

推荐系统与信息检索协同过滤基于用户相似度基于物品相似度矩阵分解技术基于内容推荐物品特征提取用户兴趣建模相似度匹配算法

多媒体检索技术图像检索颜色、纹理、形状特征音频检索声纹与频谱分析视频检索关键帧与运动特征

移动搜索技术位置感知基于地理位置的相关性上下文理解时间、环境等因素移动界面触屏优化交互设计

社交网络搜索社交数据特征实时性与传播性社交关系社交图谱分析影响力分析意见领袖识别个性化推荐好友活动与兴趣4

语义网与知识图谱语义网标准RDF、OWL、SPARQL知识图谱构建实体关系

文档评论(0)

187****8606 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6013054242000004

1亿VIP精品文档

相关文档