- 1、本文档共101页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
6.4.2 全文检索技术 全文检索的索引技术: 1:衡量全文检索系统的一个重要指标——索引膨胀系数 索引膨胀系数=索引文件大小/全文数据库的大小 2.索引的常见结构: 单汉字(主键字) 记录号 段落号 位置号 单汉字(主键字) 记录数 记录号1 该记录位置集合 记录号2 该记录位置集合 … 6.4.2 全文检索技术 全文检索中检索效率提高: 1.提高查全率 SARS、“非典”——建立同义词典,构成“或”的运算表达式。词典需要及时更新或具有学习功能。 2.提高查准率 用“华人”检索到“中华人民共和国”,用“民法”检索到“人民法院”——建立“排除词典”。将检索词在每一篇文献中检索出数量(检索词在文献中出现次数)与所有欲排除词在文献中出现数量相比较,若相等,该文献就被排除,否则就认为该文献命中。 6.4.3 基于内容的多媒体检索技术 6.4.3.1基于内容的图像检索技术 图像的画面内容特征 图像描述对象特征 图像的相关外部特征 图像的移动和组合特征 标 引 检 索 选择颜色的比例 草图查询 实例查询 6.4.3 基于内容的多媒体检索技术 6.4.3.2基于内容的视频检索技术 幕:由一系列相关的场景组成,表达一个完整的事件。 场景:含有多个镜头。 镜头:由一系列连续的帧组成。 帧:是一幅静态的图像,是组成视频的最小单位。 视频 镜头分割 镜头 特征分析 关键帧提取 运动分析 对象提取与跟踪 运动信息 关键帧 对象信息 场景提取 结构分析 建立索引 视频结构 索引 用户 浏览 查询 6.4.3 基于内容的多媒体检索技术 6.4.3.3基于内容的音频检索技术 音量、音调 音强、带宽 音长、音色等 标 引 检 索 基于字符序列的匹配 基于给定样值的匹配 基于频域信息或其他声学属性的匹配 本章学习要求 掌握计算机信息检索的含义,了解计算机信息检索的发展简史; 掌握计算机信息检索的分类(SDI、RS)和特点。 理解计算机信息检索的模型(布尔模型、向量空间模型和概率模型) 掌握计算机信息检索策略的含义,作用。 掌握检索表达式的含义和构成,以及各个组成部分在检索表达式中的作用。 掌握检索策略的构造步骤 本章学习要求 掌握在检索策略的反馈调整中,提高查准率和查准率的方法。 理解文档检索技术中的几个基本概念(文档、记录、物理记录和逻辑记录、顺序文档、倒排文档、随机文档、“字典”文档、各文档之间的关系) 了解顺序文档的检索技术 理解倒排文档的检索技术 理解全文检索中的索引技术和提高全文检索的办法 了解基于内容的多媒体检索的相关技术 课堂练习:请写出下列布尔逻辑表达式的等价的逆波兰波兰式和准波兰式。 A+B×C (A+B)×(C+D)+E A+B×(C+D+E)+F (A+B)×C+D×(E-F) * 此图参见《计算机情报检索》第二版一书P155 顺序文档的检索技术——表展开法 (1)提问的编辑(表展开法) “所属字段”栏用来说明检索词属于哪个字段, “截断说明”栏可用代码表示检索词截断的类型,如:1一不截断(完全一致);2—后截断(前方—致);3——前后截断(中间一致);4——前裁断(后方一致) “比较条件”栏也可用代码表示:1——相等;2一不相等;3——大于;4——小于 有了检索词表以后,就可以根据各检索词之间应有的逻辑组配关系,用检索词代号构成一个提问式。 本例的提问逻辑式如下:Q=1*2*3* 4*5 顺序文档的检索技术——表展开法 (2)提问展开表的定义 表展开法是将每个提问逻辑式列成提问展开表。一个提问式转换成一张表,有N个提问式就可做成N个提问展开表。 所谓展开表,就是由检索词及其代号、条件满足指向、条件不满足指向、级位等栏构成的一张表。一个检索词对应表中的一行。提问表最多允许20行。 顺序文档的检索技术——表展开法 (2)提问展开表的定义 地址 条件满足指向 条件不满足指向 级位 检索词代号 检索条件 权值 检索词 提问展开表的结构 顺序文档的检索技术——表展开法 (2)提问展开表的定义 地址——按自然数顺序编排,用以表示检索词地址; 条件满足指向——指当文献记录的标引词与提问式的检索词一致时,下一个应比较的检索词的地址; 条件不满足指向——指当文献记录的标引词与提问式的检索词不一致时,下一个应比较的检索词的地址; 级位——当前检索词在提问式中的层次级别; 检索词代号——检索词在提问式中的编号; 检索条件——有截断说明、比较条件等; 权值——进行加权检索时,指定的检索词的权值; 检索词——提问逻辑式中的提问项目。 顺序文档的检索技术——表展开法 (3)提问展开表的形成 以Q=((1+3+5)*7+9)*11为例子,1、
您可能关注的文档
- 第1章遗传的细胞学基础(免费阅读).ppt
- 第1章金属的塑性第3节影响塑性的因素(免费阅读).ppt
- 第5章给排水工程.ppt
- 第3讲蛋白质的结构体系.ppt
- 第1章钢的合金化原理0904(免费阅读).ppt
- 第1章金融法概论(免费阅读).ppt
- 第6章HTML5中的多媒体.ppt
- 第3章起动系.ppt
- 第1章金融风险概述(免费阅读).ppt
- 第1章锁相环路的基本工作原理(精编).ppt
- 2025年网络文学平台版权运营模式创新与版权保护体系构建.docx
- 数字藏品市场运营策略洞察:2025年市场风险与应对策略分析.docx
- 全球新能源汽车产业政策法规与市场前景白皮书.docx
- 工业互联网平台安全标准制定:安全防护与合规性监管策略.docx
- 剧本杀剧本创作审核标准2025年优化与行业自律.docx
- 2025年新能源电动巡逻车在城市安防中的应用对城市环境的影响分析.docx
- 全渠道零售案例精选:2025年行业创新实践报告.docx
- 2025年网约车司乘纠纷处理机制优化与行业可持续发展报告.docx
- 2025年宠物烘焙食品市场法规政策解读:合规经营与风险规避.docx
- 2025年宠物行业数据安全监管政策影响分析报告.docx
文档评论(0)