- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
4.1信息检索模型4.2计算机检索技术介绍经典检索模型主要包括布尔检索模型、向量模型和概率模型。4.1.1布尔检索模型(1)概念及原理在布尔模型中,每个文献用一组标引词表示,每个提问则表示为标引词的布尔组配。布尔检索实际上就是集合之间的并、交、补运算。例如,对于某一特定文献i,可表示为:Di=(T1,T2,T3,…Tm)对于特定提问J可表示为:Qj=(T1andT2)OR(T3and(notT4))(2)特点1)优点2)缺点(3)扩展布尔检索模型文档D(Document)文献向量的表示:D(t1,t2,…,tn)提问向量:Q=(q1,q2,…qm)特征项t(Term)特征项权重Wk(TermWeight):词条权值计算方法为TF-IDF函数(见下页)相似度S(Similarity)(见后)向量模型的描述4.1.2向量模型01词条权值计算方法为TF-IDF函数02常用的TF-IDF公式:特征项权重Wk(TermWeight)文档相似度表示概率检索理论认为给定检索文献与给定提问之间存在某种相关概率。01概率检索模型就是利用概率论的原理,通过赋予标引词概率值来表示这些词在相关文献集合或无关文献集合中的出现概率,然后计算某一给定文献与某给定提问相关的概率。最后系统据此做出检索决策。02概率标引理论的基础是对标引词加权并利用权值来计算文献的相关值,即满足给定提问的概率值。034.1.3概率模型概率检索模型有多种形式,常见的为第二概率检索模型。01010203词的权值设计为:文档d与用户查询Q相关概率可定义为:0203在树状结构中,节点代表文献内容,如章节、段落等,边线代表各内容之间的关系,如章节包含几个段落。根节点用来标识整个文献,叶节点由文献内容构成,如文本、图像等。叶节点可以以任意粒度表述,如单个词汇、短语、句子等。把有根节点没有叶节点的结构作为集合内容看待,其信息内容由其各构成部分决定。结构化文本检索模型描述一般方法基于非重叠链表的模型基于邻接节点的模型常见的结构化文本模型4.1.4结构化文本检索模型能使用户在做进一步检索时意识到用合适的方法进行查找。能确保用户快速有效地浏览数据库。能使用户把特定的信息需求定位在数据库感兴趣的文献集合中。有效的浏览系统数据库应具备几个条件4.1.5浏览模型对静态数据库的浏览:如中国知网01可视化原则,02要具备扩展人类空间能力的思维,03人们检索时输入选择的是词汇而不是整篇文献,04检索用户与系统交互时间要迅速,05要能反映人们认知上的区别06要反映浏览检索模型在系统的应用。浏览式检索系统接口设计要遵循的原则(4)常见的浏览模型常见的浏览模型平坦浏览模型结构向导浏览模型超文本浏览模型4.1信息检索模型4.2计算机检索技术介绍布尔检索技术(1)逆波兰变换法??(a+b)*c-(a+b)/e的后缀表达式为:???(a+b)*c-(a+b)/e???→((a+b)*c)((a+b)/e)-??→((a+b)c*)((a+b)e/)-?→(ab+c*)(ab+e/)-???→ab+c*ab+e/-?普通的中序表达式转换为逆波兰表达式的一般算法???????-
??????/??\
?????*????/
????/\??/\
???+?c?+??e
??/\??/\
?a?b?a??b4.2.2聚类检索技术计算出文献与文献之间的相似度,并把相似度较高的文献集中在一起,形成一个个的文献类的检索技术。聚类检索技术实现的算法思想文档聚类4.2.3基于内容的多媒体检索概述现有基于内容检索系统列表IBM公司的QBIC:http://哥伦比亚大学的WebSwwk:http://Virage公司的Virage:http://波士顿大学的ImageRover:麻省理工学院的PhotoBook:/~tpminka/photobook4.2.4基于内容的图像检索技术(1)四种类型.基于颜色特征的检索.基于纹理特征的检索.基于形状及区域的检索.基于空间约束关系的检索(2)图像信息及其检索特征分析著录特征视觉特征逻辑特征语义特征(3)主要查询方式1)示例2)描绘3)属性和特征说明(领域特定特征)4)浏览(4)图像检索系统的构成4.2.5基于内容的音频检索技术所谓音频检索,是指通过音频特征
您可能关注的文档
- 利润的确定和分配.ppt
- 商品生产和消费.ppt
- 商品的含义和基本属性.ppt
- 企业视角对应届毕业生的看法.ppt
- 全国骨干教师国家级培训汇报.ppt
- 企业操作劳动合同法技巧.pptx
- 儿童通信知识教学.ppt
- 备战期末考主题班会.ppt
- 农业生态系统的生物与环境摘要.ppt
- 团队合作五大要素.ppt
- 五个管好的意识形态工作总结.docx
- 在学校党员大会上的讲话:今年国际教育发展的四个主题.docx
- 在区廉政谈话会上的讲话.docx
- 学习贯彻2024年中央经济工作会议精神 打好政策“组合拳”保持经济稳定增长.pptx
- (7篇)学习贯彻中央经济工作会议精神研讨发言心得体会汇编.docx
- 关于“时代新人”视阈下高职思政课教学实践探究报告.docx
- (2025.01.05)关于城市营商环境现状与优化路径探索报告.docx
- 教育工作会议主题发言材料和讲话材料汇编(6篇).docx
- 镇党委副书记兼派出所所长关于2024年度民主生活会个人对照查摆剖析材料.docx
- 县委常委班子2024年度民主生活会对照检查.docx
文档评论(0)