- 1、本文档共58页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
布尔模型 基于集合论和布尔代数,适用于普通用户,核心是二值相关,不能进行相关性排序 向量空间模型 以向量表示提问和文档,向量计算在后台进行,与用户无关,优点是可以进行相关性排序,也可产生文档文摘 概率模型 基于贝叶斯概率论,更具有普遍性,适应多媒体、语义文档的检索,具有逻辑推理能力 以上模型在实践中,常常混合使用,以达到最佳效果 * 布尔模型——集合的运算 并运算 设A,B是两个集合,集合A与B的并运算是由A的一切元素和B的一切元素所组成的集合,记做 A∪B,数学表示为: 设 A={a,b,c,d,e},B={c,d,x,y,z} 则 A∪B={a,b,c,d,e,x,y,z} 即 A∪B={x|x∈A∨x∈B } A B 空间E * 布尔模型——集合的运算 交运算 设A,B是两个集合,包含A和B的所有公共元素的集合叫做A与B的交集,记做 A∩B,数学表示为: 设 A={a,b,c,d,e},B={c,d,x,y,z} 则 A∩B={c,d} 即 A∩B={x|x∈A∧x∈B } * 布尔模型 遵循两条基本规则 每个索引词在一篇文档中只有两种状态:出现或不出现,对应逻辑值为 0 或 1 查询是由三种布尔逻辑运算符 and, or, not 连接索引词组成的布尔表达式 * 布尔模型——集合的运算 差运算 设A,B是两个集合,A-B是由一切属于A但不属于B的元素所组成的集合,称为B在A中的余集,或者A与B的差,即 设 A={a,b,c,d,e}, B={c,d,x,y,z} 则 A-B={a,b,e}, B-A={x,y,z} 数学表示为 A-B={x|x∈A﹁x∈B } * 布尔模型 定义 用qdnf表示查询q的析取范式,qcc表示qdnf的任意合取分项,文献dj 与查询q的相似度为 如果 ,则表示文献dj与q相关,否则为不相关。 sim(dj, q) 为该模型的匹配函数(相似度) * 布尔模型——优缺点 优点 简单而整齐 自我保护功能,降低用户对搜索系统的期望,使自己不在责任方,检索结果不好的原因在于用户构造查询不好 简单、易理解、简洁的形式化 缺点 它的检索策略是基于二值决策准则,即一个文档只被判断成相关的或不相关的,无任何等级变化 当用布尔表达式表示精确语义的时候,很难将信息表达为一个布尔表达式 准确匹配,信息需求的能力表达不足 布尔模型 目前仍然是商业文档数据库的主流模型,并为一些新的领域提供了一个好的起点 * 2、向量模型——n维向量 考虑从空间坐标系原点出发(其他向量可以平移到原点出发)的向量 ,其终点坐标为x1,x2,…,xn,我们称之为一个n维向量 * 2、向量模型——n维向量 向量的运算 加、减、倍数、内积 * 向量模型——空间概念 文献空间 如果把每个标引词看作是一个向量,代表了空间的一个维,则由这些标引词集合定义了一个空间 文献集合中的任一文献都可以表示为这个多维空间中的一个向量,这个空间就成为“文献空间” * 向量模型——空间概念 标引词空间 文献集合中的一篇文献可看成是标引词空间的一个维,空间中的一点代表一个标引词点 从原点到该点的向量就是一个标引词向量 它在各个轴上的分量就是该标引词在各个轴所代表的相应文献中的权重 * 向量模型——模型含义 向量空间模型(Vector Space Model, VSM) 由康奈尔大学Salton等人在上世纪70年代末提出并倡导的,原型系统为SMART* 该模型采用了“部分匹配”的检索策略,即:出现部分索引词也可以出现在检索结果中,以克服布尔模型的缺点 * 可从/pub/smart/下载全部源码和相关语料 * 向量模型——模型含义 向量空间模型(Vector Space Model, VSM) ?通过给查询或文档中的索引词分配非二值权值来实现 查询和文档都可转化成Term及其权重组成的向量表示,并可以看成空间中的点。向量之间通过距离计算得到查询和每个文档的相似度 * 可从/pub/smart/下载全部源码和相关语料 * 向量模型——模型含义 向量模型通过分派非二值权重给查询和文档中的索引项来实现检索目标 这些权重用于计算系统中的每个文档与用户的查询请求的相似程度,向量模型通过对文档按照相似程度降序排列的方式,来实现文档与查询项的部分匹配 结果中的文档排列顺序比通过布尔模型得到的结果要合理得多 * 向量模型——模型含义 在该模型中,与(ki,dj)相关联的权重wi,j是一个非二值数 查询中的索引项也是有权重的,设wi,q是与(ki,q)相关联的权重,
您可能关注的文档
- "海洋 生命"系列海报.ppt
- (二)突触的微细结构.ppt
- _ 各个领域在近二十年来取得突破性的研究进展.ppt
- “恋”上那道“风景”.ppt
- “小作家门诊部”系列微课第五课.ppt
- 《给教师一生的建议》.ppt
- 《诗经》编定和体制.ppt
- 《用“倒过来推想”的策略解决问题》教学设计.ppt
- 1)常见的直接接动词-ing形式的动词有:.ppt
- 1. 结合图,请学生回答:什么是∠A正弦、余弦、正切 ?.ppt
- 基于人工智能教育平台的移动应用开发,探讨跨平台兼容性影响因素及优化策略教学研究课题报告.docx
- 高中生物实验:城市热岛效应对城市生态系统服务功能的影响机制教学研究课题报告.docx
- 信息技术行业信息安全法律法规研究及政策建议教学研究课题报告.docx
- 人工智能视角下区域教育评价改革:利益相关者互动与政策支持研究教学研究课题报告.docx
- 6 《垃圾填埋场渗滤液处理与土地资源化利用研究》教学研究课题报告.docx
- 小学音乐与美术教师跨学科协作模式构建:人工智能技术助力教学创新教学研究课题报告.docx
- 《航空航天3D打印技术对航空器装配工艺的创新与效率提升》教学研究课题报告.docx
- 教育扶贫精准化策略研究:人工智能技术在区域教育中的应用与创新教学研究课题报告.docx
- 《区块链技术在电子政务电子档案管理中的数据完整性保障与优化》教学研究课题报告.docx
- 《中医护理情志疗法对癌症患者心理状态和生活质量提升的长期追踪研究》教学研究课题报告.docx
最近下载
- 工程项目成本分析表(房建).xls VIP
- 道路交通标志和标线(GB5768-2009).docx VIP
- 2024年全国高级配电线路工技能考试题库及答案.docx VIP
- 颗粒级配曲线不均匀系数计算.xls VIP
- 建筑工程CAD网络课程项目申报书--.docx VIP
- 《我与地坛(节选)》同步练习 统编版高中语文必修上册.docx VIP
- 道路交通标志和标线+第1部分:总则.docx VIP
- 2025年秋季学期-2026年春季学期中小学校(幼儿园)大宗食材(肉蛋)采购及配送项目方案投标文件(技术方案).doc VIP
- 耐高压PICC置管课件.ppt VIP
- 功能性子宫出血病历模板.pdf VIP
文档评论(0)