- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[管理学]信息检索课件东北大学3
模糊集 模糊集的运算 向量空间模型评价 使用了更高级的数学工具,同样清晰 标引词加权 相似度有强弱之分 可以排序 结果数量可控 top 10, top 20, … 标引词相互独立 当今最流行的检索模型 布尔模型 简单,定义清晰 相似度没有强弱之分 不排序 可能会导致结果非常少或者非常多 独立吗? 广义向量空间模型 标引词并不独立 标引词之间如何联系 正交变换 标准正交基 从文本到向量空间—多少维的向量? 维数急剧上升 随着数据库表的记录的增大,特征值会变得很大。对应的文档向量空间大小的维数会急剧上升。 如:对于一个含有100个记录的表来说,其文档向量空间大小的维数达到1000是很正常的 但如此大或更大维数的向量之间运算的时间复杂度会很高,直接影响查快率。 奇异值分解 第一个矩阵X中的每一行表示意思相关的一类词,其中的每个非零元素表示这类词中每个词的重要性(或者说相关性),数值越大越相关。 最后一个矩阵Y中的每一列表示同一主题一类文章,其中每个元素表示这类文章中每篇文章的相关性。 中间的矩阵则表示类词和文章类之间的相关性。 因此,只要对关联矩阵A进行一次奇异值分解,就可以同时完成了近义词分类和文章的分类。(同时得到每类文章和每类词的相关性)。 检索系统的基本模式 网页 互联网 匹配 检索结果 用户需求 网页采集 分 析 处 理 建立索引 索引库 相关反馈 Dr:检索出的文献中,用户认可的 Dn:检索出的文献中,用户没有认可的 概率模型(基于概率论) D(文献表示) 文本表示为带权重的标引词的集合,dj={w1,j, w2,j, …, wt,j} 二值的标引词权重wi,j=0或者wi,j=1 Q(查询) 查询也表示为带权重的标引词的集合, q={w1,q, w2,q, …, wt,q} 二值的标引词权重wi,q=0或者wi,q=1 F(联系机制) 理想结果集R 条件概率 概率模型(基于概率论) R(排序) 概率模型评价 标引词只有二值权重 标引词相互独立 R的确定 人工干预 随机 信息检索模型 检索系统的基本模式 网页 互联网 匹配 检索结果 用户需求 网页采集 分 析 处 理 第三讲 检索模型 建立索引 索引库 信息检索模型 模型 对真实的处理过程的理想化的抽象的描述。 数学模型 用数学语言和数学方法来描述过程 研究过程的属性、作出判断、得到结论 信息检索模型 是一个形式框架,该框架支持信息检索过程的所有主要阶段,包括: 文本表示、用户需求表示 需求与文本的匹配 检索到的文本排序 信息检索模型的定义 一个四元组:D, Q, F, R(qi,dj) D是文献的逻辑视图(文献的表示) Q是用户需求的逻辑视图(查询) F是一种机制,用于构建D、Q和它们之间的关系 R(qi,dj)是排序函数,输出一个与查询qi和文献表示dj有关的实数 基本概念 文献(Document) 泛指各种机器可读的记录,通常指一篇文章 特征项(Index Term) 也称为索引项、标引词等 从一篇文本(查询)抽出的代表该文本(查询)内容的基本语言单位 让我们高举中国特色社会 主义伟大旗帜,更加紧密 地团结在党中央周围,万 众一心,开拓奋进,为夺 取全面建设小康社会新胜 利、谱写人民美好生活新 篇章而努力奋斗! 让、我们、高举、中国特色、社会 主义、伟大、旗帜、更加、紧密地、 团结、在、党中央、周围、 万众一心、开拓、奋进、为、 夺取、全面、建设、小康、社会、 新、胜利、谱写、人民、美好、 生活、新、篇章、而、努力、奋斗 基本概念 权重 不是所有的词对于表示文本内容具有同样的重要性 wi,j表示文本dj中的标引词ki的权值(假设独立) ki表示标引词,t是系统中标引词的数目 K所有标引词的集合,K={k1, k2, …, kt} wi,j=0 表示ki在dj中没有出现 文本dj可以用标引词向量来表示,dj={w1,j, w2,j, …, wt,j} gi(dj)返回t维向量dj中标引词ki的权重,gi(dj)=wi,j 模型的分类 按所使用的数学方法分类 基于集合论 布尔模型 基于线性代数 向量空间模型 基于概率论 概率模型 布尔模型(基于集合论) D(文献表示) 表示为不带权重的标引词的集合,或者说,二值的标引词权重wi,j=0或者wi,j=1 Q(查询) 表示为标引词的布尔表达式 用and、or、not连接标引词构成查询 F(联系机制) 布尔表达式转换为集合表达式 布尔算子and(∧)、or(∨)、not(?)替换为交(∩)、并(∪)、补(ˉ) R(排序) 对于每个标引词ki,得到一个文本的集合Dki={dj|wi,j=1} 在结果集合里的文本是相关的,其他是不相关的 布尔模型举例 布尔模型评价 简单,定义清晰 文本或者相关或者不相关,没有强弱之
您可能关注的文档
最近下载
- 2024-2025学年高中信息技术华东师大版(2020)选修2教学设计合集.docx
- 木里县白碉至鸭嘴一带存在大型.PDF VIP
- YD-5079-2005 通信电源设备安装工程验收规范.pdf VIP
- 2024年甘肃甘南州专业化管理的村党组织书记招聘笔试参考题库附带答案详解.pdf VIP
- 餐饮服务食品安全操作规范.doc VIP
- JJG 610-2013A型巴氏硬度计.docx VIP
- 职业技能大赛的作品汇报PPT获奖模板.pptx VIP
- 2024年甘肃张掖市专业化管理的村党组织书记招聘笔试参考题库附带答案详解.pdf VIP
- 黑布林阅读初三17《足球先生》中文版.pptx VIP
- 人工气道湿化的护理进展1).pdf VIP
文档评论(0)