- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
物联网数据检索
文本检索
文本检索是围绕相关度展开的
•基于文字的检索
•基于结构的检索
•基于用户信息的检索
文本检索
基于文字的检索(根据文字内容计算查询和
文本的相似度)
•布尔模型(计算机AND文化)检索的相关度0,或者1
•向量空间模型关键字和权重组成向量
•概率模型-查询中的关键字在相关和不相关文档中的概率
•统计语言模型-通过语言的方法将查询和文档联系起来
文本检索
布尔模型
•在布尔检索模型中,将用户提问表示成布尔表达式,使用逻辑
运算符将提问词连接起来,其中每个提问词表达了用户的一个
兴趣。
•检索时,检索系统将提问式与文档进行逻辑匹配操作,得出命
中文献集合为检索结果。检索结果一般不进行相关性排序。
•在检索策略的使用方面,以布尔逻辑为基础的文本检索系统可
能提供位置检索、截断检索以及自然语言检索等检索手段。
文本检索
向量空间模型
•向量空间模型用检索项的高维向量空间来表示用户的检索和
文本集信息,其中每一维为一个特征。一个用户检索向量或
文本向量的第i个元素表示用户检索或文本的第i个特征的重
要度,或称权值。用户检索向量的权值由用户指定;文本向量
的权值则根据特征在文本或文本集中的出现频率决定。
•检索向量与文本向量间的余弦角通常用来测定该文本与该用
户提问词之间的匹配程度。向量空间模型不仅可以方便地产
生有效的检索结果,而且能提供相关文档的文摘,并进行检
索结果分类,为用户提供准确定位所需的信息。
文本检索
概率模型
•在概率模型中,检索是根据概率排序规则进行的。基本的文本检索推理网
络包括文本网络和用户检索网络。文本网络使用不同的文本表示框架来
表示文本集,对每一个文本集,文本网络只建立一次,且在检索过程中
不改变其结构。用户提问网络则只有一个表示用户检索信息的节点及一
个或多个查询表达式。
•文本网络与用户检索之间的连接则由文本概念表示节点与提问概念表示
节点之间的链来表示。不论是文本网络还是用户检索,每一节点有一个
概率值。节点与节点之间的因果关系表示为:给定文本节点的先验概率
及中间节点的条件概率,就能得到每一节点的后验概率。原始文本集与
用户检索集经过概率计算,得到文本与用户提问的匹配程度。
文本检索
基于结构的检索
•文档结构包括内部结构和外部结构
•内部结构-文档为文字的位置,格式等信息
•外部结构-文档之间的关联(如引用)
•通常不会单独使用,结合基于文字的检索联合使用
文本检索
基于用户信息的检索
•使用用户本身的信息参与检索
•用户是第一位的(查询由用户提出,结果要用户认可)
•用户的性别,职业,阅读习惯,爱好等
•基于单个用户的和基于群体用户的
谢谢大家
文档评论(0)