- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
桂小林主编《物联网技术导论》课件V.ppt
6.4 海量数据的快速检索技术 6.4.1 文本检索 基于文字的检索 (4)统计语言检索模型通过语言的方法将查询和文档联系起来。这种思想诞生了一系列的模型。最原始的统计语言检索模型是查询似然模型。简单地说,查询似然模型首先认为每篇文档是在某种“语言”下生成的。在该“语言”下生成查询的可能性便可看成文档和查询之间的相似度。所谓“语言”,可以通过统计语言模型来刻画,即某个词、短语、语句的分布概率。因此,查询似然模型通常包括两个步骤:首先对每个文档估计其统计语言模型,然后利用这个统计语言模型计算其生成查询的概率。 6.4 海量数据的快速检索技术 6.4.1 文本检索 基于结构的检索 和基于文字的检索不同,基于结构的检索要用到文档的结构信息。文档的结构包括内部结构和外部结构。所谓内部结构,是指文档除文字之外的格式、位置等信息;所谓外部结构,是指文档之间的基于某种关联构成的“关系网”,如可以根据文档之间的引用关系形成“引用关系网”。基于结构的检索通常不会单独使用,可以和基于文字的检索联合使用。 6.4 海量数据的快速检索技术 6.4.1 文本检索 基于结构的检索 在基于内部结构的检索中,可以利用文字所在的位置、格式等信息来更改其在文字检索中的权重。举例来说,各级标题、句首、htmI文件中的锚文本可以赋予更高的权重。基于外部结构的检索可以是基于WEB网页之间的链接关系,”链接分析”技术。实际上它或多或少地沿袭了图书情报学中的文献引用思想——被越重要的文献引用、引用次数越多的文献具有更大的价值。 6.4 海量数据的快速检索技术 6.4.1 文本检索 基于用户信息的检索 不论是基于文字还是基于结构的检索,都是从查询或者文档出发来计算相似度。实际上,用户是信息检索最重要的一个组成成份。就查询来说,是为了表示用户的真正需求;就检索结果来说。用户的认可才是检索的目的。因此,在信息检索过程中不能忽略用户这个重要因素。利用用户本身的信息及参与过程中的行为信息的检索称为基于用户信息的检索。 6.4 海量数据的快速检索技术 6.4.1 文本检索 基于用户信息的检索 从理论上说,用户的很多信息都可以用于提高信息检索的质量。比如用户的性别、年龄、职业、教育背景、阅读习惯等等都可以用于信息检索。但实际上,一方面这些信息不易获得;另一方面,即使能获得这些信息,这些信息能不能适用于所有用户的信息检索还值得怀疑。所以,目前的信息检索通常仅根据用户的访问行为获取信息,这个过程称为用户建模,这种方法也称为基于用户行为的检索方法。 6.4 海量数据的快速检索技术 6.4.1 文本检索 基于用户信息的检索 基于用户行为的检索又可以分为基于单个用户个体访问行为的检索和基于群体用户访问行为的检索。顾名思义,基于单个用户个体访问行为主要分析当前检索用户的访问习惯来提高信息检索的质量。而基于群体用户访问行为主要是通过用户之间的相似性来指导信息检索,其假设具有相似兴趣的用户会访问同一网页。因此,可以通过分析群体用户的访问习惯,来获得哪些用户之间具有相同兴趣的信息。 6.4 海量数据的快速检索技术 6.4.2 图像检索 关于图像检索的研究可以追溯到20世纪70年代,当时主要是基于文本的图像检索技术(Text-based Image Retrieval,简称TBIR),即利用文本描述的方式表示图像的特征,这时的图像检索实际是文本检索。到90年代以后,出现了基于内容的图像检索(Content-based Image Retrieval,简称CBIR),即对图像的视觉内容,如图像的颜色、纹理、形状等进行分析和检索,并有许多CBIR系统相继问世。但实践证明,TBIR和CBIR这两种技术远不能满足人们对图像检索的要求。为了使图像检索系统更加接近人对图像的理解,研究者们又提出了基于语义的图像检索(Semantic-based Image Retrieval,简称SBIR),试图从语义层次解决图像检索问题。 6.4 海量数据的快速检索技术 6.4.2 图像检索 文献[58]给出了一个简化了的图像内容的层次模型,如图6-15所示。第1层为原始数据层,第2层为物理特征层,第3层为语义特征层。下面分别对CBIR和SBIR技术进行阐述。 6.4 海量数据的快速检索技术 6.4.2 图像检索 基于内容的图像检索 基于内容的图像检索(CBIR),即把图像的视觉特征,例如颜色、纹理结构和形状等,作为图像内容抽取出来,并进行匹配、查
原创力文档


文档评论(0)