1信息检索语言.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1信息检索语言

* 3.2.3 限制检索 针对特定年代、特定类别、特定检索点等作限制,包括前缀限制符和后缀限制符。 后缀限制符例如:   /TI 限在题目中查   /AB 限在文摘中查   /DE 限在叙词标引中查 前缀限制符例如:   AU= 限查特定作者   JN= 限查特定刊名   LA= 限查特定语种   PN= 限查特定专利号   PY= 限查特定年代 * 如在谷歌和百度搜索引擎中的 检索特定的文献类型: “报告 filetype:pdf ” 检索指定网址内的信息: “报告site:” 以后会看到一些数据库通常都有年代/类型等的选择 课堂练习 请在百度或GOOGLE搜索引擎中搜索”调查问卷样例”文档,要求文件格式为PDF.(提示:filetype:pdf ) 请在百度或GOOGLE搜索引擎中搜索”收入调查”的EXCEL文件.(提示:filetype:xls) 请在百度或GOOGLE搜索引擎中搜索”个人简历”的word文档.(提示:filetype:doc) * 课堂练习 请利用百度或GOOGLE搜索引擎搜索上海师范大学网站内的所有奖学金的信息.(提示:site:或site:请大家体会这两种方式所得到结果数的不同 ) 请利用百度或GOOGLE搜索引擎搜索网站:”站长之家”内的有关SEO的信息.(提示:请先获得站长之家的网址) * * 3.2.4 网络检索 短语检索(半角双引号) 自动纠错检索(如:李熬,你是不是要检索李敖) 自动转换检索(如:汉语拼音转换成文字) 自然语言检索 概念检索(同义词/近义词/狭义词,如搜索引擎Excite) 相关检索 * 3.2.4 其它检索的表述 二次检索/在结果内检索 精确检索 模糊检索 跨库检索/一站式检索 扩展检索(类似搜索引擎的概念检索) 一般检索/高级检索/专家检索/命令检索 还有什么检索? * 小结 计算机信息检索技术是用户信息需求和文献信息集合之间的匹配比较技术。 布尔逻辑检索、截词检索、邻近检索、短语检索、字段检索 网络信息检索 几乎所有的检索系统都有布尔逻辑检索、截词检索(模糊检索)和限制检索,而不同的检索系统又会有一些特殊的检索技术和功能。 课后作业 请根据前面的”碳减排”进行概念组配的例子, 举出一个可以进行概念组配的检索实例,并说明如何进行概念组配. * ◆自然语言中或专业文献中精选出来并予以规范化的一套词汇,如《汉语主题词表》、《医学主题词表》。? ? ? ? ? ? ?◆代表某种分类体系的一套分类号码,如《中国图书馆图书分类法》。? ? ? ? ? ? ?◆代表某一类事物的某一方面特征的一套代码(如水分子式H2O)。? * * * * 真值表(truth table) P Q NOT P P ANDQ P OR Q 0 0 TRUE FALSE FALSE 0 1 TRUE FALSE TRUE 1 0 FALSE FALSE TRUE 1 1 FALSE TRUE TRUE * 布尔检索的优缺点 优点 缺点 1)简单、速度快 1)不够精确,不能反映不同“项目”对一个文档的重要程度的差异 2)查询表达式易于掌握 2)检索结果地位平等,无法排序 “飞碟”AND “小说”:只能检索出D4,无法显现D1,D2,D3的差异 “飞碟”OR “小说”:可以检出D1,D2,D4,但无法显现它们的差异 * 2.2 向量空间模型 文档D和查询Q(不妨统称为文本)都可用向量表示 检索过程就是计算文档向量与查询向量之间的相似度 可以根据相似度值的不同,对检索结果进行排序 可以根据检索结果,进一步做相关检索(relevance feedback) * 向量表示 文档Dj的向量可以表示为Dj(w1j, w2j ,?,wnj ) ,其中n是系统中的标引词数目,wij 代表了标引词i在文档Dj中的权重。 查询Q的向量可以表示为Q(w1q, w2q ,?,wnq ) ,wiq代表了标引词i在查询Q中的权重 * 文档-标引词矩阵(Doc-Term Matrix) n篇文档,m个标引词构成的矩阵Am*n, 每列可以看成每篇文档的向量表示,同时, 每行也可以可以看成标引词的向量表示 * 从文本到向量空间(vector space) * 文档的向量表示示例 假定有三个项目: “葡萄”,“美酒”,“夜光杯” 假定以项目在文本中的出现次数为项目的权值 葡萄T1 美酒T2 夜光杯T3 d1 2 3 5 d2 3 7 2 q 0 0 2 * 计算向量之间的相似程度 向量间相似程度的不同度量方法 Inner product Dice coefficient Cosine coefficient Jaccard coefficient 在上面的例子中,如何度量q跟d1

文档评论(0)

2105194781 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档