- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息查询扩展发展研究.doc
信息查询扩展发展研究
摘 要: 借助计算机和因特网,信息查询进入了快速发展的网络化联机检索阶段,搜索引擎的出现更是将信息查询推向了智能化发展时代。文章以信息查询发展为主线,分类总结了关键词查询扩展和概念语义查询扩展的发展过程,并对支撑概念语义查询扩展的概念语义结构和大规模语料库的发展情况做了详细的阐述,为概念语义查询扩展方向的研究做了一些基础工作。
关键词: 信息检索; 查询扩展; 概念语义; 语料库
中图分类号:TP391 文献标志码:A 文章编号:1006-8228(2015)11-08-04
Abstract: With the aid of the computer and the Internet, information query entered the rapid development of online retrieval stage, and the occurrences of search engines push the information inquiry into the era of intelligent development. This paper mainly summarizes the development process of keyword query expansion and concept semantic query expansion. The paper described the development of concept semantic structure and large-scale corpus which supported concept semantic query expansion in detail. It has done some basic work for the research of semantic query expansion direction.
Key words: information retrieval; query expansion; semantic concept; corpus
0 引言
信息查询是在储存信息的仓库中比较和选择符合查询者需求的信息标识。它隶属于图书情报学,自从有了人类就有了信息查找的历史。伴随着经济、文化、社会的快速发展,二十世纪五十年代信息查询从手工方式进入到计算机检索时代。经历了脱机、联机检索后,信息查询进入了快速发展的网络化联机检索阶段。因特网将全球的信息资源联接起来成为世界上最大的信息仓库,www搜索引擎将搜索范围从文本扩大到网页、图片、音视频等多种文件。信息检索技术大力促进了信息资源的相互利用和科技进步,它是一门交叉、复合型的学科,主要包括数据库管理(Database Management)、机器学习(Machine Learning)、人工智能(Artificial Intelligence)、自然语言处理(Natural Language Processing)等学科知识[1]。
1 查询扩展
人们在查询问题时所输入的查询关键词往往会有很多种不同的表达方式,很多时候同一个概念在不同情况下会表示不同的意思,或不同的概念在特定的情况下会表示相同的意思。由于这种表达方式的不同会导致与查询关键词相关的文档不能被检索出来,降低检索系统的查全率和查准率。基于这种原因,查询扩展技术应运而生。
查询扩展技术是利用多种学科知识将与初始查询相关的术语添加到原查询中组成新的意义更加全面准确的查询序列,降低自然语言的模糊性和查询歧义性,提高了检索结果的查全率和查准率[2]。
目前,按照扩展词的来源不同主要有基于全局分析、基于局部分析、基于关联规则、基于用户查询日志和基于概念语义的查询扩展技术。
1.1 关键词查询扩展
全局分析是较早出现的较实用的查询扩展方法。1971年,Spacrk Jones首次提出了词的聚类算法,试图通过对全局词语的共现来对词进行聚类,并用聚类对查询进行扩展,Rocchio利用向量空间模型,使用相关反馈算法并应用于SMART系统[3],获得较好的检索效果。1976年,Spark Jones与Robertson提出了概率模型[3],其关键是计算每个查询词在相关文档和不相文档中的分布状况。二十世纪八十年代末,S.T.Dumais、M.W.Berry等人基于VSM理论框架,提出了潜在语义索引(Latent Semantic Indexing,LSI)的信息检索模型,它是经典向量空间模型的一种改进,其关键是索引项-文档矩阵的奇异值分解计算[4]。
早在1965年Rocchio提出了相关反馈
您可能关注的文档
- 京津冀协同发展中保定市的发展思路及对策.doc
- 京津冀协同背景下的河北省蔬菜流通模式创新研究.doc
- 京津水源涵养地动物防疫刍议.doc
- 人事档案信息公开的内容扩展.doc
- 人事档案信息管理系统的设计与实现.doc
- 人力资本、社会网络与移民创业绩效.doc
- 人力资源会计教学探讨.doc
- 人力资源规划问题与对策.doc
- 人员密集场所消防监督检查主要内容探讨.doc
- 人员搜救定位系统研究综述.doc
- 2025年江苏省徐州市中考数学试卷真题(含答案详解) (2).pdf
- 2024年黑龙江省检察机关招聘聘用制书记员行政文员考试真题 .pdf
- 中国特色社会主义理论与实践复习资料--研究生.doc
- 中华成语千字文全文.doc
- 最新数字推理200题.doc
- 有关“奋斗”的素材.doc
- 张家口市重点中学2026届语文高三第一学期期末达标测试试题含解析.doc
- 2026届上海市上海师大附中数学高三第一学期期末学业水平测试模拟试题含解析.doc
- 2026届安徽省阜阳市颍上县第二中学高三英语第一学期期末达标测试试题含解析.doc
- 2026届黑龙江省绥化市绥棱县林业局中学语文高三第一学期期末教学质量检测模拟试题含解析.doc
文档评论(0)