向量空间模型的信息检索技术.docVIP

下载本文档

13
0
约3.01千字
约 6页
2019-10-11 发布于北京
举报
版权申诉

向量空间模型的信息检索技术.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

PAGE PAGE 1 向量空间模型的信息检索技术　　摘要：向量空间模型是一种以查询Q和文档集合{D1，D2，…，Dn}为处理对象的算法，通过这种算法计算出这个查询的相似度SC（Q，Di）以及每篇文档Di（1≤i≤n）。为了能够实现对信息检索中的文本分类策略，采用了空间模型算法，做了实验文档测试，获得了各自的权重文档搜索结果，得到在检索过程中，向量空间模型根据文档之间的相似度，计算哪个文档最符合用户输入的关键字的结论，具有信息检索中文本相似度根据权值大小分类显示的特点。　　Abstract：VectorspacemodelisaQqueryanddocumentcollectionof{D1，D2，…，Dn}.，astheprocessingobjectalgorithm，thisalgorithmtocalculatethesimilarityofthequerySC（Q，Di）andeachdocumentD（1≤i≤n）.Inordertorealizethetextclassificationininformationretrieval，thespacemodelalgorithmisadoptedinthispaper.Theweightdocumentsearchresultswereobtainedbymeansofthedocumentationtestinginthelab，Inaretrievalprocess，thevectorspacemodelisusedaccordingtothesimilaritybetweendocumentstocalculatewhichoneconformstouserSinputkeywords.Ithasthecharacteristicsoftextsimilaritydisplayaccordingtotheweightclassificationintheinformationretrieva1. 　　关键词：空间向量模型；查询；信息检索；文档相关性　　Keywords：spacevectormodel；query；informationretrieval；documentdependence 　　中图分类号：TP3文献标识码：A文章编号：1006-4311（2013）13-0208-02 　　0引言　　向量空间模型是一种以查询Q和文档集合{D，D，…，D}为处理对象的算法，通过这种算法计算出这个查询的相似度SC（Q，D）以及每篇文档D（1≤i≤n）。在文档和查询拥有的共同的此项更多的时候，那么文档和查询就更加相关。但是，通常一个概念是能够用很多不同的词项来表达的，这是因为语言文字具有着自身的不确定性。另外，语言的环境对term也有着比较大的影响，语言环境不同，尽管是相同的term也可能造成表达含义的不同，有的时候词性不同，那么它表达的含义也就不一样。而检索算法就能够通过一些措施来解决语言表达中不确定性的问题。　　下面介绍几种常用的检索模型：　　①向量空间模型：向量空间模型是能够计算两个向量之间的相似度的，那么如果将查询和文档都用词项空间中的向量来表示的话，那么就可以通过这种方法计算出二者的相似度。　　②概率模型：每个词项在文档中出现的概率，需要基于文档集中的前提下，通过词项在相关文档中出现的可能性来计算的。要推断文档或者查询问的相关性，需要通过贝叶斯网络。而在文档中能够做出文档相关性推断的那些依据正是基于文档的证据。文档查询的相似度也就成为了推理的可信度。　　1空间模型的理论概念　　最为接近查询的内容的文档就是相关的文档，在这个过程中，需要运用文档内的词项来衡量。向量空间模型的基本理念如图1。　　这个模型的主要工作有两个方面：一方面是通过向量的构建，来表示词项，这里的词项来自于文档；另一方面是通过向量的构建，来表示查询的词项。任意文档向量和查询向量要是相似的话，那么就只有一种的可能，就是文档向量和查询向量的指向在大体上是一样的。　　2向量空间模型的算法　　2.1计算权重在一篇文档中，影响词语的重要性的因素有两个。　　一个是termfrequency（tf）：也就是说term在这个文档中出现的次数，这个数值越高说明这个词在整个文档中越重要。　　另外一个是documentfrequency（df）：就是指的包含term的文档的总数，这个数值越大就说明这个词语越不　　重要。　　对于每一篇文档向量，都有n个分量，并且对于整个文档集中每个不同的词项，都包含一个词条。向量中的每个分量为整个文档集中计算出来的每个词项的权重。在每篇文档中，词项权重基于词项在整个文档集中出现的频率情况以及词项在某一个特定文档中出现的频率自动赋值。词项在一