具相关资讯回馈能力之贝氏混合式机率检索模型.PDF

下载文档

1
0
约4.35万字
约 10页
2017-10-13 发布于天津
举报
版权申诉
保障服务

具相关资讯回馈能力之贝氏混合式机率检索模型.PDF

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

具相关资讯回馈能力之贝氏混合式机率检索模型

具相關資訊回饋能力之貝氏混合式機率檢索模型 Using Relevance Feedback in Bayesian Probabilistic Mixture Retrieval Model 簡仁宗楊敦淇國立成功大學資訊工程學系 Email: jtchien@.tw 摘要本篇論文提出新穎之相關回饋（Relevance Feedback ）方法並應用於混合式機率檢索系統（Mixture Probability Model ）以提昇檢索效能。相關資訊回饋法以往最常用的技術是查詢句擴充法（Query Expansion ），本回饋方式是架構在以混合式機率模型為主的檢索系統上，為了加強檢索效能，我們是在查詢句擴充法中，強調不同查詢詞的重要性，所以提出查詢詞權重重調整（Query Term Reweighting ）技術；此外，我們也利用檢索出來的前N 名文件和資料庫的每份文件個別重調成新的文件語言模型，以提供較好的文件語言模型提供檢索時使用。在查詢字權重之重調整部分以最佳相似度（Maximum Likelihood ）為估測準則，而文件語言模型之調整部分先後以最佳相似度與最佳事後機率（Maximum a Posteriori ）為估測準則供我們對照比較，並使用了EM （Expectation Maximization ）演算法去估測出適當的參數。實驗結果顯示使用資訊回饋及貝氏語言模型調整可有效提升文件檢索正確率。 1. 簡介目前資訊檢索的型態大致可分為[1] ：布林式(Boolean)檢索，類神經網路(Neural Network)檢索，向量式 (Vector-Based)檢索以及機率式( Probability-Based )檢索等；以上數種檢索式中，目前在搜尋引擎上較為廣泛使用的為布林式檢索，目前常被使用的Google 搜尋引擎根據網站上的檢索方式說明[19] ，整個過程便是從布林運算發展，以比對字串為主的檢索。資訊檢索的領域裡，有一種能有效地提昇效能的方法稱為相關資訊回饋（Relevance Feedback ），它是使用前一次檢索所得到的文件分數中，找出檢索分數較高的前N 篇或是適當的N 篇文件，從其中擷取可用的資訊饋加入下一次遞迴的檢索中，增強檢索所需要的資訊；其概念是假設某些和查詢句相關的文件檢索後排名很前面，但是某些相關文件（Relevant Document ）語意上雖相似，但是也許內容出現了問題，例如：查詢詞出現的比較少，因此檢索的排名會比較後面，所以利用排名前面的相關文件去想辦法拉抬排名於後的相關文件。在過去常用於資訊檢索的相關回饋方式主要為查詢句擴充和查詢詞權重再調整。一般使用者在搜尋引擎所下的查詢句通常都不長，因此提供的資訊並不多；另外，相關回饋於資訊檢索之研究大部分都是針對向量模型檢索系統，對於以機率為主的n-gram 語言模型檢索系統，只能使用查詢句擴充法來提昇檢索效能，但是觀察整個檢索流程，發現將每一份文件視為一個語言模型時，裡面能提供的資訊其實也不多，會造成不同文件之間的混淆，假若能利用前一次遞迴檢索出排名較高的數篇文件去調整資料庫中的文件，與它們相關的文件提供較多的資訊，與它們不相關的文件便提供少一點的資訊，那麼在下一次遞迴的檢索中，便能減少一些文件與文件之間混淆的程度，而達成有效的自動檢索過程；此外在一些檢索系統上會用到的查詢詞權重的觀念若能引進來，將這些參數額外地加到混合式n-gram 檢索架構中輔助原本的語言模型計算分數，並利用回饋的資訊去重調整權重，如此應可加強一些重要字的分數以提昇檢索效能。所以我們以混合式機率檢索架構為主，於此架構上使用相關資訊回饋。除了沿用先前的查詢句擴充方式外，我們嘗試在檢索式中針對每個查詢詞加入權重的參數，將前一次遞迴檢索分數最高的N 篇文件去做查詢詞的權重重調整，期望以這N 篇文件內的分布情形，去調整出每個查詢詞的重要程度，此外，針對文件內提供資訊過少的問題，我們使用最佳事後機率（Maximum a Posteriori ）法則將這N 篇文件和資料庫裡的每一份文件調成新的文件混合語言模型，利用這 N