- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
具相关资讯回馈能力之贝氏混合式机率检索模型
具相關資訊回饋能力之貝氏混合式機率檢索模型
Using Relevance Feedback in Bayesian Probabilistic Mixture Retrieval Model
簡仁宗 楊敦淇
國立成功大學資訊工程學系
Email: jtchien@.tw
摘要
本篇論文提出新穎之相關回饋(Relevance Feedback )方法並應用於混合式機率檢索系統(Mixture Probability
Model )以提昇檢索效能。相關資訊回饋法以往最常用的技術是查詢句擴充法(Query Expansion ),本回饋方式
是架構在以混合式機率模型為主的檢索系統上,為了加強檢索效能,我們是在查詢句擴充法中,強調不同查詢
詞的重要性,所以提出查詢詞權重重調整(Query Term Reweighting )技術;此外,我們也利用檢索出來的前N
名文件和資料庫的每份文件個別重調成新的文件語言模型,以提供較好的文件語言模型提供檢索時使用。在查
詢字權重之重調整部分以最佳相似度(Maximum Likelihood )為估測準則,而文件語言模型之調整部分先後以
最佳相似度與最佳事後機率(Maximum a Posteriori )為估測準則供我們對照比較,並使用了EM (Expectation
Maximization )演算法去估測出適當的參數。實驗結果顯示使用資訊回饋及貝氏語言模型調整可有效提升文件檢
索正確率。
1. 簡介
目前資訊檢索的型態大致可分為[1] :布林式(Boolean)檢索,類神經網路(Neural Network)檢索,向量式
(Vector-Based)檢索以及機率式( Probability-Based )檢索等;以上數種檢索式中,目前在搜尋引擎上較為廣泛使用
的為布林式檢索,目前常被使用的Google 搜尋引擎根據網站上的檢索方式說明[19] ,整個過程便是從布林運算
發展,以比對字串為主的檢索。
資訊檢索的領域裡,有一種能有效地提昇效能的方法稱為相關資訊回饋(Relevance Feedback ),它是使用
前一次檢索所得到的文件分數中,找出檢索分數較高的前N 篇或是適當的N 篇文件,從其中擷取可用的資訊
饋加入下一次遞迴的檢索中,增強檢索所需要的資訊;其概念是假設某些和查詢句相關的文件檢索後排名很前
面,但是某些相關文件(Relevant Document )語意上雖相似,但是也許內容出現了問題,例如:查詢詞出現的
比較少,因此檢索的排名會比較後面,所以利用排名前面的相關文件去想辦法拉抬排名於後的相關文件。在過
去常用於資訊檢索的相關回饋方式主要為查詢句擴充和查詢詞權重再調整。
一般使用者在搜尋引擎所下的查詢句通常都不長,因此提供的資訊並不多;另外,相關回饋於資訊檢索之
研究大部分都是針對向量模型檢索系統,對於以機率為主的n-gram 語言模型檢索系統,只能使用查詢句擴充法
來提昇檢索效能,但是觀察整個檢索流程,發現將每一份文件視為一個語言模型時,裡面能提供的資訊其實也
不多,會造成不同文件之間的混淆,假若能利用前一次遞迴檢索出排名較高的數篇文件去調整資料庫中的文件,
與它們相關的文件提供較多的資訊,與它們不相關的文件便提供少一點的資訊,那麼在下一次遞迴的檢索中,
便能減少一些文件與文件之間混淆的程度,而達成有效的自動檢索過程;此外在一些檢索系統上會用到的查詢
詞權重的觀念若能引進來,將這些參數額外地加到混合式n-gram 檢索架構中輔助原本的語言模型計算分數,並
利用回饋的資訊去重調整權重,如此應可加強一些重要字的分數以提昇檢索效能。所以我們以混合式機率檢索
架構為主,於此架構上使用相關資訊回饋。除 了沿用先前的查詢句擴充方式外,我們嘗試在檢索式中針對每個
查詢詞加入權重的參數,將前一次遞迴檢索分數最高的N 篇文件去做查詢詞的權重重調整,期望以這N 篇文件
內的分布情形 ,去調整出每個查詢詞的重要程度,此外,針對文件內提供資訊過少的問題,我們使用最佳事後
機率(Maximum a Posteriori )法則將這N 篇文件和資料庫裡的每一份文件調成新的文件混合語言模型,利用這
N
您可能关注的文档
- 光学模拟於广角LED动力光美容仪设计-德霖技术学院图书馆.PDF
- 光学数显分度头检定规程本规程经国家质量技术监督局于1卯9年09.PDF
- 光学尺及铣床操作说明.PDF
- 光学显微镜原理-青岛第九中学.PPT
- 光学显微镜的分类.PPT
- 光学课件之六光在晶体中的传播-赣南师范学院.PPT
- 光敏PVA取向膜偏光行为的研究.PDF
- 光机电整合学分学程-NUUEE-国立联合大学电机工程学系.PPT
- 光学调整架系列.PDF
- 光学顕微镜概论生命科学特论E京都大学大学院生命科学研究科.PDF
- 人教版二年级数学下册第6单元 有余数的除法第6课时 解决问题(1).pptx
- 人教版二年级数学下册第10单元 总复习第2课时 混合运算、万以内数的认识.pptx
- 人教版二年级数学下册第5单元 混合运算第3课时 含小括号的混合运算.pptx
- 人教版二年级数学下册第4单元 表内除法(二)第1课时 用7、8的乘法口诀求商.pptx
- 人教版二年级数学下册第4单元 表内除法(二)第6课时 整理和复习.pptx
- 人教版二年级数学下册第6单元 有余数的除法第8课时 练习课.pptx
- 基础护理学全套.pptx
- 2025年医学教育中研究生科研创新能力培养的机制与实践研究报告.docx
- 2024年云南能源职业技术学院单招职业技能测试题库【基础题】.docx
- 二零二五版股权代持纠纷调解与法律实务合同-@-2.docx
最近下载
- 康明斯KT38-GM发动机零件图册.pdf
- 少儿跆拳道教学教案.doc VIP
- [工程监理管理]山东省建设工程监理文件资料用表DOC73页).doc
- RFID技术数字养殖解决方案.pdf
- 2025年江西工商职业技术学院单招职业技能测试题库附答案.docx VIP
- 初中公共安全教育优质课.pptx VIP
- 义务教育版(2024)三年级全一册信息科技 第21课 分享学习资源 教案.docx VIP
- 蚌埠经济开发区征地拆迁补偿安置方案.docx VIP
- DBJ50T-291-2018 建设工程施工现场安全资料管理标准.docx VIP
- 2023-2024学年七年级语文下学期期中期末课内备考与专项复习(部编五四制)(上海专用)08说明文(三)说明方法(原卷版+解析).docx VIP
文档评论(0)