- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
貝氏主題混合資訊檢索模型
Bayesian Topic Mixture Model for Information Retrieval
吳孟淞 許軒睿 簡仁宗
國立成功大學資訊工程學系
Department of Computer Science and Information Engineering
National Cheng Kung University
mswu@.tw
摘要
在自動文件處理之相關研究中,我們常利用機率主題模型從字詞相互關係推斷並建立潛
在主題變數。在機率潛在語意模型(PSLA)裡,文件中的每一個字詞在混合模型即視為
一個樣本,其混合成分是使用多項分佈來表示的。然而,多項分佈方式沒有考慮到文集
中發生的突發現象。雖然PLSA 模型可以顯示多重主題樣式,但是每個主題模型都十分
簡單。在本研究中,我們提出一種新型之貝氏主題混合模型來解決多項分布固有的一些
問題。使用Dirichlet 分佈表示每一個主題的條件機率分佈,在相同種類內的不同的文件
經由不同的多項分布來產生。在TREC 文件集之資訊檢索實驗上,利用文件檢索及文件
模組化之評估來驗證貝氏主題模型的優越性。
Abstract
In studies of automatic text processing, it is popular to apply the probabilistic topic model to
infer word correlation through latent topic variables. Probabilistic latent semantic analysis
(PLSA) is corresponding to such model that each word in a document is seen as a sample
from a mixture model where mixture components are modeled by multinomial distribution.
Although PLSA model deals with the issue of multiple topics, each topic model is quite
simple and the word burstiness phenomenon is not taken into account. In this study, we
present a new Bayesian topic mixture model (BTMM) to overcome the burstiness problem
inherent in multinomial distribution. Accordingly, we use the Dirichlet distribution for
representation of topic information beyond document level. Conceptually, the documents in
the same class are generated by the associated multinomial distribution. In the experiments on
TREC text corpus, we show the results of average precision and model perplexity to
demonstrate the superiority of using proposed BTMM method.
關鍵詞:貝氏機率模型,圖形模型,機率潛在語意模型,Dirichlet 事前機率,資訊檢索
Keywords: Bayesian model, Graphical model, PLSA,
文档评论(0)