- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
貝氏主題混合資訊檢索模型
Bayesian Topic Mixture Model for Information Retrieval
吳孟淞 許軒睿 簡仁宗
國立成功大學資訊工程學系
Department of Computer Science and Information Engineering
National Cheng Kung University
mswu@.tw
摘要
在自動文件處理之相關研究中,我們常利用機率主題模型從字詞相互關係推斷並建立潛
在主題變數。在機率潛在語意模型(PSLA)裡,文件中的每一個字詞在混合模型即視為
一個樣本,其混合成分是使用多項分佈來表示的。然而,多項分佈方式沒有考慮到文集
中發生的突發現象。雖然PLSA 模型可以顯示多重主題樣式,但是每個主題模型都十分
簡單。在本研究中,我們提出一種新型之貝氏主題混合模型來解決多項分布固有的一些
問題。使用Dirichlet 分佈表示每一個主題的條件機率分佈,在相同種類內的不同的文件
經由不同的多項分布來產生。在TREC 文件集之資訊檢索實驗上,利用文件檢索及文件
模組化之評估來驗證貝氏主題模型的優越性。
Abstract
In studies of automatic text processing, it is popular to apply the probabilistic topic model to
infer word correlation through latent topic variables. Probabilistic latent semantic analysis
(PLSA) is corresponding to such model that each word in a document is seen as a sample
from a mixture model where mixture components are modeled by multinomial distribution.
Although PLSA model deals with the issue of multiple topics, each topic model is quite
simple and the word burstiness phenomenon is not taken into account. In this study, we
present a new Bayesian topic mixture model (BTMM) to overcome the burstiness problem
inherent in multinomial distribution. Accordingly, we use the Dirichlet distribution for
representation of topic information beyond document level. Conceptually, the documents in
the same class are generated by the associated multinomial distribution. In the experiments on
TREC text corpus, we show the results of average precision and model perplexity to
demonstrate the superiority of using proposed BTMM method.
關鍵詞:貝氏機率模型,圖形模型,機率潛在語意模型,Dirichlet 事前機率,資訊檢索
Keywords: Bayesian model, Graphical model, PLSA,
您可能关注的文档
- 课时跟踪检测十三张衡传.doc
- 课程之离校-开南大学应用日语学系.ppt
- 课程内容史蹟篇-蔡辉振数位教学网.ppt
- 课程教学大纲-西南科技大学网络教育学院.doc
- 课程案例物流设施选址建模与优化1.pdf
- 课程简介和教学大纲格式-浙江大学材料科学与工程学院.pdf
- 课程设计-华中科技大学.ppt
- 课题三汽车发动机的基本术语课件.ppt
- 课题名外部投诉品质改善.pdf
- 课题研究报告-教学质量监督与评价处.ppt
- 2024年泉州市有限公司招聘考试真题.docx
- 二零二五商铺的租赁意向书.docx
- 2024-2025学年四川省成都市武侯区西川实验学校九年级(下)开学数学试卷+答案解析.pdf
- 木里县招聘中学教师笔试真题2024.docx
- 二零二五版招聘外包服务合同.docx
- 2024-2025学年四川省成都市武侯区西川中学九年级(下)月考数学试卷(3月份)+答案解析.pdf
- 2024年泉州市洛江区公办学校专项招聘教师考试真题.docx
- 2024年泉州市洛江区公办学校专项招聘编制内教师考试真题.docx
- 杭州萧山医院医共体总院招聘工作人员笔试真题2024.docx
- 杭州青少年活动中心招聘企业编制人员笔试真题2024.docx
文档评论(0)