- 1、本文档共61页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
3.4.群聚检索结果与调整排名-淡江大学.doc
淡江大學資管所碩士論文?? ? ? 以聚合法(AGNES)提升檢索效果之研究—以中文新聞為例
PAGE
PAGE II
淡江大學資訊管理學系碩士班
碩士論文
指導教授:魏 世 杰 博士
以聚合法(AGNES)提升檢索效果之研究
—以中文新聞為例
研究生:宋 永 杰 撰
中 華 民 國 96 年 6 月
謝辭
? 三年的研究生涯,終於要劃上句點。從一開始的摸索徬徨,經歷更改題目、技術的克服,到最後論文的完成。現在,還有一絲絲不敢相信自己做到了,當然,如果沒有身旁的人的幫助,是不可能完成的。
? 最感謝的是我的指導老師 魏世杰博士,感謝老師費盡心思地指導我的論文,對我的怠惰也一再地容忍。也感謝志龍、逢鳴學長給予的建議,還有囿成、忠穎、佐鴻相互的勉勵。最後感謝的是我的家人和女友,一路走來感謝有您們在我身旁,謝謝您們對我的寬容和等待,謝謝!
宋永杰? 謹誌
淡江大學資訊管理學系碩士班
中華民國96年6月
論文名稱:
以聚合法(AGNES)提升檢索效果之研究
—以中文新聞為例
頁數:54
校系(所)組別:淡江大學資訊管理學系碩士班
畢業時間及提要別:95學年度第2學期學位論文提要
研究生:宋永杰
指導教授:魏世杰 博士
論文提要內容:
傳統向量模式檢索系統回傳的相關資料往往過於雜亂缺乏系統,使用者必須花費心思逐步過濾,才能取得真正符合需求的資訊。本研究以聚合法所建構出的樹狀結構為基礎,由下而上動態群聚向量模式檢索系統所回傳的結果,形成多個群集,群集間依本研究之耦合力與內聚力的平均值做排名,群集內則依文章與查詢的相似度做排名,經調整排名後提升其精確率,並以群集的方式提供使用者瀏覽。
本研究採用中文文件集,經斷詞、特徵詞選取、建立文件向量、分群、檢索、群聚檢索結果與調整排名等處理。實驗結果顯示,在整體檢索表現中本系統可提升傳統向量模式檢索系統約20.9%~24.0%的精確率,經Wilcoxon Signed Ranks Test檢定,在1個關鍵詞與2個關鍵詞查詢下,本系統檢索表現優於傳統向量模式檢索系統。
關鍵詞: 資訊檢索、聚合法、分群、向量空間模式
Title of Thesis:
The Research on Improving the Performance of Information Retrieval with the AGglomerative NESting (AGNES) Algorithm — Using a Chinese News Dataset.
Total pages:54
Key Words:Information Retrieval, Agglomerative Nesting Algorithm, Clustering, Vector Space Model
Name of Institute:Master Program in Information Management
Graduate date:June, 2007
Degree conferred:Master
Name of student:
Yung-Chieh Sung
Advisor:
Shih-Chieh Wei Ph.D
宋永杰
魏世杰 博士
Abstract:
Usually the document ranking returned by the traditional vector space model of an information retrieval system is unorganized. It is often found that related documents do not have adjacent ranks. In order not to miss the needed information, the user still has to read several unrelated documents before finding another related document. In this research, we cluster the documents from the traditional vector space model based on the binary tree hierarchy constructed by the AGglomerative NESting (AGNES) algorithm. The clusters are ranked by the average of the coupling and the cohesion measures proposed in this thesis, and the document
文档评论(0)