- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
以聚合法AGNES提升检索效果之研究-淡江大学
以聚合法(AGNES)提升檢索效果之研究—以中文新聞為例 宋永杰 淡江大學資訊管理學系研究生 魏世杰 淡江大學資訊管理學系助理教授 大綱 壹、緒論 貳、相關研究 參、以聚合法提升檢索效果 肆、實驗結果與分析 伍、結論與未來方向 壹、緒論 研究動機與背景 全文檢索(Salton, 1986) :雜亂缺乏系統。 目錄服務(Boyapati, 2000):人工分群,無法追的上資訊成長的腳步。 文件自動分群(Schenker, 2001) :需要設定參數,檢索上需二次回饋,如:Mooter。 研究目的 以聚合法所建構出的樹狀結構為基礎,依文章本身的特性,由下而上動態群聚檢索結果,調整向量檢索系統排名,幾乎不需要設定參數、不需二次回饋即可提升其精確率。 貳、相關研究 中文斷詞 詞庫比對法(Chen, 1996) MMSEG*、AUTOTAG 統計分析法(Nie, 2000) n-grams 檢索系統* 文件向量表現法 TFIDF(Salton, 1986) 向量夾角相似度 cosθ 評量指標 精確率、召回率、F 值(Baeza-Yates, 1999) 貳、相關研究(續) 文件分群 分割式分群 K-mean(Steinbach, 2000) 階層式分群(Han, 2001) 聚合法(AGNES)* 分裂法(DIANA) 群集Ci與群集Cj的相似度計算方式(Chang, 2004) 單鍊結法 完全鍊結法 群平均鍊結法* 參、以聚合法提升檢索效果 系統架構 文件前處理 中文斷詞 文件特徵詞選取 文件分群 建立文件向量 以聚合法建構樹狀結構 文件檢索 向量模式檢索與排名 群聚檢索結果與調整排名* 參、以聚合法提升檢索效果(續) 中文斷詞 經MMSEG斷詞後,590篇新聞共25499個不同的詞彙,平均每篇有258個不同的詞彙。 文件特徵詞選取 出現在新聞標題的詞彙需加權。 取前20個權重值較高的詞作為文章的特徵詞(Chang, 2003)。 參、以聚合法提升檢索效果(續) 群聚檢索結果 節點群聚的條件必須滿足其父節點為樹根之所有葉節點必屬於向量檢索模式所回傳的文章集。 向量模式檢索結果為文章d1、d2、d3、d4、d5,依樹狀結構群聚出C1、C2兩群集。 利用群集調整向量模式檢索的排名。 參、以聚合法提升檢索效果(續) 群排名使用耦合力動機(例一) 調整排名前 參、以聚合法提升檢索效果(續) 群C與查詢q的耦合力 以耦合力調整排名後 參、以聚合法提升檢索效果(續) 群排名使用內聚力動機(例二) 調整排名前 參、以聚合法提升檢索效果(續) 群C與查詢q的內聚力 以內聚力調整排名後 參、以聚合法提升檢索效果(續) 以耦合力調整內聚力誤判誤判(例三) 調整前的內聚力誤判 參、以聚合法提升檢索效果(續) 群C與查詢q的調整耦合值 以耦合力調整誤判後 參、以聚合法提升檢索效果(續) 以內聚力調整耦合力的誤判(例四) 調整前的耦合力誤判 參、以聚合法提升檢索效果(續) 群C與查詢q的調整耦合值 以內聚力調整誤判後 參、以聚合法提升檢索效果(續) 群C與查詢q的可能狀況 參、以聚合法提升檢索效果(續) 以聚合法為基礎的群聚檢索結果與調整排名 輸入:查詢q,聚合法所建構的樹狀結構t。 輸出:群聚檢索結果後之群集,調整後的排名結果。 步驟1:對傳統向量模式檢索系統下達查詢q並回傳結果R = {d1,…,dr},其中dr為排名第r篇文章。 步驟2:群聚檢索結果,依樹狀結構t,將檢索結果R由下往上 群聚,節點群聚的條件必須滿足其父節點為樹根之所 有葉節點必屬於R,依此原則持續群聚直到不滿足條件 為止,最後形成多個群集C1,…,Ci。 步驟3:調整R排名,群集間依調整耦合adjustedCouplq,Ci排名, 群集內依查詢q與群集內文章d的相似度sim(q,d)做排名。 肆、實驗結果與分析 資料集 CIRB30子集(中時晚報1998-1999)。 590篇中文新聞。 13個測試主題。 實驗環境 Fedora Core 5、MySQL 5.0.22、J2SE 5.0 Intel Celeron 2.40GHz 400MHz、TwinMos 512MB DDR400 肆、實驗結果與分析(續) 肆、實驗結果與分析(續) 實驗方法 假設使用者加入關鍵詞是為了使查詢更明確,也就是更有區別性,則查詢的平均IDF值(Spark-Jones, 1972)會越來越高。 肆、實驗結果與分析(續) 肆、實驗結果與分析(續) 實驗一:1個關鍵詞查詢 主題:E(電腦病毒) 關鍵詞:「電腦病毒」 相關文章數:12 肆、實驗結果與分析(續) 實驗一:1個關鍵詞查詢 整體13個主題與有差異的5個主題之檢索表現提升率: 肆、實驗結果與分析(續) 實驗二:2個關鍵詞查詢 整體9個主題與有
您可能关注的文档
最近下载
- 2025四川省水电投资经营集团有限公司所属电力公司员工招聘6人笔试备考题库及答案解析.docx VIP
- 2024年10月中国建设银行广东省分行专业人才社会招聘笔试历年参考题库附带答案详解.docx
- 2025新疆投资发展(集团)有限责任公司及所属公司招聘71人笔试备考试题及答案解析.docx VIP
- 17J925-1 压型金属板建筑构造.docx
- 妊娠期肝内胆汁淤积症.ppt VIP
- 2025版简明新疆地方史读本全册教学设计教案.docx
- 住宅楼及地下车库施工组织设计方案.pdf VIP
- 2025压力容器设计审批考试题库 简答题 共1089题.docx VIP
- 2025年新疆投资发展(集团)有限责任公司及所属公司公开招聘(42人)笔试备考试题及答案解析.docx VIP
- 全球肥胖领域GLP-1赛道分析报告.pptx
文档评论(0)