- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
定义非对称的词汇相似度
共現索引典之自動建構、評估與應用 前言 相關之研究 關鍵詞自動擷取 關聯詞自動擷取 應用範例 成效評估 結語 前言 檢索失敗的主要因素之一:「字彙不匹配問題」 「查詢詞」與「索引詞」不相同的情況 例:「筆記型電腦」與「筆記本電腦」,「行政院長」與「閣揆」 改進方法:「查詢擴展」、「權威檔」、「索引典」 「查詢擴展」(query expansion) 加入更多與查詢主題相關的詞彙,或更改查詢詞的權重 「權威檔」 (authority file) 記錄及解決同義異名詞的工具 索引或檢索時,將各種同義異名詞對應起來,視為相同的詞彙處理 前言 「索引典」 (thesaurus) 除同義詞外,還有紀錄廣義詞、狹義詞、反義詞、、相關詞等 列舉主題詞彙,將詞彙間的語意或主題關係標示出來的知識庫 查詢時,可互相推薦,以擴展或縮小查詢範圍,或提示相關概念的不同查詢用語 例「攜帶型電腦」:「筆記型電腦」、「掌上型電腦」 使檢索從「字串比對層次」,提升到「語意比對層次」 人工製作索引典,準確度高,但召回率低、成本大、建構速度慢、事先選用的詞彙可能與後續或其他新進的文件無關 一般目的索引典運用在特定領域的文件檢索上,無法提升檢索效能 針對每一種文獻領域製作索引典,耗時費力 前言 「共現索引典」(co-occurrence thesaurus) 利用詞彙的「共現性」,自動建構「詞彙關聯」(term association) 或稱「關聯詞庫」 成本低、建構速度快、召回率高、與館藏文件用詞一致,但準確率低 詞彙關係:主題相關,不一定語意相關 例:「李登輝」與「康乃爾」、「中華電訊」與「ADSL」 相關研究:Salton ’89 Salton 曾提出建構共現索引典的架構: 算出各個詞彙間的相似度 「相似度」:詞彙在各文件之間,共同出現的情形(或主題相似度) 重要的索引詞彙,任兩詞彙皆拿來比對相似度 計算量至少 M2,M :所有重要詞彙的個數 依此相似度將詞彙歸類成「索引典類別」( thesaurus classes )(或「主題類別」) 相關研究:Salton ’89 歸類方式,主要有: Complete-link: 一開始,每個詞彙(元素),都單獨視為一類 兩個類別之間的相似度,若超過某個門檻值,就結合並歸成同一類,如此重複歸類 兩個類別之間的相似度,定義為跨類別元素之間相似度最低者 易產生多數個索引典類別(thesaurus class),但每類僅有少數個詞彙 Single-link: 同上述作法,但兩個類別之間的相似度,定義為跨類別元素之間相似度最高者 易產生少數個類別,但每類都有大量的詞彙 透過共現索引典的查詢擴展,檢索成效的召回率,通常可提升 10% 至 20% 小結: 歸類運算量太大,運用在大量文件上,耗時長久 相關研究: Crouch et al (SIGIR’90) 文件先以 complete-link 方法作歸類前處理 結果可視為一棵樹 樹葉(最末端節點):文件本身 分枝部分:類別相似度 根據使用者給定的參數,進行文件歸類 類別相似度門檻值(設為 0.075 時,有 2 個類別 (A,B) 與 (C,D,E) )) 每類文件篇數(設為 2 時,有2 個類別 (A,B) 與 (D,E) ) 詞頻門檻(threshold for low document frequency) 同一類中每篇文件都出現的低頻詞(低於詞頻門檻),才被歸成同一類 相關研究: Crouch et al (SIGIR’90) 文件與查詢詞彙,皆用此共現索引典加以擴展,進行檢索 檢索成效: ADI文件集(全部只有82篇文件)成效提升 10.6% 類別門檻值: 0.075, 每類文件篇數: 5, 詞頻門檻: 20 Medlars 文件集(全部有1033篇文件)成效提升 15.8% 類別門檻值: 0.12, 每類文件篇數: 3, 詞頻門檻 : 50 小結: 運算量大,只運用在文件數少的情況 參數多,且需就個別 文件集 作不同調整 相關研究: Chen ’96 相關研究: Chen (JASIS ’95) 定義非對稱的詞彙相似度 詞彙 Tj 在文件 i 中的權重: 詞彙 Tj 及 Tk 在文件 i 中的權重: Cluster_weight(Tj, Tk) Cluster_weight(Tk, Tj) 若Tj =「Artificial Intelligence」, wj =2 相關研究: Chen (JASIS ’95) 從 4714 文件中 (共 8 MB), 產生了 1,708,551 個詞對(co-occurrence pairs ) 由於關聯詞對太多,每個詞,限制其關聯詞數最多100 個,如此刪除了 60% 的詞對,剩下 709,659 個詞
您可能关注的文档
最近下载
- ISO27001 2022版内审全套资料(内审计划+检查表+审核报告等).doc
- fidic99版新红皮书中英文双语对照版.docx VIP
- 钢板弹簧设计计算程序Ver1.0-20070405.xls VIP
- 区块链产业学院建设思路与规划.pptx VIP
- 建筑外门窗气密、水密、抗风压性能分级(1).doc VIP
- 读本低年级 第2讲《一心跟着共产党》第二课时《党和人民心连心》教学课件.pptx VIP
- 数控车床高级工理论考试题库(含答案).docx VIP
- 《WPS Office办公应用案例教程》教学课件 项目8 WPS Office App文档的基本应用.ppt VIP
- 《WPS Office办公应用案例教程》教学课件 项目9 WPS Office App表格和演示文稿的应用.ppt VIP
- 通用质量特性工作计划-模板.docx VIP
文档评论(0)