- 1、本文档共42页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中英多文件摘要系统之研究
中英多文件摘要系統之研究 指導教授:陳信希博士 研究生:蘇哲君 動機(想法的出發點) 大量資料充斥 雙語(多語)的閱讀人口大量增加 但每人還是有特定一種的偏好語言 透過文件的分析,將文件以最大的彈性來呈現,降低語言之間的隔閡所造成的影響。 先前的研究 本實驗室 (Chen, Chen, Huang and Lin, 1998) 以句子中的名詞和動詞來計算句子的重要性,藉以產生文件的摘要。 本實驗室 (黃聖傑, 1999) 多文件自動摘要方法研究 目標 一個跨語言的文件瀏覽系統 將來自不同語言的新聞文件依事件加以分群 分析描寫同一事件的每篇文章之間的異同 文件摘要的呈現 架構 主要課題 如何將中英文件轉換成「可比較的文件」? 中英文間如何評量相似程度? 字(詞)的層次 語句的層次 文件的層次 摘要的呈現方式 文件前置處理 擷取資料 資料來源: 中文:中央社中文新聞、中央日報、中國時報中文新聞、聯合報(中英對照中文部分) 英文:中央社英文新聞、ChinaPost、中國時報英文新聞、聯合報(中英對照英文部分) 針對每家不同來源的新聞(html)作文章擷取的動作 文件前置處理 將來自中文與英文的文件經過處理成為可比較的單位 文件前置處理(中文部分) 句子(義元)的切割(黃聖傑, 1999) 中文的句子中,往往一句中含有多個的含義 而在國政基金會民調中,受訪者也同時對民進黨缺乏人才表達憂慮,只有百之十一點二的受訪者肯定民進黨人才多,但卻有高達五成以上的受訪者,認為國民黨的確有較多的優秀施政人才。 如果斷成如下的“小句”,其意義就比較單一且較完整 小句1 而在國政基金會民調中,受訪也同時對民進黨缺乏人才表達憂慮 , 小句2 只有百分之十一點二的受訪者肯定民進黨人才多,但卻有高達五成以上的受訪者,認為國民黨的確有較多的優秀施政人才 。 文件前置處理(中文部分) 斷句方法 中文的連接詞(linking elements) (Yan, 1993) 經驗法則(詞性分析) 文件前置處理(中文部分) 斷詞 以統計為本,加入一些經驗法則,並再加入一些人名、地名、組織名的辨識。 本實驗室(丁永偉, 1998) 詞性標注 三元馬可夫模型(Trigram Markov Models) 本實驗室(丁永偉, 1998) 文件前置處理(英文部分) 斷句 以句點為分隔 字根還原(stemming) table lookup Porter’s stemmer on TREC-6 詞性標注(POS tagging) Eric Brill’s POS tagger rule-base 文件分群架構的選擇 文件分群架構的選擇 中英文件混合比較分群 中-中、英-英、中-英間的相似評估方式 中英文分開比較分群後,再建立對應關係 單語文件之間的相似評估方式 中英文件群間對應關係建立的方式 字與字之間的相似 單語間 中文詞 vs. 中文詞 完全相同 同義詞詞林 英文詞 vs. 英文詞 完全相同 Wordnet synset information 字與字之間的相似 中英之間 查字典 Minister(公使 吏 臣 臣子 官 官吏 官僚 卿 祭司師 部長) 部長 Bi-lingual synset alignment (林其青, 2000)18_n minister government_minister 公使 部長 語句和語句的相似 單語之間 取出名詞與動詞作為比較的單位 完全相似或同義詞(參照 詞林 or WordNet)則建立起連結 義元 Mi=(N1, N2, N3, …, Nn, V1 , V2, V3, …, Vm) 語句和語句的相似 中英之間 岐義性:不管在中文或英文中都有一字多義的問題,使在中英字詞比較時,會產生一對多或多對一的對應。 語句和語句的相似 我們採用先佔法則與位置的資訊幫助決定字詞的連結 先佔法則:每一字詞只產生一個連結,當被佔用後就不再與其他字詞產生連結 利用字詞之間的位置關係(collocations)幫助決定 語句和語句的相似 策略一 任一字詞與對方任一字詞比較產生連結 每一字詞只產生一個連結 語句和語句的相似 策略二 任一字詞與對方相對位置的字詞比較並產生連結 每一字詞只產生一個連結 語句和語句的相似 策略三 沒有歧義性的詞優先比較 利用已產生的連結位置資訊決定旁邊的詞比較範圍 每一字詞只產生一個連結 文件與文件的相似 文件間的比較與語句採取同樣策略,唯比較單位為整個文章。 文件群與文件群的比較 分類演算法 Gerard Salton:complete-link clustering 串列一:按相似度高低排序好的文件對 串列二:已看過的文件對 步驟一:從串列一中取出一個文件對。 如果該文件對的兩個元素皆為
文档评论(0)