- 1、本文档共38页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
结合关键词辨识可信度分数门槛值限制
中文文字/語音文件中類專有名詞擷取及其可能應用之初步研究An Initial Study on Named Entity Extraction from Chinese Text/Spoken Documents and Its Potential Applications 指導教授:李琳山 博士共同指導:陳信希 博士研究生:劉禹吟 簡介 本論文處理的類專有名詞類別包含人名、地名與組織名。 類專有名詞辨識是希望在文件中標註出正確的類專有名詞邊界與類別。 語音文件中的類專有名詞辨識: 在有語音辨識錯誤的語音文件中找出類專有名詞出現處 有助於語音摘要、語音問答、和語音對話系統的處理 綱要 文字文件中類專有名詞辨識 語音文件中類專有名詞辨識 類專有名詞辨識衍生之應用 結論 文字文件中的類專有名詞辨識 類別語言模型法 派樹式規則法 文字文件中類專有名詞辨識-類別語言模型法的概念 類別的種類: 人名類別、地名類別、組織名類別、辭典中詞彙每一個詞各自是一個類別 若辭典中有|V| 個詞彙,則總共的類別數有|V|+3個 基本概念:給定中文句子S,W為S的可切分詞串,C為W對應的類別,利用維特比搜尋找出滿足P(C,W)最大的最佳詞序列W*和W*對應的最佳類別序列C* 各種類別語言模型的機率估計 各種類別生成模型估計 人名類別 (字元二連語言模型) 中國人名、外國人名分成兩種機率模型 例:李小龍 巢狀類別 (類別二連語言模型) 地名、組織名 例:宜蘭清水公園 一般詞彙類別 每一個辭典中詞彙各自是一個類別 生成機率皆為1 類別前後文模型估計 由訓練語料庫訓練出三連類別語言模型機率 如:訓練語句:總統 PER 在 LOC 發表 聲明 … 可估計出:p(PER|總統,s), p(LOC|在,PER) … 類別語言模型法實作演算法 對於句子S,執行下列三個步驟: 建構詞網 紀錄各類別候選詞於詞網上,並記錄其生成機率 一般詞彙、人名類別、地名類別、組織名類別 正向動態規劃(維特比搜尋) 從句首至句尾對每一個候選詞計算到該位置為止,滿足p(c,w)最大的最佳路徑,紀錄最佳分數及回溯指標 反向回溯找出最佳的詞序列及對應的類別序列 從句尾中有最高路徑分數的候選詞開始回溯至句首 演算法運作流程 處理句子:台北市中正紀念堂是為了紀念蔣中正先生 一般詞網示意圖 巢狀類別內部維特比搜尋 地名類別詞網 計算地名生成機率 P(台北市中正紀念堂|LOC) 類別語言模型法討論 類別語言模型法觀察: 優點: 將斷詞與類專有名詞辨識合在同一個架構下,具有斷詞解歧異的功能 弱點: 不易取得涵蓋領域夠廣且標註夠一致的訓練語料 不容易回收沒有關鍵詞的地名、組織名(九份、中廣) 需要做內部維特比搜尋的字串將成指數成長 一次處理一句,未用到整篇文章所包含的字串資訊 新的想法: 派樹式類專有名詞抽取: 使用整篇文章所包含的樣式統計資訊及該樣式所有出現過的前後文幫助抽取類專有名詞 派樹式規則法-派樹式類專有名詞抽取概念 派樹:是一種很有效率的資料結構,在資訊檢索的領域使用很多 建構派樹:將處理的文章中每一個語意片段中的後部字串(suffix string) 加入派樹中 正向派樹、反向派樹 優點:可以容易地獲得任意字串在整篇文章中的出現頻率及所有前後文 統計值(左右相連詞變異度)可判斷詞的邊界完整性 前後文字串可以用來判斷類別 派樹式規則法-派樹式類專有名詞抽取流程 派樹式規則法系統架構 文字文件類專有名詞辨識實驗-測試語料 測試語料: MUC-7(Message Understanding Conference-7)的MET-2(Multilingual Entity Task)測試語料,為大陸簡體字、火箭發射相關新聞共100則 類專有名詞統計量 評分方法: 精確率、回收率 F-測量=(2*精確率*回收率)/(精確率+回收率) 文字文件類專有名詞辨識實驗結果 語音文件中的類專有名詞辨識 轉寫文件直接辨認 結合關鍵詞辨識可信度分數門檻值限制 結合時間與主題同質的類專有名詞匹配 語音文件中類專有名詞辨識-測試語料 News98 2002年9月份200則語音新聞經由時間同質調適語料做語言模型調適的語音辨識結果 音節辨識率較字元辨識率高許多 測試語料中類專有名詞統計量 轉寫文件直接類專有名詞辨識實驗結果 轉寫文件直接類專有名詞辨識-結果觀察 直接辨識的問題: 將辨識錯誤處當成對的類專有名詞 例子:郭塘又缺少運動的婦女… (過糖) 導致精確率降低 辨識錯誤的類專有名詞無法回收 例子:立委甚至會帶領… (沈智慧) 導致回收率降低 結合關鍵詞辨識可信度分數門檻值限制
您可能关注的文档
- 教育部健康体位辅导与推广计画.doc
- 教育部临床医学专业认证院校手册-广州医科大学附属第二医院.doc
- 教育部全國大學校院積體電路設計相關競賽聯合頒獎典禮於臺大舉辦.doc
- 教育部直属高校聘请外国文教专家年计划-复旦大学外事处.doc
- 教育测验与评量特教所98122004赖怡萍10月13日笔记前言不同评.doc
- 教育的功能和目的.ppt
- 教育对一个人来说不仅本身就具有重大意义.doc
- 教育對一個人來說不僅本身就具有重大意義.doc
- 教育技术研究方法-北京师范大学网络教育.ppt
- 教育技术研究方法的体系三.ppt
- 金融产品2024年投资策略报告:积极适应市场风格,行为金融+机器学习新发现.pdf
- 交运物流2024年度投资策略:转型十字路,峰回路又转(2023120317).pdf
- 建材行业2024年投资策略报告:板块持续磨底,重点关注需求侧复苏.pdf
- 宏观2024年投资策略报告:复苏之路.pdf
- 光储氢2024年投资策略报告:复苏在春季,需求的非线性增长曙光初现.pdf
- 公用环保2024年投资策略报告:电改持续推进,火电盈利稳定性有望进一步提升.pdf
- 房地产2024年投资策略报告:聚焦三大工程,静待需求修复.pdf
- 保险2024年投资策略报告:资产负债匹配穿越利率周期.pdf
- 政策研究2024年宏观政策与经济形势展望:共识与分歧.pdf
- 有色金属行业2024年投资策略报告:新旧需求共振&工业原料受限,构筑有色大海星辰.pdf
文档评论(0)