结合时间与主题同质的类专有名词匹配
中文文字/語音文件中類專有名詞擷取及其可能應用之初步研究An Initial Study on Named Entity Extraction from Chinese Text/Spoken Documents and Its Potential Applications 指導教授:李琳山 博士共同指導:陳信希 博士研究生:劉禹吟 簡介 本論文處理的類專有名詞類別包含人名、地名與組織名。 類專有名詞辨識是希望在文件中標註出正確的類專有名詞邊界與類別。 語音文件中的類專有名詞辨識: 在有語音辨識錯誤的語音文件中找出類專有名詞出現處 有助於語音摘要、語音問答、和語音對話系統的處理 綱要 文字文件中類專有名詞辨識 語音文件中類專有名詞辨識 類專有名詞辨識衍生之應用 結論 文字文件中的類專有名詞辨識 類別語言模型法 派樹式規則法 文字文件中類專有名詞辨識-類別語言模型法的概念 類別的種類: 人名類別、地名類別、組織名類別、辭典中詞彙每一個詞各自是一個類別 若辭典中有|V| 個詞彙,則總共的類別數有|V|+3個 基本概念:給定中文句子S,W為S的可切分詞串,C為W對應的類別,利用維特比搜尋找出滿足P(C,W)最大的最佳詞序列W*和W*對應的最佳類別序列C* 各種類別語言模型的機率估計 各種類別生成模型估計 人名類別 (字元二連語言模型) 中國人名、外國人名分成兩種機率模型 例:李小龍 巢狀類別 (類別二連語言模型) 地名、組織名 例:宜蘭清水公園 一般詞彙類別 每一個辭典中詞彙各自是一個類別 生成機率皆為1 類別前後文模型估計 由訓練語料庫訓練出三連類別語言模型機率 如:訓練語句:總統 PER 在 LOC 發表 聲明 … 可估計出:p(PER|總統,s), p(LOC|在,PER) … 類別語言模型法實作演算法 對於句子S,執行下列三個步驟: 建構詞網 紀錄各類別候選詞於詞網上,並記錄其生成機率 一般詞彙、人名類別、地名類別、組織名類別 正向動態規劃(維特比搜尋) 從句首至句尾對每一個候選詞計算到該位置為止,滿足p(c,w)最大的最佳路徑,紀錄最佳分數及回溯指標 反向回溯找出最佳的詞序列及對應的類別序列 從句尾中有最高路徑分數的候選詞開始回溯至句首 演算法運作流程 處理句子:台北市中正紀念堂是為了紀念蔣中正先生 一般詞網示意圖 巢狀類別內部維特比搜尋 地名類別詞網 計算地名生成機率 P(台北市中正紀念堂|LOC) 類別語言模型法討論 類別語言模型法觀察: 優點: 將斷詞與類專有名詞辨識合在同一個架構下,具有斷詞解歧異的功能 弱點: 不易取得涵蓋領域夠廣且標註夠一致的訓練語料 不容易回收沒有關鍵詞的地名、組織名(九份、中廣) 需要做內部維特比搜尋的字串將成指數成長 一次處理一句,未用到整篇文章所包含的字串資訊 新的想法: 派樹式類專有名詞抽取: 使用整篇文章所包含的樣式統計資訊及該樣式所有出現過的前後文幫助抽取類專有名詞 派樹式規則法-派樹式類專有名詞抽取概念 派樹:是一種很有效率的資料結構,在資訊檢索的領域使用很多 建構派樹:將處理的文章中每一個語意片段中的後部字串(suffix string) 加入派樹中 正向派樹、反向派樹 優點:可以容易地獲得任意字串在整篇文章中的出現頻率及所有前後文 統計值(左右相連詞變異度)可判斷詞的邊界完整性 前後文字串可以用來判斷類別 派樹式規則法-派樹式類專有名詞抽取流程 派樹式規則法系統架構 文字文件類專有名詞辨識實驗-測試語料 測試語料: MUC-7(Message Understanding Conference-7)的MET-2(Multilingual Entity Task)測試語料,為大陸簡體字、火箭發射相關新聞共100則 類專有名詞統計量 評分方法: 精確率、回收率 F-測量=(2*精確率*回收率)/(精確率+回收率) 文字文件類專有名詞辨識實驗結果 語音文件中的類專有名詞辨識 轉寫文件直接辨認 結合關鍵詞辨識可信度分數門檻值限制 結合時間與主題同質的類專有名詞匹配 語音文件中類專有名詞辨識-測試語料 News98 2002年9月份200則語音新聞經由時間同質調適語料做語言模型調適的語音辨識結果 音節辨識率較字元辨識率高許多 測試語料中類專有名詞統計量 轉寫文件直接類專有名詞辨識實驗結果 轉寫文件直接類專有名詞辨識-結果觀察 直接辨識的問題: 將辨識錯誤處當成對的類專有名詞 例子:郭塘又缺少運動的婦女… (過糖) 導致精確率降低 辨識錯誤的類專有名詞無法回收 例子:立委甚至會帶領… (沈智慧) 導致回收率降低 結合關鍵詞辨識可信度分數門檻值限制
您可能关注的文档
- 第四节彩色显像管及附属电路的故障维修三.PPT
- 第四章集成运算放大电路本章要求:了解集成运算放大器的电路结构.DOC
- 第四节骨关节疾病一、骨关节外伤.PPT
- 第四组项目实践.PPT
- 第四部分、投标文件及其附件格式-绍兴统计信息网.DOC
- 第四章阵列.PDF
- 第四部分WEPP 模型流域版本.PDF
- 第版国际能源署发布电力转型报告世界最大太阳能-中国电机工程学会.PDF
- 第四课鲸生鲸世选.DOC
- 第四节非线性薛定谔方程与光学孤立子 - Read.DOC
- 广东省广州省实验中学教育集团2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 广东省广州大学附属中学2025-2026学年八年级上学期奥班期中物理试题(解析版).docx
- 广东省广州市第八十六中学2025-2026学年八年级上学期期中物理试题(含答案).docx
- 广东省广州市第八十九中学2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 广东省广州市第二中学2025-2026学年八年级上学期期中考试物理试题(含答案).docx
- 广东省广州市第八十六中学2025-2026学年八年级上学期期中物理试题(解析版).docx
- 广东省广州市第八十九中学2025-2026学年八年级上学期期中考试物理试题(含答案).docx
- 广东省广州市第二中学2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 2026《中国人寿上海分公司营销员培训体系优化研究》18000字.docx
- 《生物探究性实验教学》中小学教师资格模拟试题.docx
最近下载
- 电商数据分析(微课版)课件全套 第1--10章 电商数据分析概述---数据分析报告与看板制作.pptx
- 异常子宫出血的护理查房.pptx
- 2025年中医执业医师个人工作计划范文.docx VIP
- 2024《中班幼儿饮食行为现状调查—以S幼儿园为例》12000字.docx VIP
- 2025年美容美发十年行业数据洞察报告.docx
- 护理交接班制度.pptx VIP
- 初中电学总复习初中电学总复习.doc VIP
- 北京邮电大学《机器学习》2023-2024学年期末试卷.doc VIP
- 照顾老人保姆合同范本10篇.docx VIP
- 2024年锡林郭勒职业学院单招职业倾向性考试题库必考题.docx VIP
原创力文档

文档评论(0)