CNS14366中文分词标准与分词的实际操作.pptVIP

  • 6
  • 0
  • 约3.85千字
  • 约 27页
  • 2017-05-08 发布于河南
  • 举报

CNS14366中文分词标准与分词的实际操作.ppt

CNS14366中文分词标准与分词的实际操作

分詞與詞彙搜集:CNS14366中文分詞標準簡介 黃居仁 中央研究院。語言座標計畫 為什麼要有分詞標準(之一) 「詞」是相當於概念的基本單位 ─句子與文本的理解建立在詞義的組合上 ─典藏的理解建立在概念的組合上 概念切分不同會導致解讀的歧異與混亂 ─分詞不一致會導致文本/典藏的不同解讀 為什麼要有詞彙庫 「詞」是相當於概念的基本單位 文本/典藏中詞的彙集就是概念的彙集 概念的彙集可視為有關該典藏所有知識的匯集,也就是該典藏的本體(Ontology) 典藏之間知識的交換需靠知識本體的查核與比對 為什麼要有分詞標準(之二) 分詞標準一致才能定義並處理知識本體 詞的使用與分佈是比對,辨識,研究文本最可靠的工具 ─分詞不一致便無法比對 「詞」是任何語言處理的基本單位 ─語音辨識/合成,構詞,剖析,語意,言談分析, 為什麼要有分詞標準(之三) 分詞可以解決一部份多義解讀的問題 ─他一把手放進洞裡,就開始尖叫 ─一個把手已經磨的光亮無比 ─他一[把]p[手]n放進洞裡,就開始尖叫 ─一個[把手]n已經磨的光亮無比 一致的分詞標準可以提高搜尋引擎檢索,錯別字更正等應用的準確率 CNS14366中文分詞原則 制訂的過程 設計指導原則 基本架構 細部內容 資料取得 參考文獻 CNS14366中文分詞原則 制訂的過程 1991中華民國計算語言學會(ROCLING)初步訂定學會共用的分詞原則 1995及1997 ROCLING接受中央標準局委託,進行分詞規範的研擬(由中研院執行) 1998分詞規範公聽會 1999 中文分詞原則正式通過為國家標準,編號CNS14366 CNS14366的設計指導原則 符合語言學理論之要求: 不受時、空、主題等影響的定義 在資訊處理上確實可行: 可以自動並有效執行的運算法 確保實際文本資料之一致性: 可以實際遵奉實行的標準才是真標準 詞界的變異與分詞標準 詞的界限隨著詞彙變遷移動 -人馬由並列結構(人員與馬匹)到複合詞(國王的「人馬」)是時間軸上語言演變的結果 -個別詞與詞界的定義隨著時間,地域,主題領域等因素改變 -如何同時照顧到詞的多重變異因素,又同時維持穩定的標準與原則? 分詞的變與不變 不變的定義與原則 語言學理論上詞的定義 由定義推導出的分詞原則 分詞輔助原則規定了由不變到變之間的可能關係 詞彙庫與參考語料庫隨著時間,地域,主題領域等參數改變 中文分詞原則的基本架構 分詞單位之定義:具有獨立意義,且扮演固定詞類的字串視為一分詞單位 分詞原則 基本原則(不變的最高指導原則) 輔助原則(富彈性,可依時代的演變、不同文本等有所增減) 分詞規範層次的劃分 分成信級、達級、雅級等三個層次處理 分詞規範之基本原則 語意無法由組合成分直接相加而得到之字串應該合為一分詞單位【合併原則】 例子:撞期;上下課 詞類無法由組合成分直接得到,應該合為一分詞單位【合併原則】 例子:好喝;游水 分詞規範之輔助原則(上) 有明顯分隔標記應該切分之【切分原則】 例子:洗了一個澡 附著語素盡量和前後詞合為一個分詞單位【合併原則】 例子:救生員;現代化 使用頻率高或共現率高的字串盡量視為一個分詞單位【合併原則】 例子:大笑;男女 分詞規範之輔助原則(下) 雙音節結構之偏正式動詞盡量視為一個分詞單位【合併原則】 例子:組建;緊追 雙音節加單音節之偏正式名詞盡量視為一個分詞單位【合併原則】 例子:捷運線;監護權;垃圾車 內部結構複雜之詞盡量切分之【切分原則】 例子:太空 計畫 室;看 清楚 分詞標準應用的有趣例子 K書, IBM, 7-11, call-機, e世代 父母親,青少年,青少女 ,中山南北路 華航, 中華航空 如何由網路取得 中文分詞原則相關資料 標準內容godel.iis.sinica.edu.tw/ROCLING/juhuashu1.htm 標準分詞語料庫(兩百萬詞,分詞完畢) 與詞彙庫 (42,138 詞,含頻率) godel.iis.sinica.edu.tw/ROCLING/corpus98/corpus_cf.ht 分詞程式godel.iis.sinica.edu.tw/CKIP/ws/ 如何收集詞彙 分詞原則即是收詞原則 所有分詞後獨立成詞的單位都是收集對象 頻率 專有名詞(人名,地名,公司名等) 詞綴/街頭詞/接尾詞 -性, -地, 可-,反=,=場, =園 詞彙庫該有那些資訊 形 音 義 用 語文知識的本體 1 1.字形, 2. 讀音,3詞類,4語意,5頻率, 6. 解釋/用例, 7.語境 語文知識的座標 1.時代, 2.地域,3階層, 4.領域,5.作者/使用者,6出處, 7.文獻 詞彙庫形的資訊 字形

文档评论(0)

1亿VIP精品文档

相关文档