「资讯处理用中文分词规范」设计理念及规范内容.docVIP

  • 7
  • 0
  • 约4.13万字
  • 约 17页
  • 2016-08-22 发布于河南
  • 举报

「资讯处理用中文分词规范」设计理念及规范内容.doc

「资讯处理用中文分词规范」设计理念及规范内容

「資訊處理用中文分詞規範」設計理念及規範內容 黃居仁*. 陳克健**. 陳鳳儀**.魏文真**.張麗麗** *中央研究院語言學研究所籌備處 **中央研究院資訊科學研究所 摘 要 「資訊處理用中文分詞規範」有下列兩個突破:(1)提出分級的觀念及確立信、達、雅三級的標準。最容易達到的信級訂為基本資料交換的標準;技術上較難,但自動分詞程式仍可達到的達級作機器翻譯、資訊檢索等自然語言處理的標準;至於最需要人工分詞才能達到的雅級則視為電腦處理、理解中文之最高目標。(2)把分詞規範分成不變核心(分詞單位定義及基本原則),以及可變準則(輔助原則)。在確定分詞規範架構後,只要定時更新基本詞庫或特殊領域的專門詞庫,便可維持分詞規範的不變性。 規範制定的過程 根據美國資訊專業期刊 (AI Trend 1991) 的預測,隨著自然語言處理技術日趨成熟,相關軟體產品的研發將成為未來資訊產品的主要潮流。一個明顯的例子如蘋果電腦已推出能辨認英文語音指令的個人電腦,另外Thinking Machine公司已發展出能以近似自然語言查詢全文資料庫的WAIS全文檢索系統。不過,中文在這些方面的產品開發上仍遠落後於西方語言。 中文在自然語言處理方面有一個很不便的地方就是中文詞和詞之間在書寫時傳統上並不斷開(如西方語言多半以間距標示詞的界限),因此在詞的界限上很難有一個簡單清楚的區分,這使得中文在自然語言處理

文档评论(0)

1亿VIP精品文档

相关文档