- 7
- 0
- 约4.13万字
- 约 17页
- 2016-08-22 发布于河南
- 举报
「资讯处理用中文分词规范」设计理念及规范内容
「資訊處理用中文分詞規範」設計理念及規範內容
黃居仁*. 陳克健**. 陳鳳儀**.魏文真**.張麗麗**
*中央研究院語言學研究所籌備處
**中央研究院資訊科學研究所
摘 要
「資訊處理用中文分詞規範」有下列兩個突破:(1)提出分級的觀念及確立信、達、雅三級的標準。最容易達到的信級訂為基本資料交換的標準;技術上較難,但自動分詞程式仍可達到的達級作機器翻譯、資訊檢索等自然語言處理的標準;至於最需要人工分詞才能達到的雅級則視為電腦處理、理解中文之最高目標。(2)把分詞規範分成不變核心(分詞單位定義及基本原則),以及可變準則(輔助原則)。在確定分詞規範架構後,只要定時更新基本詞庫或特殊領域的專門詞庫,便可維持分詞規範的不變性。
規範制定的過程
根據美國資訊專業期刊 (AI Trend 1991) 的預測,隨著自然語言處理技術日趨成熟,相關軟體產品的研發將成為未來資訊產品的主要潮流。一個明顯的例子如蘋果電腦已推出能辨認英文語音指令的個人電腦,另外Thinking Machine公司已發展出能以近似自然語言查詢全文資料庫的WAIS全文檢索系統。不過,中文在這些方面的產品開發上仍遠落後於西方語言。
中文在自然語言處理方面有一個很不便的地方就是中文詞和詞之間在書寫時傳統上並不斷開(如西方語言多半以間距標示詞的界限),因此在詞的界限上很難有一個簡單清楚的區分,這使得中文在自然語言處理
您可能关注的文档
- MACD理论.doc
- Machine Data:机器数据.doc
- LED晶粒的生产流程论文.doc
- makefile的调试.doc
- marketing + comm + CRM JDs.doc
- max的材质详解及几十款材质效果的调整参数教程!.doc
- MAYA_材质与纹理的区别.doc
- maya不同模块的技术特征.doc
- MAYA中个别材质的属性设置.doc
- MBA全套中文教程-生产与运作原理-第一部-data t0102.doc
- 2026《活塞自动安装设备的国内外研究现状的文献综述》3400字.doc
- 2026年天津市南开区高考英语一模试卷-(Word版附解析).docx
- 2026《火电机组高压加热器选型分析》3300字.docx
- 2026年山东省青岛市平度市高考英语一模试卷-(Word版附解析).docx
- 2026《机器人运动学仿真分析案例》3900字.docx
- 2026《货车牵引车主制动器制动系统总体方案设计案例》2800字.docx
- 2026年安徽省合肥市巢湖市高考英语一模试卷-(Word版附解析).docx
- 2026《基于AISAS模型的房地产消费者行为分析案例》14000字.docx
- 2026《基于AT89C51单片机的蓝牙电子密码锁系统设计》8400字.docx
- 2026年江苏省南京市鼓楼区名校联盟高考物理一模试卷-(Word版附解析).docx
最近下载
- 航空运输地理 课件全套 第1--10章 地理学与航空运输地理---航空运输业的发展战略 .pdf
- (高清版)DB62∕T 3222-2022 建设工程造价成果文件编制标准.docx VIP
- 2025年静脉治疗护理技术操作规范 .pdf VIP
- 《微信小程序开发零基础入门-第2版》教案(含习题) 第12章教案_画布API.doc
- 《微信小程序开发零基础入门-第2版》教案(含习题) 第11章教案_界面API.doc
- 《微信小程序开发零基础入门-第2版》教案(含习题) 第10章教案_设备API.doc
- 《微信小程序开发零基础入门-第2版》教案(含习题) 第09章教案_位置API.doc
- 《微信小程序开发零基础入门-第2版》教案(含习题) 第08章教案_数据缓存API.doc
- 《微信小程序开发零基础入门-第2版》教案(含习题) 第07章教案_文件API.doc
- 《微信小程序开发零基础入门-第2版》教案(含习题) 第06章教案_媒体API.doc
原创力文档

文档评论(0)