中国国家标准 SIGHAN.doc

  1. 1、本文档共28页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中国国家标准 SIGHAN

SEGMENTATION PRINCIPLE FOR CHINESE LANGUAGE PROCESSING 適用範圍:本標準規定資訊處理用分詞標準研擬草案之原則、層次劃分及應用實例,並且經後處理之後適用於中文資訊檢索、機器翻譯和文句校正等。 用語釋義 分詞標準:根據語言學的資訊處理為著眼點,規範中文字串基本語意單位切分的遵循標準。 定義:用來說明中文分詞的基本單位。 基本原則:中文分詞標準的一般性原則,從語意、語法兩方面來規範,符合語言學理論。 輔助原則:中文分詞的操作型原則,輔助原則可因需要而有變異性。 層次劃分:依自動化處理的難易,規定不同階段應達成的分詞目標。 信級:在本規範的前提下,所定的的操作原則,依標準詞典將詞切分,用來作基本資料交換。 達級:在本規範的前提下,所定的的操作原則,是簡單構詞規律所能組合成詞的層次,用於大部分自然語言處理。 雅級:在本規範的前提下,所定的的操作原則,是符合語言學理論的理想階層,可用於剖析。 操作型定義:在本規範的前提下,依詞類、結構等,列出各類型詞語,供使用者實際操作時的依據。 標準辭典:是理想中的辭典,辭典收納的詞能符合分詞標準,並能與時俱增,隨時更新編入語言演變產生的新詞。 附著語素:有獨立意義卻無法獨立扮演一個語法功能的語言成分。 衍生詞綴:具有衍生性的附著語素,可由構詞律組成複合詞,對資訊處理的困難度不大,在達級即可達成組合詞的目標。 語法詞綴:具有固定獨立的語法功能,且不影響緊鄰成分語法類別的詞綴,包括「了、著、過、看、看看、們、者」等。 接頭詞:附加於別的成分之前構成複合詞的詞,在雅級處理其組合。如「準-、多-、非-」。 接尾詞:附加於別的成分之後構成複合詞的詞,在雅級處理其組合。如「-盃、-盒、-觀」。 第二次修訂:87.05.29 (共27頁) 並列結構:具有相同詞類的成分並排出現,如兩個動詞並列「研究」或兩個名詞並列「兄弟」。 偏正結構:修飾成分與主要語形成的結構,如「汽車」是偏正式名詞,「微笑」是偏正式動詞。 主謂結構:主語性及謂語性成分所構成的結構,例如:臉紅、心跳。 動賓結構:動詞與受詞結合形成的結構,例如:開門、打嗝。 述補結構:由動詞或形容詞與描述其動作結果或狀態的詞組合而成,例如:走光、洗掉。 3. 分詞原則及層次劃分 3.1 分詞原則:規定分詞之依據,包含定義、兩條基本原則、六條輔助原則。 3. 1. 1 定義:具有獨立意義,且扮演固定詞類的字串視為一分詞單位。 3.1.2 基本原則 (1) 語意無法由組合成分直接相加而得到之字串應該合為一分詞單位。 例1. 下列字串因其組合後語意改變皆應視為一個分詞單位:飛黃騰達(成語),撞期、吃醋(熟語),或多或少、十二萬分(定量結構),五月(定名結構:不是五個月)、三樓(定名結構:不是三層樓),談談(重疊結構:表嘗試)、坐坐(重疊結構:短暫貌)、辛辛苦苦(重疊結構:程度加強)、片片(重疊結構:具泛指意涵)(1)。 註(1) 當重疊結構之意義未失組合性,則不予合併。例如“坐 坐 坐、哈 哈、叮噹 叮噹”不須組合成一個詞,因該字串之語意可從每個成分組合而成,並無多出的詞意。 例2. 合併結構,像是“上下課、高中職、中山南北路”,依此原則也應該合併為一個詞。因為該字串的意義並非“上”加“下課”、“高中”加“職”,中山南加“北路”,而是“上課”加“下課”、“高中”加“高職”、“中山南路”加“中山北路”,可見合併結構的意義不等於組合意義,故應合併(2)。 註(2) 唯帶專名之合併詞,像是“台北市長”(“台北市”加“市長”)、“新竹縣政府”(“新竹縣”加“縣政府”),因切分後前方的專名和後方的名詞皆可獨用,意義可以組合成,故仍予以切分。 (2) 詞類無法由組合成分直接得到,應該合為一分詞單位。 例1. 動作及物動詞“喝、吃、聽”前面加“好”構成“好喝、好吃、好聽”,不能再加賓語,成為不及物動詞,且能被程度副詞“很、十分、非常”修飾,與原來的語法特性不同,故可視為一個分詞成分。 例2. “那隻狗不會游水”中“游水”指的是“在水裡游”,但“游”是不及物動詞,不可直接後接名詞。因此,“游水”不符合動詞“游”的語法規律,故應合併之。 備考:基本原則(1)(2)配合定義分詞單位,視同選詞之標準,故為合併原則。 3.1.3. 輔助原則 有明顯分隔標記應該切分之。 例1. 動賓中插:洗了一個澡 例2. 述補中插:打得破、打不破(3) 例3. 交互中插:彎下腰去、喘不過氣來 例4. 合併中插:動詞:上、下課 例5. 合併中插:名詞:父、母親,高中、職,中山南、北路 例6. 合併中插:定量:本 (二) 月,七、八月,1995、6年,三 到 四月(4) 例7. 外來語:BBS 站(5) 備考:中插的分隔標記可能是詞、標點符號或是外

文档评论(0)

sunshaoying + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档