- 1、本文档共20页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
唐宋诗词分词规则及命名实体特徵
唐宋詩詞分詞規則及命名實體特徵 前言 詩詞文體特性 分詞準則與詞彙切分方法 詩詞人名之命名實體構詞特徵 結語 前 言 本文以文學內容分析的方法,以唐宋詩詞為範圍,以符合文體特性及滿足文學研究為前提,建立詩詞韻文詞彙切分原則,探討詩詞文體人名之命名實體構詞特徵,以作為進行命名實體標註規範之參考。 詩詞文體特性 詩詞是特殊的語言形式,以雙音節詞居多。 因遷就雙音節及平仄格律,使得很多詞彙只用於詩詞,不用於其他文體。 或該詞彙在詩詞裡是通順有意義的詞彙,當抽離詩詞文本時,語義便不通。 或者為了符合平仄聲調而使用方言俗語及罕用詞彙,使用特殊句法、句型。 分述如下: 詩詞文體特性:構詞特殊 詩詞文體特性:構句特殊 詩詞文體特性:用法特殊 詩詞文體特性:用語特殊 除了專有名詞會為了符合平仄聲調而改用通俗名稱、方言俚語之外,在講究精緻典雅修辭技巧的詩詞裡亦是。 例如: 杜甫〈三絕句〉詩:「無數春筍滿林生,柴門密掩斷人行。會須上番看成竹,客至從嗔不出迎。」 元稹〈賦得春雪映早梅〉詩:「飛舞先春雪,因依上番梅。」 「上番」的「番」讀去聲,根據《辭源》的解釋:「唐人稱植物不斷生長為上番,為當時四川方言。」杜甫是四川人 ,元稹住過成都 。 分詞準則與詞彙切分方法 1/3 本研究將依據詩詞文體的句法特性,建立詞彙切分規則,並開發詞彙自動切分工具,輔以人工校正,建立詩詞之專有名詞、典故、疊字詞、專屬領域詞、一般詞彙等不同的詞彙資料庫。 詩詞的詞彙以雙音節為主,句子轉折處及含有領字的詞牌的首字使用單音節詞,但是專有名詞及典故詞彙字數則不固定,因此進行詩詞詞彙切分前,如能先建立下列三種資料庫,將可提高詞彙切分的正確性。分述如下: 分詞準則與詞彙切分方法 2/3 一、建立詞譜、專有名詞、典故詞彙等基本資料庫 二、詞彙切分方法與步驟之一: (一)以專有名詞為切分詞彙最優先順位 (二)依建立的宋詞詞譜優先將單字領字切分 (三)先切出疊字詞(茫茫) (四)比對典故詞彙資料庫,典故詞不切分 (五)「兮」字無論在任何位置,皆優先切分 分詞準則與詞彙切分方法 3/3 二、詞彙切分方法與步驟之二: (六)1.五、七言近體詩依「(七)之2、3」步驟切分 2.六言近體詩依「(七)之1」步驟切分 3.古體詩依「(七)之1、2、3」步驟切分 (七)1.句子字數為偶數句,兩兩切分為雙音節詞 2.句子字數為奇數句,末三字之外,兩兩切分為 雙音節詞 3.奇數句之末三字,其句法為上一下二;上二下 一,無準則。 (八)詩之詞彙切分法,除了沒有領字規則,其餘均同 (九)切分正確率的高低與用以比對的詞彙資料的多寡 成正比 詩詞人名之命名實體構詞特徵1/7 本研究是在「歷代語言知識庫」之「詩詞語言知識庫」的語義概念分類基礎上,以李白、杜甫、韓愈三家詩為範圍,抽取人名類別的詞彙,分析其命名實體之構詞特徵。 詩詞人名之命名實體構詞特徵 2/7直書本名 詩詞人名之命名實體構詞特徵 3/7 詩詞人名之命名實體構詞特徵 4/7他稱的種類 1.姓+氏 2.姓+生 3.姓+子 4.姓+君 5.姓+客 6.姓+處士 7.姓+公子 8.姓+夫子 9.姓+公 10.姓+老或叟 11.姓+地名 12.地名+姓 13.姓+員外 14.姓+卿 15.姓+大夫 16.姓+侯 詩詞人名之命名實體構詞特徵 5/7 詩詞人名之命名實體構詞特徵並稱 6/7 詩詞人名之命名實體構詞特徵 7/7 結 語 詩詞的命名實體構詞方式,一言以蔽之,都是為了符合格律的要求,以雙音節詞最多,其次是單音節詞。 而地名與人名一樣,也使用別名、俗名、古地名,或以並稱、合稱、省稱等方式構詞。 動植物詞彙在詩詞裡,因附著了作者的情感而成為意象詞,多數以單音節詞書寫的動植物名稱,都會在字前或後加上其他語素,以結合成雙音節詞,既能符合格律,又可豐富語義,與之結合的語素種類及語義類別比人名、地名複雜多變,限於篇幅,只能另文探討。 致 謝 詞 本文得到下列二項經費支持,特此致謝 蔣經國國際學術交流基金會「歷代語言知識庫建置計畫」(RG013-D-09) 國科會「從不能到能:以語言知識庫為基礎的作詩填詞輔助系統」(NSC101-2410-H-155-044)計畫 謝謝聆聽,敬請指教 * * * 台灣元智大學?羅鳳珠、邱筱榆、林宜嫺 代為宣讀:北京大學?胡俊峰 將「蚯蚓」與「蜘蛛」本來不能切分為單音節詞使用的雙音節詞省略為「蚓」、「蛛」,這是因為受到包含:字數、
文档评论(0)