唐宋诗之词汇自动分析及应用.pdf

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
LANGUAGE AND LINGUISTICS 4.3:631-647, 2003 2003-0-004-003-000064-1 唐宋詩之詞匯自動分析及應用* 俞士汶 胡俊峰 北京大學 本文介紹了唐宋詩之詞匯的自動提取、自動分析技術及其在古代詩詞電 腦輔助研究中的一些應用的實例。 文章著重介紹了利用統計的方法對唐宋詩語料進行詞匯獲取的具體演算 法及步驟。給出了「共現度」、「結合強度」等統計參數的計算方法,並與傳 統的「互信息」方法進行了比較。 在對全唐詩(481 萬字)、宋代部分名家詩(160 萬字)的語料完成切分 及詞性標注的基礎上,系統又對唐宋詩詞匯的使用情況進行了統計分析。提 取了詞匯共現信息、詞匯對仗信息、作者詞匯特徵信息以及詞匯引用的時代 變遷分布等多種統計信息。 在此基礎上,進一步對唐宋詩詩句的相似性檢索、詩人風格檢索、意象 索引技術等研究課題進行了探索。 關鍵詞:詞匯自動提取,搭配,詩句的相似性檢索,意象索引,中國古代詩歌 1. 引言 在人們談論「數位化生存」(Being Digital) 的今天,中華古籍的數位化似乎已 經算不上新潮。但回想 10 多年前,已有一批學者為中華古籍的整理、研究、出版 的現代化奔走呼號、身體力行,筆者由衷地欽佩他們的先知先覺。正是受海峽兩 岸從事古籍電子化研究的學者的影響和鼓勵,北京大學計算語言學研究所自 1993 * 本文涉及的研究工作是北大計算語言學研究所開發的「中國古代詩詞電腦輔助研究系統」的一部 分。「中國古代詩詞電腦輔助研究系統」的開發得到1998 至 1999 年度中國國家社科基金項目「古 詩電腦輔助研究系統及其應用」(項目號:98BYY022 )的支援,也結合了北大計算語言所同北大古 文獻研究所、同台灣元智大學合作項目的成果。這個項目現在正得到北大 985 項目的有力支援。筆 者僅向給予支援的部門和單位及給予過指導的陸儉明、孫欽善、周先慎、張鳴等老師表示衷心的感 謝。在典籍數位化研究過程中,我們同台灣元智大學羅鳳珠老師、台灣中研院謝清俊老師等學者進 行了較多的交流。從交流中我們強烈地感受到炎黃子孫珍愛中華文化的拳拳深情,他們的學識與奉 獻精神對我們是鞭策,是鼓勵。筆者對他們在許多方面給予的幫助致以誠摯的謝意。 俞士汶 ‧胡俊峰 年以來一直將「中國古代詩詞的電腦輔助研究」作為研究所的重要研究方向之一 (劉岩斌等1997)。 中國的詩歌藝術源遠流長,詩歌作為一種最接近口語的大眾化文學形式,在 漢語文化的成長、演變與傳播中佔有著極其重要的地位,因而對中國古代詩詞的 研究歷來是漢學研究的熱點之一。不過,關於詩歌的傳統研究往往著眼於作品的 人文及藝術特徵,研究者多半依靠自身良好的文化修養與「強聞博記」,憑感悟直 接把握作品的內涵,這種研究用於詮釋作品的美學及人文意義自有其無可替代的 優勢,但在對作品的語言全貌進行同時代橫向或歷史縱向的細密分析時,往往就 顯得力不從心。雖然也有一些文章對某些詞匯、典故的使用及意義進行分析和研 究,通常只能是及其一點不及其餘,很難以時代或作者為單位來分析其語言的風 格、特徵及演變情況,更不要說從中總結出可信的規律了。 筆者一直認為,古籍整理對我們電腦專業工作者來說是一個新天地,又是一 個引人入勝的可以大有作為的天地。運用在現代漢語信息處理研究中建立的計算 語言學的理論、方法與技術,可以對古代漢語的語言現象進行深層次的研究。同 時也會促進古代漢語語法研究與現代漢語語法研究的縱向結合,推動現代漢語語 法研究的深入和語言信息處理技術的發展。正是基於這樣的理念,北大計算語言 所在開發「中國古代詩詞的電腦輔助研究系統」時,既不滿足於紙本到電子文本 的轉換和簡單的檢索、統計功能 ,也不追求多媒體的外在形式或眼前的商業價值。 而是把力量集中於能發揮自己優勢的深加工和知識發現的領域。 經過我們七八年之努力,終於取得了一些階段性成果,「古詩自動注音軟體」 是其一例(穗志方等 1998)。本文介紹的是另一項成果,即使用統計方法對唐宋詩 的詞匯進行分析所取得的一些結果。「詞」(這裡的「詞」相當於英語的word ,有 別於「宋詞」的「詞」)在漢語

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档