数位典藏技术研讨会-网路展书读
詩詞語言詞彙切分與語意分類標記之系統設計與應用
羅鳳珠?元智大學中國語文學系
gefjulo@.tw
第四屆數位典藏技術研討會,中央研究院主辦
2005年9月1-2日
摘要
本研究分析詩詞文體的語言特性,輔以詞譜、典故、人名、地名等專有名詞語料庫,建立詩詞語言詞彙切分之規則,設計詞彙切分及語意標記分類自動控制系統,所產生的詩詞詞彙及各類領域詞彙,提供文學研究使用,為引用資訊科技作為文學研究輔助工具探索可行的研究方向。
關鍵詞:唐詩、宋詞、詞彙切分、語意標記、自動控制系統
全文
研究動機與背景
以電腦作為文學研究的輔助工具,在電腦只能分辨字形,無法分辨字義的限制下,應用上受到很大的侷限,與人的判斷存在很大的距離,如何使電腦的判斷接近人腦,是否能判斷字詞義是其中的重要關鍵。
詞義的判斷需仰賴語意標記,語意標記需以詞彙切分為基礎,中國文字是單字單音,構成詞組的文字從一字到十六字都有。以《辭源》收單字詞12890條,多字詞82802條,共計95692條66,087條69.02%,數量最多,其次是佔13.47%的單字詞,再其次是佔9.63%的三字詞(註一)。單字可以成詞,二個以上的字也可以組合成新的詞彙,其組合的字數、方式,所產生的詞義千變萬化,即便是如人名、地名、動物、植物、人造物等專有名詞,其描述的詞彙也有本名、別名、通俗名的不同,這些都造成詞彙切分與語意標記的困難。
詞彙的組合有各種不
您可能关注的文档
- 如何提升企业生产力如何提升企业生产力.PDF
- 如何治疗猝睡症-PeacefulMind.PPT
- 妇女政策纲领及政策白皮书.DOC
- 妇联个人绩效评价指标体系一览表唐红英-张家港妇联.DOC
- 姜慧大连-中国地震信息网.PPT
- 妈妈的健康早餐.PPT
- 子学习情境23电子教案.DOC
- 存在协整关系.PPT
- 学习分析-上海企业项目管理课程.PDF
- 学习情景表3单级氨制冷压缩机的容积效率082079075071065.PPT
- 2025年新人教版7年级英语上册全册课件.pptx
- 2025年秋季新人教版历史7年级上册全册教学课件.pptx
- 2025年秋新人教版英语7年级上册全册教学课件(新版教材).pptx
- 2025年人教版历史7年级上册全册课件(新版教材).pptx
- 2024年新沪科版物理8年级上册全册教学课件.pptx
- 2025年秋季新星球版地理7年级上册全册教学课件.pptx
- 2024年秋季新沪科版8年级上册物理全册教学课件.pptx
- 2024年秋季人教版7年级上册语文全册教学课件(考点精讲版).pptx
- 2025年秋新外研版3年级上册英语全册教学课件(新版教材).pptx
- 2024年新外研版3年级上册英语全册课件.pptx
原创力文档

文档评论(0)