- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
The 2015 Conference on Computational Linguistics and Speech Processing
ROCLING 2015, pp. 218-232
The Association for Computational Linguistics and Chinese Language Processing
以語言模型判斷學習者文句流暢度
陳柏霖 Po-Lin Chen, *吳世弘 Shih-Hung Wu
朝陽科技大學資訊工程系
Department of Computer Science and Information Engineering
Chaoyang University of Technology
streetcatsky@
*shwu@.tw (contact author)
摘要
因應自動化作文教學系統之需求,我們將開發多種中文自然語言處理功能。本文將以
作文句子的通順程度偵測為目標,我們提出基於語言模型(language model )結合國中
生作文語料知識庫的方法,並且使用資訊檢索的技術來改善系統效能,開發出第一套針
對句子通順程度的偵測系統,能更快更正確偵查學生文章內容不通順的地方。系統分為
二個部份:語言模型訓練模組和中文語料擷取測試模組。我們的實驗證明了以語言模型
理論為基礎的句子通順度自動偵測系統能夠有效偵測不通順的句子。提供本國學生或外
籍學生學習作文時的輔助工具。
關鍵詞:中文,作文,語言模型,N 元語言模型,句子流暢度
一、緒論
由於現代科技以及 3C 產品的普及,使得孩子頻繁的接觸電視、網路、手機…等,因此
容易缺乏與人之間互動、溝通以及情感的表達,相對的,學生寫的作文常常是以流水帳
交代經過,有的學校甚至不考作文,但隨著教育政策的變動,國中教育會考加入了作文
評量的項目,使的作文再度受到學生及家長的重視。可是受限於學校教學時數,作文較
弱的學生容易缺少補救的機會。我們認為未來自學作文以及在家練習,可以藉由自動化
的作文教學系統輔助。而本系統開發作文教學系統之句子流暢度偵測,經由系統回饋的
診斷結果可以讓學生對詞句組合的理解力有所提升,幫助學生寫出較流暢的句子 ,藉此
提高他們的作文分數。系統所依賴的 N-gram 語言模型,它的特性是計算字詞間組合的
機率,機率越高的話字詞組合的正確性越高也就是越流暢,而語言模型效果相當依賴大
型的訓練語料,這是語言模型然能待克服的缺點,例如資料稀疏(Data sparseness)的問題,
可以使用平滑(smoothing)的方法解決;以及跨領域的問題,只要訓練語料的性質越不同
於測試的文章,我們所建立語言模型的效果就越差,因此語料庫也要跟著改變。
二、研究動機
要幫助學生寫好的作文首先要讓系統知道如何判斷出一篇是好的作文,國中基測作文的
評量主要以四個範疇為主:”基測寫作測驗雖然採用整體性評分方法,但評分的時候仍
218
然已考慮立意取材、組織結構、遣詞造句、錯別字、格式及標點符號等四項核心技巧為
主軸”(陳滿銘 2007 ,396) 。這四個作文評量範疇並不是任意規定的,而是依照作文的
構成過程中所需要的元素決定這些評量範疇的。因此這些作文評量範疇不容易被變更。
以下說明如何將作文評量為 6 種不同的等級(如表一 [1]) ,而本系統針對四個面向中-遣
詞造句的句子流暢度進行研究。
表一、國中生基本學力測驗作文測驗評分規準[1]
級分 國民中學學生基本學力測驗寫作測驗評分規準一覽表
六級分的文章是優秀的,這種文章明顯具有下列特徵:
六級分 ※遣詞造句:能精確使用語詞,並有效運用各種句型使
文句流暢。
文档评论(0)