- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
以文字探勘技術為基礎的
文本校正方法
第 19組
指導老師 |侯建良 教授
組員名單| 蔡季翰 賴宣宇
蔡孟桓 謝瑞璟
研究動機
•許文廉博士在西元 1990開發出第一套中文輸入法 —— 「自然智慧
型中文輸入系統」,接著中文輸入法不斷加入、改善各種智慧輸
入功能,大幅提升了中文輸入的速度。然而不論是自動選字或是
聯想字建議等智慧輸入功能如何突破,都很難避免因使用者漏字
造成的錯誤。
•既有模式問題:
1)使用者常因輸入時漏字造成文本錯誤
2)要找出錯誤只能靠使用者反覆檢查 校正
研究目的
• 本研究之目標為發展一「能找出因漏字造成之文本錯誤」的系統,
其能找出文本需要校正之處,並給出建議校正選項給使用者選擇
如何修正。
• 期待模式解決方式 :發展能解析文本的方法 ,建立資料庫與之比
對,並結合電腦程式,開發「文本校正系統」。
研究架構
系統開發
1.可選擇以輸入或匯入的
方式校正文本
2.待校正詞者以紅色標註,
正在校正之詞黃底標註,
已修正之詞以綠色標註
3.可選擇要修正為哪個詞,
或略過建議校正其他詞
4.文本校正完畢可輸出
績效分析
本研究以50篇自網路抓取的文章測試系統正確率 ,其中共含167個
待校正詞 ,將其匯入系統並分析結果:
1. 系統偵測出112個待校正詞,佔 67%
2. 其中有合理推薦詞者 共50個,佔44.64%
3.有合理的建議校正選項者平均在第 1.5順位
結論與未來展望
•結論:本研究應用以上所述之方法,發展文本校正系統。研究成
果由績效分析結果顯示,有近 7成的錯誤能被系統偵測出,其中
也有近 5成系統能正確給出合理的推薦詞,並平均能在第1.5順位
內顯示給使用者。可推論本研究所開發之系統能有效提升文本校
正的效率及品質。
• 未來展望:
繼續擴建系統後端資料庫:以判斷更多新興詞
改善斷詞演算法:避免因斷詞不準確造成誤判待校正詞的情形
加入使用者經驗:將使用者經驗計算詞頻,使系統更貼近使用者
與輸入法結合:在輸入的同時即進行校正判斷,增加即時性與便利性
您可能关注的文档
最近下载
- 统编版高中语文选择性必修下册2024第一单元 测试卷(含答案).docx VIP
- 电子商务法(第二版)课件全套 朱晓娟 第1--9章-电子商务法概述---电子商务的争议解决.pptx
- 2025年湖南铁路科技职业技术学院单招职业适应性测试题库(考点梳理).docx VIP
- 电商领域智能客服及售后服务体系构建计划.doc VIP
- 形式发票模板.docx
- 儿科合理用药培训【13页】.pptx VIP
- 山洪沟防洪治理典型工程措施研究——以会昌县古坊河为例.pdf VIP
- 八下语文新增名著《经典常谈》章节习题+答案.pdf VIP
- 1.2我能变得更好 (课件)部编版道德与法治三年级下册.pptx
- 2024年湖南生物机电职业技术学院单招职业技能测试题库(b卷).docx
文档评论(0)