- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
应用直方图均化于统计式未知词萃取之研究histogramequalization
應用直方圖均化於統計式未知詞萃取之研究
Histogram Equalization for Statistical Unknown Word Extraction
陳弈璁 Yi-Cong Chen
國立台灣科技大學資訊管理學系
Department of Information Management
National Taiwan University of Science and Technology
m9709104@ntust.edu.tw
林伯慎 Bor-Shen Lin
國立台灣科技大學資訊管理學系
Department of Information Management
National Taiwan University of Science and Technology
bslin@cs.ntust.edu.tw
摘要
隨著人們的生活方式的演變以及資訊普及的加速,新事物、新觀念不斷的產生 ,新的詞
彙自然而然地快速增加。因此,學習與辨識新詞彙是一個自然語言處理系統能與時俱進
的重要能力。本論文利用統計式的機器學習方法,結合不同特性的統計特徵訓練出一個
詞彙的分類器,進行詞彙的萃取與驗證。然而,自然語言處理技術的應用範疇非常廣,用
來訓練或測詴的語料庫其領域或大小也都不盡相同,這使得以統計為基礎的方法,會產
生訓練集與測詴集的特徵分佈不匹配的問題。我們提出應用直方圖均化(Histogram
Equalization )將描述長度增益(Description Length Gain )特徵值進行正規化,讓測詴集
與訓練集的特徵值分佈能互相匹配,解決語料庫大小或領域不同所造成特徵值範圍變動
及分佈差異的問題。這使得本論文的統計式詞彙萃取方法更具有一般性,可以適用於不
同領域的詞彙萃取。
我們使用SIGHAN2的繁體語料庫進行測詴,在結合四種統計特徵 ,並且經過特徵值分
佈正規化後,會有最佳的詞彙驗證效能。對於中研院資訊所組庫小組及香港城市大學所
提供的語料庫,F-measure分別可以達到68.43%和71.40% 。我們將此詞彙萃取方法應用
於萃取新穎領域的未知詞時,發現本論文方法可以萃取出具有統計特性顯著但較難透過
語意結構資訊萃取出來的未知詞,例如〆「海角7號」、「金融海嘯」等專有名詞 。但
是相對地 ,因為並未使用語意結構規則,於人名、地方名或組織名的未知詞萃取,則顯
得能力較為不足。我們並觀察到,本論文的統計萃取方法與上述兩套斷詞系統所萃取的
未知詞之間具有良好的互補性,適當地將這些方法結合將可以達到截長補短的效果 。
Abstract
With the evolution of human lives and the accelerated spread of information, new things and
concepts are generated quickly, and new words emerge every day. It is therefore important
for natural language processing systems to identify new words. This paper used the scheme
for Chinese word extraction based on machine learning approaches to combining various
statistical features. Due to the broad areas for the natural language applications, however, it is
quite probable that the mismatch of statis
您可能关注的文档
- 英国节能和应对气候变化政府监管体系与模式对我国-宏观经济研究院.pdf
- 英国人力资本投资促进方案iipinvestorsinpeopleuk-高雄工业会.ppt
- 英美法国家竞技体育暴力行为刑事责任问题-山东社会科学.pdf
- 英美两国基层医疗卫生系统改革进程对我国的启示-浙江大学学报.pdf
- 英美社会工作实务模式的历史类型与实务模式-长春理工大学法学院.pdf
- 英语-2017年发展中国家人口与发展战略部级官员研讨班简介表.doc
- 英语教学设计名称-foresttotreausre-全国教师会.doc
- 英语语调性别差异研究与女性主体意识的觉醒-四川大学.pdf
- 英語_2017年發展中國家地震災害緊急救援研修班簡介表.doc
- 婴幼儿童标准数据信息服务平台技术手册-中国计量大学图书馆.doc
最近下载
- 小细胞肺癌的免疫治疗策略.pptx
- 统一场论——张祥前.pdf
- 商务统计学考试题库.doc
- 犯罪心理学(中政大)中国大学MOOC慕课 章节测验期末考试答案.docx
- 商务统计学考试复习.pdf
- 第4课 走进我的家乡(教学设计)长春版三年级上册综合实践活动.docx
- 管理机构配备情况辅助说明资料.doc VIP
- 智能门锁外文文献原文Smart digital door lock for the home automation.docx
- 2023年喀什大学公共课《马克思主义哲学》期末试卷A(有答案).docx VIP
- 首都师范大学2021-2022学年第1学期《细胞生物学》期末考试试卷(A卷)含标准答案.docx
文档评论(0)