- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于字单元分析中文辅助阅读系统
基于字单元分析中文辅助阅读系统
摘 要:辅助汉语学习研究作为一个重要的研究领域,已经在自然语言处理领域激发起越来越多人的兴趣。文中提出一个基于字分析单元的辅助阅读系统,它可以为汉语学习者提供即时的辅助翻译和学习功能。系统首先提出基于字信息的汉语词法分析方法,对汉语网页中文本进行分词处理,然后利用基于组成字结构信息的方法发现新词。对于通用词典未收录的新词(例如:专业术语、专有名词和固定短语),系统提出了基于语义预测和反馈学习的方法在web上挖掘出地道的译文。对于常用词,系统通过汉英(或汉日)词典提供即时的译文显示,用户也可通过词用法检索模块在网络上检索到该词的具体用法实例。该系统关键技术包括:基于字信息的汉语词法分析,基于组成字结构信息的新词发现,基于语义预测和反馈学习的新词译文获取,这些模块均以字分析单元的方法为主线,并始终贯穿着整个系统。实验表明该系统在各方面都具有良好的性能。
关键词:计算机应用;中文信息处理;词法分析;新词发现;术语翻译;web挖掘;辅助汉语学习
中图分类号:TP391 文献标识码:A
文章编号:1003-0077(2008)02-0092-07
1 引言
汉语学习的研究具有重要的意义。随着中国的发展,汉语已变成学习人数增长最快的外语,被专家称为第二大语言。据统计,目前世界上通过各种方式学习汉语的人数超过3000万人,100个国家超过2500所大学在教授中文,越来越多的中小学开始开设汉语课程,美国现代语言学会提供的数据显示,在美国3000多所大学里,有近800所开设了汉语课程。
因此,辅助汉语学习系统具有广阔的发展空间和巨大的市场需求。然而,由于汉语词汇之间没有明确的区分标记,汉语学习者在阅读汉语网页时,通常不知道确切地断词,这些都为汉语学习者增加了很大困难。本系统通过词法分析将汉语句子分割成单个汉语词汇,同时利用词典译文知识库为其提供的鼠标即时取词翻译功能,用户能够即时了解汉语词的英语译文或日语译文,这样可大大节省他们查词典的时间且保持阅读的连续性。在汉语网页中通常会遇到通用词典未收录的专业术语,即新词(例如:术语、专有名词、词组和固定短语),对于这样的实体单元而言,往往是虽经大量时间的查阅词典、资料检索,却仍然得不到一个准确的翻译结果(例如:三国演义The Romance of Three King-doms)。在解决上述问题时,部分专业人员会尝试用网络搜索引擎,但是返回大量的无关页面和冗余信息,使得用户很难发现他们所需要有用的译文相关知识。本文利用互联网上丰富的信息资源,通过预测专业术语本身的组成单元在目标语言中的语义,来获取词典查不到且通用搜索引擎无法有效搜索到的术语的译文,从而帮助汉语学习者正确学习新词和理解网页的内容。该系统同时也能够提供如下几个应用:1)可以为汉语学习者提供辅助的学习工具;2)为词典编纂者和翻译人员提供词条译文候选;3)作为新词发现工具,在互联网数据上发现新词。
本文的剩下部分安排如下:第2节介绍整体的系统框架,第3节提出基于字信息的汉语词法分析,第4节描述了基于组成字结构信息的新词发现,第5节提出了基于语义预测和反馈学习的新词译文获取,最后给出实验结果和结论。
2 系统框架
基于字分析单元的辅助汉语阅读系统(图1)主要包括五大部分:词法分析模块,新词发现模块,新词译文挖掘模块,词译文即时显示模块,常用词用法检索模块。对于一个网页,系统首先将其建立成一个文档对象模型(DOM)树的结构,并分析和提取其中的文本信息。这些文本信息被送到词法分析模块进行分词,得到正确的分词结果;然后在此基础上进行新词发现;对于通用词典未收录的新词(例如:专业术语、专有名词、词组和固定短语),系统提出基于语义预测和反馈学习的方法在Web上挖掘出地道的译文。对于常用词通过汉英(或汉日)词典提供即时的译文显示,用户也可通过词用法检索模块在网络上检索到该词的具体的用法实例。
3 基于字信息的汉语词法分析
汉语词法分析就是将整个汉语句子分割成组成的各个词并标注相应的词性,汉语词汇(通常10万词条以上)是庞大而无限的集合,基于词模型会常常由于汉语词汇集规模的限制,而很难解决许多未登录词分割问题;而汉语的字集合规模很小且有限,大约99%以上的汉语文本使用不超过6763个不同汉字,这样无限集合的汉语词可以通过有限的字表示。本文提出了一种基于字特征的HMM模型,该系统首先以字为基本分析单元,将汉语的分词、词性标注过程,抽象为字属性标注过程,然后在字属性标注过程中利用词典及语言学知识,对字属性标注的候选进行过滤,最终通过字属性标注结果获得分词和词性标注结果。该方法综合了词特征和字特征各自
您可能关注的文档
最近下载
- 2025年陕西省公务员录用考试《行测》真题及答案解析(考生记忆版).pdf VIP
- 2020年全国统一高考数学试卷(理科)(新课标Ⅱ)含解析.doc VIP
- 2020年全国统一高考数学试卷(理科)(新课标Ⅰ)含解析.doc VIP
- 【国家标准】GB 11291.1-2011 工业环境用机器人 安全要求 第1部分:机器人.pdf
- 汇成真空(301392)真空镀膜设备领先企业,高景气下游助力增长-250830-华源证券-21页.pdf VIP
- 2022春节窑鸡项目计划书-.pdf VIP
- 以来历年全国高考数学试卷全试题标准答案解析.doc VIP
- 伊犁师范大学2023-2024学年第1学期《高等数学(上)》期末考试试卷(B卷)附参考答案.pdf
- 中国共产党入党志愿书范文(一).pdf VIP
- 园林景观手绘表现技法(第二版).ppt VIP
原创力文档


文档评论(0)