- 1、本文档共52页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘 要
随着互联网的发展,网络已成为人们获取信息的重要来源,同时,来自政府
部门、学术领域和商业领域的信息也在急剧增加,这些信息涵盖的都是一种多语
言的知识库,而普遍的情况是大多数人通常只习惯在自己的母语里查找相关的信
息,所以人们能理解的互联网信息往往只是冰山一角。互联网信息的多语言性和
人们所能熟练运用语言的有限性,使得语言已经成为人们进行信息获取和理解的
主要障碍之一。
应运而生的跨语言文本分类技术,作为组织和管理来自政府部门、学术领域、
商业领域以及国际性组织内部的多语言文本的有力手段,正受到越来越多的关
注。它可以克服语言障碍问题,使用户可以更加有效的管理和定位所需要的信息。
基于辞典的模式和机器系统翻译的技术一度成为人们进行跨语言文本分类
的热点研究技术。基于辞典的模式就是采用双语辞典来做翻译,这里主要的问题
是词的歧义性,一个词汇可能有多重意义,因此产生类似一般机器翻译系统选词
的问题。另一个问题是辞典本身的覆盖度不够,动态的专有名词如人名、地名、
机构名称等日新月异,很有可能在翻译过程中在辞典中找不到。而机器系统的翻
译主要是针对文献翻译进行的,文献翻译的缺点是在遇到大文本集合的时候执行
效率不高,花费代价太大。
Semantic
目前不通过翻译进行跨语言文本分类的典型技术是Latent
但是SVD的计算比较花费时间,K值只能通过反复尝试来确定。
针对上述问题,我们提出了一种基于中间语义的跨语言文本分类模型,该模
型通过双语语料库的平行文档在统一框架下建模,提取双语之间的语义对应关
系。本文较为详细的阐述了基于中间语义的跨语言文本分类模型的原理,研究了
其在特征维数和潜在变量对对数变化的情况下的分类性能的稳定性。并把跨语言
的文本分类与单语言的文本分类相比较,实验结果显示,基于中间的跨语义语言
文本分类具有良好的分类稳定性和准确度。
本文的创新之处有:第一,利用改进的偏最小二乘理论技术,提出了新的基
于中间语义的跨语言文本分类模型;第二,建立了一定的中英文平行语料库,为
以后扩充中英文平行语料库打下了一定的基础。
关键词:中间语义,跨语言文本分类,跨语言信息检索,偏最小二乘,潜在语义
变量对
ABSTRACT
Withthe ofthe networkbecomesthe
Internet,the
development important
sourceofthe thesame from
information,attime,information
cominggovernments,
academiefieldsandbusinessdomainsincreases resourcesare
rapidly.These
conditionisthat are
base,however,a
multilingualknowledge general people
to
customerto native induce understanda
queryusing language,itpeople onlyvery
and that
fewinformatio
您可能关注的文档
- 提高中国城市商业银行竞争力的战略选择.pdf
- 内河运力预测和调控研究.pdf
- 企业员工工作行为自组织演化与其元胞自动机模拟研究.pdf
- 关于结构方程模型的企业物流外包绩效影响因素研究.pdf
- 关于BP神经网络的道路交通安全预测研究.pdf
- 基本公共服务均等化趋势下财政转移支付制度研究.pdf
- 中国钢铁工业利用国外铁矿资源以持续发展地策略模式研究.pdf
- 河北省海洋数据库的结构设计与数据标准的制定.pdf
- 我国主动型基金和指数基金业绩的比较和分析——兼对我国证券市场有效性的探讨.pdf
- 关于GPRS网络通信的配变实时监控系统的研究.pdf
- 金融产品2024年投资策略报告:积极适应市场风格,行为金融+机器学习新发现.pdf
- 交运物流2024年度投资策略:转型十字路,峰回路又转(2023120317).pdf
- 建材行业2024年投资策略报告:板块持续磨底,重点关注需求侧复苏.pdf
- 宏观2024年投资策略报告:复苏之路.pdf
- 光储氢2024年投资策略报告:复苏在春季,需求的非线性增长曙光初现.pdf
- 公用环保2024年投资策略报告:电改持续推进,火电盈利稳定性有望进一步提升.pdf
- 房地产2024年投资策略报告:聚焦三大工程,静待需求修复.pdf
- 保险2024年投资策略报告:资产负债匹配穿越利率周期.pdf
- 政策研究2024年宏观政策与经济形势展望:共识与分歧.pdf
- 有色金属行业2024年投资策略报告:新旧需求共振&工业原料受限,构筑有色大海星辰.pdf
文档评论(0)