- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
面向信息处理藏文字词统计分析设计
面向信息处理藏文字词统计分析设计
摘 要
本文按照软件工程的基本思路,宏观上设计出藏文字词统计软件的基本架构,从微观上设计出藏文字词量化的功能模块,实现了藏文字词统计分析的算法,并通过语料库语言学的理论和研究方法对规模为36万词种的词典语料库中统计出总数为9111个藏文音节数,60万次词构成的藏语教材语料库中统计出藏文音节总词量、文本数、词种数、词频、词性、频次、词长、累加频率、分布率、使用度等大量珍贵的数据,这对于促进藏语语言学研究和语言教学领域字词量化研究及教材编写等提供较为科学的数据。
【关键词】藏文音节藏文词汇藏文字词统计藏语词类分布
1 藏文字词统计的重要性
藏文字词统计库研究在语言教学及信息处理领域属于语言信息基础研究,需要做大量的语言信息基础研究和资源建设。本规范词典是迄今为止用计算机生成和统计的关于藏文音节的较为全面的数据,它在编写语文教材、计算机语音合成、语音识别、模式识别、拼写检查、输入法研究等领域有很广阔的应用前景。从这个意义上,它是语言信息处理的一个阶段性和基础性的工作,意义重大。与此同时,对语言教学领域字词量化研究及教材编写等提供科学数据。
藏文音节是以字根为中心的语言单位。一个音节中的纵向单位(辅音字母及上下叠加的组合体)叫字丁。如果从字丁组成音节的角度来说,就有单字音节、双字音节、三字音节和四字音节。根据音节的组合规则,究竟有多少规范音节?即藏文理论音节及其数值为几何?任何一个藏文语法书上都找不到答案。但这却是藏文信息处理研究的一个最基础的语言知识问题,也是藏语语言教学中无法避开的基础问题。我们统计并分析了音节频度、累计频度、信息熵以及频级关系等等,其中获得的高频数据基本准确和合理,在此基础上,进一步改进研究方法、增加语料覆盖范围,使其统计结果更加真实和普遍。
在语言应用中,词汇是语言的建筑材料,是句子的基本结构单位。没有建筑材料,就不能够盖房子;没有词汇,就无法构成句子,也就无法传递信息,进而也就无从交际。“语言说到底是由词语组合而成的,语音是词语的具体读音的综合,语法是词语的具体的用法的概括,离开了词语也就没有语言而言”(胡明扬1997),“如果没有语音和语法,还可以传达一点点信息,但是如果没有词汇,那就不能传达任何信息”(Gcorgew.Wilkins1972)。任何语言学习都不可能绕开词汇的学习。因而,为了考察学生的实际语言能力,对其所掌握的词汇量进行统计分析也是十分必要的。
2 藏文字词统统计分析
藏语研究大多一直停留在传统方法研究语法的层面,只有很少一部分开始转向工程应用。实际上,除了面向工程应用之外,还应当使用计算机技术来探索藏语自然语言的规律和奥秘,揭示藏语自然语言的数学面貌,提高藏语文教材建设和藏语言教学的水平,从而丰富人类对于自然语言的认识。借助计算机统计软件对数据进行定量与定性分析,或描写有关的藏语语言形式和特征,或论证有关语言的假设。从而把语言研究者从繁重的手工劳动中解放出来,使研究者可以集中精力研究和思考其他重要问题,这对于促进藏语语言学研究的现代化具有不可估量的作用。
2.1 藏文字词统统计分析的基本思路
根据语料库语言学的理论和研究方法对语言的各个考查项进行了抽取、统计和分析。比如:总词量、文本数、词种数、词频、词性、频次、词长、累加频率、分布率、使用度、分散度等分布特征方面全面、细致的计量分析,得出教材语料库的词汇信息。根据研究的需求研发了藏文字词分析软件。
2.2 藏文字词统计分析方法
国内由于汉语词汇计量在各方面做得很出色,在研究方法和研究成果等方面给少数民族词汇计量研究提供了很多可借鉴的经验。本文正是基于这些有益经验,依据藏语词汇学、计量语言学和对比语言学的相关理论,在藏语词汇计量分析方面做一次基础理论和应用研究方面的探索,对藏语词汇进行了全面的计量统计研究。藏语数据库内容丰富,计量研究以专题的形式进行。进行专题研究时,对该专题范围内的语料要做到准确、封闭与穷尽。准确是必须真实地反映藏语文本的本来语言面貌,不能有讹误。封闭是将专题研究做到纯化,不将无关的问题相掺杂其中。穷尽是保证语料不出现缺损、遗漏,使计量研究反映出来的频率、比例等数据真实可靠。根据研究内容的情况,采用了以下计量方法,并程序加以实现各算法的有效性。
2.2.1 频次
指调查对象在调查语料中出现的次数。
2.2.2 频率
指的是某一调查对象的频次与整个语料所含调查对象总频次的比值。计算公式:其公式为:Fi=Ni/N*100%。其中Fi为调查对象i的频率,Ni为调查对象i的出现次数,N为语料中调查对象出现的总次数。它能说明调查对象的使用度。
2.2.3 词长
词的长度或者音节数。
您可能关注的文档
最近下载
- 一种高铬耐热钢锻造的复合加热炉内用耐热滑块.pdf VIP
- 3.1.1铁元素和亚铁盐 说课课件 高一上学期化学鲁科版必修第一册.ppt
- 四年级数学学生辅导记录.doc VIP
- 贵州省贵阳市2024-2025学年高二上学期联合考试物理试题(二)(含答案).pdf VIP
- 三角函数与解三角形大题综合归类-高考数学一轮复习热点题型专项训练(解析版).pdf VIP
- 标准图集-05S518雨水口.pdf VIP
- 2025国资国企穿透式监管白皮书.docx VIP
- 2024离心球墨铸铁管管模通用技术条件.docx VIP
- 交替传译实践教程(上)习题参考答案.pdf VIP
- 《施工企业安全生产管理规范》GB 50656-2019知识培训.pptx VIP
原创力文档


文档评论(0)