网站大量收购独家精品文档,联系QQ:2885784924

数据库在词频统计中的应用.docVIP

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据库在词频统计中的应用.doc

数据库在词频统计中的应用 摘 要:由于语言信息具有大数据量、随机性等特征,在语言学研究中常引进统计学方法来定量分析,以确定语言现象的基本特征,通过揭示数量关系来帮助判定语言系统之间的关系。本文选用现代维吾尔语中常用的发生语音弱化的词汇,建立一个语料库(弱化规则库),利用传统语言学,计算语言学和统计学相结合的方法对语料进行统计分析,实现了维吾尔语中生活常用词的词频统计分析,考察了维吾尔语词汇中的弱化情况和词频统计。 关键词:现代维吾尔语;词频统计;语音弱化 中图分类号:TP391.1 维吾尔语是属于阿勒泰语系突厥语族语言之一,现代维吾尔文有32个字母,其中元音字母8个,辅音字母24个,是粘着性语言。每个字母按词中出现的位置分为独立式、词前式、词中式和词尾式等多种字体形式。维吾尔文字母大都有各自的基本笔画和结构符号,用来表示语音和字形。国际上一些语言在自动分词方面的成就和相关理论非常值得我们的参考与借鉴。例如,英语在书写过程中,词与词之间用空格来分开,于是空格就可作为自动分词中的界限,而维吾尔语是以词为单位自右至左连体书写,自然折行,词之间也以空格来区分,这与英语相类似。维吾尔语中词可由单个或多个字母组成,且字母在书写时必须按照文字书写规则以词为单位联体书写,标点符号的方向为从右向左,与汉,英文的方向相反。词与词之间用空格分开,在本文的研究中是以空格分开的词为单位进行词频统计和分析的。 1 词频统计分析方法 词频(word frequency)是在一定范围内的语料中词语的实际使用情况统计,词频有绝对频度和相对频度之分。绝对频度是词语出现的次数,相对频度是该次数与整个语料所包含的词例总数之比。词语的领域通用度是用来衡量词语在各流通领域内的通用程度,即词语常用程度的量化指标。 维吾尔语作为一种自然语言,具有自然语言所共有的一些规则,发现国内外的经典词频统计方法同样适合于维吾尔语的词频统计。 本文以数据库技术为基础对维吾尔语句法分析的数据进行处理,解决实际应用中的一些问题。比如说:现代维吾尔语中最常见的语音的弱化现象等。 在现代维吾尔语里,当在原来带有 等低位性元音的很多名词词根或词干后头缀加一些词缀或词尾,原词根或词干内的 等低位性元音提升为 等高位性元音。这种低位性元音提升为高位性元音的的音系现象,不仅仅发生在词根和词干后面缀加词缀后的词干上,也同样发生在词根和词干后面缀加词尾后形成的各类语法形式上。也就是说,低位性元音提升为高位性元音的音系现象同样发生在名词或动词的构形词尾内的低位性元音上。 本文主要用维吾尔词汇中最常见的这种语音弱化现象而归纳出来的规则库表来处理海量的维吾尔语词汇并对它进行词频统计。以通过词频统计的结果来提供用户维吾尔语言中元音间发生弱化的词和哪些词中词频最高的词等相关的信息。 2 语音弱化处理分析 在人工处理维吾尔语的常用词语音弱化现象过程中遇到的主要问题就是归纳出弱化规则。准备语料的时候首先确定每个词的词长,然后找出这个词有几个弱化现象,这个弱化现象发生在哪一个语音上,出现在第几个音节,在语料库里面共有几种弱化现象等问题。由于要处理的词汇较多,工作量也较大,因此迫切需要寻找一种更高效的方法,来找出弱化规则和处理复杂现象,降低语音弱化分析所花费时间,这是一项有意义的工作。 存储在Excel表中的维吾尔语音数据,虽然用手工可以抽取出“维吾尔语弱化规则”,但是比较困难而且费时易出错。比如,不同的32个字母之间存在68种弱化现象,每一种弱化现象还能给我们显示出第几音节发生弱化,并指出它的弱化频率等等,这些规则可以组成多重条件来抽取数据,因此难免涉及到大量复杂的数据处理问题,使用Excel方法处理数据不仅效率低,用那些弱化规则来判断要处理的语料分类的时候是因为一个一个地比较,容易判断出错或漏判,误判。如果数据有变动,整个计算过程必须重新来。现有的弱化规则仅仅是通过处理有限个(一万多个)词而得出来的,如果再用更大的词库(如是原来的数十倍),就会因数据的变动而使整个计算过程必须重新进行一次,费时费力。如果对于这种含大量数据的任务采用数据库系统的操作功能来处理分析会方便、快捷和准确的多。 在多种数据处理方法中引入数据库的处理方法,通过数据库的操作指令进行数据的各种比较运算、查询和统计分析,高效省力。本文根据采集的数据,所得到的规则也有可能跟现在的弱化规则不完全一样,从文本中提取任意个词比较已有的弱化规则,并补充一些规则,会容易的多。为了提高工作效率,更好的应用数据库的整体性和共享性特点,本文用Access数据库来处理这些问题。 3 数据操作实现――应用实例 数据库和高级程序设计语言C#结合起来,可以构建分布式的网络操作平台以解决很多实际问题。比如,数据资源共享、数据远程传递的实现、通信开销的降低等,利用C#实现分布式数据库查

文档评论(0)

jingpinwedang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档