- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
社保审计区域语料库构建分析.doc
社保审计区域语料库构建分析
--第1章绪论
1.1课题背景和意义
上世纪80年代以来随着计算机的发展,计算机语料库的建立和应用技术的研究成为了国内外很多信息处理、语言研究人员及机构的关注焦点。语料库的应用面在不断地扩大,目前主要应用包括:自然语言的处理、文本的分类、机器翻译、信息管理、语音识别等方面。机器对于自然语言的理解包括了对于自然语言中的语法、句法、构词等的研究。语料库(corpus)是指原始的或者经过处理的领域语言信息存放到计算机里的语料文本集。语料库技术是在自然语言资料汇集的基础上进行语言研究的技术,它通常采用统计和划分学习的方法对真实的自然语言中存在的语言规律进行收集提取,从而进一步研究和探索自然语言的理解。自从二十世纪六十年代第一个电子语料库BRoWN的建立以来,语料库工程的研究在世界各国的科学研究中正逐步深化,语料库的技术研究和语料库结合领域知识的应用研究日趋成熟。很多成功的语料库被不断开发出来如:美国Heritage出版社为编撰Heritag。而建立的有400万词条的AHI语料库,牛津大学建立的oTA牛津文本档案库,日本的含有1亿词条的语素标注语料库RWc日语语料库[5]。我国对于语料库技术的研究开始于二十世纪八十年代,结合汉语语言自身的特色和计算机技术的发展取得了一定的成果著名的有北大通过以《人民日报》为语料源建立的包含2700万语料的“北京大学现代汉语语料库”,哈尔滨工业大学的研究的翻译语料库等
本文来自于哈尔滨工程大学计算机科学技术学院分布式计算与仿真实验室承担的“国家科技支撑计划”项目—政府预算执行动态审计监测关键技术研究与示范。该课题用来辅助国家智能化的审计部门审计社会保险项目(基本养老保险、医疗保险、生育保险、工伤保险、失业保险、生育保险)。社会保险的操作合法与否关系着千家万户的福社,能否合理、公平、公正的分配社会保险福利关系到国家的长治久安。计算机技术应用到社保审计的实施可以大规模的提高审计的速度和效率,但是计算机要参与审计必须能够识别和理解审计的知识,达到实现大规模自动化的处理审计信息的目的,本课题把语料库处理技术应用于社保审计领域,通过提取汇集大量异构的结构化、半结构化和非结构化的审计语料实现领域知识的完备涵盖,进而提高审计的智能化水平和审计效率。
1.2语料库国内外研究现状
早在计算机产生之前语料库的研究已经在进行,在人类文明的文字发展中基于文本的词典研究就是语料库研究的早期模式,语料库是基于机械主义的分支—经验主义而提出的I9]。20世纪60年代语料库和计算机技术相结合得到了很大的发展,在人类自然语言处理领域内逐渐发挥了它的作用。也成了现在社会语言研究的热点之一。
1.2.1国外研究现状
1964年美国学者FranciS和Kueeral主持建设了世界上第一个计算机可读的计算机语料库BrocEnery和wilson对计算机参与下的语料库定义如下:语料库是计算机可读取的一定量文本的集合,抽样的文本可以在最大程度上代表一种语言或者该种语言的变种[42]。语料是为了研究人类的自然语言而收集起来的作为研究原料的语言资料,当前,语料库的技术主要分为两个方向,其一,按照语料库研究的原目的,以纯语言研究为出发点,涉及的范围主要有机器翻译、语言平行语料库、语言对比等。其二,按照特定的领域特征建立的特定的以领域语言应用研究为目的的领域语料库,例如,基于社保领域的事物处理流程构建的语料库来处理本领域的业务就是语料库的特定领域化。语料库的作用是根据已有的语言资料以及己经存在的语言规律和方法来研究语言本身,从而发掘和总结语言发展的方向、推动对语言的理解和应用。语料库的构建本意就是按照经验主义的哲学思想把大量的语料汇集,通过对语料的分析研究揭示语言的规律,促进自然语言的自动化处理,人类本身对自然语言的研究都带有一定的主观性,这样对于语言的应用很难达到客观,因此语料库的构建具有其重要的意义[9]。首先语料库的数据可以客观的反映语言本身的特点,同时语料库可以通过大量的语料来佐证语言的规律,计算机语料库的构建使得应用领域有大量的资源可供研究应用。
第3章 语料的获取和处理.......... 23-38
3.1 粗语料集获取 ..........23-26
3.1.1 粗语料手动抽取.......... 23-24
--nbsp; 3.1.2 粗语料半自动获取流程..........24-26
3.2 细语料先验集获取.......... 26-28
3.3 细语料的组织.......... 28-30
3.4 细语料提取 ..........30-35
3.4.1 双词典参与下关键细语料.......... 30-33
3.4.2 细语料的获取算法分.......... 33-34
原创力文档


文档评论(0)