- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
本科毕业论文
(科研训练、毕业设计)
题 目:中医问诊语料库的建立、
初步加工和词频统计
姓 名:
学 院:软件学院
系:
专 业:软件工程专业
年 级:
学 号:
指导教师(校内): 职称:
指导教师(校外): 职称:
年 月 日
中医问诊语料库的建立、初步加工和词频统计
【摘 要】随着现代社会计算机技术的发展,传统中医诊断和现代计算机技术的结合成为了现代中医发展的一种趋势。中医问诊语料库的建立对实现传统中医问诊的计算机化有着重要意义。本文介绍了中医问诊语料库建立的意义,语料库建立、初步加工(分词,属性标注和词频统计)和基于熟语料库的词频统计的具体实现。
【关 键 词】中医问诊 语料库 分词 标注 词频
The Establishment And Primary Processing Of Language Database About Inquiry In Chinese Medicine
【Abstract】 As the development of computer technolgy in modern society, modern Chinese Medicine followed the trend to combinate the traditonal Chinese Medicine with modern computer technology. The establishment of corpus about inquiry in Chinese Medicine is very important to realize the computer-based diagnosis of traditional Chinese Medicine , this article introduces the significance of establishment of corpus about inquiry in Chinese Medicine and detailed realization technique in establishment and primary processing of language database( segment of word , label of word attribute )and Counting of frequency of word.
【Keywords】 Inquiry in Chinese Medicine Corpus Segment of word
Label of word attribute Frequency of word
目录
第一章 引言 5
§1.1 汉语语料库的发展现状 5
§1.2 中医问诊语料库建立的必要性 5
§1.3 中医诊断语料库的初步加工 6
§1.4 基于中医诊断熟语料库的词频统计 6
第二章 中医问诊语料库建立和加工的技术知识 6
§2.1 语料分词 6
2.1.1 基于字符串匹配的分词算法 7
2.1.2 基于概率统计的分词方法 9
2.1.3 基于理解的分词方法 11
§2.2 词频统计程序设计算法 11
2.2.1.逐字匹配算法 12
2.2.2.KMP算法 12
2.2.3.Boyer_Moore算法 12
第三章 中医问诊语料库的建立和初步加工的具体实现 14
§3.1 具体步骤 14
3.1.1 原始语料库的建立 14
3.1.2 对原始语料的分词和属性标注 14
3.1.3 基于“熟语料“的词频统计 15
§3.2 词频统计程序的具体设计 16
3.2.1 程序界面 16
3.2.2 程序中涉及到的类和定义的函数 16
3.2.3 程序实现的具体流程 17
第四章 课题成果 21
第五章 结束语 21
致谢语 22
参考文献 23
第一章 引言
§1.1 汉语语料库的发展现状
语料库是存储于计算机中并可利用计算机进行检索、查询、分析的语言素材的总体。基于语料库的分析方法是对传统的基于规则的分析语言的方法的一个重要补充。语料库具有“大规模”和“真实”这两个特点,因此是最理想的语言知识资源,是直接服务于语言文字信息处理等领域的基础工程。
汉语语料库顾名思义就是存放汉语材料的仓库。建立大型、国家级现代汉语语料库是推进我国信息化进程的基础工程。近年来,随着我国经济的快速发展,科研经费的大量增加,汉语语料库的建设得到开展。国家语委从1991年开始组织建立现代汉语语料库,1993年国务院批准的国家语委三定方案规定了建立国家级现代汉语语料库的职能。至此,语料库的建立已经取得较
文档评论(0)