中文分词程序实验报告.docVIP

下载本文档

23
0
约6.89千字
约 7页
2016-05-14 发布于重庆
举报
版权申诉

中文分词程序实验报告.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

中文分词程序实验报告

汉语分词程序实验报告程序功能描述：本程序每次处理时都用缓冲区的数据从头开始去存储语料库的链表中匹配一个最长的词语来输出，如若没有匹配到的词语则单独输出该首字。为了简化程序所以语料库和预备分词文章都统一采用ASCII码的编码方式，并且不允许文中出现英语单字节编码。别且本程序没有对未登录词和未声明数据结构格式进行处理，都按照普通汉字进行了分词，因此在最后的性能比较中这部分的准确率很差，但是在语料库有存储的部分中都是用最长匹配原则进行了分词，准确率还是达到了很高的水平。分词符采用//+空格的方式来标记分词。语料库的名字默认为：语料库.txt，打开方式为只读读取的文件名字默认为：resource.txt，打开方式为只读输出的文件名字默认为：result.txt，打开方式默认为追加的方式算法思路：（1）、从文件中读取语料库存储在内存中，组织成单链表的存储方式（2）、组织以首字的ASCII码为下标的哈希表指向语料库链表（3）、从文件中读满输入缓冲区，以缓冲区的首字的ASCII码做为下标从哈希表中查找首字相同的内存地址。（4）、从该地址开始逐条匹配，记录其中匹配最长的词语的长度和地址。写入文件中并写入分词符。（5）、读满缓冲区，若文件已经读取完毕则查看缓冲区是否用尽，若已经用完则执行第（6）步，否则重复（4）过程。（6）、释放申请的内存空间，程序结束。数据结构： typedef struct coredict{//使用链表来存储语料库 char data[9]; struct coredict*nextPtr; }CoreDict,*CoreDictPtr; CoreDictPtr tablePtr=NULL,tailPtr=NULL,newPtr;//指向语料库链表的头和尾 CoreDictPtr Hash[65536]={NULL};//一个以匹配词语的第一个字的ASCII码为下标的指向链表的哈希表 int MatchLength=0;//在一个单词匹配过程中用来记录能够匹配到的最长的词语的长度 CoreDictPtr MatchPtr=NULL;//在一个单词匹配过程中用来记录能够匹配到的最长的词语在链表中的地址函数功能： int IsEqual(char[],char[]);//判断两个汉字是否相等 int LongMatch(char[],char[]);// void read(char[],FILE*);//将读入缓冲区读满 void setoff(char[],int);//将已经匹配好的词语从缓冲区中删除性能对比分析：结果分析程序性能描述：在语义的判别和歧义消除方法只是用最长匹配法来降低误差，因此这部分的性能提升不是很明显。本程序没有对未登录词和未声明数据结构格式进行处理，都按照普通汉字进行了分词，因此在最后的性能比较中这部分的准确率比较差，但是在语料库有存储的部分中都是用最长匹配原则进行了分词，准确率还是达到了很高的水平。另外由于语料库规模的限制以及为了程序简化着想在普通词汇的搭配，例如形容词的组合方面还有一些低频词的分词方面也有些不是很高效。现有成熟分词程序的情况和大致性能：经过十几年的研究，汉语自动分词技术取得了令人瞩目的成果，出现了一些实用的自动分词系统，如：北京航空航天大学的cDws分词系统、清华大学的SEG分词系统和sE(玎AG分词系统等，这些系统在分词的精确度(精度达到99％以上)和分词速度(速度达到千字，s)方面都具有相当的水平。六、程序性能提高方向： (1).要能识别一些常见的数据格式，例如年月日、电话号码等。 (2).可以跳过一些乱码，例如一串乱字符串，还有数字串等。 (3).增加判别字符类型的函数，用来判别英文字符、汉语字符、还有另外的字符 (4).建立词语之间关联性的数据库，可以从语义方面，甚至语用方面来从逻辑上增加分词的准确性，以达到消除歧义的目的。要是程序能增加上述的功能准确度应该可以达到90%以上。七、源代码： #includestdio.h typedef struct coredict{ char data[9]; struct coredict*nextPtr; }CoreDict,*CoreDictPtr; CoreDictPtr tablePtr=NULL,tailPtr=NULL,newPtr; CoreDictPtr Hash[65536]={NULL}; int MatchLength=0; CoreDictPtr MatchPtr=NULL; int IsEqual(char[],char[]);//判断两个汉字是否相等 int Lo