基于MapReduce模型中文.pptVIP

下载本文档

3
0
约1.03千字
约 13页
2018-07-08 发布于福建
举报

基于MapReduce模型中文.ppt

基于MapReduce模型中文

基于MapReduce模型的中文分词张林梁韩增曦实验环境操作系统： Ubuntu 10.10 开发工具： jdk 6-30+Eclipse+hadoop 0.20.30+ssh 实验设计一、目前比较成熟的的中文分词方法主要有： 1.词典的正向最大匹配法 2.词典逆向最大匹配法. 3.基于确定文法的分词法 4.基于统计的分词方法本程序利用了第一种与第三种分词法，即词典正向最大匹配法和基于确定文法的分词法实验设计二、建立三个文本字典: Numbers Foreigns Words 实验设计测试文本: 实验设计三、分词方法（1）词典的正向最大匹配法： 1.将词典的每条读入内存，最长4个字，最短1个字 . 2.从语料中读入一文本文字，保存为字串. 3.如果字符串长度大于4个中文字符，则取字符串最左边的4个中文字符，作为候选词；否则取出整个字符串作为候选词. 实验设计 4. 在词典中查找这个候选词，如果查找失败，则去掉这个候选词的最右字，重复这步进行查找，直到候选词为1个中文字符. 5. 将候选词从字符串中取出、删除，回到第3步直到字符串为空. 6.回到第二步直到语料对完为止 . 实验设计（2）确定文法的分词方法基于确定文法的分词法可以进行数字、西文、时间的分词. 1.增加一个数字词典 2.增加一个英文词典 3.增加一个中文词典实验设计四、搭建hadoop伪分布、编MapReduce端口 1.Map端： 1）输入： IntWritable Text IntWritable Text 2）对划分好的块，通过Map端口进入后，提取文本，读入的文本以每行以“\n”为标记切分文本，并对文本分词，期间每行对加行号标注 . 实验设计 3）将分好的文本输出到Reduce 2.Reduce端： 1) 接受从Map输入的文本 2) 按行号输出文本程序运行信息: 实验结果结果：程序代码见 word：程序完成 Thank you for your attention！

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于MapReduce模型中文.pptVIP