基于MapReduce模型中文.pptVIP

  • 3
  • 0
  • 约1.03千字
  • 约 13页
  • 2018-07-08 发布于福建
  • 举报
基于MapReduce模型中文

基于MapReduce模型的中文分词 张林梁 韩增曦 实验环境 操作系统: Ubuntu 10.10 开发工具: jdk 6-30+Eclipse+hadoop 0.20.30+ssh 实验设计 一 、目前比较成熟的的中文分词方法主要有: 1.词典的正向最大匹配法 2.词典逆向最大匹配法. 3.基于确定文法的分词法 4.基于统计的分词方法 本程序利用了第一种与第三种分词法,即词典正向最大匹配法和基于确定文法的分词法 实验设计 二、建立三个文本字典: Numbers Foreigns Words 实验设计 测试文本: 实验设计 三、 分词方法 (1)词典的正向最大匹配法: 1.将词典的每条读入内存,最长4个字,最短1个字 . 2.从语料中读入一文本文字,保存为字串. 3.如果字符串长度大于4个中文字符,则取字符串最左边的4个中文字符,作为候选词;否则取出整个字符串作为候选词. 实验设计 4. 在词典中查找这个候选词,如果查找失败,则去掉这个候选词的最右字,重复这步进行查找,直到候选词为1个中文字符. 5. 将候选词从字符串中取出、删除,回到第3步直到字符串为空. 6.回到第二步直到语料对完为止 . 实验设计 (2)确定文法的分词方法 基于确定文法的分词法可以进行数字、西文、时间的分词. 1.增加一个数字词典 2.增加一个英文词典 3.增加一个中文词典 实验设计 四 、搭建hadoop伪分布、编MapReduce端口 1.Map端: 1)输入: IntWritable Text IntWritable Text 2)对划分好的块,通过Map端口进入后,提取文本,读入的文本以每行以“\n”为标记切分文本,并对文本分词,期间每行对加行号标注 . 实验设计 3)将分好的文本输出到Reduce 2.Reduce端: 1) 接受从Map输入的文本 2) 按行号输出文本 程序运行信息: 实验结果 结果: 程序代码见 word: 程序完成 Thank you for your attention!

文档评论(0)

1亿VIP精品文档

相关文档