- 3
- 0
- 约1.03千字
- 约 13页
- 2018-07-08 发布于福建
- 举报
基于MapReduce模型中文
基于MapReduce模型的中文分词 张林梁 韩增曦 实验环境 操作系统: Ubuntu 10.10 开发工具: jdk 6-30+Eclipse+hadoop 0.20.30+ssh 实验设计 一 、目前比较成熟的的中文分词方法主要有: 1.词典的正向最大匹配法 2.词典逆向最大匹配法. 3.基于确定文法的分词法 4.基于统计的分词方法 本程序利用了第一种与第三种分词法,即词典正向最大匹配法和基于确定文法的分词法 实验设计 二、建立三个文本字典: Numbers Foreigns Words 实验设计 测试文本: 实验设计 三、 分词方法 (1)词典的正向最大匹配法: 1.将词典的每条读入内存,最长4个字,最短1个字 . 2.从语料中读入一文本文字,保存为字串. 3.如果字符串长度大于4个中文字符,则取字符串最左边的4个中文字符,作为候选词;否则取出整个字符串作为候选词. 实验设计 4. 在词典中查找这个候选词,如果查找失败,则去掉这个候选词的最右字,重复这步进行查找,直到候选词为1个中文字符. 5. 将候选词从字符串中取出、删除,回到第3步直到字符串为空. 6.回到第二步直到语料对完为止 . 实验设计 (2)确定文法的分词方法 基于确定文法的分词法可以进行数字、西文、时间的分词. 1.增加一个数字词典 2.增加一个英文词典 3.增加一个中文词典 实验设计 四 、搭建hadoop伪分布、编MapReduce端口 1.Map端: 1)输入: IntWritable Text IntWritable Text 2)对划分好的块,通过Map端口进入后,提取文本,读入的文本以每行以“\n”为标记切分文本,并对文本分词,期间每行对加行号标注 . 实验设计 3)将分好的文本输出到Reduce 2.Reduce端: 1) 接受从Map输入的文本 2) 按行号输出文本 程序运行信息: 实验结果 结果: 程序代码见 word: 程序完成 Thank you for your attention!
您可能关注的文档
- 品德连锁超市食品安全管控诊断分析及改进建议.doc
- 哈尔滨邮政金融营业网点转型项目质量控制.doc
- 哈工程 电网相间短路方向电流保护.ppt
- 哈佛分析框架下我国房地产上市企业财务分析.doc
- 哥哥给天使信.doc
- 哈药股份收购JY药业价值预估.doc
- 哮喘儿童照顾者生活质素.ppt
- 响水中学2016届高考化学 知识与环境保护 第6讲 食品添加剂作用和危害教案.doc
- 哲学其它相关试论论柯勒律治宗教思想.doc
- 哲学其它相关马克思主义中国化文化向度基本原则.doc
- 2026年预防为主,生命至上安全培训课件.pptx
- 2026年三级安全教育.pptx
- 2026年检测业务安全培训.pptx
- 2026年消防动火培训.pptx
- 2026年重大事故隐患专项排查整治行动清单.pdf
- 2026年健康义普急救.pptx
- 2025—2026学年度四川省广元市苍溪县九年级上学期期末考试历史试题(含答案).docx
- 2025—2026学年度四川省泸州市合江县马街中学校九年级上学期期末历史试题(含答案)(九上_九下第二单元).docx
- 2025—2026学年度云南省曲靖市宣威市民族中学等校联考九年级上学期期末模拟历史试题(含答案).docx
- 2025-2026学年科普版七年级下册英语Unit7 Being a Smart Shopper素养测评卷(含答案).docx
最近下载
- 焦炭单位产品能源消耗限额-编制说明.pdf VIP
- 人教版八年级生物下册全册教学设计.pdf VIP
- 大家的日本语_第一版_单词表(默写版).pdf VIP
- 轧钢工序单位产品能源消耗限额及计算方法.pdf VIP
- 同步练习(附答案) 寒假预习人教版七年级下册数学之内错角、同位角、同旁内角测试卷.docx VIP
- 2026年常州纺织服装职业技术学院单招职业技能考试题库必考题.docx VIP
- 烧结工序单位产品能源消耗限额及计算方法.pdf VIP
- 2026年常州纺织服装职业技术学院单招职业技能考试参考题库及答案解析.docx VIP
- TJSGT-转炉炼钢工序单位产品能源消耗限额及计算方法编制说明.pdf VIP
- 2026年常州纺织服装职业技术学院单招职业技能笔试参考题库及答案解析.docx VIP
原创力文档

文档评论(0)