76 - hadoop综合实战-文本挖掘项目2.ppt

下载文档

1
0
约1.05千字
约 12页
2021-04-10 发布于北京
举报
版权申诉
保障服务

76 - hadoop综合实战-文本挖掘项目2.ppt

1、本文档共12页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Hadoop大数据解决方案进阶应用 Hadoop 讲师：迪伦（北风网版权所有） Hadoop综合实战-文本挖掘项目 (2) 项目流程中文分词方法课程目标项目流程构建文本分类器步骤分类体系两层分类体系积累样本从门户网站爬取指定类别下的文章文本预处理中文分词方法基于字符串匹配的分词方法原理是将文档中的字符串与词典中的词条进行逐一匹配, 如果词典中找到某个字符串, 则匹配成功, 可以切分, 否则不予切分匹配的原则：最大匹配、最小匹配等词典顺序基于语法和规则的分词法基本思想就是在分词的同时进行句法、语义分析, 利用句法信息和语义信息来进行词性标注, 以解决分词歧义现象基于统计的分词方法基于统计的分词法的基本原理是根据字符串在语料库中出现的统计频率来决定其是否构成词中文分词两大难题歧义识别新词识别应用搜索引擎倒排索引自然语言处理机器学习、机器翻译、文本挖掘等 Lucene的中文分词器基于字符串匹配的分词 Paoding： Lucene中文分词“庖丁解牛” Paoding Analysis Mmseg4j：Mmseg算法 IK：正向迭代最细粒度切分算法基于统计的分词 Imdict：imdict智能词典所采用的智能中文分词程序采用隐马尔科夫模型分词器用户自定义词库速度 paoding 支持不限制个数的用户自定义词库，纯文本格式，一行一词在PIII 1G内存个人机器上，1秒可准确分词 100万汉字 mmseg4j 自带sogou词库，支持名为 wordsxxx.dic， utf8文本格式的用户自定义词库，一行一词；不支持自动检测 complex 1200kb/s左右, simple 1900kb/s左右 ik 支持api级的用户词库加载，和配置级的词库文件指定，无 BOM 的 UTF-8 编码，\r\n 分割；不支持自动检测具有50万字/秒的高速处理能力 imdict 暂时不支持用户自定义词库，支持用户自定义 stop words 483.64 (字节/秒)，259517(汉字/秒) 庖丁分词 Paoding’s Knives 中文分词具有高效率和高扩展性采用完全的面向对象设计，构思先进优点自定义词库能够对未知的词汇进行合理解析分词效率高主页 /p/paoding/ 欢迎访问我们的官方网站 * * * * * * * * * * * * * * * * * *