76 - hadoop综合实战-文本挖掘项目2.ppt

76 - hadoop综合实战-文本挖掘项目2.ppt

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hadoop大数据解决方案进阶应用 Hadoop 讲师:迪伦(北风网版权所有) Hadoop综合实战-文本挖掘项目 (2) 项目流程 中文分词方法 课程目标 项目流程 构建文本分类器 步骤 分类体系 两层分类体系 积累样本 从门户网站爬取指定类别下的文章 文本预处理 中文分词方法 基于字符串匹配的分词方法 原理是将文档中的字符串与词典中的词条进行逐一匹配, 如果词典中找到某个字符串, 则匹配成功, 可以切分, 否则不予切分 匹配的原则:最大匹配、最小匹配等 词典 顺序 基于语法和规则的分词法 基本思想就是在分词的同时进行句法、语义分析, 利用句法信息和语义信息来进行词性标注, 以解决分词歧义现象 基于统计的分词方法 基于统计的分词法的基本原理是根据字符串在语料库中出现的统计频率来决定其是否构成词 中文分词 两大难题 歧义识别 新词识别 应用 搜索引擎 倒排索引 自然语言处理 机器学习、机器翻译、文本挖掘等 Lucene的中文分词器 基于字符串匹配的分词 Paoding: Lucene中文分词“庖丁解牛” Paoding Analysis Mmseg4j:Mmseg算法 IK:正向迭代最细粒度切分算法 基于统计的分词 Imdict:imdict智能词典所采用的智能中文分词程序 采用隐马尔科夫模型 分词器 用户自定义词库 速度 paoding 支持不限制个数的用户自定义词库,纯文本格式,一行一词 在PIII 1G内存个人机器上,1秒 可准确分词 100万 汉字 mmseg4j 自带sogou词库,支持名为 wordsxxx.dic, utf8文本格式的用户自定义词库,一行一词; 不支持自动检测 complex 1200kb/s左右, simple 1900kb/s左右 ik 支持api级的用户词库加载,和配置级的词库文件指定,无 BOM 的 UTF-8 编码,\r\n 分割; 不支持自动检测 具有50万字/秒的高速处理能力 imdict 暂时不支持用户自定义词库,支持用户自定义 stop words 483.64 (字节/秒),259517(汉字/秒) 庖丁分词 Paoding’s Knives 中文分词具有高效率和高扩展性 采用完全的面向对象设计,构思先进 优点 自定义词库 能够对未知的词汇进行合理解析 分词效率高 主页 /p/paoding/ 欢迎访问我们的官方网站 * * * * * * * * * * * * * * * * * *

您可能关注的文档

文档评论(0)

158****9376 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档