R七种武器之文本挖掘包tm 01.pdf

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
R七种武器之文本挖掘包tm 01.pdf

R七种武器之文本挖掘包tm 第1课 DATAGURU专业数据分析社区 R七种武器之文本挖掘包tm 讲师 黄志洪 何翠仪 人类语言的复杂性 ? /browse/families ? /wiki/%E8%AF%AD%E8%A8%80%E7%B3%BB%E5%B1% 9E%E5%88%86%E7%B1%BB DATAGURU专业数据分析社区 R七种武器之文本挖掘包tm 讲师 黄志洪 何翠仪 自然语言处理与文本挖掘 ? NLP=Natural Language Processing ? 机器学习的一个分支。目标是使机器能学习,识别,理解人类使用的自然语言(语音 ,字符文字,图像文字等),具备使用自然语言与人类进行交流的能力 ? 是目前机器学习领域最困难的技术之一,里面的难点大部分成为各个应用领域(搜索 引擎,情感识别,机器写作等等)的核心障碍,是实现高度智能机器人的关键技术 ? NLP大部分方法适用于不同的语种,也有部分只适合特定语种 ? 文本挖掘可以视为NLP的一个子领域,目标是在大量非结构化文本中整理析取出有价 值的内容,文本自动分类,判同,情感分析是比较常见的应用 ? 炼数成金计划在2015年内开设有关自然语言处理和文本挖掘的大课,本课程算是预热 DATAGURU专业数据分析社区 R七种武器之文本挖掘包tm 讲师 黄志洪 何翠仪 经典参考书 DATAGURU专业数据分析社区 R七种武器之文本挖掘包tm 讲师 黄志洪 何翠仪 NLP所包含的内容 ? 典型内容:词法,语法 ? 关于词法的典型问题:分词,拼写检查,语音识别 ? 关于语法的典型问题:词类识别,词义消岐,结构分析——词汇怎样组合在一起才是 正确的? DATAGURU专业数据分析社区 R七种武器之文本挖掘包tm 讲师 黄志洪 何翠仪 语音识别 ? 语音输入 ? 语音指令 ? 电话监听 ? 语音生成 DATAGURU专业数据分析社区 R七种武器之文本挖掘包tm 讲师 黄志洪 何翠仪 分词 ? 为什么要对文本进行分词?以搜索引擎为例 ? 全文检索索引 ? 分词算法 ? 分词软件 DATAGURU专业数据分析社区 R七种武器之文本挖掘包tm 讲师 黄志洪 何翠仪 语种亲缘关系判别 ? 梵语 ? 匈奴人与匈牙利 ? 吐火罗语 DATAGURU专业数据分析社区 R七种武器之文本挖掘包tm 讲师 黄志洪 何翠仪 OCR ? OCR= Optical Character Recognition ? 印刷体识别与手写体识别 ? 字形析取 ? 其它应用:车牌识别,名片识别 DATAGURU专业数据分析社区 R七种武器之文本挖掘包tm 讲师 黄志洪 何翠仪 文本分类 ? 应用背景:百度新闻,谷歌新闻,自动门户,根据用户专业倾向的文档推荐 DATAGURU专业数据分析社区 R七种武器之文本挖掘包tm 讲师 黄志洪

文档评论(0)

带头大哥 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档