R七种武器之文本挖掘包TM01.pdfVIP

  • 2
  • 0
  • 约5.32千字
  • 约 27页
  • 2018-12-23 发布于江苏
  • 举报
R七种武器之文本挖掘包tm 第1课 DATAGURU专业数据分析社区 R七种武器之文本挖掘包tm 讲师黄志洪何翠仪 人类语言的复杂性  /browse/families  /wiki/%E8%AF%AD%E8%A8%80%E7%B3%BB%E5%B1% 9E%E5%88%86%E7%B1%BB DATAGURU专业数据分析社区 R七种武器之文本挖掘包tm 讲师黄志洪何翠仪 自然语言处理与文本挖掘  NLP=Natural Language Processing  机器学习的一个分支。目标是使机器能学习,识别,理解人类使用的自然语言(语音 ,字符文字,图像文字等),具备使用自然语言与人类进行交流的能力  是目前机器学习领域最困难的技术之一,里面的难点大部分成为各个应用领域(搜索 引擎,情感识别,机器写作等等)的核心障碍,是实现高度智能机器人的关键技术  NLP大部分方法适用于不同的语种,也有部分只适合特定语种  文本挖掘可以视为NLP的一个子领域,目标是在大量非结构化文本中整理析取出有价 值的内容,文本自动分类,判同,情感分析是比较常见的应用  炼数成金计划在2015年内开设有关自然语言处理和文本挖掘的大课,本课程算是预热 DATAGURU专业数据分析社区 R七种武器之文本挖掘包tm 讲师黄志洪何翠仪 经典参考书 DATAGURU专业数据分析社区 R七种武器之文本挖掘包tm 讲师黄志洪何翠仪 NLP所包含的内容  典型内容:词法,语法  关于词法的典型问题:分词,拼写检查,语音识别  关于语法的典型问题:词类识别,词义消岐,结构分析——词汇怎样组合在一起才是 正确的? DATAGURU专业数据分析社区 R七种武器之文本挖掘包tm 讲师黄志洪何翠仪 语音识别  语音输入  语音指令  电话监听  语音生成 DATAGURU专业数据分析社区 R七种武器之文本挖掘包tm 讲师黄志洪何翠仪 分词  为什么要对文本进行分词?以搜索引擎为例  全文检索索引  分词算法  分词软件 DATAGURU专业数据分析社区 R七种武器之文本挖掘包tm 讲师黄志洪何翠仪 语种亲缘关系判别  梵语  匈奴人与匈牙利  吐火罗语 DATAGURU专业数据分析社区 R七种武器之文本挖掘包tm 讲师黄志洪何翠仪 OCR  OCR= Optical Character Recognition  印刷体识别与手写体识别  字形析取  其它应用:车牌识别,名片识别 DATAGURU专业数据分析社区 R七种武器之文本挖掘包tm 讲师黄志洪何翠仪 文本分类  应用背景:百度新闻,谷歌新闻,自动门户,根据用户专业倾向的文档推荐 DATAGURU专业数据分析社区 R七种武器之文本挖掘包tm 讲师黄志洪何翠仪 文本判同  应用背景:搜索引擎去重,论文抄袭判别系统

文档评论(0)

1亿VIP精品文档

相关文档