- 2
- 0
- 约5.32千字
- 约 27页
- 2018-12-23 发布于江苏
- 举报
R七种武器之文本挖掘包tm 第1课
DATAGURU专业数据分析社区
R七种武器之文本挖掘包tm 讲师黄志洪何翠仪
人类语言的复杂性
/browse/families
/wiki/%E8%AF%AD%E8%A8%80%E7%B3%BB%E5%B1%
9E%E5%88%86%E7%B1%BB
DATAGURU专业数据分析社区
R七种武器之文本挖掘包tm 讲师黄志洪何翠仪
自然语言处理与文本挖掘
NLP=Natural Language Processing
机器学习的一个分支。目标是使机器能学习,识别,理解人类使用的自然语言(语音
,字符文字,图像文字等),具备使用自然语言与人类进行交流的能力
是目前机器学习领域最困难的技术之一,里面的难点大部分成为各个应用领域(搜索
引擎,情感识别,机器写作等等)的核心障碍,是实现高度智能机器人的关键技术
NLP大部分方法适用于不同的语种,也有部分只适合特定语种
文本挖掘可以视为NLP的一个子领域,目标是在大量非结构化文本中整理析取出有价
值的内容,文本自动分类,判同,情感分析是比较常见的应用
炼数成金计划在2015年内开设有关自然语言处理和文本挖掘的大课,本课程算是预热
DATAGURU专业数据分析社区
R七种武器之文本挖掘包tm 讲师黄志洪何翠仪
经典参考书
DATAGURU专业数据分析社区
R七种武器之文本挖掘包tm 讲师黄志洪何翠仪
NLP所包含的内容
典型内容:词法,语法
关于词法的典型问题:分词,拼写检查,语音识别
关于语法的典型问题:词类识别,词义消岐,结构分析——词汇怎样组合在一起才是
正确的?
DATAGURU专业数据分析社区
R七种武器之文本挖掘包tm 讲师黄志洪何翠仪
语音识别
语音输入
语音指令
电话监听
语音生成
DATAGURU专业数据分析社区
R七种武器之文本挖掘包tm 讲师黄志洪何翠仪
分词
为什么要对文本进行分词?以搜索引擎为例
全文检索索引
分词算法
分词软件
DATAGURU专业数据分析社区
R七种武器之文本挖掘包tm 讲师黄志洪何翠仪
语种亲缘关系判别
梵语
匈奴人与匈牙利
吐火罗语
DATAGURU专业数据分析社区
R七种武器之文本挖掘包tm 讲师黄志洪何翠仪
OCR
OCR= Optical Character Recognition
印刷体识别与手写体识别
字形析取
其它应用:车牌识别,名片识别
DATAGURU专业数据分析社区
R七种武器之文本挖掘包tm 讲师黄志洪何翠仪
文本分类
应用背景:百度新闻,谷歌新闻,自动门户,根据用户专业倾向的文档推荐
DATAGURU专业数据分析社区
R七种武器之文本挖掘包tm 讲师黄志洪何翠仪
文本判同
应用背景:搜索引擎去重,论文抄袭判别系统
您可能关注的文档
最近下载
- 2026年党章综合知识测试题(模拟题).docx VIP
- 初一一元一次方程所有知识点总结和常考题提高难题压轴题练习(含答案解析).docx VIP
- 2025年江苏航空职业技术学院单招笔试英语试题库含答案解析.docx VIP
- 《林业碳汇计量与监测技术规程》.pdf VIP
- 初二平行四边形所有知识点总结和常考题提高难题压轴题练习(含答案解析).pdf VIP
- 2025年初二全等三角形所有知识点总结和常考题提高难题压轴题练习含答案解析.doc VIP
- (高清版)B-T 7251.1-2023 低压成套开关设备和控制设备 第1部分:总则.pdf VIP
- 2023年初二二次根式所有知识点总结和常考题提高难题压轴题练习含答案解析.doc VIP
- 煤矿淘汰落后安全技术工艺及设备目录16批汇总.pdf
- 职业技术学院《公差配合与测量技术》课程标准.doc VIP
原创力文档

文档评论(0)