- 43
- 0
- 约4.41千字
- 约 7页
- 2017-06-03 发布于河南
- 举报
R语言文本挖掘笔记2(文本、oracle)
R 语言文本挖掘笔记
1. 文本挖掘概述
文本挖掘是指从文本中提取有用的信息。成功应用主要有如下几方面:信息
检索、内容管理、市场监测、市场分析等方面。文本挖掘被描述为 “自劢化戒半
自劢化处理文本的过程” ,包含了文档聚类、文档分类、自然语言处理、文体变
化分析及网络挖掘等领域内容。对于文本处理过程首先要拥有分析的语料 ,比如
报告、信函、出版物等。而后根据这些语料建立半结构化的文本库。而后生成包
含词频的结构化的词条-文档矩阵。
2. R 语言实现过程
本文以 R 语言为例,介绍文本挖掘的实现过程,内容浅显易懂。
R 语言版本:3.2.4 (可从官网/下载 ,我选择的链接是
/CRAN/ )。
2.1 文本文件分析过程
数据实例:tmp.txt (文档记录了少量服务器告警劢作信息)。
#step0:加载文本挖掘所需包
#关于包的信息,可通过命令“?包名”查询,在此不再赘述
#加载包如果不成功,可将包下载到本地,尝试本地安装:程序包-从本地 zip
文件安装程序包。若是再不成功,可能存在包不兼容问题,需要更换包。
library(tm);
library(rJava);
library(Rwordseg);
library (RColorBrewe
您可能关注的文档
- 一词一句一习俗 我的gap year 我做主-智课教育旗下智课教育.pdf
- 透视美国_艾伦_金斯堡诗歌创作四十年_海伦_文德勒.pdf
- SCB9-400/10 SCB10-400/10干式配电变压器.pdf
- 生命与空间_韩东诗的另一种解读.pdf
- 【尚友网】最受华人学生青睐的十所美国大学学区-尚友学院街.pdf
- LM3999资料.pdf
- 美国当代诗人对中国隐逸诗的接受.pdf
- MT9M001C12STM;中文规格书,Datasheet资料.pdf
- MAX98306ETD+T,MAX98306ETD+T,MAX98306ETD+T,MAX98306EVKIT#, 规格书,Datasheet 资料.pdf
- 略论郭沫若的历史剧_武则天_.pdf
最近下载
- 乳化液柱塞泵结构设计毕业设计说明书.doc VIP
- 应急通信保障应急预案.docx VIP
- 年产2000吨年邻氯苯腈、1200吨年 2,6-二氯-4-三氟甲基苯胺、1000吨年三嗪酰胺、300吨年 2,6-二氟苯甲酰胺、2000吨年 2-氯-5-氯甲基噻唑、1000吨年咪鲜胺项目环境影响报告.pdf
- 2023年安徽合肥高新区社区工作者招聘笔试真题.docx VIP
- 国家通信保障应急预案.docx VIP
- 数据新闻概论:操作理念与案例解析(第3版) 第5--7章 编辑室里的数据分析、数据新闻的文案、数据新闻的设计.pptx
- 《七律二首 送瘟神》-中职语文高二同步课件精选(高教版2023·职业模块).pptx VIP
- 上市公司财务绩效存在的问题及对策分析以新宁物流为例.docx
- 2011主管护师外科护理考试专业知识真题.doc VIP
- 2011主管护师外科护理考试专业知识真题.doc VIP
原创力文档

文档评论(0)