R语言文本挖掘笔记2(文本、oracle).pdfVIP

下载本文档

43
0
约4.41千字
约 7页
2017-06-03 发布于河南
举报

R语言文本挖掘笔记2(文本、oracle).pdf

R语言文本挖掘笔记2(文本、oracle)

R 语言文本挖掘笔记 1. 文本挖掘概述文本挖掘是指从文本中提取有用的信息。成功应用主要有如下几方面：信息检索、内容管理、市场监测、市场分析等方面。文本挖掘被描述为 “自劢化戒半自劢化处理文本的过程” ，包含了文档聚类、文档分类、自然语言处理、文体变化分析及网络挖掘等领域内容。对于文本处理过程首先要拥有分析的语料，比如报告、信函、出版物等。而后根据这些语料建立半结构化的文本库。而后生成包含词频的结构化的词条-文档矩阵。 2. R 语言实现过程本文以 R 语言为例，介绍文本挖掘的实现过程，内容浅显易懂。 R 语言版本：3.2.4 （可从官网/下载，我选择的链接是 /CRAN/ ）。 2.1 文本文件分析过程数据实例：tmp.txt （文档记录了少量服务器告警劢作信息）。 #step0:加载文本挖掘所需包 #关于包的信息，可通过命令“？包名”查询，在此不再赘述 #加载包如果不成功，可将包下载到本地，尝试本地安装：程序包-从本地 zip 文件安装程序包。若是再不成功，可能存在包不兼容问题，需要更换包。 library(tm); library(rJava); library(Rwordseg); library (RColorBrewe

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

R语言文本挖掘笔记2(文本、oracle).pdfVIP