R语言文本挖掘笔记2(文本、oracle).pdfVIP

  • 43
  • 0
  • 约4.41千字
  • 约 7页
  • 2017-06-03 发布于河南
  • 举报
R语言文本挖掘笔记2(文本、oracle)

R 语言文本挖掘笔记 1. 文本挖掘概述 文本挖掘是指从文本中提取有用的信息。成功应用主要有如下几方面:信息 检索、内容管理、市场监测、市场分析等方面。文本挖掘被描述为 “自劢化戒半 自劢化处理文本的过程” ,包含了文档聚类、文档分类、自然语言处理、文体变 化分析及网络挖掘等领域内容。对于文本处理过程首先要拥有分析的语料 ,比如 报告、信函、出版物等。而后根据这些语料建立半结构化的文本库。而后生成包 含词频的结构化的词条-文档矩阵。 2. R 语言实现过程 本文以 R 语言为例,介绍文本挖掘的实现过程,内容浅显易懂。 R 语言版本:3.2.4 (可从官网/下载 ,我选择的链接是 /CRAN/ )。 2.1 文本文件分析过程 数据实例:tmp.txt (文档记录了少量服务器告警劢作信息)。 #step0:加载文本挖掘所需包 #关于包的信息,可通过命令“?包名”查询,在此不再赘述 #加载包如果不成功,可将包下载到本地,尝试本地安装:程序包-从本地 zip 文件安装程序包。若是再不成功,可能存在包不兼容问题,需要更换包。 library(tm); library(rJava); library(Rwordseg); library (RColorBrewe

文档评论(0)

1亿VIP精品文档

相关文档