R语言学习系列12-文本分词.docx

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
R语言学习系列12-文本分词课件

12. 文本分词文本分词,就是对文本进行合理的分割,从而可以比较快捷地获取关键信息。例如,电商平台要想了解更多消费者的心声,就需要对消费者的文本评论数据进行内在信息的数据挖掘分析,而文本分词是文本挖掘的重要步骤。R语言中,对中文分词支持较好的包有RWordseg包和jiebaR包。一、配置Java环境步骤1. 下载JDK安装包/technetwork/java/javase/downloads/index.html点Java Download图标进入下载界面(Java SE Development Kit);点Accept License Agreement,接受许可协议,选择对应系统的版本下载,比如Windows x64步骤2. 安装JDK安装路径(可修改),比如D:\Program Files\Java\jdk1.8.0_101特别注意:第2次出现选择路径时,是选择jre的安装路径,一定不要和前面jdk同一个路径,建议也在放在Java目录下,单放在jre文件夹,比如D:\Program Files\Java\jre1.8.0_101否则将有问题。步骤3. 配置环境变量右键计算机-属性-高级系统设置-环境变量,在“环境变量”窗口“系统变量”区域操作:(1) 【新建…】,变量名输入:JAVA_HOME变量值输入JDK安装路径:D:\Program Files\Java\jdk1.8.0_101【确定】(2) 双击Path,在变量值框末尾加上;%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin【确定】(3) 【新建…】,变量名输入:CLASSPATH 变量值输入:%JAVA_HOME%lib\dt.jar;%JAVA_HOME%\lib\tools.jar【确定】步骤4. 测试是否配置成功运行-cmd, 回车,输入 java –version回车,显示版本号等信息;输入javac–version 回车,也显示版本号,如下图所示,则表示配置成功二、RWordseg包1. 先安装rJava包(正常命令安装即可)2. 安装Rwordseg包命令安装:install.packages(Rwordseg,repos=http://R-Forge.R-)注意:该网址很可能不能正常打开。建议采用本地安装:下载Rwordseg.zip包,R操作界面,程序包-Install Package(s) from local files…, 找到Rwordseg.zip文件,确定安装即可,测试下图则表示安装成功:3. Rwordseg包常用函数insertWords(x, save=TRUE)向词库导入新词汇x,save=TRUE保存新词汇,下次启动仍可用;deleteWords(x)——从词库中删除词汇xgetOption(isNameRecognition)查看人名识别功能的状态,结果为TRUE表明能够识别;segment.options(isNameRecognition=TRUE)设置人名识别功能的状态;installDict(dictpath=词典路径, dictname=自定义词典名称, dicttype=c(text,scel), load=TRUE)添加用户自定义的词典;dicttype指定安装词典的类型,text为普通文本格式,scel为搜狗细胞词库;load设置安装后是否自动加载到内存,默认为TRUE;listDict()——查看已安装词典;uninstallDict(removedict=listDict()$Name, remove=TRUE)卸载用户自定义的词典,removedict指定要卸载的词典名称;remove指定是否立即清除词典中的词语;segmentCN(x, nature=TRUE, nosymbol=TRUE)实现中文分词,nature设置是否输出词性,默认不输出;nosymbol默认为TURE,表示不输出标点,只有汉字、英文、数字。注意:目前的词性识别和标点识别容易出错,只作为参考。4. 实例 library(rJava) library(Rwordseg) segmentCN(雷克萨斯品牌) #导入词汇前的分词[1] 雷 克 萨 斯 品牌 insertWords(c(雷克萨斯)) #导入词汇 segmentCN(雷克萨斯品牌) #导入词汇后的分词[1] 雷克萨斯 品牌 deleteWords(c(雷克萨斯)) #删除词汇 installDict(dictpath = E:/办公资料/R语言/文本分词包/汽车词汇大全.scel,dictname = qiche) #安装自定义的词典2388 words were loaded! ... New dictionary q

您可能关注的文档

文档评论(0)

jiayou10 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8133070117000003

1亿VIP精品文档

相关文档