R语言学习系列12-文本分词选编.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
R语言学习系列12-文本分词选编

12. 文本分词 文本分词,就是对文本进行合理的分割,从而可以比较快捷地获取关键信息。 例如,电商平台要想了解更多消费者的心声,就需要对消费者的文本评论数据进行内在信息的数据挖掘分析,而文本分词是文本挖掘的重要步骤。 R语言中,对中文分词支持较好的包有RWordseg包和jiebaR包。 一、配置Java环境 步骤1. 下载JDK安装包  HYPERLINK /technetwork/java/javase/downloads/index.html /technetwork/java/javase/downloads/index.html 点Java Download图标进入下载界面(Java SE Development Kit);点Accept License Agreement,接受许可协议,选择对应系统的版本下载,比如Windows x64 步骤2. 安装JDK 安装路径(可修改),比如D:\Program Files\Java\jdk1.8.0_101 特别注意:第2次出现选择路径时,是选择jre的安装路径,一定不要和前面jdk同一个路径,建议也在放在Java目录下,单放在jre文件夹,比如D:\Program Files\Java\jre1.8.0_101 否则将有问题。 步骤3. 配置环境变量 右键计算机-属性-高级系统设置-环境变量,在“环境变量”窗口“系统变量”区域操作: (1) 【新建…】,变量名输入:JAVA_HOME 变量值输入JDK安装路径:D:\Program Files\Java\jdk1.8.0_101 【确定】 (2) 双击Path,在变量值框末尾加上 ;%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin 【确定】 (3) 【新建…】,变量名输入:CLASSPATH 变量值输入: %JAVA_HOME%lib\dt.jar;%JAVA_HOME%\lib\tools.jar 【确定】 步骤4. 测试是否配置成功 运行-cmd, 回车,输入 java –version 回车,显示版本号等信息; 输入 javac –version 回车,也显示版本号,如下图所示,则表示配置成功 二、RWordseg包 1. 先安装rJava包(正常命令安装即可) 2. 安装Rwordseg包 命令安装: install.packages(Rwordseg,repos=http://R-Forge.R-) 注意:该网址很可能不能正常打开。 建议采用本地安装: 下载Rwordseg.zip包,R操作界面,程序包-Install Package(s) from local files…, 找到Rwordseg.zip文件,确定安装即可,测试下图则表示安装成功: 3. Rwordseg包常用函数 insertWords(x, save=TRUE) 向词库导入新词汇x,save=TRUE保存新词汇,下次启动仍可用; deleteWords(x)——从词库中删除词汇x getOption(isNameRecognition) 查看人名识别功能的状态,结果为TRUE表明能够识别; segment.options(isNameRecognition=TRUE) 设置人名识别功能的状态; installDict(dictpath=词典路径, dictname=自定义词典名称, dicttype=c(text,scel), load=TRUE) 添加用户自定义的词典;dicttype指定安装词典的类型,text为普通文本格式,scel为搜狗细胞词库;load设置安装后是否自动加载到内存,默认为TRUE; listDict()——查看已安装词典; uninstallDict(removedict=listDict()$Name, remove=TRUE) 卸载用户自定义的词典,removedict指定要卸载的词典名称;remove指定是否立即清除词典中的词语; segmentCN(x, nature=TRUE, nosymbol=TRUE) 实现中文分词,nature设置是否输出词性,默认不输出;nosymbol默认为TURE,表示不输出标点,只有汉字、英文、数字。 注意:目前的词性识别和标点识别容易出错,只作为参考。 4. 实例 library(rJava) library(Rwordseg) segmentCN(雷克萨斯品牌) #导入词汇前的分词 [1] 雷 克 萨 斯 品牌 insertWords(c(雷克萨斯)) #导入词汇 segmentCN(雷克萨斯品牌) #导入词汇后的分词 [1] 雷克萨斯 品牌 deleteWords(c(雷克萨斯))

文档评论(0)

jiayou10 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8133070117000003

1亿VIP精品文档

相关文档