- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
R语言学习系列12-文本分词选编
12. 文本分词
文本分词,就是对文本进行合理的分割,从而可以比较快捷地获取关键信息。
例如,电商平台要想了解更多消费者的心声,就需要对消费者的文本评论数据进行内在信息的数据挖掘分析,而文本分词是文本挖掘的重要步骤。
R语言中,对中文分词支持较好的包有RWordseg包和jiebaR包。
一、配置Java环境
步骤1. 下载JDK安装包
HYPERLINK /technetwork/java/javase/downloads/index.html /technetwork/java/javase/downloads/index.html
点Java Download图标进入下载界面(Java SE Development Kit);点Accept License Agreement,接受许可协议,选择对应系统的版本下载,比如Windows x64
步骤2. 安装JDK
安装路径(可修改),比如D:\Program Files\Java\jdk1.8.0_101
特别注意:第2次出现选择路径时,是选择jre的安装路径,一定不要和前面jdk同一个路径,建议也在放在Java目录下,单放在jre文件夹,比如D:\Program Files\Java\jre1.8.0_101 否则将有问题。
步骤3. 配置环境变量
右键计算机-属性-高级系统设置-环境变量,在“环境变量”窗口“系统变量”区域操作:
(1) 【新建…】,变量名输入:JAVA_HOME
变量值输入JDK安装路径:D:\Program Files\Java\jdk1.8.0_101
【确定】
(2) 双击Path,在变量值框末尾加上
;%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin
【确定】
(3) 【新建…】,变量名输入:CLASSPATH 变量值输入:
%JAVA_HOME%lib\dt.jar;%JAVA_HOME%\lib\tools.jar
【确定】
步骤4. 测试是否配置成功
运行-cmd, 回车,输入 java –version 回车,显示版本号等信息;
输入 javac –version 回车,也显示版本号,如下图所示,则表示配置成功
二、RWordseg包
1. 先安装rJava包(正常命令安装即可)
2. 安装Rwordseg包
命令安装:
install.packages(Rwordseg,repos=http://R-Forge.R-)
注意:该网址很可能不能正常打开。
建议采用本地安装:
下载Rwordseg.zip包,R操作界面,程序包-Install Package(s) from local files…, 找到Rwordseg.zip文件,确定安装即可,测试下图则表示安装成功:
3. Rwordseg包常用函数
insertWords(x, save=TRUE)
向词库导入新词汇x,save=TRUE保存新词汇,下次启动仍可用;
deleteWords(x)——从词库中删除词汇x
getOption(isNameRecognition)
查看人名识别功能的状态,结果为TRUE表明能够识别;
segment.options(isNameRecognition=TRUE)
设置人名识别功能的状态;
installDict(dictpath=词典路径, dictname=自定义词典名称, dicttype=c(text,scel), load=TRUE)
添加用户自定义的词典;dicttype指定安装词典的类型,text为普通文本格式,scel为搜狗细胞词库;load设置安装后是否自动加载到内存,默认为TRUE;
listDict()——查看已安装词典;
uninstallDict(removedict=listDict()$Name, remove=TRUE)
卸载用户自定义的词典,removedict指定要卸载的词典名称;remove指定是否立即清除词典中的词语;
segmentCN(x, nature=TRUE, nosymbol=TRUE)
实现中文分词,nature设置是否输出词性,默认不输出;nosymbol默认为TURE,表示不输出标点,只有汉字、英文、数字。
注意:目前的词性识别和标点识别容易出错,只作为参考。
4. 实例
library(rJava)
library(Rwordseg)
segmentCN(雷克萨斯品牌) #导入词汇前的分词
[1] 雷 克 萨 斯 品牌
insertWords(c(雷克萨斯)) #导入词汇
segmentCN(雷克萨斯品牌) #导入词汇后的分词
[1] 雷克萨斯 品牌
deleteWords(c(雷克萨斯))
您可能关注的文档
最近下载
- 2023年上海第二工业大学网络工程专业《计算机组成原理》科目期末试卷B(有答案).docx VIP
- 2023年上海第二工业大学计算机应用技术专业《计算机组成原理》科目期末试卷B(有答案).docx VIP
- ODCC 阿里巴巴 浸没液冷数中心规范.pdf VIP
- 青少年无人机课程:开启天空探索之旅.pptx VIP
- 一种偏振光红外头痛治疗仪.pdf VIP
- 医疗技术人员能力评价表(内科).docx VIP
- 物性表_索尔维_PPSU Radel R-5500.pdf VIP
- 23、提高模板工程安装一次验收合格率.docx VIP
- 华东理工大学-食品科学与工程 实验二抗氧化剂实验方案苹果汁.docx VIP
- 《中文版Cinema 4D三维建模与视觉设计案例教程[R25]》项目1Cinema 4D基础知识 .pptx VIP
文档评论(0)