- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
R语言学习系列12-文本分词课件
12. 文本分词文本分词,就是对文本进行合理的分割,从而可以比较快捷地获取关键信息。例如,电商平台要想了解更多消费者的心声,就需要对消费者的文本评论数据进行内在信息的数据挖掘分析,而文本分词是文本挖掘的重要步骤。R语言中,对中文分词支持较好的包有RWordseg包和jiebaR包。一、配置Java环境步骤1. 下载JDK安装包/technetwork/java/javase/downloads/index.html点Java Download图标进入下载界面(Java SE Development Kit);点Accept License Agreement,接受许可协议,选择对应系统的版本下载,比如Windows x64步骤2. 安装JDK安装路径(可修改),比如D:\Program Files\Java\jdk1.8.0_101特别注意:第2次出现选择路径时,是选择jre的安装路径,一定不要和前面jdk同一个路径,建议也在放在Java目录下,单放在jre文件夹,比如D:\Program Files\Java\jre1.8.0_101否则将有问题。步骤3. 配置环境变量右键计算机-属性-高级系统设置-环境变量,在“环境变量”窗口“系统变量”区域操作:(1) 【新建…】,变量名输入:JAVA_HOME变量值输入JDK安装路径:D:\Program Files\Java\jdk1.8.0_101【确定】(2) 双击Path,在变量值框末尾加上;%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin【确定】(3) 【新建…】,变量名输入:CLASSPATH 变量值输入:%JAVA_HOME%lib\dt.jar;%JAVA_HOME%\lib\tools.jar【确定】步骤4. 测试是否配置成功运行-cmd, 回车,输入 java –version回车,显示版本号等信息;输入javac–version 回车,也显示版本号,如下图所示,则表示配置成功二、RWordseg包1. 先安装rJava包(正常命令安装即可)2. 安装Rwordseg包命令安装:install.packages(Rwordseg,repos=http://R-Forge.R-)注意:该网址很可能不能正常打开。建议采用本地安装:下载Rwordseg.zip包,R操作界面,程序包-Install Package(s) from local files…, 找到Rwordseg.zip文件,确定安装即可,测试下图则表示安装成功:3. Rwordseg包常用函数insertWords(x, save=TRUE)向词库导入新词汇x,save=TRUE保存新词汇,下次启动仍可用;deleteWords(x)——从词库中删除词汇xgetOption(isNameRecognition)查看人名识别功能的状态,结果为TRUE表明能够识别;segment.options(isNameRecognition=TRUE)设置人名识别功能的状态;installDict(dictpath=词典路径, dictname=自定义词典名称, dicttype=c(text,scel), load=TRUE)添加用户自定义的词典;dicttype指定安装词典的类型,text为普通文本格式,scel为搜狗细胞词库;load设置安装后是否自动加载到内存,默认为TRUE;listDict()——查看已安装词典;uninstallDict(removedict=listDict()$Name, remove=TRUE)卸载用户自定义的词典,removedict指定要卸载的词典名称;remove指定是否立即清除词典中的词语;segmentCN(x, nature=TRUE, nosymbol=TRUE)实现中文分词,nature设置是否输出词性,默认不输出;nosymbol默认为TURE,表示不输出标点,只有汉字、英文、数字。注意:目前的词性识别和标点识别容易出错,只作为参考。4. 实例 library(rJava) library(Rwordseg) segmentCN(雷克萨斯品牌) #导入词汇前的分词[1] 雷 克 萨 斯 品牌 insertWords(c(雷克萨斯)) #导入词汇 segmentCN(雷克萨斯品牌) #导入词汇后的分词[1] 雷克萨斯 品牌 deleteWords(c(雷克萨斯)) #删除词汇 installDict(dictpath = E:/办公资料/R语言/文本分词包/汽车词汇大全.scel,dictname = qiche) #安装自定义的词典2388 words were loaded! ... New dictionary q
您可能关注的文档
- 物理11.ppt
- 物质的量在化学实验中的应用三课时.ppt
- 物资部岗位职责doc.doc
- 物质的量浓度的配制.ppt
- RTSP协议培训文档.ppt
- rtxa+system_1.1version特灵中央空调机组.ppt
- RT专业知识习题.doc
- 物联网称重管理系统.doc
- 物流管理导论.ppt
- RT专业考试试题.doc
- 2024年05月山东青岛莱西市面向2023年省退役优秀运动员定向公开招聘笔试上岸试题历年典型考题与考点剖析附带答案解析.docx
- 2024年05月四川省中江中学校招考聘用优秀教师10人笔试上岸试题历年典型考题与考点剖析附带答案解析.docx
- 2024年05月天津市北辰区教育系统招考聘用教师89人笔试上岸试题历年典型考题与考点剖析附带答案解析.docx
- 2024年05月安徽淮北师范大学招考聘用12人(专职辅导员专任教师)笔试上岸试题历年典型考题与考点剖析附带答案解析.docx
- 2024年05月山东东营市教育局局属部分学校招考聘用教师18人笔试上岸试题历年典型考题与考点剖析附带答案解析.docx
- 2024年05月广东河源紫金县紫城镇卫生院招考聘用临聘工作人员笔试上岸试题历年典型考题与考点剖析附带答案解析.docx
- 2024年05月宁夏石嘴山市第二人民医院招考聘用笔试上岸试题历年典型考题与考点剖析附带答案解析.docx
- 2024年05月四川凉山州引进急需紧缺专业人才623人笔试上岸试题历年典型考题与考点剖析附带答案解析.docx
- 2024年05月山东菏泽市牡丹区事业单位初级岗位工作人员(31名)笔试上岸试题历年典型考题与考点剖析附带答案解析.docx
- 2024年05月广东深圳光明区建筑工务署招考聘用一般专干4人笔试上岸试题历年典型考题与考点剖析附带答案解析.docx
文档评论(0)