- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
SOFTWARE DEVELOPMENT AND DESIGN 软件开发与设计
巧用 R 进行中文文本信息处理
贾满磊 1 , 李大展 1 , 王水 2
( 南 阳理工学 院 , 河南 南 阳 ; 宁波大 红 鹰学 院 , 浙江 宁 波 )
1. 473000 2. 315100
摘 要 : 以统计道藏目录 的中文词频 为例 , 讲 述使 用 R 处理 Unicode 中文 的相关技 巧和 注意事项 。
关键词 : 文本挖掘 ; R ; 中文 ; arulesSequences
Techs and Tricks of Chinese Text Mining Using R
JIA Man-lei1 , LI Da-zhan1 , WANG Shui2
( 1. Nanyang Institute of Technology, Henan Nanyang 473000 , China;
, )
2. Ningbo Dahongying University Zhejiang Ningbo 315100 , China
Abstract : Uses the word frequency statistical computing as an empirical case to discuss the techs tricks of dealing with
Unicode Chinese text Using R.
Key words : text mining ; R ; Chinese text ; arulesSequences
R 号 称 “ 万 能的 R”, 这 个 开源 的系统基 本 上 可以 处理 想 需 要 注 意 的是 , “ 安 装 ” 和 “ 加 载 ” 包 不 是 一 回事 。 安
到 的任何 计 算 任务 , 包括统计处理 、 数 据 挖 掘 、 数 据 可 视 化 装 以后 还 需 要在 菜 单中 加 载 已经安 装 的包 , 才 能 在 R 中使用
等 [1] 。 由于 中文 的特 殊 性 , 特 别对于需 要 使用 Unicode 编 码 的 该包提供 的函数 。
字 符 集 , 在 使用 R 处理的 时 候 , 需 要 有 特 殊 的处理 技 巧 ; 以 一 旦程序 包 安装后 , 每次使用的 时候 , 可以通过命 令 :
道藏 目录文本 中 的字频 统计为例 , 来 介绍 相关 的技术和技巧 。 library (包 名)
1 安装和加载附加程序包 来加 载 它 。 例 如 :
R 和其他 商业 化的计 算 系统非 常不一样 的地方在于 , 有 无 library (arulesSequences)
数的 人 在 为 R 添 加 他 们 认 为 有应用 价 值 的模 块 ( 称为 “ pack- 加载序列模式挖掘包 arulesSequences 。 可以
文档评论(0)