应用定性数据分析包rqdaqualitativedataanalysis和文-rproject.pdf

应用定性数据分析包rqdaqualitativedataanalysis和文-rproject.pdf

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
应用定性数据分析包rqdaqualitativedataanalysis和文-rproject

用定性数据分析包RQDA tm 进行文本挖掘 Written by Benson Ye (bensonye@189.cn) Revised by Ronggui Huang (ronggui.huang@) First reversion 2010-07-22 Last revision 2010-08-03 在对访谈内容或剧本、小说部分内容进行文本挖掘时,如果用不断的剪粘保存的方法非 常繁琐而且容易漏掉一些内容。好在黄荣贵开发的RQDA 包可以进行文档管理和内容编码 及提取,大大方便了利用tm 包进行文本挖掘,既提高了效率又提高了准确性,下面举一个 小例子: 对(人民网 时政 时政专题 网友进言)中的公安部回应进行分析 相关链接:/GB/8198/138817/index.html 1、安装RQDA 包、tm 包和中文分词软件; install.packages(c(rJava,tm, gsubfn)) install.packages(c(RQDA,RQDAtm),repos=http://R-Forge.R-,type=source) 2 、装载RQDA 包并建立一个新的工程项目; library(RQDAtm) 3、输入相关文本文件; 4 、进行编码和作标记; 5、双击想要提取的编码即可提取相关文本; 6、运行下面下载的程序进行文本提取、转换、分词、文本挖掘工作。 ( 以上步骤的结果为RQDA2tm_example.rqda) ,可直接打开该文件继续如下步骤。 gg - RQDA2tm(公安部回应 ) summary(gg) A corpus with 26 text documents The metadata consists of 2 tag-value pairs and a data frame Available tags are: create_date creator Available variables in the data frame are: MetaID cid fid selfirst selend fname inspect(gg) ## 去掉多余空格 #### reuters - tm_map(gg, stripWhitespace) reuters[[3]] 公安部规定,县级公安机关交通管理部门车辆管理所可以办理本行政辖区内初次申领和增加 准驾车型为低速载货汽车、三轮汽车、普通三轮摩托车、普通二轮摩托车、轻便摩托车的机 动车驾驶证业务,具体业务范围和办理条件由省级公安机关交通管理部门确定。目前,全国 仅有个别县级车辆管理所受条件限制无法开展增加准驾车型为摩托车的考试业务。 ## 全文搜索 ## searchFullText(gg[[1]], 是临[时]?改) [1] FALSE ### 查找以某字开头、结尾等的词条 ### stemCompletion(gg, c(机, 交, 证)) 机 机动车驾驶证申领和使用规定 交 交通管理服务群众十项措施 证 证件所有人不应该为自己没有从事的行为承担法律责任 ### 中文分词 ### txt - prescindMeta(gg,c(ID)) re - list() for (i in 1:nrow(txt)) { + re[[i]]- CWS(PlainTextDocument(reuters)[[i]],TRUE) ## 包括停用词 + } ### 生成新的文集 ### reuters - Corpus(VectorSource(re)) ### 元数据管理 ### DublinCore(reuters[[2]

文档评论(0)

laolao123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档