- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
词云、新词发现、停用词、自然语言处理NLPSPSSAU
文本分析之我的项目
SPSSAU提供文本分析模块,其单独针对文本数据进行研究和分析使用,其包括词云分
析、文本情感分析、文本聚类分析、社会网络关系分析、LDA主题分析、新词发现和我的词库
等功能。使用SPSSAU进行文本分析时,涉及下述内容。分别是进入文本分析模块路径,文本
数据上传管理等,以及如何进行分析和研究使用。接下来逐一进行说明。
目录
第1、进入文本分析模块路径1
第2、文本数据上传管理等2
第3、进行分析3
第1、进入文本分析模块路径
进入文本分析模块的路径有以下3种。分别是通过搜索框进入、仪表盘点击进入或者输入
网址进入。
1SPSSAU搜索框进入
在SPSSAU主系统左上角处进行搜索,比如搜索‘文本’二字时,下拉中会提示文本分析模
块,当然搜索其它的潜在关键词,比如情感分析、LDA、文本聚类等均可。
2SPSSAU界面仪表盘进入
通过SPSSAU主系统左侧仪表盘点击‘文本分析模块’进入。
3输入网址
与此同时,可输入文本分析模块的网址链接:/textanalysis.html进入,当
然如果此时没有登录SPSSAU,系统会提示首先登录账号。
第2、文本数据上传管理等
进入SPSSAU文本分析模块之后,首先需要上传文本数据。上传数据涉及以下内容:
✓支持直接粘贴文本进行上传数据
✓支持上传txt或excel格式数据
✓上传文件最高限制为5M
用户可‘点击上传’自己的文本数据,在弹出对话框中,可实现真实粘贴文本进行上传或者
上传txt/excel文件等。如下图所示:
如果是第1次使用,可直接点击‘体验DEMO数据’体验文本分析模块功能。
需要注意的是:如果是通过excel格式(包括csv/xls/xlsx格式)时,只需要1列数据,该
列数据中包括文本信息,类似如下图所示:
将文本全部放置于A列中,A列不需要有标题信息。每行(即每个单元格)存在1个分析
文本。如果是txt文档或者粘贴文本进行上传,那么系统会自动过滤掉空行数据,并且以回车
键作为每行(即每个分析文本)标志。
每份数据是1个项目,最高支持10个项目(即10个数据),如果是粘贴数据上传,那么系
统会自动对其命名,格式为时间+粘贴上传,名称类似为15:06:31粘贴上传”,当然
用户可对该名称进行修改。上传完成后展示信息类似如下:
其展示项目的名称,上传时间,文件大小,总行数,分析时间和总共切词次数等。当前文
件上传后还未进行分析,因而没有分析时间和总词数这两个信息。在项目分析之后则会展示该
两项信息。
提示:
当前SPSSAU限制周会员及以上用户使用,仅购买1天的会员或者非会员无法使用文本分
析模块功能,也无法上传文本数据。如果是购买SPSSAU权益号,那么其分配出来的账号或者
会员均享受周会员权益,即可使用文本分析模块功能。
第3、进行分析
上传文本数据后,接着则需要对该数据(项目)进行分析。点击‘开始分析’按钮,项目则
开始进行分析。如下图所示:
提示:
文本分析计量量大,其较为耗资源和耗时间,当文本文件较大(比如大于2M)时,可能
需要等待较长时间才能完成(通常会在5分钟内完成),请耐心等待其完成。
此时点击‘开始分析’也会有‘项目正在分析,请等待’的提示。并且此时左侧仪表盘均
为灰色无法点击。
如果对我的词库有过变动,比如加入或移出新词,加入或移出停用词,加入或移出情感词
等,在这些操作全部完成后,可重新进行分析,点击重新分析按钮即可。强烈建议一次性处理
完成新词、停用词或者情感词后,再点击重新分析,否则可能出现较长时间等待。
如果完成分析后,‘开始分析’按钮会展示为‘进入项目’,也会展示‘重新分析’按钮,此时点
击‘进入项目’即可查看对应的分析,比如词云分析情况等。类似如下图所示:
最后,针对上传的文件数据,可对其进行相关管理,包括查看数据,下载数据,下载分析
和重命名,也或者删除该项目等,如下图所示。需要提示的是:删除文件后无法恢复(如果不
删除会存储在云端),以及下载分析可能会因为进行其它分析而改变,比如默认没
文档评论(0)