ROST NewsAnalysi Tools操作手册.docVIP

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
ROST News Analysis Tool 4.5 PAGE \* MERGEFORMAT PAGE \* MERGEFORMAT 2 ROST新闻分析工具 (ROST News Analysis Tool 4.5) 用户手册 清华大学新闻研究中心 目 录 TOC \o 1-3 \h \z \u HYPERLINK \l _Toc13509 一、功能说明 PAGEREF _Toc13509 1 HYPERLINK \l _Toc14978 二、运行环境 PAGEREF _Toc14978 1 HYPERLINK \l _Toc10078 三、软件操作 PAGEREF _Toc10078 2 HYPERLINK \l _Toc1919 1获取数据 PAGEREF _Toc1919 2 HYPERLINK \l _Toc20524 1.1搜索新闻 PAGEREF _Toc20524 2 HYPERLINK \l _Toc25448 1.2查看新闻 PAGEREF _Toc25448 3 HYPERLINK \l _Toc10398 2词性识别与词性统计 PAGEREF _Toc10398 3 HYPERLINK \l _Toc18476 3社会网络与语义网络分析 PAGEREF _Toc18476 5 HYPERLINK \l _Toc6176 4统计图 PAGEREF _Toc6176 7 HYPERLINK \l _Toc26591 5新闻汇总数据 PAGEREF _Toc26591 8 HYPERLINK \l _Toc6013 6数据库操作 PAGEREF _Toc6013 8 PAGE \* MERGEFORMAT PAGE \* MERGEFORMAT 8 一、功能说明 采集多个信息源网络数据,并格式化保存。 分词和词性分析 词频统计 词语过滤 人名、地名、团体机构名提取 构建语义网络 数据可视化分析 特定数据来源总体概况 存放于MDB库中,并可自由导出 发布、维护新浪微博:@ROST软件 出品单位:清华大学新闻研究中心 下载地址:HYPERLINK /u/3172254514?from=profilewvr=5loc=infdomain/u/3172254514 二、运行环境 window XP/2003/window 7 互联网 .Net Framework2.0 access数据库 三、软件操作 程序运行 程序下载到本地电脑后解压文件,依次点击文件ROST NAT→ROST NewsAnalysis Tools.exe,系统主界面如下图所示: 1获取数据 1.1搜索新闻 输入新闻词,点击右侧设置,在弹出的窗口中选择要采集的页数和网址,点击确定 返回到主界面,点击搜索按钮or鼠标定位到输入新闻词文本框中按下Enter键,(在搜索的过程中可能会有点卡,常见因素有电脑的网速不是很给力,采集的页数过多,系统同时运行的程序过多等,请耐心等候!)程序会自动生成一系列的相关文本文件,如摘要文件。 (当设置连续采集0 页时,默认采集网站的搜索的最大页数。网页采集的最大页码分别是:搜狗新闻:100页,搜狗网页:100页、必应网页:35页、360新闻:32页、360网页:64页、百度新闻:38页、百度网页:76页) 1.2查看新闻 鼠标可直接单击输出文件文本框打开.txt文档经行浏览,或选择摘要文件、链接文件、域名文件浏览。 2词性识别与词性统计 作用:对文本文件里的词进行词性判断,如名词,动词等;以及统计文本文件里词语出现的频率。本软件可以采用两种方式进行分析: = 1 \* ROMAN \* MERGEFORMAT I软件自带数据采集功能,数据采集后可直接运行分析功能 = 2 \* ROMAN \* MERGEFORMAT II用户外部导入符合格式的文本文档,格式具体要求分析功能的页面经行说明。 分析数据:准备好待上传文件(文件格式仅限.txt格式),注意文本的格式是否点满足系统所提示内容,点击待处理文件最右边的按钮,在打开的文件中选择所保存文件路径(也可以将路径直接复制粘贴到待处理文件文本框中),点击分析按钮,程序会生成一系列的相关文本文件,如地名、总词频表. 添加过滤词:打开“添加过滤词”按钮,即可打开过滤词文本文件,添加所想过滤的关键词保存之后,软件需要重新启动一下,回到词性识别与词频统计界面再次导入上次所选文本文件 分析数据有效。 3社会网络与语义网络分析 作用:过滤无意义词组,统计文本文件中的词出现最多次数,分析每行文字中相关联的词组,用网状形式展现出他们之间的关系。 首先,导入文本文件;然后分步分析或快速分析 注意事项:如出现高频词、

您可能关注的文档

文档评论(0)

jiupshaieuk12 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6212135231000003

1亿VIP精品文档

相关文档