- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
7 信息处理.ppt
第7章 信息处理 以实例说明如何在互联网上采集信息、整理信息和分析信息,得出有价值的结论。 本章学习目标 了解信息处理的主要步骤 掌握信息处理的具体方法 学会利用互联网的信息帮助决策 7.1 步骤要点 (1)确定我们的目标; (2)确定信息数据源; (3)用合适的方法采集数据; (4)对数据进行整理,得到可分析的数据; (5)对数据进行分析,得出有价值的结论。 7.2 确定目标 例:通过了解证券投资基金重点投资的股票,寻找潜在的投资对象。 7.3 确定数据源 例:以深圳证券交易所下属深圳证券信息有限公司主办的巨潮资讯()的基金债券频道为数据源。 7.4 采集数据 数据较少时可直接在浏览器上打开处理 数据量较大时应考虑用FlashGet、Offline Explorer等下载软件或离线浏览软件将数据下载 7.5 整理数据 数据格式的转换是可用相关软件进行批量处理 7.6 分析数据 对整理好的数据,用EXCEL等软件进行分析,可以得出有价值的结论。 7.7 思考与练习 1.网上信息采集、整理和分析的步骤有哪些? 2.自选题材和内容,进行网上信息的采集、整理和分析操作。并简单说明处理的过程。 附录:信息处理过程 目标:获得上海股票交易所股票中各支股份的每股净资产、每股未分配利润等数据,并导入Excel进行分析 选择数据源 选择新浪财经网站中的股票数据作为数据源 分析数据源页面URL规则 以包含有所需信息的招商银行股票页面为例: 其URL:/realstock/company/sh600036/nc.shtml 股票编号为:600036 获取原始数据 利用迅雷、Flashget等软件根据股票页面URL规律批量下载原始页面 例如:可批量下载股票编号为600100至600200等100支股票的页面,对应URL为: /realstock/company/sh600100/nc.shtml ~ /realstock/company/sh600200/nc.shtml 注:有的股票代码对应页面不存折,可结束相应下载任务 数据整理 所获得的数据为HTML页面,各种所需数据被HTML标签所包围,不方便直接进行处理,为此,使用htmasc32工具软件将其转换为只包含文字内容的文本文件 注:在vista下可能需要以管理员身份运行htmasc 数据抽取 转换后获得的TXT文件中包含有所需要的信息,需要将其单独抽取出来,包括: 股票名称、编号 每股净资产 每股未分配利润 数据抽取 对所获得的TXT进行观察分析,归纳所需数据的上下文特征: 莱钢股份(600102)_沪深行情_财经纵横_新浪网 每股净资产:6.1000元 每股未分配利润:2.5296元 数据抽取 使用grep工具根据特征进行抽取,将所获得的TXT和grep.exe拷贝到同一目录,在命令行下运行以下命令: grep _沪深行情_财经纵横_新浪网 *.txt name.txt 将包含股票名称及编号的文本行导出到name.txt文件中 grep 每股净资产: *.txt mgjzc.txt 将包含股票每股净资产的文本行导出到mgjzc.txt文件中 grep 每股未分配利润: *.txt mgwfplr.txt 将包含股票每股未分配利润的文本行导出到mgwfplr.txt文件中 数据导出 使用UltraEdit编辑器的列模式和替换功能对这3个结果文件进行处理,删除掉不需要的内容,并将所需数据逐列拷贝至EXCEL电子表中,最后对电子表数据进行排序即可得到所需要的数据。 * * NC(1).TXT:青山纸业(600103)_沪深行情_财经纵横_新浪网 NC(10).TXT:包钢稀土(600111)_沪深行情_财经纵横_新浪网 NC(11).TXT:长征电气(600112)_沪深行情_财经纵横_新浪网 NC(12).TXT:浙江东日(600113)_沪深行情_财经纵横_新浪网 NC(13).TXT:东睦股份(600114)_沪深行情_财经纵横_新浪网 NC(14).TXT:ST东航(600115)_沪深行情_财经纵横_新浪网 NC(15).TXT:三峡水利(600116)_沪深行情_财经纵横_新浪网 NC(16).TXT:中国卫星(600118)_沪深行情_财经纵横_新浪网 NC(17).TXT:浙江东方(600120)_沪深行情_财经纵横_新浪网 NC(18).TXT:郑州煤电(600121)_沪深行情_财经纵横_新浪网 NC(19).TXT:西宁特钢(600117)_沪深行情_财经纵横_新浪网 NC(2).TXT:明星电力(600101)_沪深行情_财经纵横_新浪网 NC(20).TXT:长江投资(600119)_沪深行情_财经纵横_新浪网
文档评论(0)