【罗军】量化投资之旅:择时、选股与衍生品(0805打印版本)程序.ppt

【罗军】量化投资之旅:择时、选股与衍生品(0805打印版本)程序.ppt

* * * * * * 信息挖掘是通过分析用户数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示等步骤。互联网数据具有数据量大、数据结构复杂、数据内容分散等特点,呈现出爆炸性增长的趋势。因此,为了从浩如烟海的数据中提取出有效信息,必须选择合适的数据挖掘策略。 信息挖掘是一个复杂的过程,需要进行大量的数据采集和运算等。按照基本功能,可以将整个信息挖掘流程划分成内容采集、内容挖掘和行为分析3个环节。 页面内容爬取:这是将网页的内容通过爬虫获取的部分,分析页面代码格式,进行网页代码的编码转换等,尽可能获取自己需要的信息。 页面垃圾过滤:页面中不可避免地会存在大量的垃圾信息,这些信息严重干扰到对后期信息挖掘的准确性,页面垃圾过滤机制会找出包括广告在内的段落以及其他对内容挖掘无效的部分,并将其清除,不进入内容挖掘部分。 内容挖掘:主要是对需要的特定信息进行提取,该阶段处理后的文本数据是后期进行分词、情感分析的基础; 行为分析:重点和难点是分词和情感分析,对于海量文本信息而言,程序的处理速度也是至关重要的一点。 * 对于大规模的互联网信息抓取而言,单线程的数据获取是一项非常局限的事情,因此多线程、分布式的信息抓取平台是必须搭建的。因此数据的抓取平台的搭建是一项基础性的工作。整体上,数据的抓取平台分为三部分,首先是搜索热门网站,对需要提取信息的网站的网页编码格式、网页制作规则

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档