- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第01章:数据采集与分析基础文本数据访问
1.数据采集与分析的目的文件操作基础案例提出数据采集与分析的目的数据采集与分析的基本过程常用的数据分析工具
1.3数据采集与分析的基本过程数据采集与分析的基本过程:定义分析目标数据取样数据探索数据预处理数据建模模型评价
1.3数据采集与分析的基本过程定义分析目标:明确对数据分析后的查出结论是什么。例如餐厅案例中可以定义如下分析目标。菜品智能推荐了解用户消费特征,确立最有价值客户群体。预测菜品销售量,方便原材料的批量购买。对各个分店的选址进行分析,从而确立选址规则,并确定不同区域客户的口味。
1.3数据采集与分析的基本过程数据取样:从业务系统中抽取相关的数据子集,目的是避免非规律数据造成的影响,以及减少数据处理量,节省资源,而且更容易发现数据规律。抽取数据的标准:相关性:抽取的不同数据中具备关联关系。可靠性:数据抽取的数据源为真实有效数据。有效性:数据为正在使用中的业务数据。完整性:数据资料完整无误,各类指标齐全。
1.3数据采集与分析的基本过程数据取样的几种方式:随机取样:例如在原始数据中随机选取10%作为取样。等距取样:按照相等截距进行数据取样。分类取样:首先将不同数据进行分类,并预测当前分类的概率,按照分类以及概率进行综合取样。时序取样:根据不同时间点数据采集情况进行等距取样。
1.3数据采集与分析的基本过程数据探索:对采样后的数据进行审核、加工处理、数据检测的过程。数据审核数据加工处理趋势和规律的分析数据相关性分析检测是否包含未标注数据状态。
1.3数据采集与分析的基本过程数据预处理:对采样数据进行加工处理,在数据挖掘阶段避免数据不合理导致的分析错误。数据筛选数据转换缺失值处理坏数据处理数据标准化数据规约等
1.3数据采集与分析的基本过程挖掘建模:对数据进行分析,并建立数据与目标的运算规则的过程。数据分类与预测聚类分析关联规则时序模式离群点检测
1.3数据采集与分析的基本过程模型评价:对建立的数据模型进行运算与评价,对预测结果与实际结果进行对比的过程。模型评价与分类方式相关。模型评价是衡量数据建模的标准。模型评价需要对比预测数据与实际数据之间的差异从而验证数据模型。
Thanks!放飞自由梦想,成就卓越人生
文档评论(0)