Python数据分析实践:python数据分析概述.docxVIP

  • 18
  • 0
  • 约3.11千字
  • 约 3页
  • 2022-10-13 发布于四川
  • 举报

Python数据分析实践:python数据分析概述.docx

1.1 Python数据分析概述 数据分析概念 数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和 理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信 息和形成结论而对数据加以详细研究和概括总结的过程。 通俗而言,数据分析就是把隐藏在一些看似杂乱无章的数据背后的信息提炼出来,总结 出所研究对象的内在规律。 数据分析是数学与计算机科学相结合的产物。 数据分析的流程 (一)需求分析 首先是明确数据分析目的,只有明确目的,数据分析才不会偏离方向,否那么得出的数 据分析结果不仅没有指导意义,亦即目的引导。 对数据进行需求分析,要清晰界定需要回答的问题“对问题的界定有两个标准,一是清 晰、二是符合现实。要开展数据可行性论证,论证现有数据是否足够丰富、准确,以致可以 为问题提供答案,工程是否可行取决于这步结论。除了在识别问题、根据问题设计问卷、之 后展开调查获得的数据外,而对于大数据而言,是企业或者个体各类活动产生的附属产品。 作为附属产品,大数据往往不是为了特定数据工程生成,也存在较高噪音。要求数据可行性 论证过程需要仔细推敲,现有数据得出来的结论是否足够可靠。由于大数据分析技术本质属 于数据挖掘法,过度拟合问题往往是大数据分析的难点。 明确数据分析目的以及确定分析思路,是确保数据分析过程有效进行的先决条件,它 可以为数据收集、处理以及分析提供清晰的指引方向。 (-)数据获取 数据收集是按照确定的数据分析框架,收集相关数据的过程,它为数据分析提供了素 材和依据。这里的数据包括一手数据与二手数据,一手数据主要指可直接获取的数据,如 公司内部的数据库、市场调查取得的数据等;二手数据主要指经过加工整理后得到的数 据,如统计局在互联网上发布的数据、公开出版物中的数据等。也有通过网络爬虫爬取的 数据。 (三)数据预处理 数据预处理是指对采集到的数据进行加工整理,形成适合数据分析的样式,保证数据 的一致性和有效性。它是数据分析前必不可少的阶段。 数据处理的基本目的是从大量的、可能杂乱无章、难以理解的数据中抽取并推导出对解决 问题有价值、有意义的数据。如果数据本身存在错误,那么即使采用最先进的数据分析方 法,得到的结果也是错误的,不具备任何参考价值,甚至还会误导决策。 数据处理主要包括数据清洗、数据转化、数据抽取、数据合并、数据计算等处理方法。 般的数据都需要进行一定的处理才能用于后续的数据分析工作,即使再“干净”的原始数 据也需要先进行一定的处理才能使用。 (四)分析与建模 大数据分析工程需要建立的模型可以分为两类。对于这两类模型,团队都需要在设立模 型、论证模型的可靠性方面下功夫。 .专业领域模型 大数据产品对应的工程可能有对应的专业领域模型,例如PEST分析模型、5W2H分析模 型、逻辑树分析模型、4P营销理论模型、用户行为模型等。数据团队需要明确为何选择某个 专业领域的模型。 .数据分析模型 这类模型包含分析结构化数据的数据挖掘算法模型;处理非结构化数据的语义引擎;可 视化策略等。流行观点中的大数据分析主要集中在对第二类模型的讨论上。 建立模型时既需要强大运算能力,也需要专家的主观判断。 (五)模型评估与优化 评估结果阶段是要评估上述步骤得到的结果是否足够严谨可靠,并确保数据分析结果能 够有利于决策。评估结果包括定量评估和定性评估两局部。 .定量评估 定量评估是关注主观标准的可靠性。数据挖掘分析方法在计算上虽然依靠技术,但不少 关键节点依靠主观标准。 .定性评估 定性评估的重点是考察大数据分析的结果是否合理、方案是否可行。 在评估大数据分析的结果时,由于定性评估往往需要一段时间之后才能完成,因此将大 数据分析结果用于现实时,需要采取审慎步骤。 (六)部署 完成模型评估,最后就是模型的部署,应用于生产环境产生效益,并通过实际应用不断 改进模型和数据处理分析过程。 数据分析应用场景 数据分析应用于各个行业,包括金融、汽车、餐饮、电信、能源、体能和娱乐等在内的 社会各行各业都已经融入了数据分析的印迹: 制造业:利用工业大数据提升制造业水平,包括产品故障诊断与预测、分析工艺流 程、改进生产工艺,优化生产过程能耗、工业供应链分析与优化、生产计划与排程。 金融行业:大数据在高频交易、社交情绪分析和信贷风险分析三大金融创新领域发 挥重大作用。 生物医学:大数据可以带助我们实现流行病预测、智慧医疗、健康管理,同时还可 以帮助我们解读DNA, 了解更多的生命奥秘。 互联网行业:借助于大数据技术,可以分析客户行为,进行商品推荐和针对性广告 投放。 物流行业:利用大数据优化物流网络,提高物流效率,降低物流本钱。 城市管理:可以利用大数据实现智能交通、环保监测、城市规划和智能安防。 网络安全:新型的病毒防御系统

文档评论(0)

1亿VIP精品文档

相关文档