- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
PythonPandas库对时间序列数据的滚动计算
一、时间序列与滚动计算的基础认知
(一)时间序列数据的特点与分析需求
在数据分析领域,时间序列是一类按时间顺序排列的数据集合——小到手机的每小时电量记录,大到国家的年度GDP统计,甚至是某条街道的分钟级车流量,都属于时间序列的范畴。这类数据的核心特征在于“时间依赖性”:当前数据点的取值往往与过去的若干个数据点存在关联。比如,今天的股票价格会受昨天、上周价格的影响;明天的气温会延续今天的温度趋势;电商的日销售额会因上周的促销活动产生波动。
除了时间依赖性,时间序列还常带有趋势性(如逐年增长的在线订单量)、季节性(如冬季供暖需求高于夏季)或周期性(如每周五的下班高峰)。这些特征决定了时间序列分析的特殊需求:我们不仅要关注单个时间点的数值,更要理解数值随时间的变化规律——比如金融分析师需要从股票日价格中识别长期趋势,气象学家需要从小时级温度数据中提取周平均气温,电商运营需要从日销售额中发现异常波动。而滚动计算,正是满足这类需求的核心工具之一。它通过“滑动窗口”保留时间维度的连续性,让我们能在动态变化中观察数据的规律。
(二)滚动计算的核心逻辑
滚动计算的本质,是一种“局部聚合”操作:我们设定一个固定大小的“窗口”,让这个窗口沿着时间序列的时间轴逐步滑动。每滑动到一个新位置,就对窗口内的所有数据计算一个统计量(比如均值、求和、方差),并将结果对应到窗口的某个位置(通常是窗口的结束位置)。最终,原时间序列会被转换为由窗口统计量组成的新时间序列。
举个简单例子:假设我们有一周的日最高气温数据(单位:℃)——25、27、26、28、29、30、28。若使用3天滚动窗口计算均值,窗口会依次覆盖第1-3天(25、27、26)、第2-4天(27、26、28)、第3-5天(26、28、29)、第4-6天(28、29、30)、第5-7天(29、30、28)。对应的滚动均值为:(25+27+26)/3≈26.0、(27+26+28)/3≈27.0、(26+28+29)/3≈27.7、(28+29+30)/3≈29.0、(29+30+28)/3≈29.0。原有的7个数据点变成5个滚动均值点,既保留了“气温先升后稳”的趋势,又消除了单日的小幅波动。
需要强调的是,滚动计算与其他时间序列操作(如差分)的区别:差分关注“点对点的变化量”(比如今天温度比昨天高多少),而滚动计算关注“局部范围内的整体趋势”(比如最近3天的平均温度)。这种区别让滚动计算成为“观察动态规律”的专属工具。
二、Pandas中滚动计算的核心工具与基础用法
(一)Pandas滚动计算的入口:rolling()方法
Pandas的rolling()方法是实现滚动计算的核心入口,它的作用是定义一个滚动窗口,后续通过调用聚合函数生成结果。要掌握rolling(),关键是理解其核心参数:
窗口大小(window)
窗口大小是滚动计算的基础参数,有两种定义方式:
整数窗口:比如window=7,表示取最近7个数据点(适用于时间间隔均匀的数据,如每日都有记录的股票数据);
时间偏移量窗口:比如window=7D,表示取最近7个自然日内的所有数据(适用于时间间隔不均匀的数据,如传感器可能某天未记录数据)。
例如,对于2023年1月的股票数据(1月1日到1月31日),window=7会取每个时间点前7个交易日的数据(不管中间是否有节假日),而window=7D会取每个时间点前7个自然日内的所有数据(包括节假日的缺失值)。
最小非空值数量(min_periods)
默认情况下,min_periods等于窗口大小——若窗口内有一个缺失值,结果就会是NaN。但在实际数据中,缺失值很常见,因此我们可以将min_periods设为较小的值(比如window=7,min_periods=5),只要窗口内有5个非空值,就计算结果。
结果对齐方式(center)
默认center=False,结果对齐到窗口的结束位置;若设为True,结果对齐到窗口的中心位置。比如,3天窗口的中心是第2天,因此center=True时,第一个窗口(第1-3天)的均值会对应第2天,第二个窗口(第2-4天)的均值对应第3天。这种设置在气象分析中很有用——周平均气温对齐到周三比对齐到周日更符合直觉。
窗口闭合范围(closed)
定义窗口的包含范围,默认closed=both(包含开始和结束时间点)。例如,closed=right表示包含结束时间点,不包含开始时间点;closed=left则相反。日常场景中,默认值已足够使用。
(二)滚动计算的常见聚合操作
定义好窗口后,下一步是对窗口内的数据进行聚合。Pandas支持几乎所有常见的统计函数,以下是最常用的几种:
均值(mean)
最基础的滚动
您可能关注的文档
- 2025年人工智能工程师考试题库(附答案和详细解析)(1215).docx
- 2025年基因数据解读师考试题库(附答案和详细解析)(1211).docx
- 2025年智慧教育工程师考试题库(附答案和详细解析)(1219).docx
- 2025年智能机器人系统集成师考试题库(附答案和详细解析)(1226).docx
- 2025年注册信息安全经理(CISM)考试题库(附答案和详细解析)(1205).docx
- 2025年注册市场营销师(CMM)考试题库(附答案和详细解析)(1226).docx
- 2025年注册给排水工程师考试题库(附答案和详细解析)(1223).docx
- 2025年深度学习工程师考试题库(附答案和详细解析)(1220).docx
- APP开发及运营合作协议.docx
- Fama-French五因子的盈利因子.docx
最近下载
- 幼儿园教育质量评价考试题库.docx VIP
- 生物医学检测与仪器.pdf VIP
- CECS156-2004 合成型泡沫喷雾灭火系统应用技术规程.docx VIP
- CECS426-2016 减压型倒流防止器应用技术规程.docx VIP
- CECS40-1992 混凝土及预制混凝土构件质量控制规程.docx VIP
- CECS146-2003 碳纤维片材加固混凝土结构技术规程.docx VIP
- CECS115-2000 干式电力变压器选用、验收、运行及维护规程.docx VIP
- CECS131-2002 埋地钢骨架聚乙烯复合管燃气管道工程技术规程.docx VIP
- CECS194-2006 聚苯模板混凝土结构技术规程.docx VIP
- CECS301-2011 乡村建筑内隔墙板应用技术规程.docx VIP
原创力文档


文档评论(0)