Python、PowerBI、Excel、MySQL,都能做?搞清楚数据聚合与分箱
阅读提示
本内容为日常频繁使用的数据处理操作,不涉及底层技术问题,烦请爱钻牛角的杠精绕行。
本内容尽量简单直白、步骤详细,适合数据分析入门。特别喜欢技术语言的大佬们,可自行跳过。
上一篇:数据更新删除与排序:横向对比 Python、PowerBI、Excel、MySQL中,介绍了数据更新、数据删除、以及排序。有兴趣的可以翻看之前的内容。
本期内容主要聊聊数据分组聚合,以及数据分箱操作。
聚合和分箱是什么?
简单来说:
- 聚合与分箱,完全是两种不同的操作。
- 分箱是数据分组的一种方式,用于减少次要观察误差的影响。
- 而聚合是数据分组后采用的统计动作,没有后续的统计动作,数据分组就没有意义!
具体来说:
数据分组聚合,就是把数据按照某列的非重复值进行分组,然后统计每个组别的情况。
比如:把所有销售人员的业绩,按照不同地区进行分组,然后统计每个组别的合计、平均值、极值等等
数据分箱(也称为离散分箱或分段)是一种数据预处理技术,是一种将多个连续值分组为较少数量的“分箱”的方法。
比如:把销售人员的年龄字段,如25、36、48的数值型字段,分组转化为少年、青年、中年、老年。
数据聚合
使用Excel时:
- 在Excel中一般使用数据透视表来完成聚合统计操作,是日常操作步骤。
- 根据需要来选择行、列、值,比如我们选择门店城市为行分组依据,选择顾客ID、购买数量作为聚合数值,分别计算汇总和计数。
使用SQL时:
- GROUP BY是SQL中用来分组的语句,而在SELECT中,放入被分组的字段,以及被聚合的字段,比如:我们按门店城市来分组,聚合运算的是顾虑ID的数量
- 上面的情况,没有考虑顾问ID是否重复出现过,此时加入DISTINCT去重计数即可
使用Power BI时:
- 在PowerBI中使用“分组表”来进行简单的分组聚合,而更灵活的方式是利用度量来完成分组聚合。
使用Python时:
- 类似SQL,在pandas中同样使用groupby来进行分组聚合操作,相对SQL来说,写法更加简洁
- 也可以进行多字段聚合、多统计方式的聚合操作
数据分箱
使用Excel时:
- 我们可以使用LOOKUP可以快速实现数据分箱操作
使用SQL时:
- 在MySql中,使用case when来进行分箱转化,比较方便
使用Power BI时:
使用Python时:
- 在pandas中,直接使用cut方法即可实现分箱操作,不过要注意分箱区间的左右闭合范围
本系列文章:
第一篇:Excel、SQL、PowerBI、Python,谁更强大?数据工具终极对比 上篇
第二篇:数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快
第三篇:数据更新删除与排序:横向对比 Python、PowerBI、Excel、MySQL
写在最后
OK,限于篇幅和时间,本篇内容先到这里了。原本计划5篇总结完,还剩最后1篇了。
欢迎关注后续内容,涉及多表关联、多表联合、存储与导出等操作。
本系列文章内容较长,总结了经常使用的操作提示
可以随手收藏下来,相信总有需要的时候!
觉得不错,别忘了点赞、转发一下,哈~
请先 后发表评论~