阅读提示

本内容为日常频繁使用的数据处理操作，不涉及底层技术问题，烦请爱钻牛角的杠精绕行。

本内容尽量简单直白、步骤详细，适合数据分析入门。特别喜欢技术语言的大佬们，可自行跳过。

上一篇：数据更新删除与排序：横向对比 Python、PowerBI、Excel、MySQL中，介绍了数据更新、数据删除、以及排序。有兴趣的可以翻看之前的内容。

本期内容主要聊聊数据分组聚合，以及数据分箱操作。

聚合和分箱是什么？

简单来说：

聚合与分箱，完全是两种不同的操作。
分箱是数据分组的一种方式，用于减少次要观察误差的影响。
而聚合是数据分组后采用的统计动作，没有后续的统计动作，数据分组就没有意义！

具体来说：

数据分组聚合，就是把数据按照某列的非重复值进行分组，然后统计每个组别的情况。

比如：把所有销售人员的业绩，按照不同地区进行分组，然后统计每个组别的合计、平均值、极值等等

数据分箱（也称为离散分箱或分段）是一种数据预处理技术，是一种将多个连续值分组为较少数量的“分箱”的方法。

比如：把销售人员的年龄字段，如25、36、48的数值型字段，分组转化为少年、青年、中年、老年。

数据聚合

使用Excel时：

在Excel中一般使用数据透视表来完成聚合统计操作，是日常操作步骤。

根据需要来选择行、列、值，比如我们选择门店城市为行分组依据，选择顾客ID、购买数量作为聚合数值，分别计算汇总和计数。

使用SQL时：

GROUP BY是SQL中用来分组的语句，而在SELECT中，放入被分组的字段，以及被聚合的字段，比如：我们按门店城市来分组，聚合运算的是顾虑ID的数量

上面的情况，没有考虑顾问ID是否重复出现过，此时加入DISTINCT去重计数即可

使用Power BI时：

在PowerBI中使用“分组表”来进行简单的分组聚合，而更灵活的方式是利用度量来完成分组聚合。

使用Python时：

类似SQL，在pandas中同样使用groupby来进行分组聚合操作，相对SQL来说，写法更加简洁

也可以进行多字段聚合、多统计方式的聚合操作

数据分箱

使用Excel时：

我们可以使用LOOKUP可以快速实现数据分箱操作

使用SQL时：

在MySql中，使用case when来进行分箱转化，比较方便

使用Power BI时：

Power BI中可以使用“添加列”中的“分组表”来进行分箱，使用或者使用DAX函数SWITCH来完成

使用Python时：

在pandas中，直接使用cut方法即可实现分箱操作，不过要注意分箱区间的左右闭合范围

本系列文章：

第一篇：Excel、SQL、PowerBI、Python，谁更强大？数据工具终极对比上篇

第二篇：数据查询与筛选：Excel、SQL、PowerBI、Python，比比谁更快

第三篇：数据更新删除与排序：横向对比 Python、PowerBI、Excel、MySQL

写在最后

OK，限于篇幅和时间，本篇内容先到这里了。原本计划5篇总结完，还剩最后1篇了。

欢迎关注后续内容，涉及多表关联、多表联合、存储与导出等操作。

本系列文章内容较长，总结了经常使用的操作提示

可以随手收藏下来，相信总有需要的时候！

觉得不错，别忘了点赞、转发一下，哈~

Python、PowerBI、Excel、MySQL，都能做？搞清楚数据聚合与分箱