Python、PowerBI、Excel、MySQL,都能做?搞清楚数据聚合与分箱

阅读提示

本内容为日常频繁使用的数据处理操作,不涉及底层技术问题,烦请爱钻牛角的杠精绕行。

本内容尽量简单直白、步骤详细,适合数据分析入门。特别喜欢技术语言的大佬们,可自行跳过。


上一篇:数据更新删除与排序:横向对比 Python、PowerBI、Excel、MySQL中,介绍了数据更新、数据删除、以及排序。有兴趣的可以翻看之前的内容。

本期内容主要聊聊数据分组聚合,以及数据分箱操作。


聚合和分箱是什么?


简单来说:

  • 聚合与分箱,完全是两种不同的操作。
  • 分箱是数据分组的一种方式,用于减少次要观察误差的影响。
  • 而聚合是数据分组后采用的统计动作,没有后续的统计动作,数据分组就没有意义!

具体来说:

数据分组聚合,就是把数据按照某列的非重复值进行分组,然后统计每个组别的情况。

比如:把所有销售人员的业绩,按照不同地区进行分组,然后统计每个组别的合计、平均值、极值等等

数据分箱(也称为离散分箱或分段)是一种数据预处理技术,是一种将多个连续值分组为较少数量的“分箱”的方法。

比如:把销售人员的年龄字段,如25、36、48的数值型字段,分组转化为少年、青年、中年、老年。


数据聚合


使用Excel时:

  • 在Excel中一般使用数据透视表来完成聚合统计操作,是日常操作步骤。

  • 根据需要来选择行、列、值,比如我们选择门店城市为行分组依据,选择顾客ID、购买数量作为聚合数值,分别计算汇总和计数。


使用SQL时:

  • GROUP BY是SQL中用来分组的语句,而在SELECT中,放入被分组的字段,以及被聚合的字段,比如:我们按门店城市来分组,聚合运算的是顾虑ID的数量

  • 上面的情况,没有考虑顾问ID是否重复出现过,此时加入DISTINCT去重计数即可


使用Power BI时:

  • 在PowerBI中使用“分组表”来进行简单的分组聚合,而更灵活的方式是利用度量来完成分组聚合。


使用Python时:

  • 类似SQL,在pandas中同样使用groupby来进行分组聚合操作,相对SQL来说,写法更加简洁

  • 也可以进行多字段聚合、多统计方式的聚合操作


数据分箱


使用Excel时:

  • 我们可以使用LOOKUP可以快速实现数据分箱操作


使用SQL时:

  • 在MySql中,使用case when来进行分箱转化,比较方便

使用Power BI时:

  • Power BI中可以使用“添加列”中的“分组表”来进行分箱,使用或者使用DAX函数SWITCH来完成
  • 使用Python时:

    • 在pandas中,直接使用cut方法即可实现分箱操作,不过要注意分箱区间的左右闭合范围

    本系列文章:

    第一篇:Excel、SQL、PowerBI、Python,谁更强大?数据工具终极对比 上篇

    第二篇:数据查询与筛选:Excel、SQL、PowerBI、Python,比比谁更快

    第三篇:数据更新删除与排序:横向对比 Python、PowerBI、Excel、MySQL

    写在最后

    OK,限于篇幅和时间,本篇内容先到这里了。原本计划5篇总结完,还剩最后1篇了。

    欢迎关注后续内容,涉及多表关联、多表联合、存储与导出等操作。

    本系列文章内容较长,总结了经常使用的操作提示

    可以随手收藏下来,相信总有需要的时候!

    觉得不错,别忘了点赞、转发一下,哈~

    举报
    评论 0