入门必看,数据分析大佬出书了,爆火出圈,完整PDF建议收藏!

学习python过程中,数据的分析是必须要去掌握的,python数据分析师是近年来最热门的专业之一,以高薪,高人才缺口为特点,得到大部分程序员的青睐。

在这里给大家分享一份由核安全数据分析大佬推荐的《Python 数据处理》一书,本书讲的是利用Python进行数据控制、处理、整理、分析等方面的具体细节和基本要点。通过介绍Python编程和用于数据处理的库和工具环境,让你从零开始学会数据分析。

而且,这本书也是从numpy讲起,侧重于数据分析的各个流程,包括数据的存取、规整、可视化等等。另外,该书针对每个知识点给出了简短而明晰的示例,并为大部分示例给出了实用场景(如疫情数据分析)。

适用人群:无论是工作需要,还是技能提升,又或者你是零基础的小白,想为自己的未来做一点事情,都可以尝试学习一下。

话不多说,来展示一下:目录:

第 1 章 Python 简介

  • 为什么选择 Python
  • 开始使用 Python
  • Python 版本选择
  • 安装 Python
  • 测试 Python
  • 安装 pip
  • 安装代码编辑器
  • 安装 IPython(可选)

第 2 章 Python 基础

  • 基本数据类型
  • 字符串
  • 整数和浮点数
  • 数据容器
  • 变量
  • 列表
  • 字典
  • 各种数据类型的用途
  • 字符串方法:字符串能做什么
  • 有用的工具:type、dir 和 help
  • 综合运用
  • 代码的含义

由于篇幅原因,所有章节就不一一截图展示,

有需要的小伙伴可以免费获取!(并且还会配套数据分析教程视频)

Python 数据处理

第 3 章 供机器读取的数据

  • CSV 数据
  • 如何导入 CSV 数据
  • 将代码保存到文件中并在命令行中运行
  • JSON 数据
  • XML 数据

第 4 章 处理 Excel 文件

  • 安装 Python 包
  • 解析 Excel 文件
  • 开始解析

第 5 章 处理 PDF 文件,以及用 Python 解决问题

  • 尽量不要用 PDF
  • 解析 PDF 的编程方法
  • 利用 slate 库打开并读取 PDF
  • 将 PDF 转换成文本
  • 利用 pdfminer 解析 PDF
  • 学习解决问题的方法
  • 练习:使用表格提取,换用另一个库
  • 练习:手动清洗数据
  • 练习:试用另一种工具
  • 不常见的文件类型

第 6 章 数据获取与存储

  • 并非所有数据生而平等
  • 真实性核查
  • 数据可读性、数据清洁度和数据寿命
  • 寻找数据
  • 案例研究:数据调查实例
  • 数据存储
  • 数据库简介
  • 关系型数据库:MySQL 和 PostgreSQL
  • 非关系型数据库:NoSQL
  • 用 Python 创建本地数据库
  • 使用简单文件
  • 云存储和 Python
  • 本地存储和 Python
  • 其他数据存储方式

第 7 章 数据清洗:研究、匹配与格式化

  • 为什么要清洗数据
  • 数据清洗基础知识
  • 找出需要清洗的数据
  • 数据格式化
  • 找出离群值和不良数据
  • 找出重复值
  • 模糊匹配
  • 正则表达式匹配
  • 如何处理重复记录

点击免费获取:Python 数据处理

第 8 章 数据清洗:标准化和脚本化

  • 数据归一化和标准化
  • 数据存储
  • 找到适合项目的数据清洗方法
  • 数据清洗脚本化
  • 用新数据测试


第 9 章 数据探索和分析

  • 探索数据
  • 导入数据
  • 探索表函数
  • 联结多个数据集
  • 识别相关性
  • 找出离群值
  • 创建分组
  • 深入探索
  • 分析数据
  • 分离和聚焦数据
  • 你的数据在讲什么
  • 描述结论
  • 将结论写成文档


第 10 章 展示数据

  • 避免讲故事陷阱
  • 怎样讲故事
  • 了解听众
  • 可视化数据
  • 图表
  • 时间相关数据
  • 地图
  • 交互式元素
  • 文字
  • 图片、视频和插画
  • 展示工具
  • 发布数据
  • 使用可用站点
  • 开源平台:创建一个新网站
  • Jupyter(曾名 IPython notebook)


第 11 章 网页抓取:获取并存储网络数据

  • 抓取什么和如何抓取
  • 分析网页
  • 检视:标记结构
  • 网络 / 时间线:页面是如何加载的
  • 控制台:同 JavaScript 交互
  • 页面的深入分析
  • 得到页面:如何通过互联网发出请求
  • 使用 Beautiful Soup 读取网页
  • 使用 lxml 读取网页


第 12 章 高级网页抓取:屏幕抓取器与爬虫

  • 基于浏览器的解析
  • 使用 Selenium 进行屏幕读取
  • 使用 Ghost.py 进行屏幕读取
  • 爬取网页
  • 使用 Scrapy 创建一个爬虫
  • 使用 Scrapy 爬取整个网站
  • 网络:互联网的工作原理,以及为什么它会让脚本崩溃
  • 变化的互联网(或脚本为什么崩溃)
  • 几句忠告


第 13 章 应用编程接口

  • API 特性
  • REST API 与流式 API
  • 频率限制
  • 分级数据卷
  • API key 和 token
  • 一次简单的 Twitter REST API 数据拉取
  • 使用 Twitter REST API 进行高级数据收集
  • 使用 Twitter 流式 API 进行高级数据收集


第 14 章 自动化和规模化

  • 为什么要自动化
  • 自动化步骤
  • 什么会出错
  • 在哪里自动化
  • 自动化的特殊工具
  • 使用本地文件、参数及配置文件
  • 在数据处理中使用云
  • 简单的自动化
  • 大规模自动化
  • 监控自动化程序
  • 没有万无一失的系统


第 15 章 结论

  • 数据处理者的职责
  • 数据处理之上
  • 下一步做什么

感谢读完:因为篇幅有限,所有章节截图就不一一展示,同时赠送配套数据分析教程视频,如果你有需要自取

数据分析全套笔记

举报
评论 0