入门必看,数据分析大佬出书了,爆火出圈,完整PDF建议收藏!
学习python过程中,数据的分析是必须要去掌握的,python数据分析师是近年来最热门的专业之一,以高薪,高人才缺口为特点,得到大部分程序员的青睐。
在这里给大家分享一份由核安全数据分析大佬推荐的《Python 数据处理》一书,本书讲的是利用Python进行数据控制、处理、整理、分析等方面的具体细节和基本要点。通过介绍Python编程和用于数据处理的库和工具环境,让你从零开始学会数据分析。
而且,这本书也是从numpy讲起,侧重于数据分析的各个流程,包括数据的存取、规整、可视化等等。另外,该书针对每个知识点给出了简短而明晰的示例,并为大部分示例给出了实用场景(如疫情数据分析)。
适用人群:无论是工作需要,还是技能提升,又或者你是零基础的小白,想为自己的未来做一点事情,都可以尝试学习一下。
话不多说,来展示一下:目录:
第 1 章 Python 简介
- 为什么选择 Python
- 开始使用 Python
- Python 版本选择
- 安装 Python
- 测试 Python
- 安装 pip
- 安装代码编辑器
- 安装 IPython(可选)
第 2 章 Python 基础
- 基本数据类型
- 字符串
- 整数和浮点数
- 数据容器
- 变量
- 列表
- 字典
- 各种数据类型的用途
- 字符串方法:字符串能做什么
- 有用的工具:type、dir 和 help
- 综合运用
- 代码的含义
由于篇幅原因,所有章节就不一一截图展示,
有需要的小伙伴可以免费获取!(并且还会配套数据分析教程视频)
第 3 章 供机器读取的数据
- CSV 数据
- 如何导入 CSV 数据
- 将代码保存到文件中并在命令行中运行
- JSON 数据
- XML 数据
第 4 章 处理 Excel 文件
- 安装 Python 包
- 解析 Excel 文件
- 开始解析
第 5 章 处理 PDF 文件,以及用 Python 解决问题
- 尽量不要用 PDF
- 解析 PDF 的编程方法
- 利用 slate 库打开并读取 PDF
- 将 PDF 转换成文本
- 利用 pdfminer 解析 PDF
- 学习解决问题的方法
- 练习:使用表格提取,换用另一个库
- 练习:手动清洗数据
- 练习:试用另一种工具
- 不常见的文件类型
第 6 章 数据获取与存储
- 并非所有数据生而平等
- 真实性核查
- 数据可读性、数据清洁度和数据寿命
- 寻找数据
- 案例研究:数据调查实例
- 数据存储
- 数据库简介
- 关系型数据库:MySQL 和 PostgreSQL
- 非关系型数据库:NoSQL
- 用 Python 创建本地数据库
- 使用简单文件
- 云存储和 Python
- 本地存储和 Python
- 其他数据存储方式
第 7 章 数据清洗:研究、匹配与格式化
- 为什么要清洗数据
- 数据清洗基础知识
- 找出需要清洗的数据
- 数据格式化
- 找出离群值和不良数据
- 找出重复值
- 模糊匹配
- 正则表达式匹配
- 如何处理重复记录
第 8 章 数据清洗:标准化和脚本化
- 数据归一化和标准化
- 数据存储
- 找到适合项目的数据清洗方法
- 数据清洗脚本化
- 用新数据测试
第 9 章 数据探索和分析
- 探索数据
- 导入数据
- 探索表函数
- 联结多个数据集
- 识别相关性
- 找出离群值
- 创建分组
- 深入探索
- 分析数据
- 分离和聚焦数据
- 你的数据在讲什么
- 描述结论
- 将结论写成文档
第 10 章 展示数据
- 避免讲故事陷阱
- 怎样讲故事
- 了解听众
- 可视化数据
- 图表
- 时间相关数据
- 地图
- 交互式元素
- 文字
- 图片、视频和插画
- 展示工具
- 发布数据
- 使用可用站点
- 开源平台:创建一个新网站
- Jupyter(曾名 IPython notebook)
第 11 章 网页抓取:获取并存储网络数据
- 抓取什么和如何抓取
- 分析网页
- 检视:标记结构
- 网络 / 时间线:页面是如何加载的
- 控制台:同 JavaScript 交互
- 页面的深入分析
- 得到页面:如何通过互联网发出请求
- 使用 Beautiful Soup 读取网页
- 使用 lxml 读取网页
第 12 章 高级网页抓取:屏幕抓取器与爬虫
- 基于浏览器的解析
- 使用 Selenium 进行屏幕读取
- 使用 Ghost.py 进行屏幕读取
- 爬取网页
- 使用 Scrapy 创建一个爬虫
- 使用 Scrapy 爬取整个网站
- 网络:互联网的工作原理,以及为什么它会让脚本崩溃
- 变化的互联网(或脚本为什么崩溃)
- 几句忠告
第 13 章 应用编程接口
- API 特性
- REST API 与流式 API
- 频率限制
- 分级数据卷
- API key 和 token
- 一次简单的 Twitter REST API 数据拉取
- 使用 Twitter REST API 进行高级数据收集
- 使用 Twitter 流式 API 进行高级数据收集
第 14 章 自动化和规模化
- 为什么要自动化
- 自动化步骤
- 什么会出错
- 在哪里自动化
- 自动化的特殊工具
- 使用本地文件、参数及配置文件
- 在数据处理中使用云
- 简单的自动化
- 大规模自动化
- 监控自动化程序
- 没有万无一失的系统
第 15 章 结论
- 数据处理者的职责
- 数据处理之上
- 下一步做什么
感谢读完:因为篇幅有限,所有章节截图就不一一展示,同时赠送配套数据分析教程视频,如果你有需要自取
请先 后发表评论~