Python是Web开发和数据分析等领域非常流行的编程语言。随着人工智能时代的到来,越来越多的人开始学习Python编程。
本书面向数据分析初学者,以山羊博士和双叶同学的教学漫画情境为引,以对话和图解为主要展现形式,接续《Python二级:数据抓取》,通俗易懂地讲解如何看待收集来的数据,以及怎样使用标准差、什么是正态分布。
样章试读
目录
- 目录
第1章 数据分析概述
第1课 什么是数据分析?4
数据分析不等于计算5
第2课 数据分析的步骤:PPDAC循环7
第3课 Jupyter Notebook的安装方法10
在Windows系统安装Jupyter Notebook11
在macOS系统安装Jupyter Notebook13
第4课 Jupyter Notebook的使用方法16
启动Jupyter Notebook16
输入代码并执行20
关闭Jupyter Notebook21
使用Anaconda Navigator便捷安装外部库22
绘制图表并添加注释24
第2章 收集数据的预处理
第5课 读取表格数据32
什么是表格数据?33
创建数据框34
准备外部数据文件37
读取数据文件39
第6课 粗略观察数据44
观察数据44
提取列数据47
提取行数据48
提取元素数据50
第7课 使用数据51
添加列数据和行数据51
删除列数据和行数据53
根据条件提取数据55
第8课 检查数据错误57
缺失值的处理58
删除重复数据62
将字符串类型的数据转换为数值64
第3章 用一个数值表示数据集合:代表值
第9课 将数据填平:平均值70
求平均值71
代表值用于数据的比较73
第10课 平均值总能作为代表值吗?76
分析平均值是否适合作为代表值78
第11课 平均值相同的两种数据未必相同82
第4章 通过图表直观地抓住特征
第12课 借助图表观察数据偏差94
matplotlib的用法95
seaborn的用法96
借助直方图查看数据偏差98
第13课 绘制基础图表101
借助柱状图比较数据的大小101
借助折线图查看变化趋势105
借助饼图比较元素的占比108
第14课 观察偏差的图表112
借助箱线图比较数据的偏差112
借助散点图查看两种数据的相关性116
第15课 使图表更加清晰118
突出图表的重点118
在图表上添加一些线119
第5章 判断数据常见或罕见:正态分布
第16课 用数值表示数据的偏差124
查看一定范围内的数据量130
第17课 自然界中的偏差134
正态分布呈现钟形135
为什么正态分布是自然界中极其常见的分布?136
高尔顿板的模拟137
正态分布能够通过计算求解141
第18课 判断常见或罕见144
比较偏差不同的数据148
第19课 这份数据的偏差自然吗?150
第20课 统一比较不同偏差的数据154
偏差值:平均值为50的正态分布155
IQ:平均值为100的正态分布156
第6章 根据关系预测:回归分析
第21课 两种数据的相关性:相关系数162
散点图162
相关系数165
第22课 在散点图上画线预测168
第23课 循环绘制散点图172
用颜色的“热度”表示相关矩阵:热力图172
循环绘制散点图:散点图矩阵174
第24课 鸢尾花数据177
学无止境187