机器学习和数据分析都离不开数据。互联网上有着海量的数据,利用Python能够高效地进行数据收集与分析——数据抓取。
本书面向数据抓取初学者,以山羊博士和双叶同学的教学漫画情境为引,以对话和图解为主要展现形式,在《Python一级:从零开始学编程》的基础上,从爬取公开数据开始,循序渐进地讲解HTML解析、表格数据读取、开放数据分析,以及如何利用Web API高效收集数据。
样章试读
目录
- 目录
第1章 用Python下载数据
第1课 什么是数据抓取?4
“爬取”和“抓取”5
必须注意的事项6
什么是robots.txt?7
第2课 安装Python8
Windows系统中的安装方法8
macOS系统中的安装方法10
第3课 用requests访问网站13
外部库的安装方法15
读取HTML文件的程序16
启动IDLE18
开始编写程序19
写入文本文件—使用open和close函数23
写入文本文件—使用with语句24
第2章 HTML解析
第4课 尝试解析HTML30
安装Beautiful Soup31
用Beautiful Soup解析31
查找并显示标签33
查找并显示所有标签35
用id或class缩小查找范围39
第5课 获取新闻列表43
用“开发人员工具”缩小范围44
第6课 将链接列表写入文件47
显示所有链接标签的href属性47
将所有链接标签的href属性显示为绝对地址49
自动生成链接清单的程序50
第7课 批量下载图片51
读取并保存图像文件51
创建下载文件夹53
显示所有img标签的图像文件地址55
一键下载页面上所有图像的程序56
第3章 读写表格数据
第8课 使用pandas62
安装pandas63
认识表格数据63
读取CSV文件65
显示列数据和行数据67
追加列数据和行数据71
删除列数据和行数据73
第9课 编辑各种数据75
提取所需信息75
数据统计77
数据排序78
行列互换79
输出CSV文件80
第10课 制作图表83
安装matplotlib83
绘制图表84
绘制各种类型的图表86
为单一数据绘制图表89
将柱状图保存为图像文件93
第11课 读写Excel文件94
安装openpyxl94
输出Excel文件95
读取Excel文件99
第4章 分析开放数据
第12课 什么是开放数据?104
开放数据是一座宝库105
第13课 医院统计数据106
读取CSV文件109
提取特定数据109
第14课 人口普查数据112
读取Excel文件114
将数据绘制为图表115
第15课 蔬菜价格数据123
读取CSV数据125
将数据绘制为折线图131
第5章 通过Web API收集数据
第16课 什么是Web API?138
Web API—利用其他计算机提供的能力139
第17课 什么是OpenWeatherMap?140
OpenWeatherMap网站的使用步骤141
使用OpenWeatherMap142
第18课 查看当前天气146
通过指定城市名称获取天气情况147
JSON数据的格式150
JSON数据的读取方法151
第19课 查看五日天气预报(间隔3小时)159
获取五日天气预报160
将UTC(协调世界时)转换为北京时间162
将五日天气预报绘制成图表166
学无止境169