Python文本爬虫实战

前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。

PS：如有需要Python学习资料的小伙伴可以加点击下方链接自行获取

一：流程

目标：爬取目标网页的图片

1：获取网页源码

2：用Python读取源码

3：使用正则表达式从网页源码提取图片地址

4：根据图片地址下载图片

二：实现

1：源码获取

文本爬虫，是在已有的文本内容中爬取需要的信息，这区别于网络爬虫。

由于被检索的内容是现成的，因此，文本爬虫又叫“半自动爬虫”。

在本例中，我们以昵图网首页为目标网址，因此，我们先到昵图网首页，右键—>查看源代码—>保存源码到txt文件。

2：编写代码

Biegral Blog