python爬取百度贴吧每个帖子里面的图片

现在我们用正则来做一个简单的爬虫，我们尝试爬取某个百度贴吧里面的所有帖子，并且将这个帖子里首页每个楼层发布的图片下载到本地。

分析：以美女吧为例

　　第一页：https://tieba.baidu.com/f?kw=%E7%BE%8E%E5%A5%B3&pn=0

　　第二页：https://tieba.baidu.com/f?kw=%E7%BE%8E%E5%A5%B3&pn=50

　　第三页：https://tieba.baidu.com/f?kw=%E7%BE%8E%E5%A5%B3&pn=100

　　……

可以发现，url地址中pn及其前面的部分是相同的，改变的只是pn后面的值

不难发现，每页中共有50个帖子，所有pn的值是以每页50的值递增。

则第page页的pn值为：(page - 1) * 50

而kw=%E7%BE%8E%E5%A5%B3为urllib.parse.urlencode{"kw":"美女"}

Biegral Blog