现在我们用正则来做一个简单的爬虫,我们尝试爬取某个百度贴吧里面的所有帖子,并且将这个帖子里首页每个楼层发布的图片下载到本地。
分析:以美女吧为例
第一页:https://tieba.baidu.com/f?kw=%E7%BE%8E%E5%A5%B3&pn=0
第二页:https://tieba.baidu.com/f?kw=%E7%BE%8E%E5%A5%B3&pn=50
第三页:https://tieba.baidu.com/f?kw=%E7%BE%8E%E5%A5%B3&pn=100
……
可以发现,url地址中pn及其前面的部分是相同的,改变的只是pn后面的值
不难发现,每页中共有50个帖子,所有pn的值是以每页50的值递增。
则第page页的pn值为:(page - 1) * 50
而kw=%E7%BE%8E%E5%A5%B3为urllib.parse.urlencode{"kw":"美女"}