前言
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。
PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取
准备工作:
安装Python、安装MySQL、虚拟机【选择性,后期将每日放在服务器上执行定时任务使用】
1、安装python:选择3.*,过程忽略
2、安装MySQL:选择5.6版本及以上,过程忽略
3、虚拟机:linux系列,过程忽略
需求描述
爬取虎扑论坛帖子,了解帖子内容、作者、热度等。
写脚本
一共分为三部分:part1通过对当前链接进行分析,提取帖子作者、阅读的信息;part2取得帖子本身的内容;part3对发帖人进行数据提取,为后期分析提供思路。具体的脚本如下。需要注意的是:编码、编码、编码。谢谢!
注:由于虎扑的反爬虫导致可细分论坛的可读取页面数为10(突破防御失败,谢谢!)这种情况下,我的处理方式是将脚本放入服务器中每日爬取进行累积。
Part1:爬取帖子的名称、作者、创建时间、阅读/回复、作者链接等,并放入本地MySQL数据库
Part2:增加贴子内容并更新部分字段
Part3:爬取注册用户信息