前面系列学习了Java的爬虫,相比而言,楼主更倾向于Python简洁易懂。与Java类似,都要封装请求,Python2系列使用的是urllib2,Python3后全部融合为urllib。
下面以请求知乎首页的例子,说明Python的简单使用。
开发环境:Anaconda(集成了大部分常用的Python包) + Python3 + PyCharm(开发工具)
from urllib import request
# 创建request对象
req = request.Request('http://www.baidu.com')
# 添加数据
req.add_header('User-Agent', 'Mozilla/5.0')
# 发送请求获取结果
res = request.urlopen(req)
# 获取状态码
statusCode = res.getcode()
print(statusCode)
# 读取内容
content = res.read().decode('utf-8')
print(content)