一、爬虫入门
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
运用python3.6中的urllib.request
1.快速爬取一个网页
(1)get请求方式
(2)post请求方式
2.模拟浏览器访问
应用场景:有些网页为了防止别人恶意采集其信息所以进行了一些反爬虫的设置,而我们又想进行爬取。
解决方法:设置一些Headers信息(User-Agent),模拟成浏览器去访问这些网站。
爬取淘宝高清图片
爬取CSDN数据
3.异常处理
爬虫在爬取网站上的数据常见的错误:URLError和HTTPError
脚本中加入异常处理机制使爬虫脚本更稳健。
爬取新浪新闻首页
4.代理服务器
(1)使用代理服务器的一般格式
(2)微信爬虫
所谓微信爬虫,及自动获取微信的相关文章信息的一种爬虫。微信对我 们的限制是很多的,所以,我们需要采取一些手段解决这些限制,主要 包括伪装浏览器、使用代理IP等方式