实现目标:
1,爬取到糗事百科的段子
2,实现每次爬去一个段子,每按一次回车爬取到下一页
技术实现:
基于python的实现,利用Requests库,re库,bs4库的BeautifulSoup方法来实现的
主要内容:首先我们要理清一下爬取实现的思路,我们来构建一下主体框架。第一步我们先写一个利用Requests库来获取网页的方法,第二步我们利用bs4库的BeautifulSoup方法来分析所获取的网页信息并利用正则表达式来匹配相关的段子信息。第三步我们来打印出获得的信息。以上方法我们都通过一个主函数来进行执行。
一,首先导入相关的库
二,首先进行网页信息的获取
三,把信息放到r后再进行解析
soup = BeautifulSoup(html,"html.parser")
我们需要的是段子的内容和发布人,通过网页的查看源代码我们知道段子的发布人在:
'div', attrs={'class': 'content'}中
段子的内容在
'div', attrs={'class': 'author clearfix'}中
所以我们通过bs4库的方法来提取这两个标签的具体内容
然后通过具体到正则表达式来获取信息
完整代码