python爬取淘票票正在热映电影

源代码

from bs4 import BeautifulSoup
import requests
import json
'''
遇到不懂的问题？Python学习交流群：1136201545满足你的需求，资料都已经上传群文件，可以自行下载！
'''
#伪装成浏览器请求
headers={
    'User-Agent':'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;',
    'Referer':'https://www.taopiaopiao.com/showList.htm?spm=a1z21.3046609.header.4.1d69112aGq86y0&n_s=new'
}

#获取网页的代码
def getPage(url):
    try:
        response=requests.get(url)
        if response.status_code==200:   #http状态码，200表示请求成功
            return response.text
        else:
            return None
    except Exception:
        return None

def getInfo(html):
    soup=BeautifulSoup(html,'lxml')    #创建bs对象 bs是使用的python默认的解析器，lxml也是解析器
    items=soup.select('div .movie-card-wrap')            #去网站的控制台找需要内容的上级标签元素，注意找的时候讲究方法，爬取的内容大部分都是有规律的，找到要爬取内容后，找你要爬的内容的父标签，这里找到div标签,然后后面的.movie-card-wrap是类名，当然也可以按照id查找，不会的自行百度soup.select
    i=1
    for item in items:
        name=item.find(name='div',class_='movie-card-name').get_text().strip()     #这个是找你要爬取内容的标签和它的类
        info=item.find(name='div',class_='movie-card-list').get_text().strip()
        print(str(i)+' '+'电影名:'+name+'\n'+info+'\n')
        i=i+1

url='https://www.taopiaopiao.com/showList.htm?spm=a1z21.3046609.header.4.1d69112aGq86y0&n_s=new'
html=getPage(url)
getInfo(html)

然后说一下代码的具体含义，其实注释都有，我再详细讲一下流程吧

一、伪装成浏览器请求headers

这很好理解，因为如果不伪装的话，那你去爬取，爬取网站就能获悉你在爬数据，很容易被封，所以我们写一个headers的json伪装成浏览器来访问，不明白的自行百度

二、获取网页代码getPage

这部分代码很好理解，有用的就两行，所以就不详细说了，用的时候直接用即可

三、获取信息getInfo

这部分是我觉得就爬取而言最难的一部分，当然也不是很难，所以我结合例子详细说一下

首先我们要知道，爬取网页内容是爬取的网页代码中的内容，服务器端的数据我们是没办法爬取到的，什么意思，我们打开浏览器，按F12

可以看到网页的源代码，然后我们要爬取的就是标签之间的那部分内容

就是例如我上面画红圈的这些内容，我们这一步要做的，就是定位你要爬取内容在源代码中的位置，这么说大家可以理解吧。然后找到对应的标签，调用方法就可以了。

然后爬取到的信息可以存数据库，可以写成json数据，可以写入文件等再去做二次处理，筛选一些有用的数据，这里为了方便理解，我直接输出到控制台大家可以看一下结果。

Biegral Blog

python爬取淘票票正在热映电影

阅读排行

分类

归档