一入股市深似海，用Python对股票数据定向爬虫避免被坑

功能简介

目标：获取上交所和深交所所有股票的名称和交易信息。
输出：保存到文件中。
技术路线： requests—bs4–re
语言：python3.5

说明

网站选择原则：股票信息静态存在于html页面中，非js代码生成，没有Robbts协议限制。
选取方法：打开网页，查看源代码，搜索网页的股票价格数据是否存在于源代码中。

如打开新浪股票网，如下图所示：
在这里插入图片描述
上图中左边为网页的界面，显示了天山股份的股票价格是13.06。右边为该网页的源代码，在源代码中查询13.06发现没有找到。所以判断该网页的数据使用js生成的，不适合本项目。因此换一个网页。

再打开百度股票的网址，如下图所示：
在这里插入图片描述
从上图中可以发现百度股票的数据是html代码生成的，符合我们本项目的要求，所以在本项目中选择百度股票的网址。

由于百度股票只有单个股票的信息，所以还需要当前股票市场中所有股票的列表，在这里我们选择东方财富网，界面如下图所示：
在这里插入图片描述

原理分析

查看百度股票每只股票的网址：https://gupiao.baidu.com/stock/sz300023.html，可以发现网址中有一个编号300023正好是这只股票的编号，sz表示的深圳交易所。因此我们构造的程序结构如下：

步骤1：从东方财富网获取股票列表；
步骤2：逐一获取股票代码，并增加到百度股票的链接中，最后对这些链接进行逐个的访问获得股票的信息；
步骤3：将结果存储到文件。

接着查看百度个股信息网页的源代码，发现每只股票的信息在html代码中的存储方式如下：
在这里插入图片描述
因此，在我们存储每只股票的信息时，可以参考上图中html代码的存储方式。每一个信息源对应一个信息值，即采用键值对的方式进行存储。在python中键值对的方式可以用字典类型。因此，在本项目中，使用字典来存储每只股票的信息，然后再用字典把所有股票的信息记录起来，最后将字典中的数据输出到文件中。

项目完整程序

import requests
from bs4 import BeautifulSoup
import traceback
import re
'''
更多Python学习资料以及源码教程资料，可以在群1136201545免费获取
'''
def getHTMLText(url):
    try:
        r = requests.get(url)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""
def getStockList(lst, stockURL):
    html = getHTMLText(stockURL)
    soup = BeautifulSoup(html, 'html.parser')
    a = soup.find_all('a')
    for i in a:
        try:
            href = i.attrs['href']
            lst.append(re.findall(r"[s][hz]\d{6}", href)[0])
        except:
            continue
def getStockInfo(lst, stockURL, fpath):
    count = 0
    for stock in lst:
        url = stockURL + stock + ".html"
        html = getHTMLText(url)
        try:
            if html=="":
                continue
            infoDict = {}
            soup = BeautifulSoup(html, 'html.parser')
            stockInfo = soup.find('div',attrs={'class':'stock-bets'})
            name = stockInfo.find_all(attrs={'class':'bets-name'})[0]
            infoDict.update({'股票名称': name.text.split()[0]})
            
            keyList = stockInfo.find_all('dt')
            valueList = stockInfo.find_all('dd')
            for i in range(len(keyList)):
                key = keyList[i].text
                val = valueList[i].text
                infoDict[key] = val
            
            with open(fpath, 'a', encoding='utf-8') as f:
                f.write( str(infoDict) + '\n' )
                count = count + 1
                print("\r当前进度: {:.2f}%".format(count*100/len(lst)),end="")
        except:
            count = count + 1
            print("\r当前进度: {:.2f}%".format(count*100/len(lst)),end="")
            continue
def main():
    stock_list_url = 'http://quote.eastmoney.com/stocklist.html'
    stock_info_url = 'https://gupiao.baidu.com/stock/'
    output_file = 'D:/BaiduStockInfo.txt'
    slist=[]
    getStockList(slist, stock_list_url)
    getStockInfo(slist, stock_info_url, output_file)
main()

Biegral Blog