Python爬蟲：股票數(shù)據(jù)爬取

傑克h7x 2019-08-28

展開全文

一、爬取個(gè)股列表

目標(biāo)頁面：http://quote.eastmoney.com/stocklist.html，爬取個(gè)股名稱和代碼

相關(guān)信息位于li標(biāo)簽中的a標(biāo)簽中，可以通過正則表達(dá)式或beautifulsoup獲取，以下皆采用正則的方式。個(gè)股的代碼以0或3或6開頭然后把信息寫入csv中：


import requests
from fake_useragent import UserAgent
import re
import csv
def getHtml(url):
    r = requests.get(url,headers={
        'User-Agent': UserAgent().random,
    })
    r.encoding = r.apparent_encoding
    return r.text
stockUrl = 'http://quote.eastmoney.com/stocklist.html'
PATTERN_STOCK = '<li><a.*>(\w*)\((\d{6})\)</a></li>'
if __name__ == '__main__':
    html = getHtml(stockUrl)
    reslist = re.findall(PATTERN_STOCK,html)
    #數(shù)據(jù)清洗：去掉非個(gè)股,個(gè)股以6（滬市）,0（深市）,3（創(chuàng)業(yè)板）開頭
    datalist = reslist[:]
    for res in reslist:
        if not (str(res[1]).startswith('6') or str(res[1]).startswith('3') or str(res[1]).startswith('0')):
            datalist.remove(res)
    f =open('D:/Py/stock.csv','w+',encoding='utf-8',newline='')
    writer = csv.writer(f)
    writer.writerow(('名稱', '代碼'))
    for data in datalist:
        writer.writerow((data[0],data[1]))
    f.close()

注意在數(shù)據(jù)清洗時(shí)拷貝了一份列表，因?yàn)槿绻麑?duì)同一個(gè)列表進(jìn)行遍歷并且remove操作時(shí)，下標(biāo)可能會(huì)紊亂引發(fā)錯(cuò)誤

一共獲取到3617支個(gè)股

二、下載個(gè)股歷史數(shù)據(jù)

通過網(wǎng)易財(cái)經(jīng)接口可以獲取股票和指數(shù)的歷史數(shù)據(jù)，下載地址如：http://quotes.money.163.com/service/chddata.html?code=0000001&end=20190218&fields=TCLOSE;HIGH;LOW;TOPEN;LCLOSE;CHG;PCHG;VOTURNOVER;VATURNOVER

code以一共有7位，后6位表示股票代碼，第一位為0表示是滬市，1為深市；end表示截止日期之前的所有數(shù)據(jù)；fields選項(xiàng)中，分別表示當(dāng)日的收盤，最高，最低，開盤價(jià)，昨日收盤價(jià)，漲跌額，漲跌幅，成交量，成交金額。

通過此鏈接可以下載到相關(guān)個(gè)股的csv文件

注意同時(shí)開啟3000多個(gè)線程可能會(huì)有些下載失敗，可以通過semaphore設(shè)置并發(fā)線程數(shù)量


import csv
import urllib.request as r
import threading
#讀取之前獲取的個(gè)股csv丟入到一個(gè)列表中
def getStockList():
    stockList = []
    f = open('D:/Py/stock.csv','r',encoding='utf-8')
    f.seek(0)
    reader = csv.reader(f)
    for item in reader:
        stockList.append(item)
    f.close()
    return stockList
def downloadFile(url,filepath):
    try:
        r.urlretrieve(url,filepath)
    except Exception as e:
        print(e)
    print(filepath,'is downloaded')
    pass
#設(shè)置信號(hào)量，控制線程并發(fā)數(shù)
sem = threading.Semaphore(100)
def downloadFileSem(url,filepath):
    with sem:
        downloadFile(url,filepath)
urlStart = 'http://quotes.money.163.com/service/chddata.html?code='
urlEnd = '&end=20190218&fields=TCLOSE;HIGH;LOW;TOPEN;LCLOSE;CHG;PCHG;VOTURNOVER;VATURNOVER'
if __name__ == '__main__':
    stockList = getStockList()
    stockList.pop(0)
    for s in stockList:
        scode = str(s[1])
        #0：滬市；1：深市
        url = urlStart + ('0' if scode.startswith('6') else '1') + scode + urlEnd
        filepath ='D:/Py/StocksInfo1/' + (str(s[0])+'_'+scode) + '.csv'
        threading.Thread(target=downloadFileSem,args=(url,filepath)).start()

一共是3617個(gè)csv

三、爬取基金數(shù)據(jù)

目標(biāo)頁面：http://quote.stockstar.com/fund/stock_3_1_X.html ，X表示頁數(shù)

具體數(shù)據(jù)位于一個(gè)表格中

一共有37頁，采用正則截取的方式，最后也是寫入csv


from GetStockList import getHtml
import re
import csv
import threading
def getFundsInfo(baseUrl):
    html = getHtml(baseUrl)
    reslist = re.findall('<tbody[\s\S]*</tbody>',html)
    tbody = reslist[0]
    reslist = re.findall('>(\S+?)</',tbody)
    for i in range(0,len(reslist),8):
        rowList = []
        for j in range(8):
            rowList.append(reslist[i+j])
        writer.writerow(rowList)
if __name__ == '__main__':
    f = open('D:/Py/StockFunds.csv', 'w', encoding='utf-8', newline='')
    writer = csv.writer(f)
    writer.writerow(('基金代碼', '基金名稱', '單位凈值', '累計(jì)凈值', '日增長額', '日增長率', '申購', '贖回'))
    for page in range(1,38):
        baseUrl = 'http://quote.stockstar.com/fund/stock_3_1_{}.html'.format(page)
        threading.Thread(target=getFundsInfo,args=(baseUrl,)).start()

注意第一個(gè)正則中，因?yàn)槭莌tml代碼所以存在換行符，. 表示任何不包括換行符的字符，所以用[\S\s]，\s匹配\t\n\r\f\v中的一個(gè)

然后就可以進(jìn)行數(shù)據(jù)分析了

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：傑克h7x > 《Python》

舉報(bào)/認(rèn)領(lǐng)