存儲(chǔ)的數(shù)據(jù),首先要進(jìn)行包含完整性,是否有錯(cuò)誤等,需要進(jìn)行數(shù)據(jù)質(zhì)量的檢查,而且還會(huì)根據(jù)自身策略的運(yùn)算規(guī)則需要進(jìn)行特定數(shù)據(jù)的運(yùn)算合成,比如某個(gè)時(shí)間級(jí)別如30秒鐘,1分鐘,等等級(jí)別數(shù)據(jù)的合成。也包含某些特色數(shù)據(jù)的合成,如因子類數(shù)據(jù),
其實(shí)量化交易最難的一部分也在這里,如果你不了解就會(huì)很難,
而且,量化交易的數(shù)據(jù)使用是有兩個(gè)層面的。
一個(gè)是研究層面,
這個(gè)部分一般采用歷史行情數(shù)據(jù)就可以了,除去TICK級(jí)、秒級(jí)、分鐘、小時(shí)、日線等級(jí)別基礎(chǔ)數(shù)據(jù)之外,一些數(shù)據(jù)服務(wù)商還提供特別數(shù)據(jù),比如因子數(shù)據(jù),輿情類數(shù)據(jù)、還有一些特別用處的場外數(shù)據(jù)等等,還有一些盤口訂單流類型的策略需求較為特珠的歷史逐筆行情數(shù)據(jù)等等,
研究層面的數(shù)據(jù)大多可以通過一些免費(fèi)API或者向數(shù)據(jù)服務(wù)商進(jìn)行付費(fèi)獲取,我甚至有在某寶看到售賣,但不知質(zhì)量如何,想來如果僅僅是做研究之用,歷史部分的數(shù)據(jù)應(yīng)該不會(huì)差到哪里去,實(shí)在不行可以多買幾份不同服務(wù)商的數(shù)據(jù)進(jìn)行校對。
另一個(gè)是實(shí)盤層面,
這個(gè)層面的數(shù)據(jù)指的是實(shí)時(shí)行情數(shù)據(jù),包含標(biāo)的的實(shí)時(shí)價(jià)格、成交量、盤口訂單委托方向、數(shù)量等等。實(shí)盤層面的行情數(shù)據(jù)獲取,幾乎已經(jīng)被國內(nèi)有行情分發(fā)資質(zhì)的一些數(shù)據(jù)服務(wù)商給壟斷了,如WIND,通聯(lián),Choise等等。這種數(shù)據(jù)比較在乎質(zhì)量以及響應(yīng)速度,因?yàn)槟P偷淖罱K指令信號(hào)是會(huì)過由這部分?jǐn)?shù)據(jù)進(jìn)行計(jì)算判定的。所以容不得失誤。
本質(zhì)上來說,數(shù)據(jù)質(zhì)量的好壞,在于你獲取數(shù)據(jù)來源的是否更靠近交易所一手?jǐn)?shù)據(jù)來源,因?yàn)樗械臄?shù)據(jù),不論是實(shí)時(shí)行情部分還是歷史行情部分,最初都是由交易所進(jìn)行發(fā)布的,當(dāng)然一些數(shù)據(jù)服務(wù)商比較用心,將這部分?jǐn)?shù)據(jù)進(jìn)行了存儲(chǔ)加工了,在得到交易所和監(jiān)管部門授權(quán)的背景下,再進(jìn)行了售賣與行情分發(fā)。
劃重點(diǎn)講,如果你比較關(guān)注在意數(shù)據(jù)的質(zhì)量,那就應(yīng)該盡量向高一級(jí)分發(fā)資質(zhì)的數(shù)據(jù)服務(wù)商進(jìn)行購買,如果不是挺在意,那獲取的渠道就是多種多樣了,知乎上很多的數(shù)據(jù)服務(wù)部商喜歡打廣告,有很多的傳送門的,只需要一搜便出現(xiàn)了。但不一定是你想用的,不要急著繳納他們昂貴的年費(fèi),認(rèn)真的停下來思考下,我的策略是否已經(jīng)定型了,獲取的數(shù)據(jù)層面是否還需要有大的變動(dòng),再去決定是否購買,畢竟數(shù)萬每年的價(jià)格,也不少。
交易所行情數(shù)據(jù)的分發(fā),也是公開對外報(bào)價(jià)的,我記得不錯(cuò)的話,以股票行情舉例,上交所和深交所的價(jià)格,5年前大致是在100萬/每年,不知時(shí)今的報(bào)價(jià)如何。
所以建議還是根據(jù)自身策略的需要,進(jìn)行數(shù)據(jù)的獲取收集與存儲(chǔ),
其實(shí)我們進(jìn)行量化交易,不外乎會(huì)通過兩種形式進(jìn)行研究、實(shí)盤交易。
第一種,采用三方量化平臺(tái),一般是使用三方量化平臺(tái)封裝的數(shù)據(jù)API,通過獲取數(shù)據(jù)的函數(shù)直接進(jìn)行數(shù)據(jù)的調(diào)用,當(dāng)然各個(gè)三方量化平臺(tái)的數(shù)據(jù)質(zhì)量參差不齊,推薦老牌量化平臺(tái)機(jī)構(gòu),股票可以推薦恒生,迅投系列的券商PB量化軟件。期貨可以采用文化與交易開拓者或者金字塔之類的三方量化軟件服務(wù)商,當(dāng)然新生代的聚寬之類的web端的量化平臺(tái)也是不錯(cuò)的,
第二種,使用python語言環(huán)境或其它語言進(jìn)行開發(fā)研究。這種的話,相對來說就比較麻煩一些,所有的數(shù)據(jù)首先要到處尋找可用的API進(jìn)行數(shù)據(jù)的實(shí)時(shí)接收,不論是通過規(guī)范的API接口,或是通過爬蟲(不建議)技術(shù)進(jìn)行獲取,獲取到數(shù)據(jù)的第一時(shí)間,一般都會(huì)對該部分?jǐn)?shù)據(jù)進(jìn)行格式調(diào)整或是本地化存儲(chǔ)的。
雖然之后的使用會(huì)更靈活,但無形之中會(huì)加大量化交易研究或交易環(huán)節(jié)過程中的人員以及精力支出。如果是較為高頻一點(diǎn)的策略,我建議關(guān)注的點(diǎn)首先是數(shù)據(jù)質(zhì)量上,比如精準(zhǔn)度,響應(yīng)延時(shí),其次才是策略本身的算法之類,研究的過程是有先后的。
兩種形式相比較,前者更適用于個(gè)人研究,不具備時(shí)間、精力、金錢的個(gè)人玩家,后者更適用于團(tuán)隊(duì)分工合作形式的專業(yè)機(jī)構(gòu),如果拿開店舉例,前者類似于開一家加盟店,優(yōu)點(diǎn)是什么基本該有東西都有人給你準(zhǔn)備好了,缺點(diǎn)就是不靈活,不生動(dòng)。后者就是個(gè)體商鋪,更煩心,但優(yōu)點(diǎn)就是更自由,更有施展你天馬行空想法的可能性。
順帶說一句,不論哪種數(shù)據(jù)獲取形式,你扎實(shí)的程序、數(shù)據(jù)庫知識(shí),以及對金融證券交易基礎(chǔ)知識(shí)是必備的。不要想著我以前就是一程序員,立馬轉(zhuǎn)型成量化交易員是否具備這種可能性,我認(rèn)為是很難的。
最后講一下,一些其它市場的數(shù)據(jù)獲取,
比如美股,美股市場的量化交易數(shù)據(jù),其實(shí)國外放得比較開,很多數(shù)據(jù)也是免費(fèi)的,你所在的券商一般者會(huì)提供相應(yīng)的數(shù)據(jù)API,比如盈透、老虎證券這種美股券商都是有的,如果你只是用來做個(gè)研究什么的,也可以找新浪要去(新浪是初學(xué)者大多愛好在這里BA),但精細(xì)化的數(shù)據(jù)加工成本確實(shí)挺多的,一般也會(huì)收費(fèi),具體多少你可以咨詢一下你所在的券商客戶MM。
期權(quán)數(shù)據(jù),這種也是由交易所原初提供的,軟件與行情數(shù)據(jù)服務(wù)商進(jìn)行分發(fā),像上面提到的的WIND這些一定是有的,一些三方期權(quán)平臺(tái)也是有可能會(huì)打包售賣的,比如真格量化平臺(tái)。
總的來說,數(shù)據(jù)的獲取來源多種多樣,大神有實(shí)力的一般自己動(dòng)手豐衣足食,努力學(xué)習(xí)期的朋友一般喜歡借用力量,不管選擇哪種方式,都得先參考自已的量化交易策略,需要用到什么,考慮清楚后,再決定用什么,總有一款適合你。