機(jī)器學(xué)習(xí)包括三個要素:輸入變量、輸出變量,以及連接它們的模型。一般人會分成訓(xùn)練集、驗證集和測試集。傳統(tǒng)上機(jī)器學(xué)習(xí)擔(dān)心的是過度擬合,但也有一些機(jī)器學(xué)習(xí)方法不大害怕過度擬合。
比如有理論是誰如果模型復(fù)雜度(包括變量、數(shù)目、變量結(jié)構(gòu)等)遠(yuǎn)超數(shù)據(jù)量,反而不會出現(xiàn)過度擬合的問題,因為冗余的變量或結(jié)構(gòu)的權(quán)重會逐漸降低,導(dǎo)致測試誤差先升后降(double descent)。這也是很多深度學(xué)習(xí)敢于大力出奇跡的原因,因為有這個雙下降作為保證。否則,傳統(tǒng)那種驗證集的方法,中間找一個最優(yōu),之前欠擬合,之后過度擬合,這個過于玄學(xué)。如果你說大膽加,越多越好,那么人們反而放心。
機(jī)器學(xué)習(xí)的要素
如果是強(qiáng)化學(xué)習(xí)那一套,本質(zhì)上也不怕什么過度擬合,因為樣本基本上采用一定的機(jī)制蒙特卡洛生成,不存在什么太離譜的噪音;而且沒有什么訓(xùn)練集、測試集這些概念,更多是打游戲,越高分越好,每次的場景都是固定模式生成的。
有了以上的這些基本概念,回到金融,回答一些基本問題:

1、樣本分布改變的問題

之前說雙下降不怕過度擬合,那前提是默認(rèn)了測試集和訓(xùn)練集是同分布的,如果這個分布改變了,那么雙下降也沒用。至于判斷樣本分布是否改變,這是一個玄學(xué)。
當(dāng)然,這也取決于你對樣本的定義。如果你把樣本定義為一條路徑,那么歷史上只有一個樣本;或者你把一年的路徑定義為一個樣本,那你一年也只有一個樣本;但如果你是把1分鐘的價格變化定義為一個樣本,那么你的樣本可以多得多;或者你把一次交易定義為一個樣本,那么你也可以有非常多的樣本。
一般情況下,樣本越多,一般來說擬合模型越好;另外,在越短的時間內(nèi),樣本穩(wěn)定性越高;所以做高頻交易不需要太多天的數(shù)據(jù)來訓(xùn)練也可以有比較好的效果,而且樣本分布變化不大,策略失效風(fēng)險不大。
還有就是,如果品種多,每個品種的交易都是獨(dú)立樣本,也可以增加樣本數(shù)目,但擬合出來的是各個品種的共性,未必每個都能做好,因為評價標(biāo)準(zhǔn)是整體不錯。不同品種的分布可能也會有所差異,或許需要調(diào)整,使得分布更為接近。

2、時間序列與橫截面的問題

這本質(zhì)上是高頻和低頻的思路,時間序列本質(zhì)上是高頻思路,橫截面其實(shí)是低頻思路。所謂橫截面就是固定時間做決策,比如每5分鐘、10分鐘固定時刻做決策,這個可以方便各個品種對齊,因此可以方便調(diào)用其它品種的數(shù)據(jù),方便做對沖,都是同一個時間決策;而且可以把決策和交易執(zhí)行獨(dú)立開開,有人專門負(fù)責(zé)算法交易。
但如果是高頻交易則不能,時機(jī)稍瞬即逝,一定要一出信號就買。另外不大適合做對沖,因為每個品種的價格序列是獨(dú)立的,難以對齊,因此更適合單品種,比如期貨類的高頻策略。
機(jī)器學(xué)習(xí)對這兩種都可以,橫截面或許可以采用更大量的數(shù)據(jù),多品種混合建模。
CQF量化的發(fā)展前景

3、個人發(fā)展的問題

確實(shí)有人工智能界業(yè)界頂級的大牛做量化投資失敗了,而且是幾乎全美國最牛的公司最好的資源,原因很難說清楚,不去臆測了。
有的人雖然厲害,但需要找工作;有的人看起來不怎么厲害,但其實(shí)不需要找工作。比如經(jīng)常說什么人工智能大神,離開業(yè)界AI lab回歸高校,其實(shí)這些人就是反復(fù)橫跳,但讓他自己出來,離開體制(學(xué)校、公司都叫體制),他們其實(shí)是不敢的,或者說離開之后壓根是賺不到錢的,甚至沒法生存的。這就屬于看起來厲害,但還是需要找工作,離開了體制,或許就真的什么都不是。
有的人其實(shí)更灑脫一些,不會依賴體制、公司、單位,進(jìn)退自如,自己可以獨(dú)立賺錢的,包括各種方式,比如炒股、炒期貨、炒數(shù)字貨幣,量化也好主觀也好,或者搞講座也好,反正就是不依賴體制也能活的。
公司打工的問題在于你只能靠增量存活,沒有增量,你就拜拜了;你不能說我之前積累了這么多策略這么多客戶這么多資源,這些也能繼續(xù)賺錢;但問題是沒有你公司也能用這些賺錢,那要你何用?但自己干的話自己是可以利用存量賺錢的,這是最大的區(qū)別,但很多人沒想過這點(diǎn)。一些大券商考核甚至用今年比去年多賺多少錢,或者今年新增了多少客戶,存量客戶交易傭金降低權(quán)重。這樣對個人會很坑,因為這些錢公司還是賺的,不管存量還是增量公司都是賺的,只是沒有給個人。
公司的壓力來自于股東,因為如果收益沒有增長,股民拋售,股價下降,公司會有壓力?;蛘哒f公司估值很大一部分來自于未來潛在增值的折現(xiàn),如果人們發(fā)現(xiàn)未來無法增值,那么可能會造成股價雪崩。但個人做沒有這方面的壓力。
所以,對于做量化這種最最不需要公司平臺的(我指的是法律規(guī)定的牌照類資質(zhì)),應(yīng)該是最適合個人做的。或者說得更直接一些,如果量化交易都沒法個人做,那么全世界幾乎不存在可以個人創(chuàng)業(yè)的領(lǐng)域。
以上就是資訊的全部內(nèi)容,更多最新的CQF資訊,請關(guān)注高頓教育CQF頻道!