亚洲精品网站在线观看你懂的,久久久久久久国产亚洲日本

利用強化學(xué)習(xí)創(chuàng)建交易機器人

高頓教育2024-03-01 10:48songyuanlin

關(guān)注公眾號

快掃碼關(guān)注
公眾號吧

強化學(xué)習(xí)是機器學(xué)習(xí)的一個分支，之前又叫做Approximate Dynamic Programming，不過現(xiàn)在一般都叫做RL了。

人工智能也好，機器學(xué)習(xí)也好，最本質(zhì)的問題是面對不確定性時如何做出好的決策。
比如具體到量化交易領(lǐng)域，我們要做的決策可以說是每個時刻，要買什么股票，賣什么股票；買多少，賣多少；是用限價單還是市價單等等，這些都是決策。
所謂不確定性，可以包括未來股票價格的變化是不確定的，另外我們的單子進入到市場之后，對市場的影響也是不確定的。
另外，強化學(xué)習(xí)涉及到幾個方面：優(yōu)化(Optimization)、延遲結(jié)果(Delayed Consequence)、探索(Exploration)、泛化(Generalization)
剛剛說的4個方面。所謂優(yōu)化，目標(biāo)就是找到做決策的優(yōu)解方法，使得可以獲得更好或比較好的結(jié)果。

學(xué)姐可以把當(dāng)時上岸的備考規(guī)劃給你。少走1個月的彎路，同時我把備考的資料分享給大家，都是課程的內(nèi)部資料，大家需要的可以戳下面卡片領(lǐng)取↓↓↓

全新CQF備考資料+解析

已有2389人領(lǐng)取

立即領(lǐng)取

對于延遲結(jié)果，指的是我們現(xiàn)在做的決策會對未來一段時間都會有所影響。比如下單會造成沖擊成本，會有暫時的沖擊，以及長期的沖擊。
探索指的嘗試不同的決策，來獲得不同的結(jié)果，不斷學(xué)習(xí)改進。比如下圍棋，每一步棋都要想著未來幾步，模擬未來的棋局，探索哪一個位置最好，這就是探索的過程。
最后就是泛化。比如下棋，不可能每一種情況過去都模擬過，未來肯定會遇到?jīng)]見過的棋局，因此過去的模型必須要有泛化的能力，這樣遇到了沒見過的棋局也可以應(yīng)付。
相比監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)，它們并沒有做決策的過程，所以并沒有上述說的“優(yōu)化”的步驟；當(dāng)然，監(jiān)督學(xué)習(xí)要最小化誤差，這可以理解為優(yōu)化的一種方式；但兩個優(yōu)化不是一個意思，強化學(xué)習(xí)里說到優(yōu)化一般指找到一個最有策略，從這個角度監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)都沒有優(yōu)化。另外，監(jiān)督/無監(jiān)督學(xué)習(xí)也沒有所謂探索試錯的過程，也沒有延遲結(jié)果這個東西；但監(jiān)督/無監(jiān)督學(xué)習(xí)都有泛化的特征。這是它們與強化學(xué)習(xí)的區(qū)別。