一個強化學習算法包括以下幾個部分:Model、Policy、Value Function。對于Model,如果是馬爾科夫決策過程(MDP),一般包括狀態(tài)轉(zhuǎn)移的概率模型,以及一個Reward Model,也就是獎勵的模型。其實不難理解,既然涉及到馬爾科夫鏈,那一般就有轉(zhuǎn)移概率矩陣;另外這是決策模型,每次決策對應(yīng)有獎勵,所以還有一個獎勵模型。另外,馬爾科夫鏈的轉(zhuǎn)移概率也會涉及到?jīng)Q策,比如:
馬爾科夫鏈
其中s_t是當前狀態(tài),s是state的意思,a_t是當前的決策,a是action的意思,它的意思就是一個條件概率,如果當前狀態(tài)是s,當前決策是a,那么下一次狀態(tài)到s'的概率是多少呢?就是這個條件概率。
另外,做了這個決策,還要獲得相關(guān)的獎勵,也就是reward,那么應(yīng)該是多少呢?本質(zhì)上是一個條件期望:
它的意思也很顯然,就是當前狀態(tài)是s,當前決策是a的情況下,當前的reward(假設(shè)為r_t)的期望是多少的意思。
為什么要用到期望呢?因為有時候這個獎勵具有隨機性。
例如現(xiàn)在的狀態(tài)是高三了,可以選擇出國,可以選則參加高考;如果選擇出國,這是action,但對應(yīng)的結(jié)果也是隨機的,可能申請到這所學校,可能申請到那所學校;比如申請到前10的概率是10%,申請到前50的概率是50%,或許最終的期望就是申請到第50名左右的學校。因此,不是說做了決策結(jié)果就是確定的。
最后一個是Policy,這是比較重要的概念,它的意思可以理解為策略,就是面對當前的狀態(tài),應(yīng)該如何做決策?
因此,一個policy,可以理解為從狀態(tài)到?jīng)Q策的一個映射。
比如狀態(tài)的集合記為S,決策(或者說動作)的集合記為A,那么policy就是一個S->A的映射。
Poliyc有確定性的,也有隨機的。
確定性的Policy很好理解,就是面對一個特定的狀態(tài)s,對應(yīng)有一個確定的決策a。
隨機的Policy意思是對于一個特定的狀態(tài)s,對應(yīng)的是一個決策的分布。此時可能是這個action,可能是那個action,不是確定的。
比如下棋,面對同樣的棋局,可能有幾個備選的方案,每次選哪個是隨機的,不是確定的。
應(yīng)該說,強化學習研究的問題大部分都是隨機性的policy。
value function
最后一個重要的概念是value function,這個會比較繞一些。
一個value function一定跟一個policy有關(guān),或者說是關(guān)于這個policy的value function。
比如一個value function設(shè)為V,當前狀態(tài)假設(shè)為s,它計算的是在一定的policy下,未來可以獲得的收益的折現(xiàn)求和之后的期望值。
可以看出比較繞,因為它涉及到了很多的隨機性。
比如對當前狀態(tài)s_t=s,未來可以采取的決策是多種多樣的,每種決策對應(yīng)的結(jié)果也是隨機的。比如隨機的policy,對于這種狀態(tài)s,它可以采取的action是隨機的;每個action下,得到的收益也是隨機的。這兩重隨機性要考慮。
還有就是折現(xiàn)值,這涉及到一個折現(xiàn)率discount ratio。為什么需要這個折現(xiàn)率呢?如果從金錢的角度,貨幣有時間價值,現(xiàn)在的100塊錢,跟一年之后的100塊錢,肯定不一樣;一年之后的100塊錢折現(xiàn)到現(xiàn)在要有一個折現(xiàn)率。一般來說,如果利率是r,折現(xiàn)率就是1/(1+r),所以,一般折現(xiàn)率是大于零小于1的,特殊情況可以取等號。
如果折現(xiàn)率是0,也就是未來收益不管多少都不算,只算當前收益;
如果折現(xiàn)率是1,也就是未來收益統(tǒng)統(tǒng)都算,而且不需要衰減。
強化學習一般用于玩游戲,會希望不要做一些無用功。比如理論上一個小人可以左走一步右走一步,拖延時間,就是不去打怪獸,也不去吃果子。但如果有折現(xiàn)率,現(xiàn)在吃果子有100分,但拖到幾步之后吃果子只有90分,會迫使機器不會故意拖延時間。
當然,折現(xiàn)率設(shè)置不好,也會影響結(jié)果。比如下圍棋,如果折現(xiàn)率接近1,可能會放著棋子就是不去吃,錯失良機;如果接近0,可能會類似貪心算法,很快就吃,否則未來吃分數(shù)就不高;因此,本質(zhì)上也是調(diào)參玄學。
好了,上面介紹了RL的3個組成部分:model,policy,value function,然后可以分成兩大類:model-based和model-freee。
model-based的意思就是會清楚知道模型,包括馬爾科夫決策模型,獎勵模型等,都會給出來;但可能并不知道policy或value function。
model-free的意思就是連模型都沒有,至于policy和value function,可能知道可能不知道。
比如俄羅斯方塊,其實就4種積木,每種1/4,狀態(tài)就是當前的盤面形態(tài),因此狀態(tài)轉(zhuǎn)移概率矩陣是知道的,獎勵模型也是知道的,這就是model-based,但我們并沒有policy,事實上我們的任務(wù)就是要設(shè)計policy來玩。policy都沒有,那么value function肯定也沒有的。
但絕大多數(shù)時候是沒有這么明確的狀態(tài)轉(zhuǎn)移概率的。比如下圍棋,狀態(tài)轉(zhuǎn)移i概率跟決策有關(guān)的,但肯定不知道對手如何決策,甚至決策的概率分布也不知道。這個不是隨機的。
俄羅斯方塊的概率分布是確定的,因為4種方塊每個出來的概率都是25%;但對于棋局,每個格子下的概率不是一樣的,可能這個高,可能那個高,不知道的。這種情況下一般可以蒙特卡洛模擬,比如AlphaGo用的蒙特卡洛搜索樹。
當然,也可能不知道m(xù)odel,但知道policy的。比如現(xiàn)在高三,下一步讀大學,我不知道能去哪一所大學,這個概率不知道的;但我的policy是知道的,只能申請啊,只是不知道能申到哪一所。
當然,哪怕model-based,也是需要蒙特卡羅模擬的。哪怕知道了狀態(tài)轉(zhuǎn)移的概率,也要按照這個概率不斷生成隨機樣本來研究。
以上就是資訊的全部內(nèi)容,更多最新的CQF資訊,請關(guān)注高頓教育CQF頻道