視覺強化學習方面,泛化很容易被高維觀察空間中一些無關痛癢的因素分散了注意力。為此,斯坦福大學李飛飛團隊提出了一種可以適應新測試環境的自專家克隆方法(Self Expert Cloning for Adaptation to Novel Test-environments)——SECANT模型。該方法能夠依次解決策略學習和魯棒性表征學習問題,從而實現了對未見過的視覺環境的強大零樣本泛化性能。具體而言,該方法在兩個階段利用圖像增廣,首先是專家策略通過弱增廣從頭開始進行強化學習的訓練,而后學生網絡通過強增廣的監督學習來模仿專家策略,其表征與專家策略相比,對視覺變化更具魯棒性。