在Time-Contrastive Networks: Self-Supervised Learning from Multi-View Observation這篇論文中,谷歌的研究者提出了一種從觀察中學習世界的新方法,并多角度展示了機器人僅僅通過觀看視頻,就能在無人監(jiān)督的情況下,模擬視頻動作的全過程。
除了視頻演示之外,谷歌大腦并未對機器人系統(tǒng)提供監(jiān)督學習。他們將這種方法運用于各種不同的任務,以此來訓練真實和虛擬機器人。例如,倒水任務,放碟任務,和姿勢模仿任務。
第一步
通過視頻的分解鏡頭來學習,將時間作為監(jiān)督信號,發(fā)現(xiàn)視頻的不同屬性。這組嵌入向量經(jīng)由一組非結構化和未標記的視頻訓練,里面含有和任務相關的有效動作,也有一些隨機行為,來體現(xiàn)真實世界中的各種可能狀態(tài)。
模型使用triplet loss誤差函數(shù),基于同一幀的多視角觀察數(shù)據(jù)來訓練多視角下同時出現(xiàn)的幀,在嵌入空間中互相關聯(lián)。當然也可以考慮一個時間對比模型,只根據(jù)單一視角來訓練。這一次,有效幀在錨點的一定范圍內隨機選定,根據(jù)有效范圍計算邊際范圍。無效范圍是在邊際范圍外隨機選定。模型和之前一樣進行訓練。
第二步
通過強化學習來學習規(guī)則?;赥CN嵌入,根據(jù)第三方的真人示范來構造獎勵函數(shù)。機械臂起初嘗試一些隨機動作,然后學會反復進行這些動作,就可以產(chǎn)生最高獎勵的控制步驟,最后達成重現(xiàn)視頻任務的效果。
模型在僅僅經(jīng)歷了9次迭代后就成功收斂,大約相當于現(xiàn)實世界15分鐘的訓練。同樣地,在移碟任務中,機器人最初嘗試隨機運動,然后學會成功拿起和移動一個盤子。