environment |SHR

AIに「失敗から学ぶ」ことを教える

自転車の乗り方を覚えたときのことを思い出してください。誰もあなたに物理の教科書やマニュアルを渡したわけではありません。あなたは試行錯誤によって学びました——転んで膝をすりむいたとき（ペナルティ）、完璧なバランスで走れたとき（報酬）。時間が経つにつれて、脳は自然と「倒れずに前へ進むための正しい行動」を学び取っていきました。もしAIが同じように学べるとしたらどうでしょう？巨大でラベル付きのデータセットを分析するのではなく、実際の世界とやり取りし、自らの行動の結果から直接学ぶことができたら？