LLMを超え、より大規模でマルチモーダルな「基盤モデル」
第1章 基盤モデルとロボット
1.1 基盤モデルとは
1.2 基盤モデルのロボットへの応用
1.3 基盤モデルによるパラダイムシフト
1.4 基盤モデルで変わるロボット研究の世界
1.5 本書の構成
第2章 基盤モデルでロボットの何が変わるのか
2.1 自然言語を理解し,実行可能性を考えながらタスクを遂行する―SayCan
2.2 ロボットが自身のプログラムを生成する―Code as Policies
2.3 状況を理解し,失敗を修正する―REFLECT
2.4 言語的な意味をもった地図を生成する―CLIP-Fields
2.5 自然言語から動作を直接生成する―CLIPort
2.6 ロボットの経験を拡張する―GenAug
2.7 多様なロボットの多様なタスクを1つのネットワークで実行する―RT-X
2.8 本章のまとめ
第3章 これまでのロボット
3.1 一般的なロボット制御の流れ
3.2 さまざまなロボット
3.2.1 腕型ロボット
3.2.2 台車型ロボット
3.2.3 脚型ロボット
3.2.4 その他のロボット
3.3 モダリティとその表現
3.3.1 画像モダリティとその表現
3.3.2 3次元モダリティとその表現
3.3.3 音声モダリティとその表現
3.3.4 テキストモダリティとその表現
3.4 低レベル認識
3.4.1 古典的な画像認識
3.4.2 深層学習に基づく画像認識
3.4.3 深度画像の認識
3.4.4 音声の認識
3.4.5 テキストの認識
3.5 高レベル認識
3.5.1 地図作成
3.5.2 シーングラフ
3.6 高レベル計画
3.6.1 高レベル計画の手法
3.6.2 高レベル計画の手法の特徴
3.7 低レベル計画
3.7.1 モーションプランニング
3.7.2 制御
3.8 ロボットのこれまでの常識と基盤モデルがもたらすもの
第4章 基盤モデルができること
4.1 ロボットが解釈可能な表現とは
4.1.1 基盤モデルの組み合わせ
4.1.2 ロボットが解釈可能な表現
4.2 深層学習から基盤モデルへ
4.2.1 巨大なニューラルネットワーク
4.2.2 畳み込みニューラルネットワーク
4.2.3 リカレントニューラルネットワーク
4.2.4 Transformer
4.2.5 Transformerをベースとしたモデル
4.3 基盤モデルの特徴
4.3.1 非常に幅広いタスクを単一のモデルで解ける
4.3.2 計算量・データ・モデルのスケーリング則
4.3.3 応用がテキストデータに限らない
4.4 生成モデル
4.4.1 敵対的生成ネットワーク(GAN)
4.4.2 変分オートエンコーダ(VAE)
4.4.3 拡散モデル
4.4.4 フローマッチング
4.5 さまざまな基盤モデル
4.5.1 言語に関する基盤モデル
4.5.2 視覚に関する基盤モデル
4.5.3 言語と視覚に関する基盤モデル
4.5.4 聴覚に関する基盤モデル
4.5.5 3次元表現に関する基盤モデル
4.5.6 そのほかの基盤モデル
4.6 本章のまとめ
第5章 基盤モデルをロボットにどう使うか
5.1 基盤モデルをロボットに応用するアプローチ
5.2 低レベル認識への基盤モデルの応用
5.2.1 特徴量抽出
5.2.2 シーン理解
5.3 高レベル認識への基盤モデルの応用
5.3.1 報酬設計
5.3.2 マップ構築
5.4 高レベル計画への基盤モデルの応用
5.4.1 タスクプランニング
5.4.2 コード生成
5.5 低レベル計画への基盤モデルの応用
5.6 データ拡張
5.6.1 画像のデータ拡張
5.6.2 言語のデータ拡張
5.7 本章のまとめ
第6章 ロボット基盤モデル
6.1 汎用事前学習ロボットビジョンモデル
6.1.1 人間の一人称視点の動画で事前学習した汎用ロボットビジョンモデル―R3M
6.1.2 マスキング画像の再構成を使ったVision Transformerベースの事前学習モデル―MVP
6.1.3 汎用ロボットビジョンモデルのベンチマークの提案―VC-1
6.2 ロボットのための視覚言語モデル(VLM)
6.2.1 LLMのマルチモーダルデータへの拡張―PaLM-E
6.2.2 ロボとの動作に関するさまざまなアノテーションを付与したデータからロボット用のVLMを学習―RoboVQA
6.3 一気通貫のロボット制御モデル
6.3.1 大規模なロボットデータによる制御の事前学習モデルの先駆け―MT-Opt
6.3.2 Transformerベースの制御の事前学習モデル―Robotic Transformers(RT)
6.3.3 事後学習の柔軟性が高いモデル―Octo
6.3.4 VLMの事後学習によるオープンかつ大規模なモデル―OpenVLA
6.3.5 拡散モデルベースの物体操作に関するロボット制御モデル―RDT-1B
6.3.6 Physical Intelligence社の一番最初のモデル―π0
6.3.7 自律移動のためのロボット基盤モデル―NoMAD
6.3.8 さまざまな形態のロボットに活用可能なロボット基盤モデル―CrossFormer
6.4 ロボット基盤モデルのためのデータセット
6.4.1 オープンデータセットの整備
6.4.2 データ収集のためのロボット・ハードウェア
6.5 ロボット基盤モデルの今後
6.5.1 ロボット基盤モデルの推論と適応
6.5.2 ヒューマノイドロボット領域の活況
6.5.3 ロボット基盤モデルの課題
第7章 今後の展開
7.1 基盤モデルの急速な進展
7.2 基盤モデルと多様なモダリティ
7.3 基盤モデルとスキルの粒度
7.4 基盤モデルの推論スピード
7.5 基盤モデルと身体性
7.6 基盤モデルと認知発達
7.7 基盤モデルと実タスク
7.8 さいごに
引用・参考文献
索引