DRONE.jp
  • DRONE
  • MOBILITY
  • SPACE
  • ROBOTICS
  • 特集
  • コラム
  • ニュース
  • ABOUT US
Reading: Google DeepMind、視覚と言語を行動に変換する新モデル「RT-2」紹介
Share
DRONE.jp
  • DRONE
  • MOBILITY
  • SPACE
  • ROBOTICS
  • 特集
  • コラム
  • ニュース
  • ABOUT US
検索
  • DRONE
  • MOBILITY
  • SPACE
  • ROBOTICS
  • 特集
  • コラム
  • ニュース
  • ABOUT US
Follow US
© 2013-2026 DRONE. All Rights Reserved.
ニュース

Google DeepMind、視覚と言語を行動に変換する新モデル「RT-2」紹介

Google DeepMindは、論文でRobotic Transformer 2(RT-2)を紹介。RT-2、ウェブとロボティクスの両方のデータから学習し、この知識をロボット制御のための一般化された命令に変換する、新しい視覚言語アクション(VLA)モデルだ

2023年8月31日
230831_rt2_top

大容量の視覚言語モデル(VLM)はウェブスケールのデータセットで学習されるため、これらのシステムは視覚や言語のパターンを認識し、異なる言語間で動作することに非常に優れている。しかし、ロボットが同レベルの能力を達成するためには、あらゆる物体、環境、タスク、状況にわたって、ロボットのデータを直接収集する必要がある。

Contents
ロボット制御へのVLMの応用汎化と創発スキルロボット制御の進歩

この研究は、マルチタスクデモで訓練されたモデルであるRobotic Transformer 1(RT-1)をベースにしており、ロボットデータで見られるタスクとオブジェクトの組み合わせを学習することができる。より具体的には、Google DeepMindの研究は、オフィスのキッチン環境で17カ月にわたって13台のロボットで収集されたRT-1ロボットのデモンストレーションデータを使用した。

RT-2は、汎化能力の向上と、ロボット・データ以外の意味的・視覚的理解を示している。これには、新しいコマンドの解釈や、オブジェクトのカテゴリや高レベルの記述に関する推論など、初歩的な推論を実行してユーザーのコマンドに応答することが含まれる。

また、思考の連鎖推論を取り入れることで、RT-2が、どの物体が即席のハンマーとして使えるか(石)、どの種類の飲み物が疲れた人に最適か(エナジードリンク)を判断するといった、多段階の意味推論を行うことができることを示す。

ロボット制御へのVLMの応用

RT-2は、1つまたは複数の画像を入力とし、従来は自然言語のテキストを表すトークン列を生成するVLMをベースにしている。このようなVLMは、視覚的質問応答、画像キャプション付け、物体認識のようなタスクを実行するために、ウェブスケールのデータでうまく訓練されてきた。この研究では、Pathways Language and Image model(PaLI-X)とPathways Language model Embodied (PaLM-E)をRT-2のバックボーンとして使用する。

ロボットを制御するためには、ロボットが行動を出力するように訓練されなければならないという。同社は、言語トークンと同様に、アクションをモデルの出力にトークンとして表現することで、この課題に対処。下の図に示すように、アクションを標準の自然言語トークナイザーで処理できる文字列として記述する。

230831_rt2_01
RT-2のトレーニングで使用されるアクション文字列の表現。このような文字列の例としては、例えば「1 128 91 241 5 101 127 217」のようなロボット・アクション・トークン番号のシーケンスがある

文字列は、後続のコマンドを実行せずに、現在のエピソードを継続するか終了するかを示すフラグで始まり、エンドエフェクタの位置と回転を変更するコマンド、およびロボットグリッパーの必要な拡張を変更するコマンドが続く。

同社は、RT-1と同じ離散化されたロボットアクションを使用し、それを文字列表現に変換することで、ロボットデータのVLMモデル学習が可能になることを示す。

230831_rt2_02
RT-2のアーキテクチャとトレーニング:ロボットとウェブのデータを用いて、事前に訓練されたVLMモデルを共同微調整する。その結果、ロボットのカメラ画像を取り込み、ロボットが行うべき行動を直接予測する

汎化と創発スキル

RT-2モデルについて、6,000回を超えるロボットの試行を対象に、一連の定性的・定量的実験を行った。RT-2の新たな能力を調査するために、同社はまず、ウェブスケールのデータとロボットの経験から知識を組み合わせる必要があるタスクを探し、記号理解、推論、人間認識の3つのスキルのカテゴリーを定義した。

各タスクでは、視覚的意味概念の理解と、その概念を操作するロボット制御の能力が要求された。「テーブルから落ちそうなバッグを拾う」、「バナナを2+1の合計まで移動させる」などのコマンドは、ロボットのデータでは見たことのない物体やシナリオに対してロボットに操作タスクを実行させるもので、操作にはウェブベースのデータから変換された知識が必要だった。

230831_rt2_03
ロボットデータには存在せず、ウェブ事前トレーニングからの知識移行を必要とする、新たなロボットスキルの例

全てのカテゴリにおいて、以前のRT-1モデルや、大規模な視覚データセットで事前学習されたVisual Cortex(VC-1)のようなモデルなど、以前のベースラインと比較して、汎化性能の向上(3倍以上の改善)が観察された。

230831_rt2_04
出現スキル評価の成功率:我々のRT-2モデルは、以前のロボティクス変換器(RT-1)と視覚的事前訓練(VC-1)のベースラインの両方を上回る

また、ロボットデータに例があるオリジナルのRT-1タスクから始め、ロボットがVLM事前学習から汎化を学習する必要がある、ロボットが以前に見たことのないオブジェクト、背景、環境を様々な程度で継続した、一連の定量的評価を行った。

230831_rt2_05
RT-2が新しい状況に汎化する、ロボットによる以前に見たことのない環境の例

RT-2は、ロボットデータで見られる元のタスクの性能を維持し、ロボットによる未知のシナリオの性能をRT-1の32%から62%に向上させた。

さらに、VC-1やReusable Representations for Robotic Manipulation (R3M)のような視覚のみのタスクで事前訓練されたベースラインや、Manipulation of Open-World Objects (MOO)のような物体識別にVLMを使用するアルゴリズムと比較して、大幅な改善が見られた。

230831_rt2_06
RT-2は、見た分布内タスクで高い性能を達成し、分布外の見たことのないタスクでは複数のベースラインを上回る

オープンソースのロボットタスクの言語テーブルスイートで我々のモデルを評価したところ、シミュレーションで90%の成功率を達成し、BC-Z(72%)、RT-1(74%)、LAVA(77%)などの従来のベースラインを大幅に上回った。

次に、同じモデルを実世界で評価したところ(シミュレーションと実データで訓練されているため)、以下のように、青い立方体以外のオブジェクトが訓練データセットに存在しない、新しいオブジェクトへの汎化能力が実証された。

230831_rt2_07
RT-2は実際のロボット言語テーブルタスクで良好な結果を示した。青い立方体以外の物体は訓練データに存在しなかった

LLMで使用されている思考連鎖型プロンプトの手法にヒントを得て、同社はロボット制御と思考連鎖型推論を組み合わせることで、単一モデル内で長期的な計画と低レベルスキルの学習を可能にするモデルを試作した。

特に、RT-2の言語と行動を併用する能力を向上させるために、数百の勾配ステップを微調整した。次に、ロボットが行おうとしている行動の目的を自然言語で記述し、次に「行動」と行動トークンを記述する、追加の「計画」ステップを含むようにデータを増強した。

230831_rt2_08
思考連鎖推論により、長期的なスキルシーケンスを計画し、ロボットの行動を予測することができる自己完結型のモデルを学習できる

このプロセスにより、RT-2は、ユーザの指示を達成するために必要な中間ステップに関する推論を必要とする、より複雑なコマンドを実行できる。VLMバックボーンのおかげで、RT-2は画像とテキストコマンドの両方から計画を立てることができ、SayCanのような現在の計画・行動アプローチが現実世界を見ることができず、完全に言語に依存しているのに対して、視覚的に根拠のある計画を立てることが可能だという。

ロボット制御の進歩

RT-2は、視覚言語モデル(VLM)を強力な視覚言語行動(VLA)モデルに変換できることを示している。VLAは、VLMの事前学習とロボットデータを組み合わせることで、ロボットを直接制御できる。

PaLM-EとPaLI-Xに基づくVLAの2つのインスタンス化により、RT-2は高度に改善されたロボットポリシーを実現し、さらに重要なことに、ウェブスケールの視覚言語事前学習から継承された、大幅に改善された汎化性能と創発能力をもたらす。

RT-2は、既存のVLMモデルを単純かつ効果的に修正するだけでなく、実世界で多様なタスクを実行するための推論、問題解決、情報解釈が可能な汎用物理ロボットの構築の可能性を示しているとした。

▶︎DeepMind

TAGGED: AI, DeepMind, Google, ロボット
watanabe 2023年8月31日
Share this Article
Facebook Twitter Copy Link Print
Share
Previous Article ソニー・ホンダ、「JAPAN MOBILITY SHOW 2023」でAFEELA Prototypeを日本初披露
Next Article 230831_MIT_top MIT、自律操縦機が衝突せずに航行可能なプランニング・アルゴリズムを開発
- Advertisement -

最新ニュース

tohzi_65_topOqpDxKOg
台北でドローンを飛ばして判明した「外国人の事前申請義務」と二重マップ活用術を徹底ルポ [田路昌也の中国・香港ドローン便り]Vol.65
コラム 田路昌也 2026年6月22日
260619_RIEGL_top
リーグル、円形スキャン式大型グリーンレーザー「VQ-840-G」をProdrone製ドローンと組み合わせて展示 [CSPI2026]
特集 2026年6月19日
260619_CHCNAV_topbCh6TNHC
CHCNAV、240万円から導入できる公共測量対応LiDAR「AlphaAir 6」を展示。最大2100mの長距離測距を実現 [CSPI2026]
特集 2026年6月19日
260619_BODUK_toptJ6G6Q3t
ボーダック、格安VTOL型練習用ドローン「Albabird-XL VTOL」を発表。国家資格化を見据えた低価格モデル [CSPI2026]
特集 2026年6月19日
260619_CSPI_amuse-oneself_topEmTHi4Dp
アミューズワンセルフ、悪天候に強いドローン「GLOW.WP CONCEPT」などコンセプトモデル3機種を初公開 [CSPI2026]
特集 2026年6月19日
- Advertisement -

関連記事

260619_BODUK_toptJ6G6Q3t
特集

ボーダック、格安VTOL型練習用ドローン「Albabird-XL VTOL」を発表。国家資格化を見据えた低価格モデル [CSPI2026]

2026年6月19日
reviews_104_toptinqXafL
田口厚

ドローンでAIとプログラミング習得!「DRONE STAR プログラミング AI」を楽しもう![Reviews]Vol.104

2026年5月15日
小林啓倫のドローン最前線
コラム小林啓倫

ドローンは「困ったら人間にお任せ」から「必要なことだけ人に聞く」へ[小林啓倫のドローン最前線] Vol.100

2026年4月23日
小林啓倫のドローン最前線
コラム小林啓倫

AIで進化する「ドローンスワーム制御技術」[小林啓倫のドローン最前線] Vol.99

2026年3月9日
Previous Next

DRONE.jpとは

DRONE.jp(https://drone.jp/、以下本サイト)は、ドローンやマルチコプターについての本格的な解説やおすすめ、最新情報を発信する日本初のメディアとして、「Explore the Future」をタグラインに2015年スタートしました。

2022年、時代とテクノロジーの急速な進化を押さえ、ドローンを起点に、「空飛ぶクルマ」、「自動運転」、「AI」、「ロボティクス」、「電気自動車(EV)」、「宇宙関連」など、時代を変えていく国内外のテクノロジーについて、幅広くみなさまにお伝えします

メディアパートナー

ページ一覧

  • Home
  • DRONE
  • MOBILITY
  • SPACE
  • ROBOTICS
  • 特集
  • コラム
  • ニュース
  • ABOUT US
  • プライバシーポリシー

アーカイブ

姉妹サイト

PRONEWS(プロニュース)は、デジタル映像制作専門情報Webメディア

DRONE.jp
Follow US

© 2013-2023 DRONE. All Rights Reserved.

Welcome Back!

Sign in to your account

Lost your password?