DRONE
  • DRONE
  • MOBILITY
  • SPACE
  • ROBOTICS
  • 特集
  • コラム
  • ニュース
  • ABOUT US
Reading: Google DeepMind、視覚と言語を行動に変換する新モデル「RT-2」紹介
Share
DRONE
  • DRONE
  • MOBILITY
  • SPACE
  • ROBOTICS
  • 特集
  • コラム
  • ニュース
  • ABOUT US
検索
  • DRONE
  • MOBILITY
  • SPACE
  • ROBOTICS
  • 特集
  • コラム
  • ニュース
  • ABOUT US
Follow US
© 2013-2022 DRONE. All Rights Reserved.
ニュース

Google DeepMind、視覚と言語を行動に変換する新モデル「RT-2」紹介

Google DeepMindは、論文でRobotic Transformer 2(RT-2)を紹介。RT-2、ウェブとロボティクスの両方のデータから学習し、この知識をロボット制御のための一般化された命令に変換する、新しい視覚言語アクション(VLA)モデルだ

2023年8月31日
230831_rt2_top
SHARE

大容量の視覚言語モデル(VLM)はウェブスケールのデータセットで学習されるため、これらのシステムは視覚や言語のパターンを認識し、異なる言語間で動作することに非常に優れている。しかし、ロボットが同レベルの能力を達成するためには、あらゆる物体、環境、タスク、状況にわたって、ロボットのデータを直接収集する必要がある。

- Advertisement -
Contents
ロボット制御へのVLMの応用汎化と創発スキルロボット制御の進歩

この研究は、マルチタスクデモで訓練されたモデルであるRobotic Transformer 1(RT-1)をベースにしており、ロボットデータで見られるタスクとオブジェクトの組み合わせを学習することができる。より具体的には、Google DeepMindの研究は、オフィスのキッチン環境で17カ月にわたって13台のロボットで収集されたRT-1ロボットのデモンストレーションデータを使用した。

RT-2は、汎化能力の向上と、ロボット・データ以外の意味的・視覚的理解を示している。これには、新しいコマンドの解釈や、オブジェクトのカテゴリや高レベルの記述に関する推論など、初歩的な推論を実行してユーザーのコマンドに応答することが含まれる。

また、思考の連鎖推論を取り入れることで、RT-2が、どの物体が即席のハンマーとして使えるか(石)、どの種類の飲み物が疲れた人に最適か(エナジードリンク)を判断するといった、多段階の意味推論を行うことができることを示す。

- Advertisement -

ロボット制御へのVLMの応用

RT-2は、1つまたは複数の画像を入力とし、従来は自然言語のテキストを表すトークン列を生成するVLMをベースにしている。このようなVLMは、視覚的質問応答、画像キャプション付け、物体認識のようなタスクを実行するために、ウェブスケールのデータでうまく訓練されてきた。この研究では、Pathways Language and Image model(PaLI-X)とPathways Language model Embodied (PaLM-E)をRT-2のバックボーンとして使用する。

ロボットを制御するためには、ロボットが行動を出力するように訓練されなければならないという。同社は、言語トークンと同様に、アクションをモデルの出力にトークンとして表現することで、この課題に対処。下の図に示すように、アクションを標準の自然言語トークナイザーで処理できる文字列として記述する。

230831_rt2_01
RT-2のトレーニングで使用されるアクション文字列の表現。このような文字列の例としては、例えば「1 128 91 241 5 101 127 217」のようなロボット・アクション・トークン番号のシーケンスがある

文字列は、後続のコマンドを実行せずに、現在のエピソードを継続するか終了するかを示すフラグで始まり、エンドエフェクタの位置と回転を変更するコマンド、およびロボットグリッパーの必要な拡張を変更するコマンドが続く。

同社は、RT-1と同じ離散化されたロボットアクションを使用し、それを文字列表現に変換することで、ロボットデータのVLMモデル学習が可能になることを示す。

230831_rt2_02
RT-2のアーキテクチャとトレーニング:ロボットとウェブのデータを用いて、事前に訓練されたVLMモデルを共同微調整する。その結果、ロボットのカメラ画像を取り込み、ロボットが行うべき行動を直接予測する

汎化と創発スキル

RT-2モデルについて、6,000回を超えるロボットの試行を対象に、一連の定性的・定量的実験を行った。RT-2の新たな能力を調査するために、同社はまず、ウェブスケールのデータとロボットの経験から知識を組み合わせる必要があるタスクを探し、記号理解、推論、人間認識の3つのスキルのカテゴリーを定義した。

- Advertisement -

各タスクでは、視覚的意味概念の理解と、その概念を操作するロボット制御の能力が要求された。「テーブルから落ちそうなバッグを拾う」、「バナナを2+1の合計まで移動させる」などのコマンドは、ロボットのデータでは見たことのない物体やシナリオに対してロボットに操作タスクを実行させるもので、操作にはウェブベースのデータから変換された知識が必要だった。

230831_rt2_03
ロボットデータには存在せず、ウェブ事前トレーニングからの知識移行を必要とする、新たなロボットスキルの例

全てのカテゴリにおいて、以前のRT-1モデルや、大規模な視覚データセットで事前学習されたVisual Cortex(VC-1)のようなモデルなど、以前のベースラインと比較して、汎化性能の向上(3倍以上の改善)が観察された。

230831_rt2_04
出現スキル評価の成功率:我々のRT-2モデルは、以前のロボティクス変換器(RT-1)と視覚的事前訓練(VC-1)のベースラインの両方を上回る

また、ロボットデータに例があるオリジナルのRT-1タスクから始め、ロボットがVLM事前学習から汎化を学習する必要がある、ロボットが以前に見たことのないオブジェクト、背景、環境を様々な程度で継続した、一連の定量的評価を行った。

230831_rt2_05
RT-2が新しい状況に汎化する、ロボットによる以前に見たことのない環境の例

RT-2は、ロボットデータで見られる元のタスクの性能を維持し、ロボットによる未知のシナリオの性能をRT-1の32%から62%に向上させた。

さらに、VC-1やReusable Representations for Robotic Manipulation (R3M)のような視覚のみのタスクで事前訓練されたベースラインや、Manipulation of Open-World Objects (MOO)のような物体識別にVLMを使用するアルゴリズムと比較して、大幅な改善が見られた。

230831_rt2_06
RT-2は、見た分布内タスクで高い性能を達成し、分布外の見たことのないタスクでは複数のベースラインを上回る

オープンソースのロボットタスクの言語テーブルスイートで我々のモデルを評価したところ、シミュレーションで90%の成功率を達成し、BC-Z(72%)、RT-1(74%)、LAVA(77%)などの従来のベースラインを大幅に上回った。

次に、同じモデルを実世界で評価したところ(シミュレーションと実データで訓練されているため)、以下のように、青い立方体以外のオブジェクトが訓練データセットに存在しない、新しいオブジェクトへの汎化能力が実証された。

230831_rt2_07
RT-2は実際のロボット言語テーブルタスクで良好な結果を示した。青い立方体以外の物体は訓練データに存在しなかった

LLMで使用されている思考連鎖型プロンプトの手法にヒントを得て、同社はロボット制御と思考連鎖型推論を組み合わせることで、単一モデル内で長期的な計画と低レベルスキルの学習を可能にするモデルを試作した。

特に、RT-2の言語と行動を併用する能力を向上させるために、数百の勾配ステップを微調整した。次に、ロボットが行おうとしている行動の目的を自然言語で記述し、次に「行動」と行動トークンを記述する、追加の「計画」ステップを含むようにデータを増強した。

230831_rt2_08
思考連鎖推論により、長期的なスキルシーケンスを計画し、ロボットの行動を予測することができる自己完結型のモデルを学習できる

このプロセスにより、RT-2は、ユーザの指示を達成するために必要な中間ステップに関する推論を必要とする、より複雑なコマンドを実行できる。VLMバックボーンのおかげで、RT-2は画像とテキストコマンドの両方から計画を立てることができ、SayCanのような現在の計画・行動アプローチが現実世界を見ることができず、完全に言語に依存しているのに対して、視覚的に根拠のある計画を立てることが可能だという。

ロボット制御の進歩

RT-2は、視覚言語モデル(VLM)を強力な視覚言語行動(VLA)モデルに変換できることを示している。VLAは、VLMの事前学習とロボットデータを組み合わせることで、ロボットを直接制御できる。

PaLM-EとPaLI-Xに基づくVLAの2つのインスタンス化により、RT-2は高度に改善されたロボットポリシーを実現し、さらに重要なことに、ウェブスケールの視覚言語事前学習から継承された、大幅に改善された汎化性能と創発能力をもたらす。

RT-2は、既存のVLMモデルを単純かつ効果的に修正するだけでなく、実世界で多様なタスクを実行するための推論、問題解決、情報解釈が可能な汎用物理ロボットの構築の可能性を示しているとした。

▶︎DeepMind

DJI Matrice 4Tが広大な遊水地上空で活躍。DJI Dock 2も投入、ドローンによる「ヨシ焼き」残火確認 現場レポート
2025年3月21日
大林組とKDDIスマートドローン、ドローンポート「DJI Dock 2」を活用し能登半島で道路工事の作業効率化を推進
2024年11月20日
ドローン操縦スキル上達のために。DPA回転翼3級から国家資格がベスト![後編]
2024年9月30日
ドローン操縦スキル上達のために。DPA回転翼3級から国家資格がベスト![前編]
2024年9月30日
TAGGED: AI, DeepMind, Google, ロボット
watanabe 2023年8月31日
Share this Article
Facebook Twitter Copy Link Print
Share
Previous Article ソニー・ホンダ、「JAPAN MOBILITY SHOW 2023」でAFEELA Prototypeを日本初披露
Next Article 230831_MIT_top MIT、自律操縦機が衝突せずに航行可能なプランニング・アルゴリズムを開発
- Advertisement -

最新ニュース

250612_JD_Soradynamics_top
Soradynamics、産業用ドローン「Hayate 2」と「隼」を展示。安全に運用できる高機能性[JapanDrone2025]
特集 2025年6月12日
2540612_JD_riegl_top
RIEGLの新LiDAR「VUX-100-25」、FOV160°で133万点/秒取得能力を搭載。マルチコプターでの高効率測量を実現[JapanDrone2025]
特集 2025年6月12日
250612_JD_roboz_top
ROBOZ「Litebee Stars」が実現する小規模屋内ドローンショー。教育コンテンツとしても注目[JapanDrone2025]
特集 2025年6月12日
「DRONE SHOW JAPAN PRESENTS STARMIRAGE IN OSAKA TEMMABASHI」延べ5万5千人が天満橋エリアに来場
「DRONE SHOW JAPAN PRESENTS STARMIRAGE IN OSAKA TEMMABASHI」、延べ5万5千人が天満橋エリアに来場
ニュース 2025年6月12日
【水中ドローン体験会】カナダ製水中ドローン『DeepTrekker』自動航行機能を東京で体験し検討できる
水中ドローン体験会:カナダ製水中ドローン「DeepTrekker」自動航行機能を東京で体験し検討できる
ニュース 2025年6月11日
- Advertisement -

関連記事

Pudu RoboticsがAI搭載の自律型清掃ロボット「PUDU CC1 Pro」を発表
ニュース

PUDU、AI搭載の自律型清掃ロボット「PUDU CC1 Pro」を発表

2025年5月28日
250508_KailasRobotics_top
ニュース

Kailas Robotics、「KUMIHIMO Tech Camp with Murata 2024」優秀賞を受賞

2025年5月8日
250417_Revoria-Kamisa-PH12_top
ニュース

富士フイルムビジネスイノベーション、紙さばきロボットシステム「Revoria Kamisa PH12」開発。生産ライン省人化と印刷品質の安定化へ

2025年4月17日
NVIDIA_top
ニュース

NVIDIA、米国で初めて国産AIスーパーコンピューターを製造。5000億ドル投資、AIインフラ構築へ

2025年4月15日
Previous Next

DRONEとは

DRONE(https://www.drone.jp/、以下本サイト)は、ドローンやマルチコプターについての本格的な解説やおすすめ、最新情報を発信する日本初のメディアとして、「Explore the Future」をタグラインに2015年スタートしました。

2022年、時代とテクノロジーの急速な進化を押さえ、ドローンを起点に、「空飛ぶクルマ」、「自動運転」、「AI」、「ロボティクス」、「電気自動車(EV)」、「宇宙関連」など、時代を変えていく国内外のテクノロジーについて、幅広くみなさまにお伝えします。

メディアパートナー

ページ一覧

  • Home
  • DRONE
  • MOBILITY
  • SPACE
  • ROBOTICS
  • 特集
  • コラム
  • ニュース
  • ABOUT US
  • プライバシーポリシー

アーカイブ

姉妹サイト

PRONEWS(プロニュース)は、デジタル映像制作専門情報Webメディア

DRONE
Follow US

© 2013-2023 DRONE. All Rights Reserved.

Welcome Back!

Sign in to your account

Lost your password?