DRONE
  • DRONE
  • MOBILITY
  • SPACE
  • ROBOTICS
  • 特集
  • コラム
  • ニュース
  • ABOUT US
Reading: Vol.78 生成AIで進化するドローンの目。世界に衝撃を与えたGPT-4o[小林啓倫のドローン最前線]
Share
DRONE
  • DRONE
  • MOBILITY
  • SPACE
  • ROBOTICS
  • 特集
  • コラム
  • ニュース
  • ABOUT US
検索
  • DRONE
  • MOBILITY
  • SPACE
  • ROBOTICS
  • 特集
  • コラム
  • ニュース
  • ABOUT US
Follow US
© 2013-2022 DRONE. All Rights Reserved.
コラム小林啓倫

Vol.78 生成AIで進化するドローンの目。世界に衝撃を与えたGPT-4o[小林啓倫のドローン最前線]

今年5月、ChatGPTの開発企業として知られるOpenAI社から、「GPT-4o」が発表された。GPT-4oを搭載したChatGPTは、デモンストレーションで驚くような機能を見せ、ドローンとの連携にも注目が集まっている

2024年6月11日
KK
SHARE

今年5月、ChatGPTの開発企業として知られるOpenAI社から、新しいLLM(Large Language Model:大規模言語モデル)「GPT-4o(フォーオー)」が発表された。LLMとは、いわゆる生成AIを動かすエンジンのような技術で、その性能がAIの賢さを大きく左右する。そしてこのGPT-4oを搭載したChatGPTは、デモンストレーションにおいて、各種の驚くような機能を見せた。

- Advertisement -
OpenAI社によるGPT-4oのデモンストレーション

たとえば上の動画の15分あたりで、手書きの計算式をAIに認識させ、その解き方を説明してもらうというシーンが出てくる。AIはそれをやってのけるのだが、従来の技術であれば、手書き画像を認識させて小休止、ユーザーが次の質問をして小休止…といった具合になっていただろう。

しかしGPT-4oでは、ほぼリアルタイムでAIとの会話が成立している。AIがカメラを通じて周囲の空間を認識し、ユーザーの行動を捉え、それに対して意味のある反応を行うというステップが、人間に近い速度で行えるようになっているわけだ。

ならばこの技術を使って、さまざまな機械が周囲の環境を認識し、人間とインタラクションすることを高度化させられないだろうか。そんな発想から、いまドローンとLLMを結び付けようという取り組みが始まっている。

- Advertisement -

たとえば今年4月には、日本の国立情報学研究所(NII)に所属する4名の研究者から、関連する論文が発表されている。彼らは2種類のLLMを使用し、ドローンが撮影した映像内から人間を認識して、その人物がどのような行動を取っているかを把握させるという実験を行った。

ドローンが撮影する映像をAIに解析させるという研究は、もちろんこれまでも行われてきた。ただ従来の場合、サンプルとなるデータを大量に集め、それをAIに学習させるという手間があった。つまりドローン映像を解析可能なAIを実現するためには、そのサンプルを大量に集めなければならず、しかもAIがサンプルとして使えるようにするために、人間が注釈を付けてやらなければならない。この説明だけで、それがいかに手間と時間のかかることか想像できるだろう。

そこでLLMの出番というわけだ。LLMは特定の企業やオープンソース・コミュニティによって開発済みであることが一般的で、それに多少の調整を行うだけで、さまざまなタスクをこなすAIとして利用可能になる。それをドローンを対象にして行ったのが、今回の研究だ。

高い汎用性への期待

研究者らはまず、YOLO-WorldとGPT-4Vという2つのモデルを用意した。正確に言うと、これらはLMM(Large Multimodal Model:大規模マルチモーダルモデル)といって、テキストだけでなく音声や映像といったさまざまなコンテンツによって学習が行われたモデルだ。したがって、言語だけでなく音声や映像もインプットとして取り込み、それを解析することができる。

YOLO-Worldは物体検知に特化したモデルで、前述のような事前の準備をする(大量の映像を用意して、何が映っているかという情報を人間が付与した上でAIに与える)ことなく、さまざまな物体を把握できるようになっている。GPT-4Vはその名前から想像できる通り、OpenAI社が開発したLMMで、「V」は「ビジョン」を意味している。
今回の研究では、YOLO-Worldにドローン映像内から人間が映っているかどうかを認識させ、人間が認識された場合にはそれをGPT-4Vに渡し、何をしているのか推測させるという役割分担をさせている。

- Advertisement -

実験には、Okutama-Actionというデータセットを使用した。このデータセットには、2台のドローンが異なる時間帯に撮影した動画が含まれている。各動画の長さは平均約1分で、1つのカメラフレームには最大10人が写っており、それぞれが12種類の行動のいずれかを行っている。それを事前のトレーニングなく、いきなりYOLO-WorldとGPT-4Vに与え、どのくらいの精度で認識できるか試したわけだ。

その結果、YOLO-Worldは人を見つけ出すことにおいて高い性能を示したものの、残念ながらGPT-4Vは、その人の行動を正確に認識するのが難しいことが判明した。

データセット「Okutama-Action」の一部

ただ研究者らは今回の結果について、精度は従来のアプローチに及ばなかったものの、モデルを訓練するのではなく単に指示するだけで良いという点で、大きなメリットがあると考えている。このアプローチであれば、指示の内容を変更するだけで、ドローンを全く別の用途に適用できる可能性があるためだ。たとえば今回の実験は、人間を検出するという点で災害救助などを念頭に置いたものだったが、牛や羊などを検出して放牧に役立てるといった使い方にもすぐ転用できるだろう。

研究者らは今後、精度を上げるための研究を続けるとしている。また生成AI全般を見ても、それをロボット等の端末に搭載できるほどサイズを小さくする研究が行われており、OpenAI社も一時中断していたロボット研究を再開するとしている。いずれ私たちが使うChatGPTと同じ頭脳が、ドローンに搭載される日が来るかもしれない。

DJI Matrice 4Tが広大な遊水地上空で活躍。DJI Dock 2も投入、ドローンによる「ヨシ焼き」残火確認 現場レポート
2025年3月21日
大林組とKDDIスマートドローン、ドローンポート「DJI Dock 2」を活用し能登半島で道路工事の作業効率化を推進
2024年11月20日
ドローン操縦スキル上達のために。DPA回転翼3級から国家資格がベスト![後編]
2024年9月30日
ドローン操縦スキル上達のために。DPA回転翼3級から国家資格がベスト![前編]
2024年9月30日
TAGGED: ChatGPT, GPT-4o, ドローン, 小林啓倫のドローン最前線
watanabe 2024年6月11日
Share this Article
Facebook Twitter Copy Link Print
Share
Previous Article ジュンテクノサービス、水中ドローンの進化を感じる豊富なラインナップを展示[Japan Drone 2024]
Next Article システムファイブ主催「全国DJI販売ディーラー感謝の会」開催![Japan Drone 2024]
- Advertisement -

最新ニュース

250612_JD_Soradynamics_top
Soradynamics、産業用ドローン「Hayate 2」と「隼」を展示。安全に運用できる高機能性[JapanDrone2025]
特集 2025年6月12日
2540612_JD_riegl_top
RIEGLの新LiDAR「VUX-100-25」、FOV160°で133万点/秒取得能力を搭載。マルチコプターでの高効率測量を実現[JapanDrone2025]
特集 2025年6月12日
250612_JD_roboz_top
ROBOZ「Litebee Stars」が実現する小規模屋内ドローンショー。教育コンテンツとしても注目[JapanDrone2025]
特集 2025年6月12日
「DRONE SHOW JAPAN PRESENTS STARMIRAGE IN OSAKA TEMMABASHI」延べ5万5千人が天満橋エリアに来場
「DRONE SHOW JAPAN PRESENTS STARMIRAGE IN OSAKA TEMMABASHI」、延べ5万5千人が天満橋エリアに来場
ニュース 2025年6月12日
【水中ドローン体験会】カナダ製水中ドローン『DeepTrekker』自動航行機能を東京で体験し検討できる
水中ドローン体験会:カナダ製水中ドローン「DeepTrekker」自動航行機能を東京で体験し検討できる
ニュース 2025年6月11日
- Advertisement -

関連記事

250612_JD_Soradynamics_top
特集

Soradynamics、産業用ドローン「Hayate 2」と「隼」を展示。安全に運用できる高機能性[JapanDrone2025]

2025年6月12日
2540612_JD_riegl_top
特集

RIEGLの新LiDAR「VUX-100-25」、FOV160°で133万点/秒取得能力を搭載。マルチコプターでの高効率測量を実現[JapanDrone2025]

2025年6月12日
「DRONE SHOW JAPAN PRESENTS STARMIRAGE IN OSAKA TEMMABASHI」延べ5万5千人が天満橋エリアに来場
ニュース

「DRONE SHOW JAPAN PRESENTS STARMIRAGE IN OSAKA TEMMABASHI」、延べ5万5千人が天満橋エリアに来場

2025年6月12日
【水中ドローン体験会】カナダ製水中ドローン『DeepTrekker』自動航行機能を東京で体験し検討できる
ニュース

水中ドローン体験会:カナダ製水中ドローン「DeepTrekker」自動航行機能を東京で体験し検討できる

2025年6月11日
Previous Next

DRONEとは

DRONE(https://www.drone.jp/、以下本サイト)は、ドローンやマルチコプターについての本格的な解説やおすすめ、最新情報を発信する日本初のメディアとして、「Explore the Future」をタグラインに2015年スタートしました。

2022年、時代とテクノロジーの急速な進化を押さえ、ドローンを起点に、「空飛ぶクルマ」、「自動運転」、「AI」、「ロボティクス」、「電気自動車(EV)」、「宇宙関連」など、時代を変えていく国内外のテクノロジーについて、幅広くみなさまにお伝えします。

メディアパートナー

ページ一覧

  • Home
  • DRONE
  • MOBILITY
  • SPACE
  • ROBOTICS
  • 特集
  • コラム
  • ニュース
  • ABOUT US
  • プライバシーポリシー

アーカイブ

姉妹サイト

PRONEWS(プロニュース)は、デジタル映像制作専門情報Webメディア

DRONE
Follow US

© 2013-2023 DRONE. All Rights Reserved.

Welcome Back!

Sign in to your account

Lost your password?