タイトル: LLM-Grounder: Open-Vocabulary 3D Visual Grounding with Large Language Model as an Agent
https://arxiv.org/abs/2309.12311
この論文の説明です。
著者: Jianing Yang, Xuweiyi Chen, Shengyi Qian, Nikhil Madaan, Madhavan Iyengar, David F. Fouhey, Joyce Chai
専門外の人でも分かるように概要説明
この研究は、家庭用ロボットが周囲の物や場所を理解するための新しい方法についてです。具体的には、ロボットが人間の言葉で与えられた質問や命令(例:「その赤いボールを取ってきて」)にどう応じるかを考えています。
研究者たちは、「LLM-Grounder」という新しいシステムを作りました。このシステムは、大規模な言語モデル(人間の言葉を理解するAI)を使って、人間の質問や命令を理解し、それに基づいてロボットが何をすべきかを決定します。
この新しい方法のすごいところは、特別な訓練(教え込み)を必要としないことです。つまり、新しい場所や新しい物にもすぐに対応できるというわけです。
この研究によって、将来の家庭用ロボットがもっと賢く、人間の言葉で簡単に操作できるようになる可能性が高まります。
概要説明
この研究では、家庭用ロボットが環境に基づいてナビゲーションやオブジェクトの操作、質問への回答をするために重要な「3Dビジュアルグラウンディング(3D視覚的基盤付け)」のスキルに焦点を当てています。既存の手法は多くのラベル付けされたデータに依存しているか、複雑な言語クエリを処理する能力に限界があります。この研究では、LLM-Grounderという新しいゼロショット、オープンボキャブラリー、大規模言語モデル(LLM)ベースの3Dビジュアルグラウンディング手法を提案しています。この手法は、ラベル付けされた訓練データを必要とせず、新しい3Dシーンや任意のテキストクエリに一般化することができます。LLM-Grounderは、ScanReferベンチマークで評価され、ゼロショットグラウンディングの精度で最先端の結果を示しました。
深層学習教科書 ディープラーニング G検定(ジェネラリスト)公式テキスト 第2版 (EXAMPRESS) [ 一般社団法人日本ディープラーニング協会 ] 価格:3,080円 |