論文解説 LLMでDLの性能を予測するモデルを構築

要約

タイトル: LLM Performance Predictors are good initializers for Architecture Search

著者: Ganesh Jawahar, Muhammad Abdul-Mageed, Laks V. S. Lakshmanan, Dujian Ding

論文のURL: https://arxiv.org/abs/2310.16712

この論文の解説です。

論文発表日: 25 Oct 2023

専門外の人でも分かるような説明

この研究は、大規模な言語モデル（LLMs）を使用して、特定のディープニューラルネットワークのアーキテクチャの性能を予測するモデルを構築する方法を探求しています。これらの予測モデルは、新しいアーキテクチャを探索する際の初期化として役立つことが示されています。

要約

大規模な言語モデル（LLMs）は、多くのNLPタスクを解決するための重要なコンポーネントとなっています。この研究では、LLMsを使用して性能予測器（PP）を構築する新しい使用例を探求しています。これは、特定のディープニューラルネットワークアーキテクチャが与えられたとき、その下流タスクでの性能を予測するモデルです。機械翻訳（MT）タスクにおいて、GPT-4を使用したPPプロンプト（LLM-PP）は、アーキテクチャの性能を予測することができ、その平均絶対誤差は最先端のものと一致しています。さらに、LLM-PPからの予測を小さな回帰モデル（LLM-Distill-PP）に蒸留することができます。特に、ニューラルアーキテクチャ検索（NAS）のために、初期の検索部分にLLM-Distill-PPを使用し、残りの検索にはベースライン予測器を使用するHS-NASというアルゴリズムを提案しています。HS-NASは、ベンチマーク全体で最先端のNASと非常に類似した性能を持ち、検索時間を約50%削減し、一部のケースでは、遅延、GFLOPs、モデルサイズを改善することが示されています。