解説する論文
タイトル: Splitwise: Efficient Generative LLM Inference Using Phase Splitting
著者: Pratyush Patel, Esha Choukse, Chaojie Zhang, Íñigo Goiri, Aashaka Shah, Saeed Maleki, Ricardo Bianchini
論文のURL: https://arxiv.org/pdf/2311.18677.pdf
論文発表日: 2023年11月
専門外の人でも分かる解説:
この論文は、大型言語モデル(LLM)に基づく生成型応答の効率的な推論方式を提案しています。LLMの応答生成プロセスは、入力文の入力処理フェーズと、応答文生成のトークン生成フェーズに分けられます。この論文では、これら2つのフェーズを専用のハードウェアに分散処理するSplitwise方式を提案しています。この方式により、各フェーズに最適なハードウェアを利用でき、全体の処理効率を上げられるとしています。
要約:
この論文では、大型LLMの推論要求を構成する2つのフェーズである入力処理フェーズとトークン生成フェーズを分離し、それぞれ異なるハードウェアに処理を割り当てるSplitwiseと呼ばれる技術を提案しています。この技術を用いてコスト、スループット、パワーの観点から最適化されたLLM推論クラスタを設計し、既存方式と比較した評価結果を示しています。
この論文の新しい点:
LLM推論要求を構成する2つの異なる性質を持つ計算フェーズを分離し、各フェーズに最適なハードウェアを利用するSplitwise方式が新しい提案です。
課題点:
Splitwise方式でのフェーズ間のデータ移動オーバーヘッドの影響が十分検討されていない可能性があります。また、実際のクラウド環境での運用性とかかるコストも理論レベルであり、実証実験のデータが必要な部分があるかもしれません。
深層学習教科書 ディープラーニング G検定(ジェネラリスト)公式テキスト 第2版 (EXAMPRESS) [ 一般社団法人日本ディープラーニング協会 ] 価格:3,080円 |