Amazon Bedrock Model Distillation
概要
Amazon Bedrock Model Distillation では、さらに小規模かつ高速で、費用対効果の高いモデルを使用して、Amazon Bedrock の最も高度なモデルに匹敵するユースケース固有の精度を実現できます。 Amazon Bedrock の蒸留モデルは、元のモデルよりも最大 500% 高速で、最大 75% 安価で、RAG などのユースケースでの精度の低下は 2% 未満です。
より小さく、より費用対効果の高いモデルを活用
Model Distillation を使用すると、顧客はユースケースに合った精度を達成したい「教師」モデルを選択し、次にファインチューニングしたい「学生」モデルを選択できます。また、お客様はユースケースのプロンプトも提供します。Model Distillation は、教師からの回答を生成し、その回答を使用して学生モデルをファインチューニングするプロセスを自動化します。そうすれば、学生モデルも同様の精度で教師モデルのように動作し、コストも削減できます。Model Distillation は、Amazon Nova Premier (教師) と Nova Pro (生徒)、Claude 3.5 Sonnet v2 (教師)、Llama 3.3 70B (教師)、Llama 3.2 1B/3B (生徒) など、さまざまなモデルプロバイダーのさまざまなモデルをサポートしています。

独自のデータ合成で抽出モデルのパフォーマンスを最大化
小規模でコスト効率の高いモデルをファインチューニングして、特定のユースケースに合わせて大規模モデルと同等の精度を実現するには、反復プロセスが必要です。より良い結果を得るために必要なイテレーションの負担をいくらか取り除くために、Model Distillation はユースケースに最も適したさまざまなデータ合成方法を適用することを選択することがあります。例えば、Bedrock では、同様のプロンプトを生成してトレーニングデータセットを拡張したり、顧客が提供したプロンプトとレスポンスのペアをゴールデンサンプルとして使用して高品質の合成応答を生成したりすることがあります。

生産データを簡単に持ち込むことでコストを削減
従来の微調整では、お客様はプロンプトとレスポンスを作成する必要がありました。Model Distillation では、顧客はプロンプトを入力するだけでよく、Model Distilation はそれを使用して合成応答を生成し、学生モデルをファインチューニングします。お客様は呼び出しログに誘導したり、特定のメタデータフィールドに基づいてログをフィルタリングしたりできます。Model Distillation では、呼び出しログを介してプロンプトとレスポンスの両方を読み取ることができ、Model Distillation ワークフローでの合成応答の生成をスキップできます。これにより、教師モデルから応答を再度生成する必要がなくなるため、コストが削減されます。コードサンプルから始めましょう。

エージェントのブースト関数呼び出し予測精度
エージェント関数呼び出しは現代の AI アプリケーションにとって重要な機能であり、特定の関数をいつどのように呼び出すかを正確に判断することで、モデルが外部ツール、データベース、API と対話できるようにします。大規模なモデルは通常、呼び出す適切な関数を特定し、適切なパラメータを構築するのに長けていますが、通常、コストとレイテンシーが高くなります。Amazon Bedrock Model Distillation を使用すると、小規模なモデルでも関数呼び出しを正確に予測できるようになり、応答時間を大幅に短縮し、運用コストを削減できます。