GRPO とは? : DeepSeek-R1で採用された16GBで10億パラメータモデルをファインチューニングする技術
GRPO (Group Relative Policy Optimization) は、従来の強化学習手法PPOを改良し、価値モデルを不要にすることで計算効率を大幅に向上させた新しいアルゴリズムです。DeepSeek-R1で採用され、16GBのVRAMでも10億パラメータモデルのファインチューニングを可能にしました。本記事では、GRPOの仕組み、PPOとの違い、そしてDeepSeek-R1での具体的な活用事例を詳細に解説します。