OpenAIがオープンソースでリリースした推論モデル「gpt-oss-20b」を、強化学習(GRPO)で2048ゲームをプレイできるようにファインチューニングします。40GB VRAM向けに最適化した高速・高精度な設定で実行します。 学習したモデルとログを保存するため、Google ...