LLMは「蒸留(distillation;ディスティレーション)」と呼ばれるプロセスをつうじて、ほかのモデルを訓練するためのデータセットを生成できる。このプロセスでは、「生徒」モデルが「教師」モデルの出力を模倣するように学習する。この過程は、LLMの低コスト版を作成する目的で利用されることがあるが、教師モデルのどの特性が生徒モデルに伝達されるかは不明である。