Dalam proses pra-pelatihan, para peneliti menerapkan sistem pelatihan cold-start dengan mendorong model dasar untuk menguraikan masalah-masalah kompleks. Masalah-masalah ini berfungsi sebagai serangkaian sub-tujuan. Kemudian, bukti sub-tujuan yang terselesaikan ditambahkan ke CoT dan digabungkan dengan penalaran model dasar untuk menciptakan permulaan yang dingin bagi pembelajaran penguatan.
Khususnya, selain GitHub, model AI tersebut juga dapat diunduh dari daftar Hugging Face milik DeepSeek. Model Prover-V2 menyoroti bagaimana perubahan berulang pada proses pelatihan model AI dapat menghasilkan peningkatan kemampuan khusus secara signifikan. Mirip dengan rilis model sumber terbuka lainnya, detail tentang arsitektur inti atau kumpulan data yang lebih besar tidak diketahui.
(Rahman Asmardika)