CMCenjoyer/llm-course-hw2-ppo
Text Generation
•
0.1B
•
Updated
•
5
Коллекция моделей для второго доманего задания. Собарны модели награды, dpo, ppo. Обучение было на локальной карте