Описание

Следовало дообучить базовую модель с помощью самописной реализации LoRA

Детали

Морозились все слои кроме слоев лоры Параметры Лоры - r=8, alpha=16, target_submodules=["k_proj", "v_proj"] Гиперпараметры самые удачные - BATCH_SIZE = 16

LEARNING_RATE = 3e-4

NUM_EPOCHS = 1 И бралось всего 30к из тренировочной выборки

Метрики

Удалось достичь Validation F1: 0.35012584001260394 На тесте же

image/png

P.S.

Слишком много рандома, почти всегда вначале были метрики 0 и плохая генерация при рестарте с теми же параметрами выходили метрики сильно лучше.

Downloads last month
7
Safetensors
Model size
300M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for CMCenjoyer/llm-course-hw3-lora

Finetuned
(32)
this model

Dataset used to train CMCenjoyer/llm-course-hw3-lora

Collection including CMCenjoyer/llm-course-hw3-lora