Edit Models filters

Tasks

Text Generation

Image-Text-to-Text

Parameters

Libraries

Transformers.js

Apps

Inference Providers

Models

1,049

Full-text search

Active filters: reinforcement-learning, transformers

ajagota71/llama-3-2-1b-rlhf-kl-p5-target-2p5-lr-3e-6-checkpoint-epoch-80

Reinforcement Learning • 1B • Updated Jul 6 • 4

arianaazarbal/hacker_test_seeking_prompt_ppo

Reinforcement Learning • Updated Jul 6 • 3

ajagota71/llama-3-2-1b-rlhf-kl-p5-target-2p5-lr-3e-6-checkpoint-epoch-100

Reinforcement Learning • 1B • Updated Jul 6 • 16

ajagota71/llama-3-2-1b-rlhf-kl-p5-target-2p5-lr-3e-6

Reinforcement Learning • 1B • Updated Jul 6 • 7

mradermacher/sft_14B-GGUF

Reinforcement Learning • 15B • Updated 13 days ago • 268 • 1

mradermacher/sft_0.5B-GGUF

Reinforcement Learning • 0.5B • Updated 12 days ago • 194

mradermacher/sft_1.5B-GGUF

Reinforcement Learning • 2B • Updated 12 days ago • 181

mradermacher/sft_3B-GGUF

Reinforcement Learning • 3B • Updated 12 days ago • 181

mradermacher/Aryabhata-1.0-GGUF

Reinforcement Learning • 8B • Updated 11 days ago • 406 • 1

mradermacher/Aryabhata-1.0-i1-GGUF

Reinforcement Learning • 8B • Updated 12 days ago • 474

mradermacher/ReForm-SFT-0.5B-GGUF

Reinforcement Learning • 0.5B • Updated 13 days ago • 180

mradermacher/ReForm-SFT-3B-GGUF

Reinforcement Learning • 3B • Updated 13 days ago • 189

mradermacher/ReForm-SFT-3B-i1-GGUF

Reinforcement Learning • 3B • Updated 13 days ago • 339

mradermacher/ReForm-SFT-0.5B-i1-GGUF

Reinforcement Learning • 0.5B • Updated 13 days ago • 317

mradermacher/ReForm-14B-RL-entropy-GGUF

Reinforcement Learning • 15B • Updated 12 days ago • 172

mradermacher/ReForm-SFT-1.5B-GGUF

Reinforcement Learning • 2B • Updated 13 days ago • 162

mradermacher/ReForm-SFT-1.5B-i1-GGUF

Reinforcement Learning • 2B • Updated 13 days ago • 316

tensorblock/Nellyw888_VeriReason-codeLlama-7b-RTLCoder-Verilog-GRPO-reasoning-tb-GGUF

Reinforcement Learning • 7B • Updated 9 days ago • 134

mradermacher/EDGE-GRPO-Qwen-7B-GGUF

Reinforcement Learning • 8B • Updated 8 days ago • 412

mradermacher/EDGE-GRPO-Qwen-1.5B-GGUF

Reinforcement Learning • 2B • Updated 9 days ago • 163

mradermacher/EDGE-GRPO-Qwen-7B-i1-GGUF

Reinforcement Learning • 8B • Updated 8 days ago • 338

mradermacher/CscSQL-Merge-Qwen2.5-Coder-0.5B-Instruct-GGUF

Reinforcement Learning • 0.6B • Updated 8 days ago • 167

mradermacher/SLM-SQL-0.5B-GGUF

Reinforcement Learning • 0.6B • Updated 8 days ago • 171

mradermacher/SLM-SQL-0.6B-GGUF

Reinforcement Learning • 0.8B • Updated 8 days ago • 167

mradermacher/SLM-SQL-Base-1.5B-GGUF

Reinforcement Learning • 2B • Updated 8 days ago • 347

mradermacher/CscSQL-Merge-Qwen2.5-Coder-1.5B-Instruct-GGUF

Reinforcement Learning • 2B • Updated 8 days ago • 382

mradermacher/SLM-SQL-Base-0.6B-GGUF

Reinforcement Learning • 0.8B • Updated 8 days ago • 158

mradermacher/arc-teacher-8b-GGUF

Reinforcement Learning • 8B • Updated 6 days ago • 173

mradermacher/arc-teacher-8b-i1-GGUF

Reinforcement Learning • 8B • Updated 6 days ago • 311