alon-albalak (Alon Albalak)

authored 2 papers 3 months ago

OpenThoughts: Data Recipes for Reasoning Models

Paper • 2506.04178 • Published Jun 4 • 47

The Common Pile v0.1: An 8TB Dataset of Public Domain and Openly Licensed Text

Paper • 2506.05209 • Published Jun 5 • 46

authored a paper 7 months ago

Big-Math: A Large-Scale, High-Quality Math Dataset for Reinforcement Learning in Language Models

Paper • 2502.17387 • Published Feb 24 • 6

authored a paper 8 months ago

Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though

Paper • 2501.04682 • Published Jan 8 • 99

authored a paper 9 months ago

Surveying the Effects of Quality, Diversity, and Complexity in Synthetic Data From Large Language Models

Paper • 2412.02980 • Published Dec 4, 2024 • 15

authored a paper 11 months ago

Generative Reward Models

Paper • 2410.12832 • Published Oct 2, 2024 • 7

authored 3 papers about 1 year ago

Logic-LM: Empowering Large Language Models with Symbolic Solvers for Faithful Logical Reasoning

Paper • 2305.12295 • Published May 20, 2023 • 1

The Responsible Foundation Model Development Cheatsheet: A Review of Tools & Resources

Paper • 2406.16746 • Published Jun 24, 2024

DataComp-LM: In search of the next generation of training sets for language models

Paper • 2406.11794 • Published Jun 17, 2024 • 55

authored 4 papers over 1 year ago

authored a paper over 2 years ago

RWKV: Reinventing RNNs for the Transformer Era

Paper • 2305.13048 • Published May 22, 2023 • 19

Alon Albalak

AI & ML interests

Organizations