2 6 1

Zhuokai Zhao

zhuokai

https://zhuokai-zhao.com/

AI & ML interests

Data-Efficient Learning, LLM Reasoning and Safety, Active Learning, Recommender System

Recent Activity

updated a model 6 days ago

zhuokai/dapo_baseline_without_dynamic_sampling_temperature_1.2_Qwen2.5-Math-1.5B_zzk

published a model 6 days ago

zhuokai/dapo_baseline_without_dynamic_sampling_temperature_1.2_Qwen2.5-Math-1.5B_zzk

updated a model 6 days ago

zhuokai/dapo_baseline_without_dynamic_sampling_temperature_1.0_Qwen2.5-Math-1.5B_zzk

View all activity

Organizations

updated a model 6 days ago

zhuokai/dapo_baseline_without_dynamic_sampling_temperature_1.2_Qwen2.5-Math-1.5B_zzk

Updated 6 days ago

published a model 6 days ago

zhuokai/dapo_baseline_without_dynamic_sampling_temperature_1.2_Qwen2.5-Math-1.5B_zzk

Updated 6 days ago

updated a model 6 days ago

zhuokai/dapo_baseline_without_dynamic_sampling_temperature_1.0_Qwen2.5-Math-1.5B_zzk

Updated 6 days ago

published a model 6 days ago

zhuokai/dapo_baseline_without_dynamic_sampling_temperature_1.0_Qwen2.5-Math-1.5B_zzk

Updated 6 days ago

updated a model 6 days ago

zhuokai/dapo_baseline_without_dynamic_sampling_temperature_0.6_Qwen2.5-Math-1.5B_zzk

Updated 6 days ago

published a model 6 days ago

zhuokai/dapo_baseline_without_dynamic_sampling_temperature_0.6_Qwen2.5-Math-1.5B_zzk

Updated 6 days ago

updated a model 6 days ago

zhuokai/as_negexp_explore_1.2_stable_0.1_decay_freq_25_warmup_period_10_negexp_Qwen2.5-Math-1.5B_zzk

Updated 6 days ago

published a model 6 days ago

zhuokai/as_negexp_explore_1.2_stable_0.1_decay_freq_25_warmup_period_10_negexp_Qwen2.5-Math-1.5B_zzk

Updated 6 days ago

updated a model 6 days ago

zhuokai/gpg_baseline_temperature_1.0_Qwen2.5-Math-1.5B_zzk

Updated 6 days ago

published a model 6 days ago

zhuokai/gpg_baseline_temperature_1.0_Qwen2.5-Math-1.5B_zzk

Updated 6 days ago

updated a model 7 days ago

zhuokai/initial_grpo_baseline_temperature_0.6_Qwen2.5-Math-1.5B_zzk

Updated 7 days ago

published a model 7 days ago

zhuokai/initial_grpo_baseline_temperature_0.6_Qwen2.5-Math-1.5B_zzk

Updated 7 days ago

updated a model 7 days ago

zhuokai/initial_grpo_baseline_temperature_1.0_Qwen2.5-Math-1.5B_zzk

Updated 7 days ago

published a model 7 days ago

zhuokai/initial_grpo_baseline_temperature_1.0_Qwen2.5-Math-1.5B_zzk

Updated 7 days ago

updated a model 7 days ago

zhuokai/initial_grpo_baseline_temperature_1.2_Qwen2.5-Math-1.5B_zzk

Updated 7 days ago

published a model 7 days ago

zhuokai/initial_grpo_baseline_temperature_1.2_Qwen2.5-Math-1.5B_zzk

Updated 7 days ago

upvoted 2 papers 3 months ago

ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs

Paper • 2506.10128 • Published Jun 11 • 23

MORSE-500: A Programmatically Controllable Video Benchmark to Stress-Test Multimodal Reasoning

Paper • 2506.05523 • Published Jun 5 • 34

New activity in meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8 5 months ago

Quantizer: Running into an error with quantization "TypeError: 'dict' object is not callable"

#24 opened 5 months ago by

AaronVogler

upvoted a paper 5 months ago

ShieldAgent: Shielding Agents via Verifiable Safety Policy Reasoning

Paper • 2503.22738 • Published Mar 26 • 17

Zhuokai Zhao

AI & ML interests

Recent Activity

Organizations

zhuokai's activity

Quantizer: Running into an error with quantization "TypeError: 'dict' object is not callable"