Wenqi Zhang's picture

Wenqi Zhang

zwq2018

·

zwq2018

AI & ML interests

LLM, Multimodal, Robotics

Recent Activity

upvoted a paper 14 days ago

GR-3 Technical Report

upvoted a paper 14 days ago

LAPO: Internalizing Reasoning Efficiency via Length-Adaptive Policy Optimization

upvoted a paper 14 days ago

MiroMind-M1: An Open-Source Advancement in Mathematical Reasoning via Context-Aware Multi-Stage Policy Optimization

View all activity

Organizations

upvoted 4 papers 14 days ago

GR-3 Technical Report

Paper • 2507.15493 • Published 15 days ago • 44

LAPO: Internalizing Reasoning Efficiency via Length-Adaptive Policy Optimization

Paper • 2507.15758 • Published 15 days ago • 34

MiroMind-M1: An Open-Source Advancement in Mathematical Reasoning via Context-Aware Multi-Stage Policy Optimization

Paper • 2507.14683 • Published 17 days ago • 122

GUI-G^2: Gaussian Reward Modeling for GUI Grounding

Paper • 2507.15846 • Published 14 days ago • 126

upvoted a paper about 2 months ago

AR-RAG: Autoregressive Retrieval Augmentation for Image Generation

Paper • 2506.06962 • Published Jun 8 • 29

upvoted 3 papers 2 months ago

TimeHC-RL: Temporal-aware Hierarchical Cognitive Reinforcement Learning for Enhancing LLMs' Social Intelligence

Paper • 2505.24500 • Published May 30 • 12

SVGenius: Benchmarking LLMs in SVG Understanding, Editing and Generation

Paper • 2506.03139 • Published Jun 3 • 15

Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning

Paper • 2506.01939 • Published Jun 2 • 176

liked 2 datasets 2 months ago

lidingm/ViewSpatial-Bench

Viewer • Updated May 28 • 5.71k • 139 • 15

ZJU-REAL/VerifyBench

Viewer • Updated Jun 9 • 3k • 146 • 16

upvoted 2 papers 2 months ago

VerifyBench: Benchmarking Reference-based Reward Systems for Large Language Models

Paper • 2505.15801 • Published May 21 • 17

Let LLMs Break Free from Overthinking via Self-Braking Tuning

Paper • 2505.14604 • Published May 20 • 23

liked 3 models 2 months ago

zjuxhl/Qwen2.5Math1.5B-NuminaMath-bridge

2B • Updated May 22 • 3 • 3

zjuxhl/Qwen2.5Math1.5B-NuminaMath-GRPO

2B • Updated May 22 • 3 • 3

zjuxhl/Qwen2.5Math1.5B-NuminaMath

2B • Updated May 22 • 3 • 3

upvoted a paper 2 months ago

Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning

Paper • 2505.14684 • Published May 20 • 23

upvoted 4 papers 3 months ago

Thinkless: LLM Learns When to Think

Paper • 2505.13379 • Published May 19 • 51

AdaptThink: Reasoning Models Can Learn When to Think

Paper • 2505.13417 • Published May 19 • 82

AdaCoT: Pareto-Optimal Adaptive Chain-of-Thought Triggering via Reinforcement Learning

Paper • 2505.11896 • Published May 17 • 58

Chain-of-Model Learning for Language Model

Paper • 2505.11820 • Published May 17 • 121