RowitZou commited on
Commit
a99151f
·
verified ·
1 Parent(s): f88c870

Update README_zh-CN.md

Browse files
Files changed (1) hide show
  1. README_zh-CN.md +8 -3
README_zh-CN.md CHANGED
@@ -11,7 +11,7 @@
11
 
12
 
13
  [💻 Github](https://github.com/InternLM/POLAR) |
14
- [📜 论文](https://arxiv.org/abs/xxxxxx)<br>
15
 
16
  [English](./README.md) |
17
  [简体中文](./README_zh-CN.md)
@@ -37,7 +37,7 @@ POLAR 是一个经过大规模预训练的奖励模型,在训练范式和模
37
 
38
  **POLAR-1.8B-Base** 是仅经过预训练阶段的权重,适合根据特定需求进行微调。**POLAR-1.8B** 是经过偏好微调的奖励模型,可开箱即用,适用于大部分通用场景。
39
 
40
- 我们通过 Proximal Policy Optimization(PPO)算法对 POLAR 的使用效果进行了验证,评测了四种语言模型的下游强化学习性能,评测工具是 [OpenCompass](https://github.com/internLM/OpenCompass/) 。详细信息请参阅[论文](https://arxiv.org/abs/xxxxxx)。
41
 
42
  <img src="./misc/result.png"/><br>
43
 
@@ -382,5 +382,10 @@ Reward: -7.23046875
382
  # 引用
383
 
384
  ```
385
- TBC
 
 
 
 
 
386
  ```
 
11
 
12
 
13
  [💻 Github](https://github.com/InternLM/POLAR) |
14
+ [📜 论文](https://arxiv.org/abs/2507.05197)<br>
15
 
16
  [English](./README.md) |
17
  [简体中文](./README_zh-CN.md)
 
37
 
38
  **POLAR-1.8B-Base** 是仅经过预训练阶段的权重,适合根据特定需求进行微调。**POLAR-1.8B** 是经过偏好微调的奖励模型,可开箱即用,适用于大部分通用场景。
39
 
40
+ 我们通过 Proximal Policy Optimization(PPO)算法对 POLAR 的使用效果进行了验证,评测了四种语言模型的下游强化学习性能,评测工具是 [OpenCompass](https://github.com/internLM/OpenCompass/) 。详细信息请参阅[论文](https://arxiv.org/abs/2507.05197)。
41
 
42
  <img src="./misc/result.png"/><br>
43
 
 
382
  # 引用
383
 
384
  ```
385
+ @article{dou2025pretrained,
386
+ title={Pre-Trained Policy Discriminators are General Reward Models},
387
+ author={Dou, Shihan and Liu, Shichun and Yang, Yuming and Zou, Yicheng and Zhou, Yunhua and Xing, Shuhao and Huang, Chenhao and Ge, Qiming and Song, Demin and Lv, Haijun and others},
388
+ journal={arXiv preprint arXiv:2507.05197},
389
+ year={2025}
390
+ }
391
  ```