====== Perplexity statistics ======
Mean PPL(Q)                   :   6.664819 ±   0.045809
Mean PPL(base)                :   6.180577 ±   0.041038
Cor(ln(PPL(Q)), ln(PPL(base))):  97.93%
Mean ln(PPL(Q)/PPL(base))     :   0.075431 ±   0.001393
Mean PPL(Q)/PPL(base)         :   1.078349 ±   0.001502
Mean PPL(Q)-PPL(base)         :   0.484241 ±   0.010023

====== KL divergence statistics ======
Mean    KLD:   0.089022 ±   0.000546
Maximum KLD:  10.665466
99.9%   KLD:   2.599383
99.0%   KLD:   0.878372
99.0%   KLD:   0.878372
Median  KLD:   0.035028
10.0%   KLD:   0.000741
 5.0%   KLD:   0.000266
 1.0%   KLD:   0.000058
Minimum KLD:  -0.000048

====== Token probability statistics ======
Mean    Δp: -0.420 ± 0.023 %
Maximum Δp: 99.020%
99.9%   Δp: 48.121%
99.0%   Δp: 24.234%
95.0%   Δp: 11.472%
90.0%   Δp:  6.624%
75.0%   Δp:  1.272%
Median  Δp: -0.009%
25.0%   Δp: -1.437%
10.0%   Δp: -7.276%
 5.0%   Δp: -13.105%
 1.0%   Δp: -32.700%
 0.1%   Δp: -74.223%
Minimum Δp: -99.724%
RMS Δp    :  8.997 ± 0.054 %
Same top p: 88.025 ± 0.083 %