Neue Lc0-Version soll 20 Elo stärker sein

By Stefan Pohl Date 2024-07-24 05:56 Edited 2024-07-24 06:51 Upvotes 2

Lothar Jung schrieb:

We've recently gained 20 elo through a new correction history, altering puct based on the position's uncertainty, decaying policy on moves where the policy is low, and making the 50-move rule buckets finer: <a class='ura' href='https://bench.plutie.ca/test/135/.'>https://bench.plutie.ca/test/135/.</a> The update branch at <a class='ura' href='https://github.com/Ergodice/lc0/tree/update'>https://github.com/Ergodice/lc0/tree/update</a> has all the elo gaining features enabled by default.

Naja, +18.3 (UHO-)Celo bei 8.0+0.08s Threads=2, also Bullet-Speed und das Ganze als Selftest, also nicht gegen andere Gegner. Beides (Bulletspeed, nur Selftest) speizt Ergebnisse. Will sagen, in einem Ranglistentest dürften diese +18.3 Celo sich ganz schnell (fast) in Luft auflösen - so mühsam sich Lc0 auf GPU in Ranglisten testen läßt, ist es hier kaum möglich, überhaupt so viele Partien zu spielen, um die +5 oder +7 Celo, die in einem Ranglistentest (vielleicht) übrigbleiben, aus der Errorbar zu bekommen. Und im TCEC merkt man von diesen +18.3 Bulletspeed-Selftest-Celos sowieso gar nichts.
Insofern besteht keinerlei Anlaß für Euphorie. Leider nicht. Im TCEC hat es sich ja in dieser Season nicht mal ausgewirkt, daß Stockfish nur mit 50% Geschwindigkeit lief. Und das wären in einem Bulletspeed-Selftest sicher mehr als 18 Celo Differenz zum 100%-Speed-Stockfish.

Aber ich mache mal einen Testrun mit dem bei mir bisher stärksten BT4-Netz (BT4-6077500) und der neuen Binary. Mal schauen, was passiert.

By Lothar Jung Date 2024-07-24 08:10 Upvotes 1

Ich schrieb ja „soll“.
Gleichwohl hier die neue Engine: https://ci.appveyor.com/project/Ergodice/lc0/builds/50260882/job/l6l0o3n5v6dqdowy/artifacts

By Stefan Pohl Date 2024-07-24 08:41 Upvotes 1

Lothar Jung schrieb:

Ich schrieb ja „soll“.
Gleichwohl hier die neue Engine: <a class='ura' href='https://ci.appveyor.com/project/Ergodice/lc0/builds/50260882/job/l6l0o3n5v6dqdowy/artifacts'>https://ci.appveyor.com/project/Ergodice/lc0/builds/50260882/job/l6l0o3n5v6dqdowy/artifacts</a>

Die Version ist auch schon nicht mehr aktuell. Die aktuelle habe ich auf meiner Website verlinkt.
https://ci.appveyor.com/project/Ergodice/lc0

By Lothar Jung Date 2024-07-24 08:46

OK, 6 Stunden „alt“.

By Peter Martan Date 2024-07-24 09:02 Edited 2024-07-24 09:31

Da werden bald noch ein paar mehr kommen, wenn's wirklich was Neues ist. Ich hab von Daniel Monroe, der die Ankündigung auf disord gebracht hat, heute nachts noch dieselbe .exe verlinkt bekommen, die Lothar gepostet hat (die Artifacts von deinem Link sind ja auch von ihm). Danke für deinen Test- Run.

By Peter Martan Date 2024-07-25 08:29 Edited 2024-07-25 09:18

Im Stellungstest doch für eine kleine Steigerung, dass man überhaupt aus der error bar kommt, ist schon eher selten bei den stärksten heutzutage. Auch hier nicht zu allen Vorversionen der Fall, aber insgesamt zu den beiden, die ich auch in der Liste habe, doch eher mehr als zuletzt.


    Program                                    Elo   +/-  Matches  Score   Av.Op.   S.Pos.   MST1    MST2   RIndex

  1 Sun15MPV-21-4-200                        : 3540    5   2991    56.1 %   3498   102/128    5.1s   10.2s   0.65
  2 ShashChess34.6-MuPV4                     : 3540    5   3070    56.0 %   3498    99/128    4.0s    9.9s   0.65
  
 16 Stockfishdev-20240709-MuPV4               : 3495    5   2818    49.1 %   3501    84/128    4.9s   13.5s   0.55
 
 19 Lc0v0.32.0-dag+git.4cfe7426-MuPV4         : 3490    6   3012    48.4 %   3501    85/128    7.2s   14.9s   0.49

 21 Lc0v0.31.0-dag+git.020beb78-MuPV4         : 3486    6   2995    47.8 %   3501    85/128    7.4s   15.0s   0.46

 23 Lc0v0.31.0-dag+git.020beb78-6147500       : 3475    6   2918    46.1 %   3502    77/128    6.5s   15.9s   0.45
 
 25 Lc0v0.31.0                                : 3472    7   2853    45.6 %   3502    75/128    5.6s   15.7s   0.45
 26 Lc0v0.32.0-dag+git.4cfe7426-6147500       : 3463    7   2824    44.2 %   3503    69/128    4.6s   16.3s   0.44
 27 Berserk13-MuPV4                           : 3445    6   2821    41.7 %   3503    70/128    6.3s   17.0s   0.34

 29 Dragon3.3byKomodoChess-MuPV4              : 3394    7   2677    34.5 %   3505    53/128    7.5s   20.7s   0.26

MST1  : Mean solution time (solved positions only)
MST2  : Mean solution time (solved and unsolved positions)
RIndex: Score according to solution time ranking for each position

Sun außer Konkurrenz, weil das Setting des internen MultiPV-Modus an Suite und Hardware- TC angepasst ist an Depth, Zahl der primaries und Score, das v0.31.0-dag+git.020beb78- Compile, von dem Stefan Pohl den Link gebracht hat, legt nur im MultiPV=4- Modus weniger zu als das 0.32- Compile vom April, v0.31 ist das offizielle 0.31- Release. Das Netz war bei mir bei allen runs das auch im TCEC immer noch verwendete BT4 6147500, die Stellungen sind noch die von hier mit minimalen Veränderungen und hauptsächlich MEA- Punkte betreffend, die ja im EloStatTS keine Rolle spielen

https://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=169039#pid169039

TC 30"/pos, Lc0 auf der 3070ti GPU mit 2 CPU- Threads, die A-B-Engines mit 30 der 16x3.5GHz Ryzen.

Das alles wäre noch nichts Besonderes, wenn nicht auch die anderen Suiten für kürzere TC in EloStatTS und MEA, die ich noch probiert habe, auch in dieselbe Richtung gingen, am deutlichsten hier, das kommt sogar aus der error bar, die bei der Suite und Hardware- TC bei ca. 1.5% der Total Rate liegt. Noch dazu muss man beachten, dass das Max Score der Suite zwischen den jüngsten runs und denen von Dragon und dem 0.32- Compile vom April um 200 Punkte weniger geworden ist (36815 damals zu 36615 jetzt), in der Spalte Hash steht bei Lc0 der NN-Cache.

    EPD  : 1111.epd
    Time : ms
                                                Max   Total   Time   Hash          
    Engine           Score   Found  Pos   ELO  Score   Rate    ms     Mb  Cpu      
 1  HypnoSIccf2206    29389    981  1111  3613  36615  80.3%   1000    32    4
 2  CorChess0606      29256    984  1111  3595  36615  79.9%   1000    32    4
 3  Stockfish0612     27943    961  1111  3433  36615  76.3%   1000    32    4
 
 6  Stockfish0709     27439    948  1111  3370  36615  74.9%   1000    32    4
 7  Lc0.31Jul24-TCEC  27401    941  1111  3366  36615  74.8%   1000   100    2

10  Lc0.32-6147500   26786    927  1111  3276  36815  72.8%   1000   100    2
11  Lc0.31-6147500   26686    924  1111  3280  36615  72.9%   1000   100    2
12  Dragon3.3        24568    898  1111  3001  36815  66.7%   1000    32    4

Bin schon gespannt, ob Stefan Pohl vielleicht doch auch einen Zuwachs sehen wird.