Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Netz T80 überholt T78
- - By Lothar Jung Date 2022-11-15 07:22 Upvotes 2
Hier der Test auf Discord:

**Alt_Sufi_23** (Games 80/100) 
<https://www.twitch.tv/navratil25>

**T78 v T80**

**T80 takes the lead**

```   # PLAYER                            :  RATING  ERROR  POINTS  PLAYED   (%)  CFS(%)    W    D    L  D(%)

   2 LCZero 0.30-dag-9a9c42d_805992    :     -52     42    34.5      80  43.1     ---    6   57   17  71.3
   3 LCZero 0.30-dag-9a9c42d_784968    :     -62     43    33.5      80  41.9     ---    6   55   19  68.8```

**Median SPEEDS**  (SF 99.52% the same)
```Name                                   Games    Depth         NPS        
------------------------------------------------------------------------
LCZero 0.30-dag-9a9c42d_784968     :      80     32           54815
LCZero 0.30-dag-9a9c42d_T805992    :      80     30           67332
NAVS: Stockfish dev16_20221027     :      80     53        63210542  
TCEC: Stockfish dev16_20221027     :      80     51        62909054```

**Stockfish average NPS - First move out of book** (SF98.80 the same)
```NAVS:  50.83125
TCEC:  50.22375```
Parent - - By Peter Martan Date 2022-11-16 13:44 Edited 2022-11-16 13:56
Tatsächlich auch mal wieder ein Fortschritt im Stellungstest mehr oder weniger nachweisbar.

5"/Stellung der 256

https://www.dropbox.com/s/lpg29zoyvh03dza/256.epd?dl=0

, 30 Threads der 16x3.5GHz CPU für A-B (MV4 heißt MultiPV=4) , 2 für lc0+3070ti GPU:

    Program                                    Elo   +/-  Matches  Score   Av.Op.   S.Pos.   MST1    MST2   RIndex

  1 HypnoSFmpv210922-Set1-ImbInv             : 3556    4   5332    58.7 %   3495   206/256    1.8s    2.4s   0.74
  2 Crystal5KWK-MV4                          : 3549    4   5224    57.7 %   3495   196/256    1.7s    2.5s   0.71
  3 BlueMarlin15.3-MV4                       : 3548    4   5100    57.6 %   3495   192/256    1.7s    2.5s   0.73
  4 ShashChess25.4-MV4                       : 3548    4   5138    57.6 %   3495   193/256    1.7s    2.5s   0.74
  5 ShashChess26-GoldDigger-MV4              : 3547    4   5159    57.5 %   3495   195/256    1.8s    2.5s   0.72
  6 BlueMarlin15.4-avx2-MV4                  : 3547    4   5027    57.4 %   3495   189/256    1.6s    2.5s   0.74
  7 CorChess3300522-MV4                      : 3541    4   5042    56.5 %   3496   189/256    1.8s    2.6s   0.68
  8 ShashChess25.3-GoldDigger                : 3538    4   4990    56.0 %   3496   188/256    1.9s    2.7s   0.69
  9 EMAN8.40-Tact.7-Expl.12-MV4              : 3537    4   4937    56.0 %   3496   183/256    1.7s    2.7s   0.70
10 Stockfish110922-MV4                       : 3534    4   4887    55.4 %   3496   178/256    1.7s    2.7s   0.69
11 Stockfish231022-MV4                       : 3533    4   4896    55.2 %   3496   180/256    1.8s    2.8s   0.68
12 EMAN8.30-MV4                              : 3531    4   4818    54.9 %   3496   178/256    1.8s    2.8s   0.66
13 Stockfish110922                           : 3517    4   4733    52.7 %   3498   160/256    1.7s    2.9s   0.64
14 Dragon3.1byKomodoChess-MV4                : 3506    4   4665    50.9 %   3499   152/256    1.8s    3.1s   0.57
15 Berserk10-MV4                             : 3474    5   4350    45.9 %   3503   124/256    1.8s    3.4s   0.48
16 Lc0v0.29.0-rc0-805992                     : 3462    5   4353    43.7 %   3506   113/256    1.8s    3.6s   0.41
17 Koivisto8.16                              : 3462    5   4308    43.9 %   3504   113/256    1.8s    3.6s   0.43
18 Ceres0.97RC3-784990                       : 3461    5   4389    43.5 %   3506   112/256    1.9s    3.6s   0.36
19 TheHuntsman1bmi2-MV4                      : 3460    5   4618    43.9 %   3503   109/256    1.6s    3.6s   0.33
20 Lc0v0.29.0-rc0-805874                     : 3458    5   4327    43.1 %   3507   109/256    1.7s    3.6s   0.39
21 RubiChess20220813(avx2)                   : 3457    5   4273    43.3 %   3505   112/256    1.9s    3.6s   0.38
22 Lc0v0.29.0-rc0-784968                     : 3441    5   4275    40.5 %   3508    96/256    1.9s    3.8s   0.32
23 RubiChess20220813-MV4                     : 3426    5   4145    38.6 %   3506    92/256    2.2s    4.0s   0.27
24 Lc0v0.30.0-dag+git.c91bf77-784968         : 3425    5   4140    38.2 %   3509    86/256    1.9s    3.9s   0.30
25 PowerFritz18-MV4                          : 3423    5   4116    38.1 %   3507    97/256    2.5s    4.1s   0.26
26 Halogen11-MV4                             : 3415    5   4022    36.9 %   3508    93/256    2.5s    4.1s   0.24

MST1  : Mean solution time (solved positions only)
MST2  : Mean solution time (solved and unsolved positions)
RIndex: Score according to solution time ranking for each position


Fortschritt vom 805992 (Nr.16) zum 805874 (Nr.20) knapp innerhalb der error bar, aber immerhin, zum 78er- Netz von TCEC doch schon deutlicher, das lief allerdings damals noch auf der dag- Version der Engine.
Parent - - By Lothar Jung Date 2022-11-20 10:14 Edited 2022-11-20 10:22
Hier ein aktueller Test zwischen den Netzen, mit einer schachlichen Einschätzung:

**Alt_Sufi_23** FINAL RESULT - Games 100/100
<https://www.twitch.tv/navratil25>

**T78 v T80**

**T80 wins the challenge by  +6 score**

```   # PLAYER                            :  RATING  ERROR  POINTS  PLAYED   (%)  CFS(%)    W    D    L  D(%)

   2 LCZero 0.30-dag-9a9c42d_805992    :     -42     39    44.5     100  44.5     ---   11   67   22  67.0
   3 LCZero 0.30-dag-9a9c42d_784968    :     -68     43    41.5     100  41.5     ---   10   63   27  63.0```

**Median SPEEDS**  (SF 99.69% the same)
```Name                                   Games    Depth         NPS        
------------------------------------------------------------------------
LCZero 0.30-dag-9a9c42d_805992     :      100     30           67255
LCZero 0.30-dag-9a9c42d_784968     :      100     31           54863
NAVS: Stockfish dev16_20221027     :      100     53        63635642  
TCEC: Stockfish dev16_20221027     :      100     50        63436694```

**Stockfish Average NPS - All first moves out of book** (SF 99.06 the same)
```NAVS:  50.691 Mnps
TCEC:  50.218 Mnps
```
**COMMENTS**
1) T80 did better in the 2nd half - where the exit from book evaluations were higher.
2) **SPEEDS** - both the median nps (All moves from all games) was above 99.69% the same as TCEC
                            - Likewise the Average of all the first moves out of book for SF was the same at 99.06%
Hence, I think the setup was as accurate as could reasonably be attained.

**NOTES** Regarding the SubFi
a) A different binary to the SuFi and Alt-Sufi is being used - namely dag-9f9d949 (I would therefore expect this to be better than at the SuFi's)
b) Different settings are being used (WHY?)
     My thoughts with all due respect are that the higher CPUCT and Temp and changed SPF are untested at VLTC.

Anyway, its early days at the SubFi - but I would certainly expect Lc0 to do better against Dragon than what was achieved against SF.

Hier kommt man mit einem anderen T80-Netz zu einem umgekehrten Ergebnis:

**Match:** 784968 vs 806322
**LC0 version:** dag-master 9f9d9490
**Network:** t80=806322, t78=784968
**LC0 options:**--minibatch-size=192, different tuned search params for t78 and t80 (see attachment)
**Hardware:** 3990X 3.6 GHz, 2x RTX 4090
**Software:** Cutechess GUI
**Time control:** 5 min + 2.5s
**Book:** TCEC SuFi 23
**Tablebase:** 6 men Syzygy
**Adjudication:** -draw movenumber=40 movecount=3 score=10 -resign movecount=2 score=700
**Ordo:** Book has some black advantage exits so results are pre-processed before running Ordo (logic: if sum of first exit evals in the two games of a pair is <0, results are mirrored). -a 0 -A lc0-t78
**Comment:** These conditions are very close to TCEC Nps

```
lc0-t78 : Won Pairs : 12 | Double kills : 0 | Drawn Pairs : 32 | Lost Pairs : 6 | Double toast : 0

   # PLAYER     :  RATING  ERROR  POINTS  PLAYED   (%)  CFS(%)
   1 lc0-t78    :     0.0   ----    53.0     100    53      90
   2 lc0-t80    :   -23.5   35.6    47.0     100    47     ---

White advantage = 116.74 +/- 18.14
Draw rate (equal opponents) = 99.96 % +/- 0.68
```
Parent - - By Max Siegfried Date 2022-11-20 10:53
Das größere Netz sollte bei ausreichend starker Hardware besser sein.
2x RTX 4090 sind nicht zu unterschätzen.

7-Steiner sollten trotzdem vorhanden sein. Aber es sind leider nur 6-Steiner.
Die Verwendung sollte bei LC0 einen größeren Unterschied machen.

Auf Talkchess hat neuerdings Stockfish gegen T78 und T80 gewonnen.
Dabei kam T78 regelrecht unter die Räder, während T80 gut gegen Stockfish mithalten konnte und offensichtlich besser war als T78.

Vielleicht werde ich später ein Turnier mit BanksiaGUI probieren, dann kann ich über meine Ergebnisse berichten.
Parent - - By Volker Göbel Date 2022-11-20 11:05
Mit 2x RTX 4090?
Parent - - By Max Siegfried Date 2022-11-20 11:09
Volker Göbel schrieb:

Mit 2x RTX 4090?


**Match:** 784968 vs 806322
**LC0 version:** dag-master 9f9d9490
**Network:** t80=806322, t78=784968
**LC0 options:**--minibatch-size=192, different tuned search params for t78 and t80 (see attachment)
**Hardware:** 3990X 3.6 GHz, 2x RTX 4090
**Software:** Cutechess GUI
**Time control:** 5 min + 2.5s
**Book:** TCEC SuFi 23
**Tablebase:** 6 men Syzygy
**Adjudication:** -draw movenumber=40 movecount=3 score=10 -resign movecount=2 score=700
**Ordo:** Book has some black advantage exits so results are pre-processed before running Ordo (logic: if sum of first exit evals in the two games of a pair is <0, results are mirrored). -a 0 -A lc0-t78
**Comment:** These conditions are very close to TCEC Nps
Parent - By Reinhold Stibi Date 2022-11-20 11:48 Edited 2022-11-20 11:51 Upvotes 2
Es wäre schön wenn Lc0 eine spürbare Verbesserung mit dem 80er Netz gelingen könnte.

Da dieses Netz ja relativ neu ist könnte noch Potential für weitere Verbesserungen vorhanden sein.

Eine RTX 3070 Ti müsste für gute Ergebnisse genügen. Darüber scheinen mir die Kosten
für eine Anschaffung und den Stromverbrauch zu hoch zu sein.
Parent - - By Jörg Oster Date 2022-11-20 12:55
Es ist schon sehr bezeichnend, dass immer noch anhand von so wenigen Partien
Rückschlüsse auf die Stärke eines Netzes gezogen werden.
Parent - - By Lothar Jung Date 2022-11-20 21:16 Upvotes 1
Ich habe über Tests berichtet, wo einmal T80 und einmal T78 die meisten Spiele gewonnen hat.
Das 100 Partien nichts aussagen, ist offensichtlich.
Eine Belehrung ist obsolet.
Parent - By Rainer Neuhäusler Date 2022-11-20 23:09
Lothar Jung schrieb:

Ich habe über Tests berichtet, wo einmal T80 und einmal T78 die meisten Spiele gewonnen hat.
Das 100 Partien nichts aussagen, ist offensichtlich.
Eine Belehrung ist obsolet.

Vielleicht hilft es, wenn der Referent selbst unverfänglich darauf hinweist, dass die Resultate, - wie ja jeder sehen kann -, von einer Signifikanz weit entfernt sind 
.
Parent - By Rainer Neuhäusler Date 2022-11-20 23:31
Jörg Oster schrieb:

Es ist schon sehr bezeichnend, dass immer noch anhand von so wenigen Partien
Rückschlüsse auf die Stärke eines Netzes gezogen werden.

Ja, an was liegt das? Auf dem Smartphone passen vielleicht nur die Rangplätze und die Elozahlen drauf. Falls tatsächlich die Spalte mit den Konfidenzintervallen realisiert wird, schaffen es bestimmt viele die Error Bars zu addieren bzw. zu subtrahieren. Bei den bekannten Engine-Ranglisten steht ja sogar sichtbar  "+" und "-" drüber. Aber die notwendige statistische Schlußfolgerung stellt sich irgendwie nicht ein, es fehlt die Evidenz der Signifikanz. Bei den Ranglisten bleibt man dann doch lieber bei der ersten Spalte, denn die zeigt ja schließlich ganz eindeutig, wie sich die Engines der Elozahl nach aufreihen. 

Statistik Workshop! Auch den Erste-Hilfe-Kurs sollte man öfter wiederholen
.
Up Topic Hauptforen / CSS-Forum / Netz T80 überholt T78

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill