Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / S22 League 3
- - By Benno Hartwig Date 2022-02-13 18:56 Edited 2022-02-13 19:06
Inzwischen hat jetzt S22 League 3 begonnen.
Hier wird es dann auch nur 2 Aufsteiger gegeben.
Und ich glaube, es wird Berserk auch schon ganz schön kämpfen müssen (und vielleicht auch etwas Glück brauchen), um hier weiterzukommen.
Parent - By dkappe Date 2022-02-13 19:10 Upvotes 1
Seer hat ganz schön zugelegt.
Parent - - By Peter Martan Date 2022-02-15 09:37 Edited 2022-02-15 09:41
Berserk kämpft wacker weiter mit.
Was man aber daran, dass es auch jetzt schon wieder ein reiner 3 bis 4Kampf ist, (go Tucano, go!) deutlich sieht: die vielen Vorrunden und Unterligas verhindern nicht, dass man selbst in der jetzt schon erreichten L3 immer noch viel Kanonenfutter drin hat.
Lauter interessante Engines, aber halt im Vergleich mit den besten, selbst bei diesen eh eher moderaten Eröffnungen, sind doch viele ziemlich chancenlose Punktelieferanten dabei (was natürlich auch Unterhaltungswert hat), sagt nur so
Parent - - By Benno Hartwig Date 2022-02-15 14:40

> Berserk kämpft wacker weiter mit.


Stimmt.
Nach jetzt 17 Partien liegen Berserk und Seer punktgleich hinter Koivisto.
Und 5 Partien hat dann jeder noch zu absolvieren.
Parent - - By Peter Martan Date 2022-02-16 08:56 Edited 2022-02-16 09:52
In der letzten direkten Begegnung der beiden (Seer-Berserk) gibt's gerade ein Remis, bei dem beide Engines lange an einen weißen Sieg geglaubt hatten, Berserk mit Schwarz hat es dann deutlich früher "gesehen", dass es Remis wird, das wäre wieder mal so ein Beispiel für ausgespielten Stellungstest im Endspiel, das man anhand der Evals hätte in mehr als einem halben Punkt für Schwarz hätte bewerten können, auch wenn's nur Remis ausging und es lange genau so gut ein weißer Punkt hätte werden können.

Und weil sich die Eval- Diskrepanz lang genug hin gezogen hat, könnte es hier auch mehr als einen ganzen (Punkt) hergeben, je nachdem, wieviele Züge man zur Bewertung heranzieht.
Das wäre überhaupt der ergiebigste Weg, Partien zwischen je 2 Engines zu mehr Parametern in der Bewertung als einzelnen ganzen und halben Punkten zu verhelfen, Eröffnungsphase, Mittel- und Endspiel in einzelnen Fragmenten nach den Eval- Verläufen zu bewerten.

Hier die Partie ohne Kommentare (mit ihnen würde sie als Text sowieso nicht komplett in ein Posting passen, siehe weiter unten, warum nicht):

[Event "TCEC Season 22 - League 3"]
[Site "https://tcec-chess.com"]
[Date "2022.02.16"]
[Round "20.5"]
[White "Seer 20211203"]
[Black "Berserk 9-dev4"]
[Result "1/2-1/2"]
[ECO "A92"]
[WhiteElo "3389"]
[BlackElo "3409"]
[PlyCount "237"]
[EventDate "2022.??.??"]

1. d4 e6 2. Nf3 f5 3. c4 Nf6 4. g3 Be7 5. Bg2 O-O 6. Qc2 d6 7. Nc3 Nc6 8. a3 e5
9. d5 Nb8 10. Ng5 c6 11. O-O Ne8 12. Ne6 Bxe6 13. dxe6 Na6 14. Bh3 g6 15. e4 f4
16. Rd1 Ng7 17. gxf4 Qe8 18. b4 exf4 19. c5 Rd8 20. Qb3 dxc5 21. Bb2 f3 22. b5
c4 23. Qxc4 Nc5 24. bxc6 bxc6 25. Na4 Nxa4 26. Qxa4 Rxd1+ 27. Rxd1 Qb8 28. Qd4
Bf6 29. Qc4 Be7 30. Bxg7 Kxg7 31. Rd7 Re8 32. Qc5 Kf8 33. Qc3 Kg8 34. Qxf3 Rf8
35. Qe3 Re8 36. Bf1 Qe5 37. Bc4 a5 38. a4 Kh8 39. Bb3 Kg8 40. Kg2 Kh8 41. f4
Bc5 42. fxe5 Bxe3 43. Kf3 Bc5 44. Rc7 h5 45. Rxc6 Bd4 46. Rc7 Bb6 47. Rf7 Bc5
48. Ke2 Re7 49. Kd3 Rxf7 50. exf7 Kg7 51. e6 g5 52. e5 Be7 53. Ke3 Bc5+ 54. Ke4
Be7 55. Bd1 g4 56. Kf4 Kf8 57. Bc2 Kg7 58. Bf5 Kh6 59. Bb1 Kg7 60. Be4 Kh6 61.
Bd3 Kg7 62. Bb1 Kh6 63. Be4 Kg7 64. Bc2 Kh6 65. Ke4 Kg7 66. Kd5 h4 67. Be4 Kf8
68. Bg2 g3 69. h3 Bd8 70. Kd6 Bf6 71. Bf3 Be7+ 72. Kd5 Kg7 73. Kd4 Bd8 74. Ke4
Be7 75. Kf5 Bf8 76. Bb7 Be7 77. Bd5 Bd8 78. Ba8 Be7 79. Kf4 Bd8 80. Be4 Be7 81.
Bd5 Bd8 82. Bb7 Be7 83. Bg2 Kh7 84. Kf3 Kg7 85. Kg4 Bd8 86. Bb7 Be7 87. Bd5 Bd8
88. Be4 Be7 89. Bf3 Bd8 90. Kf5 Be7 91. Kf4 Bd8 92. Bc6 Be7 93. Bh1 Bd8 94. Ba8
Be7 95. Kg4 Bd8 96. Bc6 Be7 97. Bh1 Bd8 98. Bd5 Be7 99. Kh5 Bd8 100. Bc6 Kf8
101. Kg6 Be7 102. Bd5 Bb4 103. Kf6 Be7+ 104. Kf5 Bd8 105. Kg6 Be7 106. Bc6 Ba3
107. Kh6 Bb4 108. Bg2 Be7 109. Kg6 Bf6 110. Kf5 Be7 111. Bh1 Ba3 112. Kg5 Be7+
113. Kg6 Ba3 114. Kh6 Bc5 115. Bd5 Bb4 116. Kh5 Be7 117. Ba8 Kg7 118. Be4 Kf8
119. Bf3 1/2-1/2

Bevor ich da jetzt wieder zu philosophieren anfange über Evals und Stellungstests, bin ich mal neugierig, ob der "Idee" als solcher außer mir vielleicht doch noch jemand Anderer Interesse abgewinnen kann. Das mit den Selbstgesprächen wird sogar mir irgendwann zu langweilig, gähnt (ist ja auch noch Morgähn!)...

Nur für den Fall, dass doch (mal wer über Evals reden will), hier das Fragment zwischen dem 60. und dem 100. Zug mit den TCEC- Kommentaren, die Evals werden immer als "wv=..." angegeben.
Furchtbar schwierig ist es leider, diese Angaben in der fortlaufenden Wurst dessen zu finden, was als Text aus der Gesamt- .pgn dabei wird, die Darstellung in einem GUI empfehle ich hier sehr im Hiarcs Chess Explorer Pro, der die Züge von den Kommentaren trennt, beides in eigenen Absätzen und farblich unterschieden.
Hier hab' ich "nur" vom 60. bis zum 100. Zug rauskopiert, die ersten und die letzten zwei Zeilen dort abgesetzt, wo Züge wechseln und die entsprechenden Engine- Angaben markiert.

60.Be4 {d=26, sd=34, pd=Kg7, mt=6910, tl=128411, s=50428829, n=87494020, pv=Be4 Kh6 Bh1 Kg6 Bc6 Bg5+ Ke4 Kg7 Kf5 Bd8 Bd5 Kf8 Bb3 Kg7 Bd1 Bc7 Ke4 Kf8 Kf4 Kg7 Bb3 Bd8 Ba2 Be7 Bd5 Kf8 Bb3 Bd8 Bc2 Bc7, tb=7803, h=0.0, ph=63.1, wv=5.78, R50=45, Rd=-11, Rr=-1000, mb=+2+0+0+0+0,} 

60...Kh6 {d=27, sd=99, pd=Kf5, mt=11349, tl=77503, s=146868675, n=1666518863, pv=Kh6 Kf5 Kg7 Bd3 Kf8 Bf1 Bd8 Bc4 Be7 Ke4, tb=710165, h=1.9, ph=66.6, wv=1.76, R50=45, Rd=-11, Rr=-1000, mb=+2+0+0+0+0,} 

61.Bd3 {d=31, sd=45, pd=Kh6, mt=6780, tl=124631, s=49345989, n=246039104, pv=Bd3 Kg7 Bc2 Kh6 Be4 Kg7 Bd3 Kh6 Kf5 Kg7 Be2 Bd8 Bd1 Bc7 Kf4 Kf8 Ke4 Bd8 Kf5 Kg7 Kf4 Kf8 Ke4 Be7 Bb3 Bg5 Kf5 Be7 Kf4 Bd8 Bd5 Bc7 Bc6 h4 Bd7 g3 hxg3 hxg3 Bc6, tb=81570, h=0.0, ph=63.7, wv=4.57, R50=44, Rd=-11, Rr=-1000, mb=+2+0+0+0+0,}  61...Kg7 {d=31, sd=99, pd=Kf5, mt=7783, tl=72720, s=144306754, n=1122995167, pv=Kg7 Ke4 Kf8 Bf1 Bg5 Be2 Be7 Kf5 Kg7 Bd1 Bd8 Bc2 Kf8 Kf4 Bc7 Bg6 h4 Kxg4 Bxe5 h3 Bf6 Kf4 Ke7 Kf5 Bc3 Kg5 Bf6+ Kh6 Kf8 Bd3 Be7 Ba6 Bc5 Kg6 Bd6 Bb7 Ba3 Be4 Bb4 Kh5 Be7 Bh1 Bf6 Kg4 Be7 Bb7 Bd8 Bf3 Bf6 Ba8 Be7 Kf5 Bd8 Bc6 Be7 Ke5 Bb4 Bd5 Ke7, tb=859903, h=2.4, ph=65.5, wv=1.76, R50=44, Rd=-11, Rr=-1000, mb=+2+0+0+0+0,}  62.Bb1 {d=31, sd=40, pd=Kg7, mt=17604, tl=110027, s=48248016, n=849309834, pv=Bb1 Kh6 Bf5 Kg7 Bd3 Kh6 Be2 Kg7 Ke4 Bd8 Kd5 Be7 Kc6 Kf8 Kd7 Bb4 Bf1 Bc5 Ba6 h4 Bf1 Bb4 h3 gxh3 Bxh3 Bc5 Bg4 Bb4 Bf5 Bc5 Be4 Be7 Bf3 Bc5 Bc6 Ba3 Bd5 Bb4 Bg2 Bc5, tb=230433, h=0.0, ph=64.4, wv=3.61, R50=43, Rd=-11, Rr=-1000, mb=+2+0+0+0+0,}  62...Kh6 {d=28, sd=99, pd=Ke4, mt=3058, tl=72662, s=148723351, n=454647287, pv=Kh6 Kf5 Kg7 Be4 Kf8 Bc6 Bd8 Kf4 Be7 Be8 Bd8 Kf5 Be7 Bb5 Bd8 Bf1 Bc7 Kf4 Ke7 Be2 Kf8 Bb5 Ke7 Bd7 Kf8 Bc8 Bd8 Kf5 Be7 Bb7 Bd8 Ba6 Bc7 Kf4 h4 Kxg4 Bxe5 h3 Bf6 Bb5 Be7 Kf4 Bb4 Bc4 Be7 Kf5 Kg7, tb=122221, h=0.4, ph=64.4, wv=1.76, R50=43, Rd=-11, Rr=-1000, mb=+2+0+0+0+0,} 

...

98...Be7 {d=28, sd=79, pd=Kf5, mt=882, tl=6957, s=146774639, n=129308457, pv=Be7 Be4 Kf8 Ba8 Kg7 Kh5 Kf8 Bh1 Bd8 Kh6 Be7 Bg2 Bb4 Be4 Be7 Bc6 Bd8, tb=8466, h=0.1, ph=44.2, wv=1.17, R50=20, Rd=-11, Rr=-1000, mb=+2+0+0+0+0,}  99.Kh5 {d=55, sd=58, pd=Kf8, mt=3895, tl=40959, s=46241489, n=146816729, pv=Kh5 Kf8 Kg6 Bb4 Kf6 Be7+ Kf5 Bb4 Ba8 Be7 Kg4 Bd8 Kh5 Be7 Kh6 Bb4 Kg5 Be7+ Kg6 Bb4 Kh6 Be7 Kh7 Bd8 Kg6 Be7 Bc6 Bb4 Kg5 Be7+ Kh5 Bd8 Bf3 Be7 Bg2 Kg7 Bh1 Kf8 Kg4 Bd8 Bc6 Be7 Kf5 Bd8 Bg2 Be7 Ke4 Bg5 Kf3 Be7 Kf4 Kg7 Ke3 Ba3 Kd4 Be7 Bh1 Kf8, tb=213686, h=0.0, ph=52.0, wv=4.03, R50=20, Rd=-11, Rr=-1000, mb=+2+0+0+0+0,}  99...Bd8 {d=28, sd=99, pd=Be4, mt=441, tl=9516, s=146755313, n=64572338, pv=Bd8 Bh1 Be7 Kg4 Kf8 Bb7 Kg7 Bc6 Kf8 Kf5 Bd8 Bg2 Be7 Ba8, tb=4147, h=0.1, ph=43.7, wv=1.08, R50=19, Rd=-11, Rr=-1000, mb=+2+0+0+0+0,} 

100.Bc6 {d=56, sd=60, pd=Kf8, mt=3865, tl=40094, s=45544838, n=151391043, pv=Bc6 Kf8 Kg6 Be7 Bd5 Bb4 Kf6 Be7+ Kf5 Bb4 Ba8 Be7 Be4 Bd8 Bf3 Ke7 Ke4 Bc7 Kf4 Bd8 Bd5 Kf8 Bg2 Ke7 Kf5 Kf8 Ke4 Bg5 Bh1 Be7 Kf4 Bb4 Ba8 Be7 Kg4 Bd8 Bc6 Be7 Kf5 Bd8 Bg2 Bb6 Ba8 Bd8 Kg6 Be7 Bg2 Bb4 Kg5 Be7+ Kg4 Bd8 Bf1 Be7 Kf5 Bd8 Kf4 Be7 Bg2 Bd8, tb=157739, h=0.0, ph=51.5, wv=4.03, R50=19, Rd=-11, Rr=-1000, mb=+2+0+0+0+0,} 

100...Kf8 {d=27, sd=67, pd=Bh1, mt=7139, tl=5377, s=147003530, n=68944656, pv=Kf8 Kg4, tb=2459, h=0.1, ph=43.2, wv=1.08, R50=18, Rd=-11, Rr=-1000, mb=+2+0+0+0+0,} 

Das wäre auch mal ein Hoffnungsgebiet für die Forensoftware, ein Darstellungsfenster im Fenster mit Scroll- Funktion wie es z.B. im CCC und im Outskirts mit "Code" angeboten wird, das aber das nur so am Rande.

Edit: beim 60. Zug lagen übrigens noch beide Engines daneben, was die Evals angeht, allerdings quantitativ (so dass die Quantität in Qualität umschlägt, "schon" nicht mehr gleich total daneben), daher die Preisfrage: ab welchem Zug hätten wir mit dem Stellungstest Endspiel beginnen können?
Parent - - By Benno Hartwig Date 2022-02-16 13:42

> Das wäre überhaupt der ergiebigste Weg, Partien zwischen je 2 Engines zu mehr Parametern in der Bewertung als einzelnen ganzen und halben Punkten zu verhelfen, Eröffnungsphase, Mittel- und Endspiel in einzelnen Fragmenten nach den Eval- Verläufen zu bewerten.


Auf den ersten Blick scheint das interessant zu sein. Damit eine Engine sich nicht was in die Tasche lügt, müssten die Bewertungen beider Engines eingehen.
Und der Entwickler, der seiner Engine bei solchen Bewertungsmethoden einen Vorteil verschaffen will (dem Gegner einen Vorteil verwehren will), der könnte beginnen, die eigenen Ausgaben entsprechen zu "frisieren".
"Das passiert doch nicht!"  meinst du vielleicht? Doch, ich denke, die Buntheit der Welt würde auch das hervorbringen.
Doch, die Wertung muss auf dem basieren, was auf dem Brett passiert.

Wenn man tatsächlich bereit ist, sich von der klassischen 1 - 0.5 - 0 -Punktewertung zu verabschieden  , dann denke ich eher an Dinge wie:
- 1.0 für Sieg (schwarz oder weiß
- 0.0 für Niederlage (schwarz oder weiß)
- 0,4 für weiß-Remis
- 0.6 für schwarz-Remis
- 0.7 für Pattsetzen
- 0.3 für pattgesetzt werden
- 0.6 für technisches Remis bei Materialüberlegenheit
- 0.4 für technisches Remis bei Materialüberlegenheit
- ... (weitere Ideen?)

Aber ich habe auch viel Verständnis dafür, wenn nun jemand meint: "Das ist doch alles Quark!"
Parent - By Peter Martan Date 2022-02-16 14:10 Edited 2022-02-16 14:39
Benno Hartwig schrieb:

Auf den ersten Blick scheint das interessant zu sein. Damit eine Engine sich nicht was in die Tasche lügt, müssten die Bewertungen beider Engines eingehen.
Und der Entwickler, der seiner Engine bei solchen Bewertungsmethoden einen Vorteil verschaffen will (dem Gegner einen Vorteil verwehren will), der könnte beginnen, die eigenen Ausgaben entsprechen zu "frisieren".
"Das passiert doch nicht!"  meinst du vielleicht? Doch, ich denke, die Buntheit der Welt würde auch das hervorbringen.
Doch, die Wertung muss auf dem basieren, was auf dem Brett passiert.

Aus solchen und ähnlichen Gründen, (die Unterschiede zwischen den absoluten Höhen von Engine- Evals schwanken ja selbst bei bester Absicht der Programmierer ) würde ich ja nicht einzelne numerische Evals sondern ihre Verläufe über eine definierte Zahl von aufeinanderfolgenden Zügen heranziehen.
(Sonderfall taktischer single best move and game changer, der einen Evalsprung bei nur dem einen korrekten Lösungszug im Vergleich zu allen anderen möglichen Zügen in der entsprechenden Stellung zeigt, die nicht so gut sind und möglichst auch nicht game changing.)

Im Vergleich zu denen der gegnerischen Engine head to head in direkt gegeneinander ausgespielten Lines, oder im Vergleich zu interaktiv durchanalysierten Varianten, für die der Mensch einen Evalverlauf (ein Verhältnis von Eval anfangs der Testvariante zu Eval an ihrem Ende) einer gewissen Range als richtig oder falsch definiert, wenn man nur Punkte zählen will, oder sogar verschieden viele Punkte vergibt für verschieden nahe an die definierte Range herankommende Verläufe.
Dass man das ganze sowohl forward als auch backward beurteilen (lassen) könnte, nur noch am Rande dazu gesagt, ich will das P.T. Publikum ja nicht gleich wieder überfordern.

Lies dir mal im Thread über den Ceres Stresstest die wortreichen Erklärungen in den Postings mit den .pgn- Beispielen durch, und schau' dir die in denen (den Partiefragmenten) enthaltenen Eval- Verläufe an, dann solltest du verstehen, was ich meine.
Parent - By Frank Quisinsky Date 2022-02-16 09:22
Hallo Peter,

Seer und auch Tucano zermalmen langsam. Gestern in Runde 10 bei meinem laufenden Turnier. Wasp gegen Tucano. Wasp würde schleichend zusammengeschoben und zwar sehr gezielt unter dem Motto _Raumgewinn_. Viele gute Stellungsverbesserungen bei Tucano und der Raumvorteil wurde schleichend besser. Das macht der Programmierer besonders gut. Man hat das Gefühl er optimiert sehr im Detail. Das macht John auch aber anders. Seer ist da nicht anders als Tucano.

Beide Entwicklungen, Seer und Tucano sind sehr besonders. Erinnere mich als ich das FCP Turnier 2021 startete. Da überprüft ich mit einer Stellung alle Teilnehmer hinsichtlich Zugtiefe etc. Es meldete sich der Tucano Programmierer, dem direkt etwas aufgefallen ist was er verbessern wollte. Das passt auch zu dem Bild dieser Engine.

Viele Grüße
Frank

Beide Programme sind keine Angreifer aber positionell sehr stark.
- By Benno Hartwig Date 2022-02-16 22:14
League 3 ist jetzt abgeschlossen

   1  Koivisto 7.13               22   17.0   77.27%
   2  Seer 20211203               22   16.5   75.00%

   3  Berserk 9-dev4              22   15.5   70.45%
   4  Tucano 10                   22   14.0   63.64%
   5  Arasan v23.2.0-21-5db490e   22   12.5   56.82%
   6  Wasp 5.25                   22   11.0   50.00%
   7  Weiss 2.1-dev               22    9.5   43.18%
   8  Bit-Genie 9.23              22    9.5   43.18%
   9  Drofa 3.3.0                 22    9.5   43.18%
  10  Marvin 6.0.0-a2             22    8.5   38.64%
  11  Topple 0.8.1                22    4.5   20.45%
  12  Pirarucu 3.3.5              22    4.0   18.18%


Berserk hat es knapp nicht geschafft.
Ja, und es ist schon richtig, auch hier in dieser League heben wir eine sehr weite Spreizung der Spielstärken.
Aber ok, ich finde auch sehr interessant, mit welcher Sicherheit eine gute Engine gegen eine unterlegene dann wirklich punkten kann.
- By Benno Hartwig Date 2022-02-17 07:21
...und es wird jetzt wieder getestet, jetzt für League 2 ("S22 - L2 L1 Testing").
Interessanterweise ein Test mit 31 Teilnehmern, obwohl League 2 doch nur 8 Teilnehmer haben wird??? 
Up Topic Hauptforen / CSS-Forum / S22 League 3

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill