Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / S21 - Swiss 2
1 2 Previous Next  
- - By Benno Hartwig Date 2021-11-06 20:52
Ja, die Testerei ist abgeschlossen und das "S21 - Swiss 2" hat begonnen.
44 Teilnehmer, 2 Partien bislang gespielt.
Und über 11 Doppelrunden soll es gehen.
Parent - - By Peter Martan Date 2021-11-06 21:05
45'+7", 484 Partien, na servus!
Parent - - By Benno Hartwig Date 2021-11-06 22:26 Upvotes 3
Ja, die letzte Partie soll dann gespielt werden:
Schätzung: 23:35:44 2021-12-04
Ist doch ganz in Ordnung. Die TCEC-Hauptevents brauchen aus meiner Sicht auch nicht in zu dichter Folge zu laufen.
Parent - - By Peter Martan Date 2021-11-07 18:37
Benno Hartwig schrieb:

Ist doch ganz in Ordnung.

Ja, schon, aber dafür, dass sich das jetzt so lange hinzieht, und dann jede Engine gerade mal 11 Partien gespielt hat, hätte man mit weniger Engines vielleicht mehr Spannung rein bekommen, hingegen geht's ja sowieso nur um die einzelnen Partien, und es gibt halt schon so viele interessante Engines.
So what regards
Parent - - By Andreas Mader Date 2021-11-07 19:34 Upvotes 3
Mir gefällt die Vielfalt an Engines, die teilnehmen. Partien zwischen den Top-Engines gibt es genug, jetzt sollen die einmal zeigen, dass sie gegen schwächere gewinnen können.
Parent - - By dkappe Date 2021-11-07 20:44 Upvotes 1
Auch mal bei CCC vorbei schauen wo Dragon dem Fish einen Punkt abgeluchst hat. https://www.chess.com/computer-chess-championship#event=ccc-16-rapid-main&game=158
Parent - By Benno Hartwig Date 2021-11-08 09:20 Edited 2021-11-08 09:26
Dragon ist auch schon ganz schön stark.
Dass der gegen Stockfish immer auch eine Gewinnchance in einer Partie hat, insbesondere wenn er mit weiß einen gewissen Eröffnungsvorteil präsentiert bekam, glaube ich gern.
Beide Engines sahen hier immerhin einen Komodo-Vorteil von mehr als 1 Bauerneinheiten, als das Rechnen der Engines begann.
Parent - - By Tobias Lagemann Date 2021-12-08 11:16 Upvotes 1
Hallo zusammen,

Swiss is over.

Komodo Dragon 2.5.1. hat mit einem Punkt Vorsprung gewonnen.

Komodo                           15P
Stockfish 14.1_20211101    14P
LCZero 0.28-dev+_609958  14P

Alle drei ungeschlagen.

Die Plätze 4-7 belegen punktgleich mit 12,5P
Ethereal 13.35_NNUE-A18F
Revenge 20211009
Berserk 7-dev3
Stoofvlees II a18

Und, äh, man erspare mir jetzt bitte "kritische" Anmerkungen über a) die Unwägbarkeiten des Swiss-Systems, b) die doofe/unfaire oder was auch immer Eröffnungsauswahl. Ein Turnier ist ein Turnier ist ein Turnier. Zuschauen macht Spaß. Wegschauen kann aber genau so viel Spaß machen. Es gibt ja genug Turniere bzw. Ranglistenmatches, in denen es so ausgewogen als möglich zugeht und bei denen geneigte Schachfreunde zuschauen können. Beides hat seine Berechtigung. Denn Schach ist ein Spiel ist ein Spiel. Das man wissenschaftlich betreiben kann. Das aber auch einen hohen Unterhaltungs- und Spaßfaktor hat bzw. haben kann.

Mich hat das Swiss-Turnier sehr gut unterhalten!

Viele Grüße
Tobias
Parent - By Benno Hartwig Date 2021-12-08 12:31 Upvotes 1
Wow, und da hat Dragon jetzt sogar nicht nur einen halben sondern einen ganzen Punkt Vorsprung vor den Verfolgern Lc0 und Stockfish!

Keine statistisch belastbare Spielstärke-Ermittlung, klar,
aber ein deutlicher Dragon-Sieg in einem sportlichen Event.
Mehr Aussagekraft haben sportliche Events unter Menschen ja samt und sonders auch nie.
Parent - - By Chess Player Date 2021-12-08 12:39 Edited 2021-12-08 12:48 Upvotes 1
Dieses Turnier, hier die Top Ten:

1   KomodoDragon 2.5.1        22   15.0   0   8 [7/1]   0 [0/0]   184.25   3597   -4 [3593]
2   Stockfish 14.1_20211101  22   14.0   0   6 [6/0]   0 [0/0]   170.50   3637   -6 [3631]
3   LCZero 0.28-dev+_609958  22   14.0   0   6 [6/0]   0 [0/0]   170.00   3618   -6 [3612]
4   Ethereal 13.35_NNUE-A18F  22   12.5   0   4 [3/1]   1 [0/1]   153.75   3479   -1 [3478]
5   Revenge 20211009          22   12.5   0   4 [3/1]   1 [0/1]   152.00   3460   2 [3462]
6   Berserk 7-dev3              22   12.5   0   4 [4/0]   1 [0/1]   147.00   3225   58 [3283]
7   Stoofvlees II a18            22   12.5   0   7 [6/1]   4 [0/4]   143.25   3529   -4 [3525]
8   Koivisto 7.1                22   12.0   0   3 [3/0]   1 [0/1]   145.00   3583   -14 [3569]
9   ScorpioNN 3.0.14f            22   12.0   0   3 [3/0]   1 [0/1]   144.00   3513   -4 [3509]
10  Igel 3.0.10                  22   12.0   0   4 [4/0]   2 [1/1]   142.00   3505   -5 [3500]
Parent - - By Benno Hartwig Date 2021-12-08 18:07 Edited 2021-12-08 18:09
1   KomodoDragon 2.5.1        22   15.0   0   8 [7/1]   0 [0/0]   184.25   3597   -4 [3593]
2   Stockfish 14.1_20211101   22   14.0   0   6 [6/0]   0 [0/0]   170.50   3637   -6 [3631]
3   LCZero 0.28-dev+_609958   22   14.0   0   6 [6/0]   0 [0/0]   170.00   3618   -6 [3612]
4   Ethereal 13.35_NNUE-A18F  22   12.5   0   4 [3/1]   1 [0/1]   153.75   3479   -1 [3478]
5   Revenge 20211009          22   12.5   0   4 [3/1]   1 [0/1]   152.00   3460    2 [3462]
6   Berserk 7-dev3            22   12.5   0   4 [4/0]   1 [0/1]   147.00   3225   58 [3283]
7   Stoofvlees II a18         22   12.5   0   7 [6/1]   4 [0/4]   143.25   3529   -4 [3525]
8   Koivisto 7.1              22   12.0   0   3 [3/0]   1 [0/1]   145.00   3583  -14 [3569]
9   ScorpioNN 3.0.14f         22   12.0   0   3 [3/0]   1 [0/1]   144.00   3513   -4 [3509]
10  Igel 3.0.10               22   12.0   0   4 [4/0]   2 [1/1]   142.00   3505   -5 [3500]


und:
Gratulation an den tapferen Drachen!
("Puff the magic dragon...")
Parent - - By dkappe Date 2021-12-08 19:00
Danke. 2.6 kommt bald.

Bei CCC gegen lc0 hat sich Dragon mehrfach verschätzt. Zum Beispiel:



War ursprünglich bei +257 und dann remis. Jetzt:

info depth 30 time 282839 nodes 23573013 score cp 215 lowerbound nps 83343 hashfull 952 tbhits 0 pv h5f6 g8h8 f3f4

Von 50 Stellungen hat Dragon sich in 32 deutlich verbessert. Wird noch besser.
Parent - - By Klaus S. Date 2021-12-08 22:38
Tiefe 30 nach 282 sec??  (depth 30  time 282839)

Mein Dragon 2.5 hat Tiefe 30 nach 17sec  (langsamer Pc, i7 6700 3.4GHz)

Analysis by Dragon 2.5 by Komodo Chess 64-bit:

23.Nf6+ Kh8 24.Qf4 Rfc8 25.Bg5 h6 26.Qh4 Ng4 27.f4 Qc5 28.Rfd1 Bxf6 29.Bxf6+ Nxf6 30.Qxf6+ Kg8 31.f5
  Weiß steht deutlich besser: +- (1.64)  Tiefe: 30   00:00:17  54938kN

23.Nf6+ Kh8 24.Qf4 Rfc8 25.Bg5 h6 26.Qh4 Ng4 27.f4 Qc5 28.Rfd1 Bxf6 29.Bxf6+ Nxf6 30.Qxf6+ Kg8 31.f5
  Weiß steht deutlich besser: +- (2.08)  Tiefe: 37   00:01:27  290MN

(, 08.12.2021)

Der Score nach 1:27 von 2.08  ist ähnlich  (dein score: cp 215)

Irgendwas verstehe ich nicht - wo liegt hier der Vorteil von Vers. 2.6 gegenüber Vers. 2.5 ?

Kannst du die ganze Partie posten?
Parent - By dkappe Date 2021-12-08 23:28
Das schwere Eisen ist mit anderem beschäftigt. Ich habe im Augenblick nur ein kleines bisschen cloud server zur Verfügung.

Warum besser? Bei all den Stellungen wo Dragon 2827 +250 cp oder mehr geschätzt hat nur um ein remis zu erzielen, sind die neuen Netze 50 oder mehr cp Richtung 0. Das heißt Dragon liegt nicht mehr so falsch.
- By Benno Hartwig Date 2021-11-10 21:14 Edited 2021-11-10 21:56
In Partie 64 besiegt Stockfish gerade den Unbesiegbaren.

PS:
...und hat ihn jetzt besiegt.
- - By Benno Hartwig Date 2021-11-13 16:03
Was meint ihr?
Ist inzwischen jede Engine des Swiss 2 dem menschlichen Weltmeister überlegen, sagen wir mal unter Turnierbedingungen über so 12 Partien?
Parent - - By Peter Martan Date 2021-11-13 18:00
Hier wäre wieder mal das Billa- Schweinderl angebracht, Benno.

Was mich an dem Format, so wie es jetzt läuft, schon etwas stört ist, dass bei so vielen Engines und so wenigen Runden das Losglück der ersten Partien schon noch zusätzlich stark auf die ohnehin wenigen Partien durchschlägt. Dass sich die Besten durchsetzen, lässt sich sowieso nicht vemeiden, wie sie sich aber auch die ganz oben untereinander schlagen und vor allem was etwas weiter unten an Reihung "passiert", das ist sich schon ziemlich purer Zufall.

Man kann natürlich wieder sagen, was soll's, hat halt keinerlei Spielstärken- Vergleichswert, aber wozu dann das Riesenturnier, schöne einzelne Partien kriegt man auch mit weniger Engines und die Qualtität der einzelnen Partien hängt natürlich ebenso davon ab, dass die Einzelmatch- Gegner halbwegs auf einem gemeinsamen Niveau sind, meckert mal wieder auf sehr hohem Niveau,
Parent - - By Benno Hartwig Date 2021-11-13 20:22 Edited 2021-11-13 20:24
Es gibt doch eine Unmenge von Partien der besseren Engines gegeneinander.
Da von braucht es im Rahmen eines TCEC-Extra-Events doch sicherlich nicht unbedingt noch mehr.
Und es braucht auch ganz bestimmt nicht noch ein weiters Mal eine Reihenfolgebestimmung der Top-10-Engines.

Ne, ich finde diese Kunterbunt an Engines sehr gut, und es sollen die Starken ihre Dominanz doch gern mal zeigen.
Wenige Runden Schweizer System liefern natürlich sehr viel Zufall. Klar. Ganz besonders das Mittelfeld wird dann auch noch sehr stark von der Feinwertung bestimmt sein. Was soll's, so ist es eben. Ein halber Punkt mehr bedeutet dann einen Riesensprung in der Tabelle. Die ersten Plätze und auch die hnteren werden immerhin mit "Verlässlichkeiten" ermittelt werden, die mindestens(!) denen von KO-Turnieren entsprechen.
Ein sportliches Event eben. Mit Überraschungen und glücklichen Momenten einiger Underdogs.
Parent - By Peter Martan Date 2021-11-13 20:37 Edited 2021-11-13 20:42
Benno Hartwig schrieb:

Ein halber Punkt mehr bedeutet dann einen Riesensprung in der Tabelle. Die ersten Plätze und auch die hnteren werden immerhin mit "Verlässlichkeiten" ermittelt werden, die mindestens(!) denen von KO-Turnieren entsprechen.

Schon, von KO- Turnieren mit ebenso wenigen Partien pro Engine.

Wir sind uns ja einig, dass es hier nicht um Elo im allgemeinen (ja heutzutage ohnehin allgmemein auch eher elosionistischen ) Sinn geht, aber ich meine halt, dass ein paar weniger Engines (ruhig mit gleicher Spannweite in der Einschätzung) und ein paar mehr Runden deutlich weniger Zufall, gleich gute Partien und etwas mehr Sinn im dem eines, wie du meinst, "sportlichen Events" gebracht hätten. Welche Engines man da hätte nehmen sollen und welche nicht, ist natürlich eine schwierige, rein willkürliche Entscheidung, wird's ja aber auch so gewesen sein.
Wie gesagt, Meckern auf hohem Niveau, wiederholt sich einmal mehr,
Parent - - By Peter Martan Date 2021-11-13 22:04 Edited 2021-11-13 22:09
Oder um es etwas kürzer und praktisch leichter nachvollziehbar zu formulieren, jetzt ist fast die Hälfte der Runden gespielt, und dass SF führt, wird schon was mit seiner Spielstärke zu tun haben, aber die 4 Punkte aus 5 Partien werden vielleicht doch auch ein bisschen Glück gewesen sein, was die Gegner und die Eröffnungen angeht.
Dass aber Igel, Revenge, Kovisto, Combusken, Berserk und Defenchess in dieser Reihenfolge vor LC0 liegen, spricht nicht unbedingt für die "sportliche" Aussagekraft des "Events" um bei deiner Formulierung zu bleiben, oder?

Natürlich wird das Ergebnis nach einer zweiten Hälfte schon deshalb selektiver sein, weil ja erst nach der ersten Runde das an sich clevere Prinzip so richtig (nämlich aufgrund von ersten Ergebnissen) greift, dass immer der besser Gereihte gegen den nächst Drauffolgenden, gegen den er noch nicht gespielt hat, drankommt und die Sache mehr und mehr nach den Einzelergebnissen verbessert. Aber vielleicht sind's halt doch zu viele zu ähnlich starke mit als zu großer Gruppe zu viel Unterschied zu einer viel kleineren obersten Klasse, oder vielleicht hätte man einfach schon mit einer besser vorselektierten Reihung starten sollen.
Mal sehen, wie's am Ende ausschaut, beruhigt sich wieder vollends bei ohnehin auch nur geringer vorausgehender Aufregung,
Parent - - By Benno Hartwig Date 2021-11-13 22:10

> jetzt ist fast die Hälfte der Runden gespielt,


11 Doppelrunden sollen doch gespielt werden, jede Engine wird am Ende 22 Partien gespielt haben, bislang sind es 5.
Gespielt wird gerade Partie 111 von 484. (22 Partien je Runde)
Parent - By Peter Martan Date 2021-11-13 22:36 Edited 2021-11-13 22:43
Und schon hast du mich wieder bei meinem typischen Rechenfehler ertappt, es ist nicht annähernd die Hälfte, sondern annähernd ein Viertel der geplanten Partien gespielt.

Trotzdem und erst recht, schauen wir mal, wie's am Ende ausschaut, oder vielleicht melde ich mich, wenn's dann doch immer nicht soo viel besser ist als jetzt, doch schon nach Ende des nächsten Viertels wieder, verschiebt die ohnehin eher geringere weitere Aufregung noch einmal,
Parent - By Andreas Mader Date 2021-11-14 19:47
Das heißt ein Turnier hat nur dann eine sportliche Aussagekraft, wenn die ELO-Reihenfolge der Engines exakt eingehalten wird?

Und wieder einmal zeigt sich, wie trostlos Computerschach ist, wenn man sich ausschließlich auf die Ergebnisse fixiert und die Partien außen vor lässt. Wie zum Beispiel Stockfish den Springer auf h6 geopfert hat war schon toll, das hat richtig Freude beim Zusehen gemacht und ich war gespannt, wie das weiter fortgesetzt wird, weil der Gegner eine vollkommen andere Bewertung der Stellung hatte. Bei den meisten Computerschächlern wird diese Partie unter "1-0, war eh klar, Stockfish hat xy ELO mehr" laufen.
- - By Benno Hartwig Date 2021-11-19 16:04
Berserk mit ca. 350(!) Elo Abstand auf die Top-Engines hatte sich bislang ja tapfer gehalten in der top-5.5-aus-8-Gruppe.
Aber jetzt gegen Dragon verliert er.
Zurück auf den Boden der Tatsachen. Oder sind noch positive Überraschungen von der Engine zu erwarten?
Parent - - By Peter Martan Date 2021-11-19 17:25 Edited 2021-11-19 17:34
Es sind zuviele Engines für die geringe Zahl der Runden und die unbalanced openings.
Dass bei der Eröffnung in der Rückpartie auch wieder Weiß gewinnt, wäre z.B. gar nicht soo eine Überraschung, weder positiv noch negativ, und schon hätten wir wieder die doch etwas eigenartige Reihung.
Und ich rede nicht von Elo, Schmählo, ich rede allein von der Reihenfolge der Engines im Feld.
Wenn man auf die auch keinen Wert legt, wozu dann ein Turnier?
Nette Partien kann man auch ohne einen derartigen Hardware- Zeitaufwand bekommen, meckert schon wieder unnötig rum,...

Edit, edit: dass es bei Berserk7, der ja auch bereits NNUE nutzt, wirklich soo ein Abstand ist, wie du meinst, glaube ich ohnehin auch nicht, zweifelt daran erst recht der alte Elosionist
Parent - - By Benno Hartwig Date 2021-11-20 06:31 Edited 2021-11-20 06:39

> Wenn man auf die auch keinen Wert legt, wozu dann ein Turnier?


Bei so vielen Teilnehmern wird nach 22 Partien eben eine Reihenfolge herauskommen, die vielleicht ein klein wenig die wahren Verhältnisse abbildet, vielleicht in dieser Weise auch nur die ersten und die letzten Plätze. Auch am Ende wird es in der Mitte sauviele Engines geben mit 10.0 bis 12.0 Punkten, und unter ihnen werden Feinwertungen die Reihenfolge machen. Etliche werden auch genau 11.0 Punkte haben. Da ist dann natürlich auch sehr viel Glück dabei! So ist das Schweizer System eben, und so war es immer. Und trotzdem finde ich es unterhaltsam.

Jetzt nach nur 9 Partien, oder besser gesagt: nach jeweils nur viereinhalb Begegnungen kann man auf die Reihenfolgen natürlich noch gar nichts geben.
Und gleichwohl: man luschert bei diesem Event wie bei jedem anderen ja trotzdem schon gern mal.


PS:
Mir gefiele die Idee nach wie vor gut, alle Partien einer Doppelrunde mit derselben Eröffnung zu spielen.
Es wäre interessant, finde ich, zu beobachten, an welchen Stellen sich die Abspiele der Engines unterscheiden und was daraus wird.
Und außerdem gäbe es dann noch mehr "Gerechtigkeit": Beispielsweise bekäme die guten Engines dann gleich oft Eröffnungen angeboten, die entweder zu einem 1.0:1.0 tendieren (zwei remis oder zwei weiß-Siege) oder doch zu einem 1.5:0.5 (moderater weiß-Vorteil).
Parent - By Peter Martan Date 2021-11-20 08:13 Edited 2021-11-20 08:52
Benno Hartwig schrieb:

Mir gefiele die Idee nach wie vor gut, alle Partien einer Doppelrunde mit derselben Eröffnung zu spielen.
Es wäre interessant, finde ich, zu beobachten, an welchen Stellen sich die Abspiele der Engines unterscheiden und was daraus wird.
Und außerdem gäbe es dann noch mehr "Gerechtigkeit": Beispielsweise bekäme die guten Engines dann gleich oft Eröffnungen angeboten, die entweder zu einem 1.0:1.0 tendieren (zwei remis oder zwei weiß-Siege) oder doch zu einem 1.5:0.5 (moderater weiß-Vorteil).

Schon wahr, finde auch, wenn's eh nicht um eine Reihung geht, die mit anderen Reihungen was zu tun hat, sollte man den Partien vielleicht etwas mehr Vergleichbarkeit in Hinblick auf die Eröffnungen geben, die sind ja der zweite große Eingriff in die Ergebnisse neben den Paarungen.
Und ja, wenn das Ganze lang genug läuft, wird das Ergebnis im Schweizer Turnier sich schon auch irgendwann an das anderer Turniere anpassen, und es dient dazu, Partiezahlen einzusparen, die Frage ist eine quantitative wie immer, mit wievielen Partien kommt man bei wievielen Engines aus, relativiert mal wieder unnötig wortreich
- - By Benno Hartwig Date 2021-11-21 07:45 Edited 2021-11-21 08:12
Jetzt hat sich der Favorit Stockfish mit 7.0 aus 10 an die Spitze gesetzt.
Dragon, Lc0 (die beiden erwartungsgemäß), Revenge und Koivisto (die beiden überraschend?) folgen mit 6.5 aus 10 Punkten.
Parent - - By Volker Göbel Date 2021-11-21 08:57
Hallo,

Was ist denn Koivisto?
Eine eigenständige Engine, oder auch nur ein umbenannter Fisch?

MfG
Parent - - By dkappe Date 2021-11-21 15:51
Hier wurde Koivisto vor kurzem besprochen, mit Erklärungen von den Autoren. Erstmals ist das kein Stockfish Klone.

https://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?tid=12612
Parent - By Volker Göbel Date 2021-11-21 16:05
Vielen Dank für diese Info.

MfG
Parent - - By Peter Martan Date 2021-11-22 13:27 Edited 2021-11-22 13:40
Jetzt ist wirklich die Halbzeit erreicht, SF immer noch einen halben Punkt (7.5/11) voran, es folgen 5 weitere Engines mit 7/11, dann noch einmal 5 mit 6.5. Die Überraschung im obersten Feld ist Revenge als Nr.2 hinter SF, die Engine ist schon gut (der kommerzielle Nachfolger von Pedone, ich hab' ihn mir gegönnt, als er rauskam) vielleicht nicht wirklich besser als LC0, Dragon und Koivisto, aber gut. Die Reihung der ersten 15 wird mehr und mehr das, was man erwarten konnte. Drunter regiert weiter König Zufall, Rubichess ist z.B. deutlich unter Wert einsortiert, kommentiert
Parent - - By Benno Hartwig Date 2021-11-24 11:03

> Die Reihung der ersten 15 wird mehr und mehr das, was man erwarten konnte. Drunter regiert weiter König Zufall


Ich denke, es ist eine Phänomen des Schweizer-Turniers, dass bei den ersten und bei den letzten Plätzen eine recht gute Staffelung erfolgt, also Engines mit immerhin verschiedenen Quoten.
Und in der Mitte drängt sich dann sehr viel mit sehr ähnlichen Quoten und Unterschieden nur in der Feinwertung.

Im Prinzip sieht das dann ungefähr so aus:

  Quote
    |x
    | x
    |  xxx
    |     xxxxxxxx      
    |             xxxxxxxxxxxxxxx
    |                            xxxxxxxxxxxxxxxxxxxxxxxxx
    |                                                     xxxxxxxxxxxxxxx
    |                                                                    xxxxxxx
    |                                                                           xxx
    |                                                                              x
    |                                                                               x
    -Bester------------------------------------------------------------------Letzter-Platz
Parent - By Peter Martan Date 2021-11-24 11:12 Edited 2021-11-24 11:58
Klar,  so hätte ich's mir auch gedacht, hübsch dargestellt!

Es hätte vielleicht weniger lang gedauert (hat's ja aber an Partiezahlen eh nicht, die TC von 45'+7" kostet natürlich auch Zeit) bis sich die Spreu vom Weizen sortiert hat, wenn man gleich mit einer Anfangsauslosung der ungefähr erwarteten Stärke angefangen hätte, weil so haben jetzt alle Starken eine große Punktzahl, die gegen viel Schwächere angefangen haben, aber doch immer noch (und eigentlich erst recht, je mehr sich das Anfangsergebnis ändert und dann festigt, weil's jetzt immer mehr oben gegen oben und und unten gegen unten abspielt) stark davon abhängt, mit welcher Eröffnung gegen welche Engine eingestiegen wurde, die weiter unten hatten bei entsprechendem Losglück einen Blitzstart oder eben keine gleich gute Chance.

Trotz allem gewinne ich dem Format schon wieder mehr und mehr Gefallen ab, wenn ich auch immer noch finde, dass weniger (Engines) mehr gewesen wäre, so tut's einem nach wie vor und erst recht für ein paar leid, die einem zu kurz zu kommen scheinen (wie gesagt, z.B Rubichess aber auch Arasan hätten sich meinem Gefühl nach mehr verdient) und ganz oben hängt's jetzt natürlich erst recht umso stärker davon ab, gegen wen noch mit welcher Eröffnung die wieder auch nur mehr wenigen ausstehenden Partien gespielt werden.

Wie auch immer, wer schimpft, kauft, in diesem Fall schaut zu,
- - By Benno Hartwig Date 2021-11-27 10:40
Die Partie 316 ChessFighter gegen Marvin habe ich nicht verstanden.


Ewig lang sieht sich ChessfFighter mit mehr als 5.00 im Vorteil, auch Marvin wertet lange Zeit um die 2.00 für Chessfighter.
Schließlich sieht sich ChessFighter sogar für einige Züge mit mehr als 8.00 im Vorteil(!), um dann doch in ein Remis abzuwickeln.

Warum meinte ChessFighter eigentlich diesen Vorteil zu erkennen?
Materiell war es doch ausgeglichen, positionell erkenne ich auch keine dramatischen Unterschiede.
Was könnte Chessfighter zu so viel Optimismus verleitet haben?
Parent - - By Peter Martan Date 2021-11-28 08:05 Edited 2021-11-28 08:59
Die hab' ich mir nicht angeschaut, sorry, aber beim momentanen Stand finde ich wieder mal bemerkenswert, wie TCEC eigentlich mit der Reihung vorgeht. Offenbar wird von Elo- Werten, die von Anfang an ziemlich breit gefächert vorgegeben werden, mit einer SB- Wertung gearbeitet, die ein doch ziemlich anderes Rating erbringt, als wenn man einfach von willkürlich angenommenen Start Elo im EloStat- Programm ausgeht (in meinem Beispiel mal wieder 3500, etwas hoch vielleicht fürs Gesamtfeld, aber ja egal, was die Reihenfolge der Engines betrifft. Falsch: es spielt eine Rolle, wenn Engines immer noch viel mehr schwache oder starke Gegner hatten als die meisten anderen Engines, das ist wahrscheinlich nach wie vor der Knackpunkt, der das Schweizer System vom "normalen" Turnier unterscheidet).
Auf TCEC ist gerade mal Dragon vor SF, mit Elostat die .pgn der bisherigen Partien ausgewertet, auf die ersten 10 beschränkt, schaut's hingegen so aus:

    Program                            Score     %    Av.Op.  Elo    +   -    Draws

  1 Stockfish 14.1_20211101        :   9.5/ 15  63.3   3640   3735  117  67   73.3 %
  2 KomodoDragon 2.5.1             :   9.5/ 15  63.3   3663   3758  117  67   73.3 %
  3 rofChade 2.309                 :   9.0/ 15  60.0   3512   3582  147 143   40.0 %
  4 Revenge 20211009               :   9.0/ 15  60.0   3599   3670  110  55   80.0 %
  5 Stoofvlees II a18              :   9.0/ 15  60.0   3549   3619  147 143   40.0 %
  6 LCZero 0.28-dev+_609958        :   9.0/ 15  60.0   3631   3701  110  55   80.0 %
  7 Ethereal 13.35_NNUE-A18F       :   9.0/ 15  60.0   3611   3681  110  55   80.0 %
  8 Combusken 1.9.9_TCEC_Swiss_2   :   8.5/ 15  56.7   3550   3596  118 112   60.0 %
  9 Igel 3.0.10                    :   8.5/ 15  56.7   3589   3636  100  84   73.3 %
10  Berserk 7-dev3                 :   8.5/ 15  56.7   3587   3633  100  84   73.3 %


Und somit doch eigentlich ziemlich stark anders als auf
https://tcec-chess.com/
selbst.
Dass sich rofChade da zum Unterschied von der TCEC- Reihung (dort ist die Engine Nr.6 momentan) so weit vordrängt, liegt an der besonders guten Individual- Statistik, die kommt ihrerseits natürlich von den "angenehmen" Gegnern und davon, dass die Rückpartie gegen Wasp noch fehlt, das seinerseits außerdem noch in der non- NNUE- Version spielt:

3 rofChade 2.309              : 3582   15 (+  6,=  6,-  3), 60.0 %

Combusken 1.9.9_TCEC_Swiss_2  :   2 (+  1,=  0,-  1), 50.0 %
Vajolet2 2.9.0-TCEC-S19       :   2 (+  2,=  0,-  0), 100.0 %
Igel 3.0.10                   :   2 (+  0,=  1,-  1), 25.0 %
Zahak 8.0.3                   :   2 (+  1,=  1,-  0), 75.0 %
Cheng 4.42_dev                :   2 (+  0,=  2,-  0), 50.0 %
Topple 0.8.1                  :   2 (+  1,=  1,-  0), 75.0 %
Wasp 4.65                     :   1 (+  1,=  0,-  0), 100.0 %
Ethereal 13.35_NNUE-A18F      :   2 (+  0,=  1,-  1), 25.0 %


Punkt ist jedenfalls, dass nach 15 each 2 Engines 9.5, 5 weitere 9 und dann noch einmal 8 8.5 Punkte haben, es liegen also die ersten 15 gerade mal einen Punkt auseinander. Das ist es eigentlich, was mich am meisten wundert, es scheint sich doch auch (zumindest in der Auswirkung auf dieses große Feld und das Schweizer System) um ziemlich unausgeglichene Eröffnungen overall zu handeln. Nun wäre es, wie du auch schon meintest, natürlich interessant, wie sich die besten jeweils mit ein- und derselben Stellung realtiv zu den anderen verhalten würden.

Ich glaube, diese rofChade- Version nutzt auch schon NNUE, bin mir aber nicht sicher, zweifelt...

Edit, edit: ich weiß wieder, woher ich das mit NNUE- rofChade habe:

https://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=149391#pid149391

Frank Quisinsky schrieb:

Ein rofChade NN spielt in meinem Turnier (erste NN Version)


Bei Frank spielt eine Version 2.310, auf TCEC 2.309, ergänzt
Parent - By Benno Hartwig Date 2021-11-28 09:21 Edited 2021-11-28 09:37

> ...die kommt ihrerseits natürlich von den "angenehmen" Gegnern


Ja, natürlich, es ist eine ganze Menge Glück dabei.
Bei 44 Teilnehmern sind gerade die ersten 6 Begegnungen so zufällig (oder gesetzt) wie in einem einzel-KO-System
Du kannst in der ersten Runde gegen den späteren Sieger rausfliegen, oder du kannst bis in das Finale kommen.
Ähnlich kann auch hier das Gewinnen auch in früheren Runden schon gegen Mitkonkurrenten oder schwache Gegner gelingen.
Erst in den Partien danach erfolgt ganz oben und ganz unten eine aussagefähigere Sortierung.
Wobei: wenn dann an der Spitze doch nur remis gespielt wird...
Na, mal abwarten

PS:
Dragon, Stockfish und Lc0 liegen jetzt auf den ersten drei Plätzen.
Dass gerade diese drei dort jetzt liegen, spricht dafür, dass auch bereits 15 Partien (und das sind ja man gerade 7,5 Begegnungen!) schon gar nicht mal sooo unplausible Ergebnisse hervorbringen.
Natürlich, wie es in der Mitte aussieht, da hat der Zufall sicherlich noch einmal weit kräftiger mitgemischt.

Obwohl: unplausibel ist diese Reihung ja auch dort nicht
Wenn zwei Teilnehmer gleich viele Punkte haben, der eine aber gegen schwächere antrat, hier seine etwas größere Chance aber nicht nutzen konnte, dann landet er eben etwas weiter hinten.
Parent - - By Andreas Mader Date 2021-11-28 19:33
Die Sonneborn-Berger-Wertung hat eigentlich überhaupt nichts mit irgendwelchen ELO-Werten zu tun, sondern basiert ausschließlich auf Ergebnissen.

https://de.wikipedia.org/wiki/Feinwertung

Laut der Info-Page auf TCEC für die Reihung der Engines als erstes Kriterium die Sonneborn-Berger-Wertung herangezogen und als zweites Kriterium die r-Mobility, von der ich immer noch nicht weiß, warum sie derart wichtig ist. 

https://wiki.chessdom.org/Rules#TCEC_Swiss_rules

Schöne Grüße
Andreas
Parent - By Peter Martan Date 2021-11-28 20:28 Edited 2021-11-28 20:31
Andreas Mader schrieb:

Die Sonneborn-Berger-Wertung hat eigentlich überhaupt nichts mit irgendwelchen ELO-Werten zu tun, sondern basiert ausschließlich auf Ergebnissen.

<a class='ura' href='https://de.wikipedia.org/wiki/Feinwertung'>https://de.wikipedia.org/wiki/Feinwertung</a>

Laut der Info-Page auf TCEC für die Reihung der Engines als erstes Kriterium die Sonneborn-Berger-Wertung herangezogen und als zweites Kriterium die r-Mobility, von der ich immer noch nicht weiß, warum sie derart wichtig ist. 

<a class='ura' href='https://wiki.chessdom.org/Rules#TCEC_Swiss_rules'>https://wiki.chessdom.org/Rules#TCEC_Swiss_rules</a>


Ja, das mit der r-Mobility, so wie sie TCEC definiert, behirne ich auch nicht wirklich, und ich nahm halt an, der Unterschied in dem was mit EloStat herauskommt und der TCEC- Reihung hätte mit den Elowerten, die ich für das Schubert- Programm mit 3500 gewählt hatte und denen, die TCEC vor- einsetzt, zu tun.
Weil ich dachte, wie hoch die Performance aus den einzelnen Partien gewertet wird, hinge vielleicht auch davon ab.
Wie auch immer, nimmt als gegeben
Parent - - By Frank Quisinsky Date 2021-12-04 07:17 Edited 2021-12-04 07:34
Hallo zusammen,

genau, bei mir spielt rofChade 3.010 NN.
Und auch die Konfiguration kann, wie alle anderen 41 Konfigurationen, auf einer gesonderten Seite entnommen werden.

Wie gesagt von TCEC halte ich im Grunde nichts, oder besser ... noch weniger als gar nichts.

- kommerzielle Seite
- keine Bildung von Statistiken die irgend etwas aussagen.
- keine gleichen Einstellungen der Engines (SMP wird z. B. unterschiedlich stark genutzt, die Liste wird lang wenn ich das wirklich auseinandernehme).
- Zufallsergebnsise

Beispiel für Zufallsergebnisse.
Es benötigte 12 Runden a 40 Partien pro Runde und pro Engine (eine Runde = 820 Partien) um zu sehen, dass ein SlowChess an Fire vorbeiziehen kann und nun
um Platz 3 unter den TOP-41 kämpft.

Wie die Entwicklung von Elos und von Runde zu Runde sind, zeigte schon das FCP Turnier-2020, auch das FCP Turnier-2021 und jetzt wieder das FCP Turnier-2022.
Alles ist dokumentiert von Runde 1 an und wer sich mit Statistik wirklich beschäftigt wird die Meinung teilen ...

TCEC ist eher ein Spaßturnier ohne Aussagekraft im Computerschach und ohne einen einzigen Ansatz an irgend etwas, was über Engines herausgefunden werden könnte.

TCEC ist im Grunde NICHTS bzw. wie ich es schrieb ...
Noch weniger als NICHTS ... rein gar NICHTS!


So hart sich das anhört!
Schön ist allerdings die Aufmachung vom Turnier oder auch Live-Übertragung (wenn die viele Werbung nicht wäre).

Übrigens ist in rofChade 2.309 ein Fehler drin, der Grund warum ich rofChade 2.310 durch 2.309 ersetze.

Denke TCEC ist für viele tatsächlich nur deswegen interessant, weil hier die letzten Versionen der Engines spielen (in der Regel).
Diese dann bei den Ratinglisten fehlen und erste Eindrücke über Spielstärke entstehen.
Nur, da kann ich auch würfeln wenn ich mich darauf verlassen würde.

Insofern verschwende ich auch nicht meine Zeit mit TCEC, sondern denke mir ...
Wenn Du es besser machen kannst ... mache es besser.
Genau das mache ich!
Weil ich handel immer lieber und zeige das Gegenteil auf wenn mir etwas nicht gefällt.

Liegt halt so in meiner Natur im Computerschach seit Winboard Engine 4.

Und wirklich spannede Turniere der besten Engines gibt es sonst kaum.
Wie gesagt, TCEC-Turniere zähle ich nicht zu wirklich spannenden Engine Turnieren.
Da gibt es ganz andere wirkliche Kaliber!!
Leider ist ein anderes, wirklich großartiges Turnier noch nie im Internet publiziert wurden.
Versuche schon seit geraumer Zeit den Finnen zu überzeugen seine Ergebnisse zu publizieren.

Aber Sinn und Zweck der FCP Turniere ist es eher etwas über die Spielstile herauszufinden.
Auch wenn die erzeugten Elo-Werte sehr genau sind (gibt es überhaupt etwas genaueres), interessieren die mich auch nicht wirklich.

Gruß
Frank
Parent - - By Andreas Matthies Date 2021-12-04 09:19 Upvotes 6
Frank Quisinsky schrieb:

Wie gesagt von TCEC halte ich im Grunde nichts, oder besser ... noch weniger als gar nichts.

- kommerzielle Seite
- keine Bildung von Statistiken die irgend etwas aussagen.
- keine gleichen Einstellungen der Engines (SMP wird z. B. unterschiedlich stark genutzt, die Liste wird lang wenn ich das wirklich auseinandernehme).
- Zufallsergebnsise
...
TCEC ist im Grunde NICHTS bzw. wie ich es schrieb ...
Noch weniger als NICHTS ... rein gar NICHTS!


...



Hallo Frank.

Deine Arbeit, die du in dein Turnier steckst, in allen Ehren, aber ich fühle mich herausgefordert, hier mal eine kleine Lanze für das TCEC zu brechen und deine Kritikpunkte zu relativieren:

1. "Kommerziell"? Naja, nur weil da ein bißchen Werbung eingeblendet wird? Reich wird chessdom davon definitiv nicht. Die Haupteinnahmequelle sind vermutlich die von den Zuschauern freiwillig entrichteten Spenden in Form von Twitch-Subscriptions. Der Administrator, der seine Sache übrigens ausgesprochen gut macht, arbeitet seit Jahren gefühlt rund um die Uhr, um den Laden am Laufen zu halten und ich hoffe, dass er zumindest eine kleine Aufwandsentschädigung dafür bekommt.
2. Statistiken... das ist wohl eher eine spezielle Leidenschaft von dir und für den normalen Computerschachfreund weniger wichtig. Ein kurzes Beispiel dazu: Du legst in deinen Statistiken ja u.a. großen Wert auf Engines, die kurze Partien spielen, weil du daraus einen attraktiven und interessanten Spielstil abliest. Ich habe vor einiger Zeit in meiner Engine einen für die Spielstärke komplett unbedeutenden Patch eingebaut (hat mit mate distance pruning zu tun), der die durchschnittliche Partielänge in meinen Testspielen auch um ich glaube um ca. acht Züge verkürzt hat. Am "Spielstil" (was auch immer das ist) in der entscheidenden Phase der Partie hat der Patch aber rein gar nichts verändert.
Ansonsten finde ich, dass auch der TCEC für den Normalverbraucher eine ganze Reihe an Statistiken liefert, einige davon tatsächlich eher fragwürdig wie diese r-mobility.
3. Einstellungen: Hier muss ich massiv widersprechen, zumindest, wenn du das als Kritikpunkt aufführst. Die Hardware, auf der TCEC gespielt wird, ist halt doch etwas besonders und kaum ein Entwickler hat ohne TCEC die Möglichkeit, seine Engine auf Hardware dieser Dimension ausführlich zu testen. Deshalb sind alle Engine-Autoren beim TCEC eingebunden und legen ihre bevorzugten Einstellungen fest. Diese Einstellungen werden dann in den in diesem Forum ebenfalls häufiger kritisierten weil langwierigen Testturnieren geprüft und wenn es zu Problemen oder Auffälligkeiten kommt, ebenfalls in Rücksprache mit den Autoren nochmal angepasst. Das führt dann vielleicht dazu, dass Stockfish mit 101 Threads statt 104 spielt, weil die in ihren eigenen Tests festgestellt haben, dass sich das eher positiv auswirkt.
4. Zufallsergebnisse: Klar. Ist halt ein "Wettkampf". Es geht nicht darum, ein exaktes Ranking zu erstellen, dafür gibt es genügend Rankings, u.a. dein FCP. Statt dessen geht es darum, interessante Partien "am Limit" zu produzieren. Ich selbst habe leider zu wenig Schachwissen, um diese Partien auch entsprechend zu würdigen, aber gerade das macht auch einen wichtigen Wert des TCEC aus. Da tummeln sich im Chat nämlich eine ganze Reihe von Leuten, die wirklich jede Menge Ahnung von Schach haben wie z.B. Großmeister Matthew Sadler und die Partien dann auch entsprechend würdigen und kommentieren.

Ach ja, der Chat... auch davon scheinen einige von euch ein völlig falsches Bild zu haben, das vielleicht noch aus einer früheren Zeit des TCEC stammt, in der irgendwelche "Dreibuchstabentrolle" den Chat mit ASCII-Bomben verschmutzt haben.
Im aktuellen Chat trifft man einen festen Stamm von Zuschauern, die größtenteils sehr kompetente und teilweise auch sehr humorvolle Kommentare liefern und für eine gute und positive Grundstimmung sorgen. Trolle oder Miesepeter gibt es dort nur sehr sporadisch. Ganz anders übrigens, als es hier in diesem Forum oder auch im Talkchess der Fall ist. Meine Meinung...

Also, lange Rede kurzer Sinn: Für mich steht der TCEC im Ranking der Websites für Computerschachfans ziemlich weit oben, vielleicht sogar an Platz 1.

Grüße und ein schönes Wochenende voller unterhaltsamer Partien, wo auch immer ihr sie schaut
Andreas
Parent - - By Frank Quisinsky Date 2021-12-04 10:24 Edited 2021-12-04 10:30
Hallo Andreas,

ich mag Computerschach-Webseiten einfach nicht die vollgeknallt mit unnötiger Werbung sind.
Daraus erkennt man oft wer mit Leidenschaft unterwegs ist oder wem es um irgendwelches generieren von Geldern geht.

So rein aus meiner eigenen Erfahrung heraus, konnte ich eh immer schon einen größeren Nutzen aus "Leidenschaft" als aus "kommerziellem Zeug" ziehen.

Schon zu Winboard Zeiten, Arena Zeiten etc.. haben ich z. B. Werbung abgelehnt.
Es sein denn es war eine Werbung die hundertprozentig passte (DGT Interessen im Fischer-Random Chess).

Selbst auf Werbebanner, die mehrere Tausend Euro gebracht hätten, habe ich dankend verzichtet.
Sehe keinen Grund die Arbeit von anderen für meine Zwecke auszunutzen, sprich die Arbeit der Programmierer.

Thema: Leidenschaft!

---

Nun wenn wir uns nicht mit Statistik beschäftigen würden, wäre das ja tod langweilig.
Wir sehen nur Ratings und wissen nicht wie diese zu Stande kommen.
Das Salz in der Suppe, schon zu Zeiten der Schachcomputer, waren Spielstile.

Welcher Schachcomputer konnte begeistern und welcher eher nicht.

---

Ja, ich schaue natürlich sehr gerne auf die Statistiken zu den kurzen Partien. Die sind einfach zu erstellen. Schwieriger hingegen die Statistiken zu Bauernstrukturen. Arbeite seid einigen Monaten daran die so zu gestalten, dass der Editieraufwand nicht zu groß wird. Auch die Statistiken zur Partielänge sind immer interessant. Wirkt sich kämpferisches Spiel im Endspiel aus. Wird zu schnell Remis gegeben. Ist immer eine Kombination die gebildet werden kann wenn Partielänge miteinfließt.

Beispiel:
Wie viele Partien gewann Stockfish unter 55 Zügen mit weiß ... mit schwarz und wie ist durchschnittliche Länge der Partien.
Ein Vergleich mit Komodo ist immer sehr interessant.

Stockfish spielt als weißer z. B. deutlich aggressiver als mit schwarz.
Komodo spielt als schwarzer z. B. leicht aggressiver als Stockfish mit schwarz.

---

Also, die reine Elo interessiert mich wirklich nicht.
Mir geht es seit mehr als 20 Jahren darum etwas über die Stärken und Schwächen der Engines herauszufinden.

Nehmen wir Deine Engine:
RubiChess überrascht mich derzeit.

Alles schaut sehr ausgewogen aus.
Anzahl an schnellen Gewinnpartien, Anzahl an schnellen Remispartien, Zügedurchschnitt weiß / schwarz beim Mittelspiel, späten Mittelspiel.
Nichts was zunächst mal negativ aufällt, ganz im Gegenteil.

Die Stats zu schnellen Gewinnpartien stehen in Kombination mit diversen anderen Statistiken.
Die fertige ich allerdings nur sehr selten an weil wahnsinnig viel Arbeit:

- aggressives Figurenspiel
- Bauernstrukturen, aggressive Bauern
- öffnende Linien
- Opfer

Die Stärke von RubiChess sind nicht die aggressiven Bauern oder die sich öffnenden Linien durch aggressive Züge, sondern das Zusammenspiel der Leicht- Schwerfiguren im Angriff.
Türme werden hinter den Bauern gebracht. Es wird sauber vorbereitet, es gibt Angreifer die hetzen mit den Bauern los und vergessen die Unterstüzung der Figuren oder vergessen die
Bauernstrukturen.

Grundsätzlich sehe ich bei den Mittelspielstats, Übergang Endspiel, Endspiel gleichbleibende Statistiken.
RubiChess gehört zu den wirklich ausgewogenen Programmen nach "oberflächlichen" Statistiken.

Insofern für Dich sicherlich auch schwieriger nachzuvollziehen wenn es um das Thema Spielstile geht.
Zu einem echten Spielstil kommt es im Grunde, wenn Stärken und Schwächen aufeinanderprallen.
Wobei es auch nicht viele Programme gibt die so einheitlich durch alle Partiephasen gehen wie es Dein Schachprogramm macht.

Tal, Shirow, Christiansen ... Angriff teils spekulativ riskant ... funktioniert so im Computerschach kaum noch.
Es sei denn Rybka oder Shredder ist der Gegner ...



Schauen wir nun aber etwas tiefer bei RubiChess wird klar wo der Unterschied zu Stockfish ist, noch krasser wird klar wo der Unterschied zu Komodo ist.

Das späte Mittelspiel und der Abtausch von Leichtfiguren / Schwerfiguren bei gleichzeitiger Betrachtung verbleibender Bauernstrukturen.
Komodo hier der Meister unter den Schachprogrammen und RubiChess fällt deutlich ab.

Was im Feld der Engines nicht weiter auffällt, weil so gut wie Komodo es macht, macht es kaum eine zweite Engine.
Insofern ist Komodo wichtig wenn es um Bauernstrukturen im späten Mittelspiel geht.

Durch eine Stärke von Programm X fällt eine Schwäche von Programm Y auf.
Ist doch geil ...

Aus meiner bevorzugten Sichtweise:
Eröffnugnsbehandlung bei starker Königssicherheit und aggressiven Spiel gegen den König ist RubiChess deswegen interessant, weil es durch ein gutes Leicht-Figurenspiel glänzt.
Das macht RubiChess besser als andere Engines, die ein vergleichbares Rating haben ... in der frühen Partiephase!

Also, eine Engine mit einem eigenen Gesicht!!

---

Also, was ich brauche sind Partien ...
Und zwar gutes Material um solche Vergleiche durchführen zu können.

Analysiere ich Partien aus Schachbüchern, ich weiß welche Engine ich für welchen Stellungstyp einsetzen kann und genau das macht richtig Spaß.

Anstatt mir nichtssagende Partien auf Servern anzuschauen!!

---

Recht geben muss ich Dir beim Thema Chat.
Der Austausch mit gleichgesinnten ist immer interessant aber wenn es um tiefe Statistiken geht, habe ich im www noch niemanden gefunden.
Hier spielt sich wirklich alles per E-Mail ab. Da gibt es noch ganz andere Kaliber die mir erklären wo eine Stärke einer bestimmten Engine liegt und ich lerne immer wieder hinzu.
Überprüfe und entwickle dann wieder eigene Ideen um Tatsachen mit anderen Tatsachen zu mixen.

---

Hardware von TCEC

Ich habe die Möglichkeit auf gleichwertiger Hardware als TCEC zu testen wenn ich möchte.
Nur ich sehe keinen Nutzen!

Elo ist bei einem Core und 4.4Ghz schon gigantisch.
Der Zuwachs bei Verdoppelung etc. wird immer kleiner und produziert auch oft unnötige Fehler.
Das heißt die produzierte Spielstärke ist weit weg von dem was wir als Menschen überhaupt noch begreifen können.
Die Fehlertolleranz ist zu groß.

Hatte letztens mal eine Stellung auf 64 Cores analysieren lassen (volles Brett).
Der entscheidende Zug (ein von mir geliebter Bauernvorstoss ... h4 bei nachvolgender langen Rochade) wurde von Programmen auf einem Core ausgespielt.
Gleiches Programm eiert mit 64 Cores vor sich hin und verwirft, spielte Züge dessen produzierte Bauernstrukturen dann zum Verlust führten.

Halte also nichts von Engine Vergleichen mit mehr als einen Core.
Die Leistungen der Engines sind zu stark unterschiedlich um im Grunde kann immer weniger gemessen werden.

Das ist für mich kein Limit Andreas!
Eine einzige falsche und meist nicht reproduzierbare Mehrprozessoranalyse und alles hinsichtlich Messung und Statstiken ist hin.

Nun gut ...
John schaut sich TCEC auch gerne an und fiebert einfach nur mit.

Habe früher auch oft am Fenster gestanden (andere Wohnung) und Wetten mit den Nachbarn abgeschlossen welches Auto am schnellsten von der Ampel wegkommt.
Kann auch reizvoll sein ...

Viele Grüße
Frank
Parent - - By Frank Quisinsky Date 2021-12-04 10:42
Beispiel:

Komodo verliert im FCP Turnier 2022 gegen Zahak.

vier verschiedene Stats schlagen Alarm.
3 verschiedene um echte Stärken bei Zahak zu vermuten und eine um eine grausige Schwäche bei Komodo zu vermuten.

Beim Nachspielen der Partie erkennst Du keinen wirklichen Komodo Fehler, die Partie wurde schleichend verloren.

So gut können Statistiken wirken und so wichtig sind diese.

Ich hoffe immer das ein wirklich gutes Statistik-Programm für Engines angeboten wird.
Das wäre eine imense Hilfe für Programmierer, denn sicherlich weder ich, noch Du noch John sind Großmeister und selbst wenn wir Großmeister wären, wir hätten auf diesem Engine Niveau auch keine wirkliche Chance viel zu erkennen. Großmeister noch eher aufgrund der vielen Stellungsbilder die fest in der Rübe verankert sind und aus dem Unterbewusstsein heraus das Züge gut sind.

Genug ...
Dir einen schönen Samstag und vielen Dank für Dein Schachprogramm!
Habe sehr viel Spaß mit RubiChess, unglaubliche Leistung die Du da vollbracht hast!!

Gruß
Frank
Parent - - By Frank Quisinsky Date 2021-12-04 10:56 Edited 2021-12-04 11:01
Um noch 1x etwas herauszunehmen (könnte wirklich 100 Beispiele durch die FCP-Turniere bennenen).

Der Ethereal Programmierer wird das nicht gerne lesen ...

In Runde 1 vom FCP Tourney-2022 verlor Ethereal von den 40 Partien ... sage und schreibe 7!

Stelle mir gerade vor das wäre bei TCEC passiert.
Da hätten ja im Chat alle geschrieben, die Engine ist total buggy!
Wir kennen ja die nichtsaussagenden Kommentare von Sensationslüstigen Gemütern!!

Von Runde 2 bis Runde 12 verlor Ethereal dann weitere 18, 18:11 = 1,64 Partien pro Runde (aha, schaut doch wieder typisch Ethereal aus).

Wie viele Beispiele soll ich nennen?

Insofern was ist TCEC?
Bleibe dabei ... nichts mit dem ich wirklich irgend etwas anfangen kann.
Und den Chat erspare ich mir lieber!
Parent - - By Andreas Matthies Date 2021-12-04 15:48 Edited 2021-12-04 15:53
Hallo Frank.

Der Fachmann nennt es SSS (small sample size), der Laie spricht von "der Pokal hat seine eigenen Gesetze".
Es ist doch überhaupt kein Problem, wenn Ethereal (oder welche Engine auch immer) beim TCEC (oder wo auch immer) 7 statt der statistisch korrekten 1,6 Partien verliert. Im Gegenteil, damit ist garantiert, dass da ein paar überraschende Partien dabei sind, die das Publikum begeistern. Und es gibt dann auch irgendwo einen Engine-Entwickler, der sich über einen Sieg gegen Ethereal oder über 5 statt der statistisch korrekten 2,3 Siege freut.
Dass es Menschen gibt, die aus den wenigen Ergebnissen beim TCEC oder vergleichbaren Turnieren mit geringer Spielzahl die falschen Schlüsse ziehen, ist kein grundsätzliches sondern nur das Problem dieser Menschen.

Außerdem bin ich überzeugt, dass diese statistischen Ausreißer durch die starke Hardware und die lange Bedenkzeit beim TCEC deutlich begrenzter auftreten, als in unseren 1-Thread-Tests bei relativ oder sogar sehr kurzer Bedenkzeit.

Grüße, Andreas
Parent - - By Frank Quisinsky Date 2021-12-04 16:02
Hallo Andreas,

da ist natürlich etwas dran.

Grundsätzlich habe ich immer auf gelb und orange getippt.
Meine die Farbe vom Auto, welches am schnellsten von der Ampel wegkommt.
Keine Ahnung warum ich immer Glück hatte.

Ein Grund warum meiner gelb ist.



Aber schon krass oder?
Verliert Ethereal 7 Partien in einer einzigen 40er Runde.
Fast jede Runde hat solche Besonderheiten.

Fiebere auch gerade mit den letzten Wasp Partien aus Runde 13 mit.
Gegen Ethereal Remis gegen Komodo die zweite Niederlage und dann waren es eigentlich nur "schwächere Gegner" die kamen.
Und gegen die "Schwächeren" ... jetzt hätte es hoch gehen können ... leider auch alle Remis.

30x Remis in einer 40er Runde ...
Muss jetzt wirklich mal schauen ob das mal eine andere Engines bei den 112 Runden (FCP Turnier 2020 - laufend) jemeils gespielt hat.

Rubi spielt übrigens auch eine super starke Runde 13.
Steht in der Tabelle aber irgendwie felsenfest auf Platz 8.
Zu weit bis höher und zu weit bis runter ... und zieht super beständig seine Runden.

RubiChess werde ich wahrscheinlich für das kommende FEOBOS Projekt einsetzen.
Eignet sich nach den Stats einfach gut für Eröffnungsanalysen!!

Arasan überrascht total.
So aggressiv kennt man dieses Programm gar nicht.
Das Gesicht der Engine hat sich komplett verändert.

Mal abwarten ... noch einige Runden zu spielen!
Dir noch ein schönes WE.

Viele Grüße
Frank
Parent - - By Frank Quisinsky Date 2021-12-04 16:30 Edited 2021-12-04 16:43
Hallo Andreas,

statistische Aussetzer.

Nach meinen Experimenten bei vielen Cores ...
Ich vermute es liegt an den Hash-Tables.

Setze ich die Hash-Tables komplett runter bei vielen Cores sind die Ergebnisse meist reproduzierbar.
Es gibt Engines, die bei mutmaßlich ausreichend eingestellten Hash-Tables völlig andere Ergebnisse in gleicher Stellung produzieren.
Andere machen das auch bei geringsten Hash-Tables und mehreren Cores.

Damit habe ich mich lange beschäftigt!
K.O. Kriterium für TCEC aus meiner Sicht.
Kniffel macht mehr Spaß!

Da ist die Testerei auf einem Core mit möglich hoher Bedenkzeit zuverlässiger (hinsichtlich Reproduzierbarkeit von gespielten Zügen).

Überlege gar schon einen zweiten Ryzen 9 5950x einzusetzen und die Bedenkzeit von 40 in 20 (eine Partie durchschnittlich 1:20 Stunden) auf 40 in 40 zu erhöhen.
Geht die Länge einer Partie auf durchschnittlich 0.8 Züge höher auf ca. 90 Züge (ohne Aufgabefaktor) und die Remisquote steigt leider um 1.2% (rechne ich das hoch auf
die Ergebnisse mit anderen Bedenkzeiten).

Dagegen spricht ... zusehen macht kein Spaß mehr.
Partien dauern zu lange, da schlafe ich meist ein.
Die Grenze ist im Grunde 40 in 20 um konzentriert hier und da zu versuchen zu folgen.

Gruß
Frank

Könnte mal Wasp 5.00 NN mit 8 Cores nach dem Turnier einsetzen und die 2.000 FCP Tourney-2022 Partien durchlaufen lassen.
Das Ergebnis kenne ich allerdings schon, zu einem Core ... + 39 Elo (wenn es gegen die gleichen Gegner geht ... mit Wasp 4.50 ausgetestet). Nun, was bringen z. B. 32 Cores wenn Züge nicht mehr reproduzierbar sind und sich gar Fehler einschleichen, die
bei einem simplen Core nicht passieren, bei Spielstärken, die schon mit einem Core weit weg von gut und böse liegen. Die Nummer 41 im Turnier ist über 150 Elo stärker
als Carlsen. Für mich macht es aus so vielen Gründen einfach keinen Sinn mehr als einen Core pro Engine einzusetzen oder Partien mit mehr als einem Core pro Engine
zu verfolgen. Ist gegen jede erdenkliche Logik ganz zu schweigen von der verpufften Hardware-Leistung bei vielen Cores.
Parent - - By Andreas Matthies Date 2021-12-04 19:02 Edited 2021-12-04 19:10 Upvotes 2
Frank Quisinsky schrieb:

Hallo Andreas,

statistische Aussetzer.

Nach meinen Experimenten bei vielen Cores ...
Ich vermute es liegt an den Hash-Tables.

Setze ich die Hash-Tables komplett runter bei vielen Cores sind die Ergebnisse meist reproduzierbar.
Es gibt Engines, die bei mutmaßlich ausreichend eingestellten Hash-Tables völlig andere Ergebnisse in gleicher Stellung produzieren.
Andere machen das auch bei geringsten Hash-Tables und mehreren Cores.

Damit habe ich mich lange beschäftigt!
K.O. Kriterium für TCEC aus meiner Sicht.
Kniffel macht mehr Spaß!


Hmm, das verstehe ich wohl nicht richtig.

Ich hoffe, wir sind uns einig, dass der Einsatz von mehreren Threads die Spielstärke massiv verbessert. Naja, massiv ist natürlich relativ aber ein Mathematiker würde wohl sagen: n > m => EngineX mit n Threads > EngineX mit m Threads. Gilt das nicht, so ist EngineX buggy.
Ich hoffe, wir sind uns außerdem einig, dass beim Einsatz von mehr als einem Thread bei der vermutlich in 98% der Engines eingesetzten Lazy SMP Technik die Berechnungen nicht mehr deterministisch sind, weil die Threads immer unterschiedlich und unvorhersehbar schnell sind und damit auch ihre Interaktion über die Hashtabelle unvorhersehbar wird.

Von welchen statistischen Aussetzern sprechen wir jetzt?
a. Dass eine Engine bei wenigen Spielen zu schlecht (oder zu gut) spielt, das aber bei vielen Spielen wieder gerade rückt?
b. Dass eine Engine bei vielen Threads (und viel Hashspeicher) grundsätzlich zu schlecht spielt, also schlechter als man es aus 1-Thread-Tests mit anderen Engines erwarten würde?
c. Dass die Ergebnisse auf einer bestimmten Position beim Einsatz vieler Threads variieren, also der gefundene Zug und die Bewertung dieser Stellung?

Über a. hatten wir ja vorher eigentlich gesprochen im Zusammenhang mit statistischen Ausreißern, aber das meinst du hier vermutlich nicht.

Bei b. würde ich mal ganz stark vermuten, dass diese Engine einfach eine schlechte bzw. fehlerhafte Umsetzung der parallelen Threads hat. Das muss der Entwickler dann halt beseitigen und darauf wird er dann ev. auch durch ein enttäuschendes Abschneiden bei einem Multi-Threads-Turnier wie dem TCEC aufmerksam. Tatsächlich haben viele der Entwickler beim TCEC durch Abstürze gelernt, dass da Fehler in der Engine stecken, die bei 2 oder 4 Threads auf dem Heim-PC so selten auftreten, dass man sie nicht bemerkt, auf einer >100 Core Maschine dann aber relativ schnell zu einem Absturz führen. Ich selbst musste das auch mal erleben und konnte durch dieses Spiel einen Bug beseitigen: https://tcec-chess.com/#game=42&round=round16&season=cup5

c. wäre halt Folge des schon oben erwähnten Nicht-Determinismus, mit dem man einfach leben muss. Mal wird der richtige Zug gar nicht gefunden, beim nächsten Lauf überholen die Threads sich dann etwas anders und schon springt der korrekte Zug nach wenigen Sekunden aus der Engine.
<Spekulation>Dass du dieses "Problem" mit dem Heruntersetzen des Hashspeichers umgehst, könnte daran liegen, dass dadurch die Threads den wenigen Speicher so häufig überschreiben, dass da kaum noch was Verwertbares für die anderen Threads drin steht und diese dann mehr oder weniger ohne Interaktion vor sich hin arbeiten, was den Determinismus erhöht.</Spekulation>
Dasselbe erlebt man aber auch im 1-Thread-Modus bei geringfügigen Anpassungen in der Engine, die dann dazu führen, dass in bestimmten Positionen der beste Zug nicht mehr gefunden wird. So ist es halt.

Und deine Schlussfolgerung "Kniffel macht mehr Spaß"? Da fallen die Würfel doch auch zufällig und die Augenzahlen sind nicht reproduzierbar. Genau das hast du doch kritisiert

Einen schonen Restsamstag wünscht
Andreas

PS. Ich gebe dir Recht, dass für das Erstellen eines Rankings der Einsatz von mehreren Threads nicht notwendig ist (außer, wenn es speziell um den Test der SMP Umsetzung geht) und dass man die vorhandene CPU-Power lieber in die Produktion möglichst vieler Spiele stecken sollte, um statistisch aussagekräftige Ergebnisse zu bekommen.
Ich finde es aber beim TCEC faszinierend, wie da manchmal in bestimmten Positionen auch in relativer Zeitnot plötzlich Züge gefunden werden, die ich auf meinem Rechner hier zuhause erst nach Stunden der Rechnerei irgendwann reproduzieren kann oder eben auch nicht.
Parent - - By Frank Quisinsky Date 2021-12-04 19:41
Hallo Andreas,

sicher verbessert sich die Spielstärke aber von massiv spreche ich hierbei nicht weil es auf die Betrachtungsweise ankommt.

Beispiel:
Im 3+2 Blitz erreiche ich bei Wasp 4.50 und 8 Cores im Vergleich zu 1 Core und einer sehr guten Faktor eine Verbesserung bei 4.4 Ghz im Test gegen 40 andere von +92.
Und nun schmelzen die +92 dahin wenn ich die Zeit hochfahre.

Bei 40 in 12 und Wasp 4.50 (Partie ca. 45 Minuten) werden es +68.
Bei 40 in 20 fehlen mir genaue Werte der Anderen aber es schaut nach knapp +40 aus (nicht 100% sicher).

Das heißt, wenn ich die Zeit hochfahre schmiltzt der Einfluss so langsam dahin.

Interessant wird es bei Analysen ...

Lasse mal die gleiche Engine mit 1, 2, 8, 16 Cores gleichzeitig eine Stellung analysieren.
Am besten eine ausgeglichene Eröffnungsstellung mit vielen Figuren auf dem Brett!
Benutze selbst bevorzugt eine FEOBOS Position bei dem seinerzeit 10 Engines zu 9 unterschiedlich beste Zügen kamen. Alle Engines der Meinung waren die Stellung ist ausgeglichen.

Was ich da teils sehe ist der Horror!
Ein wildes durcheinander und unterschiedliche Züge ...

Bei Partien mit mehreren Cores auf Fehlersuche zu gehen ist teils frustrierend.
Wenn denn oftmals der fehlerhafte Zug nicht zu reproduzieren ist.

Sage mal so, beim Einsatz von 16 Cores (auf die Gesamtheit aller Engines gesehen) habe ich starke Bauchschmerzen.
Beim Einsatz von 8 Cores halten sich die Bauchschmerzen in Grenzen aber ich denke an die Ressourcenverschwendgung ... bei Faktor 5.6 ein Verlust von 2.4!
Beim Einsatz von 4 Cores und Faktor 3.2, OK ... aber die Zeit anzuheben macht mehr Sinn.

Sprich:
4-Core Maschine!
Lasse ich eine Engine rechnen mit 4-Cores oder nehme ich 4 Engines mit einem Core, lasse die länger rechnen.

Keine Ressourcenverschwendung und mehr Spaß bei der Betrachtung von 4 unterschiedlichen Analysen.

Hinweis:
Wenn mir ein Zug besonders gut gefällt, irgend eine Engines einen Hammer Zug findet ...
OK, gehe ich auch hin und setze alle Cores die vorhanden sind auf die Stellung an und schaue ...
In 25% sorgt das zwar wieder für Frustration weil teils wieder was anderes dabei herauskommt.

... Thema Kniffel!

Im Grunde sprechen wir von Punkt: c

Und zu Punkt b ...
Mir wäre es ja auch lieber wenn eine optimalere Vergleichbarkeit zwischen den Programmen herrscht.
Chaos "Ponder = on" ... wie viele E-Mails habe ich in 20 Jahren Computerschach deswegen geschrieben.
Alleine das Zeitmanagement bei Ponder = on ist bei vielen eine Katastrophe.

Hatte vor dem FCP Turnier-2021 noch einen Test gefahren.
Bei 9 Programmen funktioniert das nicht oder schlecht und es mangelt wieder an der Vergleichbarkeit.

Jetzt Ponder = on und MultiThread in Kombination ...
Bei Betrachtung der Zeiteinteilung und Reproduzierbarkeit von Ergebnissen ... mir kommen die Tränen.
Wobei es wirklich Engines gibt die machen das sehr gut.

Was mache ich heute:
Teste ohne Ponder, mit einem Core und versuche durch modernere Technik auszugleichen.
Mehr Cores bedeutet mehr Möglichkeiten bzw. mehr Spiele können laufen.
Mehr MHz pro Core und mehr Zeit bedeutet ich steigere die Leistung auf einem Core so hoch es irgend geht.
Mit dem Ziel, die möglichst beste Vergleichbarkeit zwischen den Engines zu produzieren.

Auch wenn ich weiß, dass selbst bei einem Core diverse Engines wieder Probleme mit der Zeiteinteilung haben, etc..

---

Nun, könnten uns auch denken ...
Ich nehme die stärkste Hardware, viele Cores und hetzte das was geht aufeinander los.
Klar, kann man machen aber was bringen dann wenige Partien, wenn mehr unsichere Beeinflussungsfaktoren hinzu kommen und es immer mehr an der Vergleichbarkeit mangelt.

Bringe ich Engines in eine Turnier muss die bestmögliche Vergleichbarkeit sicher gestellt sein.
Sonst macht es keinen Sinn ein Turnier zu starten.

Setzte auch keinen Kasparow nach Unfall mit Shirow und Magen-Darm, dem nächsten mit Rückenschmerzen zusammen mit jemanden der TOP-Fit ist.
Setze mich dann an den PC und schaue zu wie Ressourcen verschwendet werden, keine klaren Turnierbedigungen herrschen und weil alles so schön ist lasse ich mich noch von Werbung berieseln.

Nun ja ...
Die Wege des Herrn ...

Gruß
Frank
Parent - - By Frank Quisinsky Date 2021-12-04 20:01 Edited 2021-12-04 20:03
Oder, auch schon gemacht ...

Ich lasse 1 Stunde pro Partie (durchschnittliche Bedenkzeit mit einem Core) ein aussagekräftiges Turnier spielen.
Ich lasse 10 Minuten pro Partie (durchschnittliche Bedenkzeit mit 8 Cores) das gleiche Turnier wiederholen.

Betrachte die Ergebnisse der TOP-41!
OK, habe ich mit den TOP-26 gemacht, nicht mit den TOP-41.

Was für ein Durcheinander bei mehr als 25% der Engines ...
Und ich habe noch nicht mal Pondern aktiviert!

Der Fun Faktor ist einfach ...

Bestmögliche Vergleichbarkeit herstellen, denn Engines mit einem Core liegen bei 4.4Ghz schon zu weit weg von der max. möglichen Spielstärke der besten Menschen.
Das mit Gewalt zu steigern, koste es was es wolle (Vergleichbarkeit) ist völlig sinnlos.

Ob ich Matches beobachte, mit einem Core, wo die Nummer 1 schon bei 3500 Elo liegt oder Matches beobachte mit 16 Cores wo die Nummer 1 vielleicht bei 3600 Elo liegt (wenn die Zeitkontrolle entsprechend hoch ist) ...
Wo ist der Unterschied?

Interessant ist eher, wie kann ich eine wirklich gute und starke Engine, die sämtliche Partiephasen wirklich sehr gut bei maximaler Leistung spielen kann, so abschwächen ohne das künstlich zu tun.
Also, der Engine sagen, spiele so weit runter reduziert das noch 1500 Elo möglich sind.

Das macht bei Wasp richtig Spass wenn Wasp mit 25 Stellungen pro Sekunde gegen Super Conny hält und ich das auf einem DGT Brett produziere.
So langsam hoch fahre bis auf 2.700 Elo auf DGT Pi und ein Gefühl für Spielstärke bei einem menschlichen Stil produziere.

Also, ich halte es auch für spannend die Spielstärke hoch zu treiben aber wenn es darum geht Spielstärke zu messen, Stärken und Schwächen festzustellen, muss alles "bestmöglich" vergleichbar sein.
Sonst macht das überhaupt keinen Sinn!

TCEC erfüllt nicht mal einen meiner fünf persönlichen Gesichtspunkt für ein Schachturnier mit Engines!

Gruß
Frank
Up Topic Hauptforen / CSS-Forum / S21 - Swiss 2
1 2 Previous Next  

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill