Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / FCP Tourney-2020, nach nunmehr fast 10.000 Partien ... ein paar Stats!
- - By Frank Quisinsky Date 2020-07-31 10:10 Edited 2020-07-31 10:56
Hallo zusammen,

das FCP Tourney-2020 läuft so vor sich hin auf starker Hardware mit 4,9Ghz pro Core und der Zeitkontrolle 20 Minuten pro Partie + 5 Sekunden Fischer Aufschlag pro Zug.
Larry Kaufmann schrieb mir, dass dies umgerechnet die höchste Zeitkontrolle ist, die derzeit eingesetzt wird und auch die Bedinungen für das Turnier sehr optimal ausschauen. Verwende ja den derzeit schnellsten Prozessor hinsichtlich 1-Core.

Natürlich ist nur ein Stockfish im Turnier und natürlich spielen alle mit Contempt = 0.
So kann man auch mal schön erkennen, wie der wirkliche Unterschied von Stockfish zur Nummer 2 Komodo ist, wenn wirklich ausreichend Gegner im Turnier sind (41 Teilnehmer, jeder gegen Jeden).

Sind gerade mal 69 Elo nach nun 480 Partien gespielten Partien pro Engine!

1. Der Zügedurchschnitt ohne Aufgabefaktor, beim Einsatz der 4-Steinern, beträgt nach 9.840 Partien "nur" 86,365 Züge. Hätte den bei einer durchschnittlichen Elo von 3035 der 41 teilnehmenden Programme eher auf 90 geschätzt.
2. Die Remisquote liegt bei 50,7% bei einer durchschnittlichen Elo von 3.035 im Teilnehmerfeld. Zum Vergleich erspielten die besten 870 Großmeister in den Jahren 2008-2019 eine Remisquote von 50,7% bei einem um ca. 600 Elo niedrigeren Elo-Durchschnitt.
3. Mit FEOBOS bin ich sehr zufrieden. Es wurden bislang 496 der 500 ECO Codes mindestens 1x angespielt. Vier seltene (C37, D62, D64 und E23) kamen noch nichts auf's Brett. z. B. gab es bei der letzten Runde 12 nur 19 Partien mit Remis unter 40 Zügen (eine Runde besteht aus 820 Partien). FEOBOS arbeitet einfach perfekt. Einzig was mich stört ist, dass 39 der 9.840 gespielten Partien mit Remis unter 20 Zügen endeten. Diese Partien werden ja bei mir immer wiederholt. FEOBOS müsste eigentlich hier für eine Remis Quote von 0,35% sorgen und liegt derzeit bei leider 0,39%. Nun, Statistiken lügen nicht und ich gehe davon aus, dass die Quote sinkt. Der Deal von FEOBOS! Es werden nur die ausgeglichenenen Stellungen der 500 ECO-Codes, 3 Züge nach ECO-Code Ende angespielt und dennoch wird durch Contempt = 3 die Quote der schnellen Remispartien durch 3-fache Stellungswiederholung zurück gehen.
4. FEOBOS besteht natürlich nicht nur aus Partien der aktuellen GM-Theory aber das FEOBOS Buch unter der Shredder GUI wurde durch die Ausspielwahrscheinlichkeiten aktueller GM-Theorie angepasst. FEOBOS simuliert also die beliebtesten Eröffnungen, die Großmeister in den letzten 12 Jahren spielten und das in absoluter Perfektion. Natürlich immer unter dem Vorbehalt, dass Systeme die durch FEOBOS von 12 Engines aussortiert wurden nicht angespielt werden und auch ältere Systeme durchaus angespielt werden dürfen ... nur mit geringerer Wahrscheinlichkeit.

Stockfish 11 hat bislang alle 12 Runden gewonnen (bei jeder gegen Jeden, 41 Teilnehmer also 40 Partien pro Runde). 2x sehr knapp vor Komodo! Bin sehr gespannt ob das bis zum Turnierende so weiter geht oder ob Stockfish vielleicht auch mal eine Runde abgeben wird. Auch hat Stockfish 11 bislang nur eine einzige Partie verloren (gegen Komodo). Eine von 480 ... das ist heftig beeindruckend!!

Die Elo-Listen können auf der Detail-Seite durchgeklickt werden, natürlich auch die Rundentabellen bzw. immer 2 Rundentabellen auch zusammengefasst (weiß / schwarz, also 80 Partien für 2 Runden).

Auf meinen Webseiten habe ich eine Replay-Zone eingerichtet.
Die schnellen Gewinnpartien mit Matt bis Zugnummer 60 können hier nachgespielt werden.
Immerhin 5,04% aller Partien endeten mit Matt unter 60 Zügen (hier hätte eher 5,5% vermutet aber vielleicht geht die Statistik noch ein bissel hoch). Aber irgendwie auch logisch ... je stärker das Teilnehmerfeld desto weniger schnelle Gewinnpartien!

Vergessen:
"Nur" 3,65% aller Partien endeten mit Remis unter 40 Zügen. Das ist fantastisch und auch hier zeigt sich das die 4jährige Arbeit um FEOBOS nicht umsonst war. Rundrum bis ich also mit den Eröffnungsstatistiken zu 98% zufrieden. Als größter Kritiker eigener Arbeiten, aber die lange Arbeit um FEOBOS zahlt sich aus.

Noch eine Statistik, die mich sehr erfreut:

Code:

Die 870 GM erstspielten (achtet auf die ECO-Code Aufteilung)

Games        :  86371 (finished)
White Wins   :  26517 (30.7 %)
Black Wins   :  16034 (18.6 %)
Draws        :  43820 (50.7 %)
Unfinished   :      0
White Perf.  : 56.1 %
Black Perf.  : 43.9 %
ECO A =  13887 Games (16.1 %)
ECO B =  19723 Games (22.8 %)
ECO C =  17334 Games (20.1 %)
ECO D =  20324 Games (23.5 %)
ECO E =  15103 Games (17.5 %)

Und beim FCP Toruney-2020

Games        :   9840 (finished)
White Wins   :   2973 (30.2 %)
Black Wins   :   1882 (19.1 %)
Draws        :   4985 (50.7 %)
Unfinished   :      0
White Perf.  : 55.5 %
Black Perf.  : 44.5 %
ECO A =   1414 Games (14.4 %)
ECO B =   2503 Games (25.4 %)
ECO C =   2063 Games (21.0 %)
ECO D =   2144 Games (21.8 %)
ECO E =   1716 Games (17.4 %)


E00-E99 so perfekt mit einem Buch zu simulieren, welches per Zufallsgenerator nach Präferenzen ausspielt ist fast unmöglich. Unmöglich weil sich viele E00-E99 ECO Codes erst sehr spät bilden und durch andere ECO Codes auf dem Weg zum Ziel abgefangen werden.
Gerade ab E60 wird es interessant, denn diese Eröffnungen sorgen für viel Spannung und erzeugen relativ geringe Remis Quoten. Endlich deutlich über 17% ... glaube diese Freude versteht auch nur jemand der sich intensiver mit dem Thema beschäftigt hat aber das freut mich richtig!!

Alle ECO-Codes und Varianten, die wie gesagt derzeit in der GM-Theorie beliebt sind werden auch häufiger im Turnier simuliert. Das es dennoch Abweichungen gibt liegt meist an Zugumstellungen und natürlich daran, dass FEOBOS auch mit geringerer Wahrscheinlichkeit derzeit weniger beliebte aber ausgeglichene Eröffnungssysteme anspielt. Was ich immer haben wollte, immer sehen wollte ... mir meist nur zu 80-85% gelungen ist (FCP-Live Buch), ist nun zum Standard bei meinen Test-Runs / Turniere geworden! Und so geht das Thema Eröffnungsbuch endlich für mich in die Geschichte ein, wenn es darum geht knallharte Elo zu messen.

Derzeit werden die Statistiken von Klaus nicht gepflegt (er ist im Urlaub und holt das später nach).

Hier noch eine interessante Statistik (natürlich findet sich alles was derzeit rund zum Turnier erzeugt wird im download file):

Code:
Statistic -1- after R12 (480 games per engine):

496 of 9.840 = 5,04% : Fast won/lost games below 60 moves (with mate ended)
360 of 9.840 = 3,65% : Fast draw games below 40 moves

                                    won  lost  draw
01. Stockfish 11 BMI2 x64            56     0    17
02. Houdini 6.03 Pro x64             43     0    16
03. Komodo 14.0 BMI2 x64             38     0    25
04. Ethereal 12.25 PEXT x64          27     0    17
05. SlowChess BC 2.2 x64             28     0    25
06. Xiphos 0.6 BMI2 x64              19     0    22
07. Booot 6.4 POP x64                19     0    29
08. Schooner 2.2 SSE x64             19     1    23
09. Fizbo 2.0 BMI2 x64               19     5    22
10. Defenchess 2.2 POP x64           17     0    22
11. Fritz 17 (Ginkgo) x64            17     3    18
12. Laser 1.7 BMI2 x64               16     0    22
13. Andscacs 0.95 BMI2 x64           16     3    19
14. Fire 7.1 POP x64                 12     2    20
15. Wasp 4.00 Modern x64             12     4    13
16. Arasan 22.0 BMI2 x64             12     4    14
17. Chiron 4 x64                     12     6    16
18. rofChade 2.3 BMI x64             11     2    17
19. Pedone 2.0 BMI2 x64              11     8    12
20. RubiChess 1.7.3 x64              10     5    24
21. Vajolet2 2.8 BMI2 x64             8     3    16
22. Texel 1.07 BMI2 x64               7    20    13
23. Shredder 13 x64                   6     4    14
24. GullChess 3.0 BMI2 x64            6    10    14
25. Nemorino 5.00 BMI2 x64            6    20    13
26. Fritz 16 (Rybka) x64              6    28    19
27. Protector 1.9.0 x64               5    12    14
28. Critter 1.6a x64                  5    17    10
29. Nirvanachess 2.4 POP x64          5    22    22
30. Demolito 2020-05-14 PEXT x64      4    12     8
31. iCE 4.0 v853 Modern x64           4    17    18
32. Winter 0.8 x64                    4    34    13
33. Minic 2.33 x64                    3    27    17
34. Senpai 2.0 BMI2 x64               3    34    16
35. Igel 2.5.0 BMI2 x64               2    16    24
36. Monolith 2 PEXT x64               2    37    17
37. SmarThink 1.98 AVX2 x64           2    43    12
38. Rodent IV 0.22 POP x64            1    16    18
39. Equinox 3.30 x64                  1    19    19
40. Combusken 1.2.0 x64               1    44    20
41. Hannibal 1.7 x64                  0    19    10


Für Wasp ist es mit 2.975 natürlich schwierig gegen die TOP-10 schnelle Gewinnpartien zu produzieren. Eigentlich fast unmöglich gegen Programme die mehr als 100 Elo stärker sind. Aber auch hier lässt sich ansetzen bei der Messung zu schnellen Verlustpartien.
In der Regel haben extrem gute Angreifer, die mittels aggressive Bauern den schönen Spielstil erzeugen, auch eine erhöhte Königssicherheit bei vielen Figuren auf dem Brett. Wer für sich sieht, sieht auch gegen sich ... die logische Erklärung, wobei es Ausnahmen gibt! Von daher fast wichtiger auf die Quote der schnellen Verluste zu achten. Berechne ich Anzahl der Gewinnpartien im Turnier mit Anzahl der schnellen Gewinnpartien sollte Wasp eigentlich mit Stockfish auf Platz 1 stehen. Werde Klaus noch darauf ansprechen. Die letzten 4 Runden waren aus der Sicht von Wasp eher unterdurchschnittlich ... hoffe es wird wieder besser.

Nur 4x verloren unter 60 Zügen!! Auch die geringe "buchbeeinflussende" Remisquote unter 40 Zügen stimmt, Wasp macht das was ich sehen möchte und John hat richtig gute Arbeit geleistet.

Programme mit schwacher Königssicherheit, z. B. Rybka (sehr schwache Königssicherheit) kommen da mit ganz anderen Stats daher.
Das z. B. Shredder zu den passivsten Programmen hinsichtlich schnelle Angriffe gehört sollte bekannt sein. Die Stärke liegt wirklich im Übergang zum Endspiel. Habe gestern mal für mich ein wenig ausgewertet ... Shredder ist beim Übergang zum Endspiel gar auf Platz 3 in der Welt. Solche Statistiken werden nach Abschluss vom Turnier kommen, macht derzeit noch nicht viel Sinn und ist zu aufwendig das von Runde zu Runde zu erstellen.

Aber, anhand dieser einen Statistik fällt schon eine Menge auf, und so werden die vielen Statistiken, die noch folgen, schöne Rückschlüsse auf die Spieleigenschaften unserer TOP-41 zulassen.

Wünsche Euch ein schönes Wochenende!

Wer das Turnier verfolgen möchte:
Von hier aus lässt sich alles starten:
http://www.amateurschach.de/main/_fcp-tourney-2020.htm

Viele Grüße
Frank
Parent - - By Klaus Wlotzka Date 2020-07-31 11:02 Edited 2020-07-31 11:36
Hallo Frank,

das FCP-Tourney ist alleine aufgrund der Vielzahl der Gegner und ausgespielten Runden und dem damit erzeugten Datenmaterial aus statistischer Sicht ein hochinteressantes Turnier. Mit den Datenmengen lassen sich interessante Rückschlüsse erarbeiten. Ich freue mich schon auf das Ende des Turniers, dann geht die Arbeit erst richtig für mich los. Einige Statistiken laufen ja schon parallel zum Turnier.

Auf FEOBOS kannst du wirklich stolz sein. Eine geniale Idee, die stärksten Engines auf die komplette Großmeistertheorie los zu lassen um damit ein ausgewogenes und damit ideales Buch für große Engineturniere zu erzeugen. Nur zu gerne hätte ich früher ein solches Buch bei der CSS-Rangliste eingesetzt. Als ich dieses Projekt startete, gab es nichts vergleichbares. Zu oft wurden die Engines mit relativ hohen Vorteil aus der Eröffnung entlassen, was schließlich zu einer Ergebnisverfälschung führen sollte. Ich griff daher zu Vorgabestellungen, welche auch die bekannten Nachteile mit sich brachten, aber die wogen in meinen Augen nicht so schwer, wie die damals fehlerbehafteten Bücher.

Daher musste ich damals nicht lange nachdenken, ob ich an FEOBOS mitarbeiten möchte. So wurde das für mich bisher größte Excel-Projekt geboren mit Unmengen von Statistiken über ECO-Codes und Engines, welche es so vorher noch nicht gab. Auch wurden Dinge erarbeitet, welche auch für mich Neuland waren, beispielsweise das Auslesen von Stellungscodes und die Erzeugung eines grafischen Schachbrettes in Excel.

Viele Grüße

Klaus
Parent - - By Reinhold Stibi Date 2020-07-31 11:36
Hallo Frank,

toll was Du da auf die Beine stellst.

Das belebt das Computerschach.

Viele Grüße

Reinhold
Parent - By Frank Quisinsky Date 2020-07-31 11:38
Hallo Reinhold,

das freut mich wenn Lob aus Deinem Munde kommt.
Wir hatten ja nicht immer gleiche Meinungen aber oftmals verzettle ich mich auch in Diskussionen.
Wir sind alle nur Menschen, haben allerdings alle das gleiche Hobby!



Dir weiterhin viel Spaß und ein schönes Wochenende!

Lg
Frank
Parent - - By Frank Quisinsky Date 2020-07-31 11:37
Hi Klaus,

das freut mich wirklich sehr!

Wir müssen nur folgendes später machen, dürfen das nicht vergessen.

Eine größere Streuung von Platz 1 bis Platz 41 in Elo sorgt für eine geringere Remisquote.
Genau das habe ich bei aller Liebe nie so wirklich bedacht und berücksichtigt.

Diese Streuung müssste man in ein Verhältnis stellen (steigende Remisquote nach Zugtiefe).

Ordo hat ja etwas vergleichbares ... Remisquote ca. gleichstarker Gegner.
Die liegt hier bei 63% wirklich sehr hoch und dürfte eigentlich nicht höher als 58% sein.

Das kann dann damit zusammenhängen das in der Gruppe der TOP-41 zu viele Programme mit gleichen Stärken und Schwächen drin sind oder gar geklont sind.

Werden wir später earbeiten können.

Dir noch einen schönen Urlaub!

Viele Grüße
Frank
Parent - - By Klaus Wlotzka Date 2020-07-31 12:33
Hallo Frank,
wir können die Remisquoten am Ende beispielsweise nach Platzierungsgruppen  (1-10, 11-20 ... ) oder weiter 1-20, 21-40 ...) ermitteln. Die Quoten werden dann sicher höher ausfallen. Interessant wird sein, ob die Quoten bei gleicher Streuung aber unterschiedlicher Spielstärke in etwa gleich sind oder nicht.

Grüße
Klaus
Parent - By Frank Quisinsky Date 2020-07-31 21:43 Edited 2020-07-31 21:59
Hi Klaus,

nehmen wir die Großmeister Datenbank mit über 80.000 Partien (kein Blitz, Simultan, mindestens 30 Partien pro Spieler wenn über 2.400).
Der Elo-Streuung liegt auch zwischen 2.400 und Carlsen der ca. 2.850 hat = 450 Elo.

Rodent mit 2.850 zu Stockfish mit 3.325 = 475 innerhalb der TOP-41.

Dennoch, TOP-41 im Computerschach und 860 Großmeister ... andere Streuung im Verhältnis zur Anzahl der Spieler / Programme (statistisch für mich eine Nummer zu hoch, nicht für Dich).
Bei den Großmeistern haben wir auch wesentlich mehr Remispartien bis 40 Züge als im Vergleich zum Computerschach, hier mit FEOBOS Buch.
GMs geben schneller Remis ...

Die beschriebene Idee von Dir ist gut.
Ist so ein Thema wie bei vielen FEOBOS Statistiken die wir erstellt haben.
Was haben wir da oft umgeworfen, weil Statistik Ideen sich dann wieder als unnötig oder nicht gut erwiesen haben.
Alleine bei den ECO Statistiken von FEOBOS hatten ich ja für viel Chaos gesorgt.

Problematisch ist auch immer das logisch nachvollziehbar für andere darzustellen, bzw. sollten die Auswertungen auf Anhieb logisch sein.
Keine leichte Aufgabe, weil auch hier teils Neuland betreten wird.

Bekommen wir schon hin ...

Viele Grüße
Frank
Parent - - By Frank Quisinsky Date 2020-07-31 22:33 Edited 2020-07-31 23:26
Hallo,

hier gab es eine Frage zur Elo-Berechnung.
Sehe die komischer Weise nicht mehr.

Kurz:
Beim Turnierstart habe ich mir CEGT Elo der 41 Teilnehmer (40 in 20) gezogen.
Warum? Ich habe derzeit nichts eigenes zu allen aktuellen Engines. Wollte erst die FGRL Elo nehmen, weil die zu meinen früheren Ergebnissen mehr vergleichbar waren (sehr viele Übereinstimmungen und bei CEGT öfters mal Abweichungen von 20-30 Elo). CEGT hat nicht so viele Gegner, ist dafür aber erstaunlich genau. Mein Grund warum ich die Arbeit schätze weil lückenlos getestet wurde, die Partien vorliegen und gleiches kann ich einfach löschen für eigene CEGT Auswertungen.

Nach meiner Datenbank, Computerschach gegen Menschen, kam ich vor ein paar Jahren zum Ergebnis, dass 2.800 Elo auf Shredder 12 geeicht ca. 25 Elo zu hoch ist. CEGT, IPON und meine Arbeiten mit FCP, davor SWCR nutzen 2.800 Elo auf Shredder 12. Das war mal eine grobe Aussage in einem Schach-Welt Interview mit GM Georg Meyer und GM Jörg Hickl für die Schach-Welt. Mit den Beiden führte ich seinerzeit bei mir ein Interview durch. GM Meyer's geschilderten Erfahrungen oder Meinungen anderer stärkerer Spieler zu dieser Frage waren für mich seinerzeit absolut logisch nachvollziehbar. Glaube alle Ratinglistenersteller zusammen haben mehr als 50.000 Shredder 12 Partien erzeugt (lange nicht upgedatet, wurde drauf geeicht). Alleine ich habe um die 17.000 in meiner Datenbank.

Wenn ich Datenbanken (gesammeltes gegen Menschen) auswerte, komme ich heute auf ca. 2775 Elo für Shredder 12.
Insofern zog ich bei der durchschnittlichen CEGT Elo 25 Elo ab und errechnete einen Turnierdurchschnitt von 3.050 Elo.

Im Step zwei eichte ich diesen Durchschnitt auf das Endergebnis der FCP-Ratingliste (auch hier 41 Gegner, Jeder gegen Jeden). Die FCP Ratingliste endete im Dezember 2016. Von den 41 seinerzeitigen Engines Versionen sind aktuell noch 6 gleiche Programme (gleiche Versionen) im aktuellen Turnier. Der Durchschnitt dieser 6 sollte demnach auch 25 Elo unter dem vom laufenden FCP Turnier-2020 liegen.

---

Fraglich ist nun ...
Unterschiedliche Bedenkzeiten, unterschiedliche ELOs.
Der Mach III erreichte 2265 unter amerikanischen Turnierbedinungen (40 Züge in 150 Minuten) und der Mach IV 2325. Seinerzeit war es so, je mehr Zeit desto stärker der Schachcomputer, weil die Suchtiefe dann langsam interessant wurde. Im Blitz konnte deutlich schwächere Spieler als 1.900 die beiden Schachcomputer im Verein problemlos bezwingen. Beim Turnierschach sah es anders aus. Heute ist es so, je mehr Zeit im Spiel gegen ein Schachprogramm, desto stärker wird der Mensch. Im Blitz hat z. B. niemand eine wirkliche Chance gegen Stockfish. Aber mit mehr Zeit steigen zumindest die Chancen auf Remis für die stärksten Spieler der Welt. Hat sich gewandelt im Laufe der Jahre.

Gehen wird davon aus, das seit dem Ende der FCP-Ratingliste TOP-41, zu den heutigen TOP-41, die Programme um durchschnittlich 150 Elo stärker wurden, benutze ich beim FCP Turnier-2020 eine deutlich längere Bedenkzeit und deutlich stärkere Hardware als 40 in 10 wiederkehrend bei der FCP-Ratingliste. Könnte der Mensch bei längeren Bedenkzeiten vielleicht auch um 150 Elo zulegen, wie die Schachprogramme grundsätzlich innerhalt der TOP-41 stärker geworden sind??!

Vermutung!

Habe bislang darüber nur mit Larry Kaufmann diskutiert.
Er hält zwar das FCP Turnier-2020 für interessant aber er denkt ich setze die Elo deutlich zu niedrig an.

Auch Larry versucht seit Jahren herauszufinden, wie Elo im Computerschach mit Elo beim Menschenschach vergleichbar werden könnte und er hat bei Weitem mehr Erfahrungen und Datenmaterial als mir vorliegt.

Dennoch, setze ich lieber niedriger als zu hoch an.
Für mich ist logisch das z. B. Rodent als Nummer 41 im laufenden Turnier bei 2.850 landet.
Rodent machte auf einem i7 5630 mit 4Ghz gegen Wasp 4.00 auf DGT Pi mit 1.2 Ghz z. B. ein 24.5 : 15.5. Wasp wäre bei gleicher Hardware ca. 150 Elo stärker.
Auf der DGT Pi spielt Wasp 4.00 bei maximaler Elo tatsächlich derzeit 2.700.

Das Ergebnis passt wie so viele andere Prüfungen der Wasp 3.60 / 3.75 Spielstärke gegen Schachcomputer oder Menschen auf DGT-Pi.
Wenn Rodent dann 2850 Elo tatsächlich hat passt auch Shredder 12 mit 2775 bei der Gegenrechnung im Vergleich zum Spiel gegen Menschen.
Und wenn Rodent 2850 hat dann kommt Komodo 14 nicht über 3250 und Stockfish 11 liegt bei ca. 3325.

Nun ja ...
Nicht der Weisheit letzter Schluss, aber besser irgend eine These zu haben als gar keine oder willkürlich etwas festlegen.
Das mag ich gar nicht.

Gruß
Frank
Parent - By Frank Quisinsky Date 2020-07-31 22:49 Edited 2020-07-31 23:27
Und Larry konnte mir absolut plausibel erklären warum er das denkt.
Zu 100% für mich nachvollziehbar wenn gleich die Ansätze völlig andere sind als bei mir.

Hat z. B. Komodo nun bei Partie in 20 Minuten + 5 Sekunden Fischer-Aufschlag pro Zug wirklich 3250 oder gar 3350 bei 4.9Ghz?!

Könnte man messen wenn wir die Bedenkezeit oder Suchtiefe runter setzen, wie wir es ja bei Wasp auf der DGT-Pi tun.
Bei Komodo aufgrund 275 Elo stärker als Wasp 4.00 allerdings noch schwieriger als bei Wasp aus der Sicht des Menschen.
Dann Komodo x Partien gegen Menschen spielen lassen.

Hat Wasp auf der DGT-Pi mit 1.2 Ghz nun wirklich 2700 Elo?

John Stanback hat wieder ganz andere Ansätze als ich oder Larry um das zu messen.
Auch er interessiert sich dafür und kommt gar zum Ergebnis, dass die von mir geschätzten 2700 um 25 Elo zu hoch liegen.
Er denkt nach seinen Auswertungen eher 2675 für Wasp 4.00 auf DGT-Pi (maximale Spielstärke).

Fraglich bei den ganzen Spielerei um Elo ist und bleibt immer ...
Wie stark bei welcher Bedenkzeit und gewählter Hardware.

Es gibt wirklich viele logische Ansätze aber als ultimativ kann Elo eh im Computerschach nicht gewertet werden.

Hätte ich 41 andere Programme mit unterschiedlichen Spieleigenschaften hätte ich trotz tausender von Partien 20-40 Elo Abweichung.
Ultimativ ist Elo nicht so gerne wir Elo als ultimativ ansetzen würden. Komme ich mit meinen Thesen ... ultimativ geht bedingt wenn wirklich sehr viele Gegner für eine Elo vorhanden sind.
War mal so ein Lieblingsthema zu Zeiten der FCP-Ratingliste von mir.

Letztendlich ist das auch gar nicht so wichtig.
Eher die Unterschiede in einer Liste mit aktuellen Programmen im Vergleich.
Noch wichtiger als eigentlich die nicht wirklich interessante Elo ist es mehr über Engines herauszufinden.
Anhand verschiedener Elo Zahlen die im Internet zu finden sind kann ich nicht wirklich irgend etwas interessantes herauslesen.

Daher denke ich auch, dass Ratinglisten, die schon sehr alt, sind viel Wirrwarr erzeugen.
Die Zahlen künstlich hoch gehen etc..

Werfe ich alle Daten der SWCR mit allen Daten der FCP Ratinglisten zusammen (eigenes Material) kommt oft unlogisches Zeug dabei heraus. Ich habe das gleiche Problem mit eigenen Daten.
Kann ich tausende Partien haben und ich habe wirklich viele Partien selbst erzeugt und die nicht im Blitz sondern im Schnellschach (über 2,3 Millionen durch sämtliche Ära seit Winboard hindurch).

Elo, Thema für sich und eigentlich nur sehr bedingt interessant.
Ob Komodo nun 3.400, 3.300 oder 3.200 hat.
Für den Menschen eh viel zu hoch und von daher haben wir schon Verständnis und Auslegungsprobleme.

Gruß
Frank

Je mehr Gedanken und Auswertungen ich mache desto schwieriger wird es logisch zu erklären.
Meine Ansprüche sind dahingehend sehr hoch und ich denke ... bevor ich nochmal eine Ratingliste in Angriff nehme lasse ich lieber jedes Jahr mal die TOP-41 gegeneinander antreten und sehe mehr bzw. bringt das mehr. Dabei möchte ich nicht die Fleißarbeiten der Ratinglisten Ersteller angreifen weil ich mich nur selbst angreifen würde denn ich habe das über 20 Jahre auch gemacht. Nur heute erscheint mir das mehr und mehr unlogisch, es sei denn, eine Liste hat wirklich immer ausreichend unterschiedliche Gegner. Dann wird es interessanter aber ist auch nicht ultimativ und ferner habe ich nur eine 4-stellige dumme Elo und mehr nicht. Finde ich im WWW zu Stockfish 11 Elo-Zahlen von 3300-3700 ... klar, kann ich mir aussuchen was mir am besten gefällt und mehr auch nicht. Interessanter also eher, was Larry herausfinden will ... es ist immer interessant die Leistung Computerschach mit Menschenschach zu vergleichen. Viel interessanter als Computerschach mit Computerschach zu vergleichen.
Parent - - By Clemens Keck Date 2020-08-01 22:22
Hallo Frank

wie viele Partien laufen gleichzeitig auf Deinen 2 Intel Rechnern für das Megaturnier?
Ich nehme an 9 Partien pro Maschine?
Laufen die Rechner tatsächlich auf 4.9 GHz bei der Auslastung?
Wie viele Spiele kommen pro 24 Stunden zusammen?
Wie lange dauert ein Spiel im Durchschnitt?

beste Grüße
Clemens
Parent - - By Frank Quisinsky Date 2020-08-01 23:25 Edited 2020-08-01 23:29
Hallo Clemens,

ich setze für das Turnier nur einen i9-10900k ein.
Ganz ehrlich, den zweiten habe ich noch gar komplett konfiguriert, brauche ich für ein anderes (nicht Schach Projekt).
Später werde ich den zweiten wohl für die Wasp Testerei einsetzen.

Es laufen 10 Partien gleichzeitig auf dem i9-10900k.
Ja, jeder der 10 cores läuft mit 4,9Ghz, würde ich 4 Cores einsetzen würde beim KI-Auto-Tuning gar zwei Matches mit 5.3Ghz laufen.
Oder wenn ich ein Engine Match mit 2 Cores und Ponder = On spielen lassen würde.

Hatte schon 17 Hänger (fabriziert von 2 teilnehmenden Engines).
Das sehe ich natürlich nicht immer direkt.
Auch stoppe ich das Turnier nach ca. 3 Tagen, prüfe alles, starte den REchner neu und starte wieder.

Kann man leicht errechnen.
Das Turnier startete am 26.06.2020 um 00:30, heute ist der 01.08.2020, 23:15!
= 53202 Minuten x 10 (für 10 gleichzeitig laufende Partien) = 532020 Minuten

Derzeit gespielt sind 10339 Partien

532020 : 10339 = 51,45 Minuten pro Partie
1440 Minuten pro Tag : 51,45 = 27,98 x 10 = 279,8 also aufgerundet 280 Partien pro Tag.

Kann man auch anderes rechnen:
Sumo 1.6 (Tool von Ed Schröder).
Hier das util MatchStats ...

Code:
Engine                 Depth       Time   Games     Moves  Average Forfeit  Book Depth     MIDG   EARLY    ENDG    LATE
Fizbo 2.0 BMI2 x64     24.98  192:49:29     505     44029    15.77     0     5672 11.23    22.41 | 22.92 | 24.22 | 30.50
Minic 2.33 x64         33.30  177:44:42     510     41128    15.56     0     4131  8.10    28.09 | 28.99 | 32.18 | 44.06
Combusken 1.2.0 x64    28.77  179:24:42     509     41553    15.54     0     4725  9.28    25.63 | 26.14 | 26.71 | 35.69
Texel 1.07 BMI2 x64    22.98  185:46:41     506     43375    15.42     0     4099  8.10    21.54 | 22.45 | 21.02 | 27.90
Fritz 16 (Rybka) x64   35.47  176:46:30     508     41404    15.37     0     4085  8.04    28.13 | 29.35 | 34.38 | 50.58
SlowChess BC 2.2 x64   28.34  175:15:57     507     41155    15.33     0     4344  8.57    27.17 | 27.71 | 27.08 | 32.28
Vajolet2 2.8 BMI2 x6   31.26  178:06:06     504     42197    15.19     0     4447  8.82    27.35 | 27.72 | 29.24 | 39.94
SmarThink 1.98 AVX2    24.12  175:53:59     506     41758    15.16     0     4751  9.39    23.08 | 24.45 | 23.51 | 26.85
Winter 0.8 x64         28.27  174:21:58     508     41510    15.12     0     4618  9.09    23.35 | 24.21 | 27.86 | 39.15
Defenchess 2.2 POP x   32.22  179:36:20     506     42785    15.11     0     5386 10.64    28.83 | 28.94 | 31.05 | 39.91
Wasp 4.00 Modern x64   28.30  176:13:36     507     42246    15.02     0     5022  9.91    26.56 | 27.42 | 26.87 | 33.33
Monolith 2 PEXT x64    28.14  166:49:40     509     40218    14.93     0     4174  8.20    24.98 | 26.30 | 27.15 | 35.87
Booot 6.4 POP x64      33.06  161:15:08     507     38890    14.93     0     5000  9.86    29.60 | 30.05 | 32.90 | 42.03
Komodo 14.0 BMI2 x64   35.07  160:02:26     508     38778    14.86     0     5719 11.26    30.76 | 33.11 | 34.25 | 46.10
RubiChess 1.7.3 x64    36.74  174:46:14     506     42702    14.73     0     4958  9.80    34.15 | 36.06 | 37.19 | 40.36
Rodent IV 0.22 POP x   31.08  173:33:03     511     42523    14.69     0     4910  9.61    25.52 | 26.49 | 29.73 | 41.21
iCE 4.0 v853 Modern    35.73  173:54:52     506     42648    14.68     0     6358 12.57    27.56 | 29.15 | 35.95 | 52.56
Arasan 22.0 BMI2 x64   34.19  177:02:56     507     43603    14.62     0     4093  8.07    29.83 | 30.69 | 32.91 | 43.20
Andscacs 0.95 BMI2 x   28.98  168:55:39     507     41763    14.56     0     4444  8.77    26.52 | 27.88 | 29.11 | 33.42
Protector 1.9.0 x64    24.88  168:12:42     506     41814    14.48     0     4191  8.28    21.12 | 22.60 | 22.11 | 35.18
Shredder 13 x64        32.94  166:01:37     506     41295    14.47     0     4247  8.39    28.92 | 30.34 | 32.82 | 41.21
Pedone 2.0 BMI2 x64    36.75  170:54:48     507     42602    14.44     0     4099  8.08    32.11 | 33.22 | 36.23 | 46.09
Nirvanachess 2.4 POP   31.31  161:46:16     505     41017    14.20     0     4098  8.11    26.74 | 27.40 | 30.03 | 40.69
Ethereal 12.25 PEXT    34.45  170:29:02     510     43264    14.19     0     4112  8.06    31.15 | 31.24 | 33.73 | 41.45
Hannibal 1.7 x64       32.95  175:18:39     505     45002    14.02     0     4009  7.94    26.92 | 28.33 | 32.28 | 43.46
Laser 1.7 BMI2 x64     31.97  159:15:53     504     41158    13.93     0     4126  8.19    26.73 | 26.77 | 30.48 | 42.62
Senpai 2.0 BMI2 x64    27.30  161:32:58     504     42444    13.70     0     4744  9.41    24.76 | 26.57 | 28.35 | 30.38
Demolito 2020-05-14    28.16  173:55:57     505     45911    13.64     0     4067  8.05    23.73 | 24.53 | 27.16 | 34.97
rofChade 2.3 BMI x64   26.15  165:19:35     506     43652    13.63     0     4392  8.68    27.92 | 28.13 | 26.90 | 22.99
Stockfish 11 BMI2 x6   38.46  153:12:50     506     40458    13.63     0     4275  8.45    32.98 | 34.12 | 38.03 | 49.30
Houdini 6.03 Pro x64   28.95  155:14:11     506     41003    13.63     0     4940  9.76    26.09 | 27.05 | 28.28 | 36.25
Fritz 17 (Ginkgo) x6   28.92  156:43:46     506     42033    13.42     0     4078  8.06    25.64 | 26.53 | 26.87 | 38.58
Critter 1.6a x64       24.35  157:58:17     507     42562    13.36     0     5510 10.87    20.50 | 21.63 | 25.07 | 30.97
Schooner 2.2 SSE x64   36.20  154:48:54     506     41844    13.32     0     5791 11.44    30.53 | 30.73 | 34.91 | 50.00
Xiphos 0.6 BMI2 x64    34.24  151:46:58     505     41111    13.29     0     7095 14.05    31.26 | 32.25 | 33.08 | 42.07
Fire 7.1 POP x64       25.86  159:22:50     508     43638    13.15     0     4469  8.80    21.03 | 21.22 | 25.50 | 35.21
Chiron 4 x64           30.15  154:36:26     509     43331    12.84     0     4171  8.19    26.06 | 27.14 | 31.93 | 35.22
Igel 2.5.0 BMI2 x64    29.21  144:51:50     505     40629    12.84     0     6160 12.20    26.45 | 26.99 | 28.73 | 36.84
Nemorino 5.00 BMI2 x   27.18  153:20:24     506     43062    12.82     0     4539  8.97    23.30 | 23.40 | 26.88 | 34.77
Equinox 3.30 x64       24.67  143:50:23     507     43696    11.85     0     5833 11.50    22.51 | 23.15 | 24.42 | 29.61
GullChess 3.0 BMI2 x   22.51  142:39:31     508     43540    11.80     0     4096  8.06    19.48 | 20.12 | 22.79 | 27.52

Legend

Depth     : Overall average search depth
Time      : Total time engine used
Moves     : Total moves engine played
Average   : Average time per move in centi-seconds
Forfeit   : Games engine lost due to time forfeit
Book      : Moves played from opening book plus average depth

MIDG      : Average search depth during the opening and middle game
EARLY     : Average search depth during the middle game without Queens, the so called early end game
ENDG      : Average search depth during the end game
LATE      : Average search depth during the late end game

List is sorted on Average Time indicating the engine that uses the most time tops.


Sollte aber gleich sein, wenn Du die einzelnen Zeiten der Engines zusammenrechnest.
Wobei in dieser Statistik sind die 5 300 Züge Partien und die 41 kurzen Remispartien enthalten, die ja wiederholt wurden.

Wie gesagt, hatte 17 Hänger, Ruhezeiten alle 3 Tage von ca. 1-2 Stunden.
41 Remispartien unter 20 Züge sind wiederholt wurden, 5 Partien mit über 300 Züge sind wiederholt wurden.
Anfangs musste ich die kompletten gespielten Partien für 3 Engiens wiederholen und eine Engine habe ich ausgetauscht, siehe logs zum Turnier.

Du kannst also davon ausgehen, dass bei der verwendeten Zeitkontrolle eine Partie durchschnittlich 50 Minuten läuft und ca. 265-280 Partien pro Tag gespielt werden.

Viele Grüße
Frank
Parent - - By Frank Quisinsky Date 2020-08-01 23:41
Hallo Clemens,




Derzeit ein wenig wärmer im Zimmer wo der Rechner steht, sind die Temps ca. 3-4 Grad höher.

Auszug aus HW-Info 6.29.4215!

Viele Grüße
Frank
Parent - By Frank Quisinsky Date 2020-08-01 23:53
Hi Clemens,

findest aber alles im Download File.
im Shredder Verzeichnis die ganzen Shredder GUI Files mit Original PGN.
Von ChessBase erzeugte PGN und CBH.

Alles bisherigen 13 Elo-Listen, die Rundentabellen, die Engine Konfigurationen, 13x Bayes, Elo-Stat und Ordo files.
Im Grunde sind alle kompletten Daten die ich erzeuge im Download file, wird 1-2x am Tag immer auf einen aktuellen Stand gebracht.

Heute verlor Stockfish die zweite Partie gegen Booot.
Oder war es gestern ... werde alt.

Wollte mir die Partie gerarde ansehen.
Auch hat Rybka heute mal wieder mehrfach einen auf die Mütze bekommen.
1x Matt in 28 Zügen, 1x Matt in 29 Zügen ... die Königssicherheit von Rybka ist wirklich katastrophal.
Noch viel schlimmer als ich bislang immer gedacht habe.

Schnellste Partien bis zum Matt im Turnier bislang nach 24 Zügen!

In die Replay-Zone nehme ich die Original Shredder PGN Dateien auf.
Da siehst Du auch immer Suchtiefe, Zeit und Bewertung beim Nachspielen auf meinen Seiten.

Übrigens, gar nicht so einfach gewesen.
Ich muss aus dem Original Shredder File filtern weil ich sonst die ganzen dummen ChessBase Sonderzeichen im PGN habe.
Das macht der Hiarcs Explorer perfekt.

Shredder File Laden, suche 1:0, 0:1 bis Zugnummer 59 und gefundes neu exportieren in ein PGN.
Sehr schön ...

Viele Grüße
Frank
Parent - - By Klaus Wlotzka Date 2020-08-02 11:32
Hallo Frank,

sehr interessantes Tool von Ed Schröder, kannte ich so noch nicht.

Muss ich mir für unsere Statistiken mal genauer anschauen.

Grüße

Klaus
Parent - - By Frank Quisinsky Date 2020-08-02 18:34
Hi Klaus,

Andreas Strangmüller hat schon darauf hingewiesen, das z. B. die Infos bei der durchschnittlichen Zuglänge nicht stimmen.
Kann auch nicht stimmen, da alle FEOBOS und kein eigenes Buch nutzen.

Die Frage ist ob sonst alle anderen Informationen aus dem Tool wirklich OK sind.
Selbst denke ich schon aber bevor das hier und dort eingesetzt wird müssen wir Ed mal fragen.

Werde das gleich mal in Angriff nehmen.

Viele Grüße
Frank
Parent - - By Klaus Wlotzka Date 2020-08-02 18:58
Hallo Frank,

warum können die Angaben zu der Anzahl der durchschnittlichen Buchzüge nicht stimmen?
Bei Feobos sind es 3 Züge nach ECO-Code-Bildung, also minimal 4-6 Züge, durchschnittlich denke ich etwa 8-9 Züge. Dort liegen laut dem Tool auch die meisten.

Das Tool zeigt aber auch manchmal durchschnittlich 12-14 Züge an. Das kommt mir als Durchschnittswert in der Tat bei Feobos zu hoch vor. Erreicht Feobos solche Zugtiefen?

Grüße

Klaus
Parent - By Frank Quisinsky Date 2020-08-02 19:13
Hi Klaus,

es gibt ja ECO codes die bilden sich erst bei Zug 13 oder 14 und mithin geht FEOBOS für diese Eröffnungen ja bis Zugnummer 16 oder 17.

Der eigentliche Durchschnitt sollte in der Tat bei 8-9 Züge liegen und schon Werte von größer als 10 sind bei mehr als 500 Partien absolut fraglich.
Dann würden ja diese Engines immer nur aus den wenigen ECO Codes gespielt haben die Höher als 12 gehen.

Habe ich natürlich schon längst überprüft und dem ist natürlich nicht so.
Insofern kann mit dem Tool etwas nicht stimmen.

Dann stellt sich logischer Weise die Frage:
Wenn diese Ausgabe nicht stimmt, gibt es andere problematische Ausgaben die auch nicht stimmen?
Bei den anderen Ausgaben ist das für mich schwieriger gegen zu prüfen als bei unserem gut bekannten FEOBOS Buch.

Na mal schauen ob Ed antwortet.
Habe die Frage offiziell in Talkchess gestellt.

Viele Grüße
Frank

Aber das Tool ist wirklich Klasse, besteht ja aus mehreren Tools nicht nur "Match-Stats".
Zu FCP Zeiten enderte mir Ed etwas in seiner Sammlung was ich benötigte.
Seinerzeit schimpfte sich das Tool noch Protools 1.6, dann gab es für mich die Version 1.6a die er aber auch später veröffentlichte.
Offenbar hat er weiter daran gearbeitet und heute schimpft sich das Programm Sumo 1.6.
Parent - - By Klaus Wlotzka Date 2020-08-02 19:13
Hallo Frank,

ich habe mir das Tool von Ed Schröder nochmal angesehen. Ich denke, dass die Daren korrekt sind. Missverständlich sind eher die Überschriften.

Mit „Average“ ist zum Beispiel die durchschnittliche Bedenkzeit pro Zug gemeint.
Mit „Depht“ ist zum Einen die durchschnittliche Rechentiefe aber zum Anderen (nach der Anzahl der Buchzüge) auch die durchschnittlichen Buchzüge gemeint.

Die Erläuterung unterhalb der Tabelle ist dabei sehr hilfreich, hatte ich aber beim ersten Anschauen nicht gesehen.

Grüße

Klaus
Parent - - By Frank Quisinsky Date 2020-08-02 19:18
Hi Klaus,

wahrscheinlich ist nur der Durchschnitt der Buchzüge nicht korrekt.
Aber mal schauen was Ed dazu schreibt.

Viele Grüße
Frank

Vielleicht könntest Du mal eine Engine mit einem hohem Buchschnitt nehmen und gegen prüfen in Excel.
Müssen ja keine 500 Partien sein, für die Prüfung reicht im Grunde eine PGN mit 80 Partien einer Engine.
Kann mal eine Auswertung machen nach 80 Partien (Runde 1 und 2 für alle Engines).
Dann schauen wir welche Engine hier einen viele zu hohen Buchdurchschnitt hat und vergleichen nur diese Engine mit Excel Ausgaben.
Aber für den Zweck wahrscheinlich viel zu aufwendig zu erstellen?!
Parent - - By Klaus Wlotzka Date 2020-08-02 21:10
Hallo Frank,

ich habe mir mal aus deiner Replay-Zone eine Partie von Xiphos angesehen.

In der Tat tauchen dort „Buchzüge“ am Ende der Partie auf. Also bei erzwungenen Mattführungen. Die Shredder GUI nimmt dann keine Bewertung in den Output sondern bezeichnet derartige Züge mit Book als Buchzüge.

Diese zählt das Tool von Ed Schröder wahrscheinlich mit und das natürlich nicht nur bei Xiphos. Und da du immer bis zum Matt spielen lässt, kommt das häufiger vor. Hinzu kommen Züge mit 0 Sekunden, welche direkt aus dem Hash-Speicher ausgespielt werden. Auch das kommt bei bestimmten Engines immer mal vor.

Die Lösung wäre, das das Tool nur die Buchzüge bis zum ersten berechneten Zug ermittelt. Keine Ahnung, ob das ein großer Aufwand für Ed Schröder wäre.

Kannst Ed Schröder ja mal fragen. Klar ist für mich jetzt, warum die Anzahl der Buchzüge zu hoch ist.

Grüße

Klaus
Parent - By Frank Quisinsky Date 2020-08-02 21:17
Hi Klaus,

das wird die Erklärung sein.
Bzw. zählt, wie Du auch vermutet hast, das Tool 0-Sekunden Züge als Buchzüge.

Das sind Züge, die auch bei Ponder=off Partien entstehen, aus den Hashtables heraus gespielt werden!
Habe das in meiner Datei "Beeinflussungsfaktoren" vor 20 Jahren mal als _kleines Pondern_ beschimpft.

Viele Grüße
Frank
Parent - - By Kurt Utzinger Date 2020-08-02 19:29
Frank Quisinsky schrieb:

Hallo Clemens,

ich setze für das Turnier nur einen i9-10900k ein.
Ganz ehrlich, den zweiten habe ich noch gar komplett konfiguriert, brauche ich für ein anderes (nicht Schach Projekt).
Später werde ich den zweiten wohl für die Wasp Testerei einsetzen.

Es laufen 10 Partien gleichzeitig auf dem i9-10900k.
Ja, jeder der 10 cores läuft mit 4,9Ghz, würde ich 4 Cores einsetzen würde beim KI-Auto-Tuning gar zwei Matches mit 5.3Ghz laufen.
Oder wenn ich ein Engine Match mit 2 Cores und Ponder = On spielen lassen würde.

[...]

Viele Grüße
Frank


Hallo Frank

Ein Mammutturnier ... und so schön aufgemacht. Wunderbare Arbeit, danke.

Viele Grüsse
Kurt
Parent - By Frank Quisinsky Date 2020-08-02 19:36
Hi Kurt,

old school in old *.html ...
Du kannst das auch sehr gut wenn ich mir so Deine Turniere mit Rolf Bühler in Erinnerung rufe.

Danke und viel Spaß beim Beobachten!

Viele Grüße
Frank

Morgen kommen die Ergebnisse von Runde 13, nur Wasp ist am Taumeln und das gefällt mir
natürlich nicht.
Up Topic Hauptforen / CSS-Forum / FCP Tourney-2020, nach nunmehr fast 10.000 Partien ... ein paar Stats!

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill