stärkste nicht-NN-Engine

By Frank Quisinsky Date 2022-03-31 07:59 Edited 2022-03-31 08:08

FCP Tourney-2020 ...

Houdini 6.0 war ja eine Zwischenversion von Stockfisch, ca. zwischen v.9 und v.10.
Müsste das mal raussuchen, welche Version es war, wo ca. 98% Gleiches produziert wurde.

Code:

  FCP Tourney-2020
  ----------------

  Date           : November 27th, 2020 (08:27)
  Games          : 41.000
  Version        : 50.0, after R50 (final results)
  Elo            : GullChess 3.0 BMI2 x64 = 3035
  Conditions     : http://www.amateurschach.de/main/_fcp-tourney-2020.htm

  Generated with : Ordo 1.2.6 x64 (Ratings for chess and other games)
  https://sites.google.com/site/gaviotachessengine/ordo
  by Miguel A. Ballicora (Argentina)

   # Player                           :      Elo  Games  Score%   won  draw  lost  Points  Draw%   Error   OppAvg   OppE  MoveAvg
  -------------------------------------------------------------------------------------------------------------------------------
  01. Stockfish 11 BMI2 x64           :  3341.82  2.000    83.7  1353   643     4  1674.5   32.1   13.71  3029.12  10.38     81.1
  02. Komodo 14.0 BMI2 x64            :  3271.29  2.000    77.7  1150   809    41  1554,5   40.5   12.57  3030.88  10.41     78.7
  03. Houdini 6.03 Pro x64            :  3261.82  2.000    76.8  1104   865    31  1536,5   43.3   11.55  3031.12  10.44     81.0
  04. Ethereal 12.25 PEXT x64         :  3202.24  2.000    70.7   909  1009    82  1413,5   50.5   10.71  3032.61  10.46     93.0
  05. SlowChess BC 2.2 x64            :  3171.54  2.000    67.2   843  1002   155  1344,0   50.1   10.06  3033.37  10.48     84.0
  06. Fire 7.1 POP x64                :  3169.39  2.000    67.0   818  1042   140  1339,0   52.1   11.17  3033.43  10.45     86.2
  07. Xiphos 0.6 BMI2 x64             :  3147.47  2.000    64.3   755  1064   181  1287,0   53.2   10.57  3033.98  10.46     84.0
  08. Booot 6.4 POP x64               :  3147.06  2.000    64.3   733  1106   161  1286,0   55.3   10.41  3033.99  10.47     77.5
  09. rofChade 2.3 BMI x64            :  3144.36  2.000    64.0   764  1031   205  1279,5   51.5   10.37  3034.05  10.47     89.6
  10. Laser 1.7 BMI2 x64              :  3120.35  2.000    61.0   672  1097   231  1220,5   54.9   10.05  3034.65  10.48     85.8
  -------------------------------------------------------------------------------------------------------------------------------
  11. Shredder 13 x64                 :  3105.01  2.000    59.1   656  1052   292  1182,0   52.6   10.69  3035.04  10.46     85.8
  12. Fritz 17 (Ginkgo) x64           :  3104.82  2.000    59.1   635  1093   272  1181,5   54.6    9.75  3035.04  10.48     85.6
  13. Schooner 2.2 SSE x64            :  3102.45  2.000    58.8   606  1139   255  1175,5   57.0   10.41  3035.10  10.47     86.0
  14. Defenchess 2.2 POP x64          :  3095.96  2.000    58.0   586  1146   268  1159,0   57.3    9.91  3035.26  10.48     91.5
  15. RubiChess 1.7.3 x64             :  3092.23  2.000    57.5   611  1077   312  1149,5   53.9   10.19  3035.36  10.47     88.2
  16. Andscacs 0.95 BMI2 x64          :  3084.43  2.000    56.5   589  1081   330  1129,5   54.0   10.10  3035.55  10.48     84.4
  17. Fizbo 2.0 BMI2 x64              :  3068.55  2.000    54.4   582  1013   405  1088,5   50.6    9.98  3035.95  10.48     88.5
  18. Arasan 22.0 BMI2 x64            :  3038.06  2.000    50.5   490  1038   472  1009,0   51.9   10.25  3036.71  10.47     86.4
  19. GullChess 3.0 BMI2 x64          :  3035.00  2.000    50.0   451  1100   449  1001,0   55.0    9.87  3036.79  10.48     89.6
  20. Fritz 16 (Rybka) x64            :  2998.27  2.000    45.3   397  1016   587   905,0   50.8    9.78  3037.71  10.48     87.7
  -------------------------------------------------------------------------------------------------------------------------------
  21. Pedone 2.0 BMI2 x64             :  2990.00  2.000    44.2   362  1043   595   883,5   52.1    9.91  3037.91  10.48     88.1
  22. Chiron 4 x64                    :  2987.88  2.000    43.9   358  1040   602   878,0   52.0    9.93  3037.97  10.48     88.9
  23. Vajolet2 2.8 BMI2 x64           :  2986.15  2.000    43.7   345  1057   598   873,5   52.9    9.79  3038.01  10.48     88.5
  24. Winter 0.8 x64                  :  2985.57  2.000    43.6   391   962   647   872,0   48.1   10.34  3038.02  10.47     85.0
  25. Wasp 4.00 Modern x64            :  2984.99  2.000    43.5   342  1057   601   870,5   52.9    9.69  3038.04  10.49     88.6
  26. Critter 1.6a x64                :  2974.14  2.000    42.1   353   979   668   842,5   49.0   10.35  3038.31  10.47     89.8
  27. Igel 2.5.0 BMI2 x64             :  2971.80  2.000    41.8   314  1045   641   836,5   52.3    9.99  3038.37  10.48     83.1
  28. Equinox 3.30 x64                :  2971.61  2.000    41.8   305  1062   633   836,0   53.1   10.03  3038.37  10.48     90.4
  29. Nirvanachess 2.4 POP x64        :  2967.71  2.000    41.3   300  1052   648   826,0   52.6   10.03  3038.47  10.48     85.8
  30. Nemorino 5.00 BMI2 x64          :  2954.56  2.000    39.6   323   939   738   792,5   47.0   10.44  3038.80  10.47     89.9
  -------------------------------------------------------------------------------------------------------------------------------
  31. iCE 4.0 v853 Modern x64         :  2945.84  2.000    38.5   292   957   751   770,5   47.9   10.05  3039.02  10.48     85.4
  32. Demolito 2020-05-14 PEXT x64    :  2945.44  2.000    38.5   311   917   772   769,5   45.9   10.53  3039.03  10.46     96.4
  33. Protector 1.9.0 x64             :  2938.85  2.000    37.6   264   978   758   753,0   48.9   10.41  3039.19  10.47     88.0
  34. Hannibal 1.7 x64                :  2934.63  2.000    37.1   260   965   775   742,5   48.3   10.46  3039.30  10.47     91.1
  35. Texel 1.07 BMI2 x64             :  2931.60  2.000    36.8   263   944   793   735,0   47.2   10.27  3039.37  10.47     89.5
  36. Minic 2.33 x64                  :  2929.38  2.000    36.5   269   921   810   729,5   46.0   10.56  3039.43  10.46     84.5
  37. Senpai 2.0 BMI2 x64             :  2910.10  2.000    34.1   220   925   855   682,5   46.3   10.62  3039.91  10.46     88.9
  38. Combusken 1.2.0 x64             :  2896.88  2.000    32.5   204   894   902   651,0   44.7   10.25  3040.24  10.47     86.1
  39. SmarThink 1.98 AVX2 x64         :  2886.62  2.000    31.4   230   794   976   627,0   39.7   10.80  3040.50  10.46     86.9
  40. Monolith 2 PEXT x64             :  2858.99  2.000    28.2   122   885   993   564,5   44.3   11.01  3041.19  10.45     83.0
  -------------------------------------------------------------------------------------------------------------------------------
  41. Rodent IV 0.22 POP x64          :  2851.68  2.000    27.4   129   839  1032   548,5   42.0   11.53  3041.37  10.44     86.9
  -------------------------------------------------------------------------------------------------------------------------------

  MoveAvg (average)           : 174.60 / 87.300
  White advantage             : 48.86  +/- 1.20
  Draw rate (equal opponents) : 62.06% +/- 0.30

  Games        :  41.000 (finished)
  White Wins   :  12.717 (31.0%)
  Black Wins   :   7.944 (19.4%)
  Draws        :  20.339 (49.6%)
  Unfinished   :       0

  White Perf.  : 55.8%
  Black Perf.  : 44.2%

  ECO A00-A99  :   7.427 Games (18.1%)
  ECO B00-B99  :  10.649 Games (26.0%)
  ECO C00-C99  :   7.965 Games (19.4%)
  ECO D00-D99  :   7.910 Games (19.3%)
  ECO E00-E99  :   7.049 Games (17.2%)

Das Turnier liegt mit sämtlichen Auswertungen in Excel auf meiner Webseite.
Es gab noch Komodo 14.1 (teste ich bald für meine neue Ratingliste).
Ethereal 13.07 (letzte Version ohne NN) liegt sehr knapp hinter Komodo 14.1.
Der letzte Stockfish war der 11er vor NN. Vielleicht auch eine gute Idee diese Version mal in meine KI-Liste aufzunehmen.
So dienen Stockfish 11, Komodo 14.1 und Ethereal 13.07 ein wenig als Messlatte (ohne NN).

Vermutlich also 3 Engines, die stärker waren als Stockfish 9.5 (Du schimpfst diese SF Version ja Houdini).

Robert Houdart war wirklich mal mit einem Clone lange auf Platz 1.
Da muss einiges drin gewesen sein was Stockfish und Komodo vor Schwierigkeiten gestellt hat.
Noch zu Zeiten von Don Daily der ja leider verstorben ist.

Aber das ware lange bevor es mit NN los ging.

Houdini 6 war einfach nach meinen Informationen und auch nach meinen früheren Vergleichen offenbar nur ein sehr simpler Clone.
Darüber gab es auch einige Diskussionen in Talkchess.

Interessanter also eher was Robert vor Houdini 6 veröffentlicht hat.
Houdini 4 ist das Thema!!
Zwei Gründe warum Houdini seinerzeit auf Platz 1 war sind mir bekannt.

Viele Grüße
Frank

By Frank Quisinsky Date 2022-03-31 08:14

Ach so ...
Um mit meiner KI-Liste zu vergleichen muss man 20 Elo drauf rechnen (Shredder 13 bei 3125 Elo).

Bei vielen Engines 10-15 Elo hinzurechnen oder abziehen.
Lasse heute mit doppelter Bedenkzeit spielen und 5-Steinern spielen.
Seinerzeit bei diesem Turnier mit 40/10 und 4-Steinern, allerdings gleiche starke i9-10900k Hardware und hier dann gar mit 5Ghz.

z. B. wird Wasp bei doppelter Bedenkzeit zu 40/10 um ca. 8 - 10 Elo spielschwächer.
Im Grunde alle Engines die nicht so stark im Endspiel sind.

Immer so lustig wenn John mir mitteilt wie stark eine neue Version ist.
z. B. ist die aktuelle Version 20 Elo stärker als die Version 5.30 NN dev.

Bedeutet - 25% weniger bei mir (John testet mit Blitz-Bedenkezeit).
Also derzeit 55 Elo zu der letzten Release Version (passte bislang immer).

By Benno Hartwig Date 2022-03-31 23:13

> Müsste das mal raussuchen, welche Version es war, wo ca. 98% Gleiches produziert wurde.

Ups, das ist aber mal reichlich viel.

By Peter Martan Date 2022-03-31 23:27 Edited 2022-03-31 23:35

Da gab's mal einen längeren Thread darüber im CCC...

http://talkchess.com/forum3/viewtopic.php?f=10&t=73433

Und dann noch einen...

http://talkchess.com/forum3/viewtopic.php?f=2&t=73630&hilit=houdidit

Und dann ging's auch noch in dem einen oder anderen anderen weiteren (Thread) hin und wieder darum, aber mit den beiden kannst du ja mal anfangen

By Frank Quisinsky Date 2022-04-01 08:53 Edited 2022-04-01 08:56

Hi Peter,

sobald eine bekannte Engine einen neuen Namen erhält ...

Die Community flippt total aus!!
Ein roter Teppich mit einem Begrüßungskomitee wird ausgelegt.
Viele lassen sich wahrscheinlich noch von einer Blaskapelle im Hintergrund berieseln.

Dann gibt es Anwender die wundern sich warum Cloner kommen und gehen.

Wenn ich mir so Kommentare zu Engines durchlese, liegt die Vermutung sehr nahe, dass sich ca. 70% der Personen die sich für Computerschach interessieren nie wirklich mit einer einzigen Engine im Detail beschäftigt haben.
Anders kann ich mir viele Kommentare nicht erklären.

Vermutlich schauen viele wirklich nur auf Elo ohne mal etwas zu hinterfragen!

Viele Grüße
Frank

By Peter Martan Date 2022-04-01 09:04 Edited 2022-04-01 09:14

Ich bin nicht Code- kundig genug, zu beurteilen, wie groß die Gemeinsamkeiten zwischen H6 und SF waren bzw. sind, aber Houdini 4 war mit Abstand die beste Analyse- Engine, die's zu ihrer Zeit gab.
Und ja, dass die ihrerseits wieder stark von Ippolit "beeinflusst" war, ist auch hinlänglich bekannt, aber selbst Marco Costalba schrieb dazu damals mehr als einmal im CCC, dass er für SF auch dieses und jenes von den Ivans nützlich fand für SF.

Wie auch immer, was H4 dem Anwender bot, war schon fein: sowohl Persistent Hash als auch die Lerndatei extra, eine zuschaltbare Mattsuche mit DTM- Vorgabe, die adaptierbar 50- Züge- Grenze nd der Taktik- Modus, sowas alles hätte ich heute gern bei irgend einer einzelnen Engine, egal, ob frei oder kommerziell.
Und default war die Nullzug- Behandlung an und für sich besser für damalige Verhältnisse als sowohl beim "Vorbild" Ippo als auch bei SF.
Und es hat Houdini das TCEC- Turnier auch immer noch öfter als alle anderen Engines außer SF gewonnen.
Mir tut's immer noch leid, dass er (Houdini) nicht mehr weiter entwickelt wird.
Houdini NNUE von Robert Houdart wäre vielleicht doch wieder anders als SF NNUE, wer weiß...
Just my two cents...

By Frank Quisinsky Date 2022-04-01 09:17 Edited 2022-04-01 09:26

Wie gut das der so oft gescholtene Norman Schmidt die Sourcen ins reine geschrieben hat (Robbolito 0.9).
Die ja zu 99% dann Houdini 1.0 gebildet haben.

Nicht nur die IPP Sourcen, die Fruit Sourcen.
Wie viele haben die Ideen seinerzeit genutzt ohne das jemals in einer Readme zu erwähnen.

Kann den Stolz vieler Programmierer nicht nachvollziehen, die dann wirklich selbst glauben alles ist von mir.
Und wenn darauf hingewiesen wird, ziehen die sich wie eine beleidigte Leberwurst zurück.

Klar ...
Die Mehrprozessoranbindung wurde neue erfunden.
Die Bitboards wurden neue erfunden.
Die Endspielsdatenbanken wurden neu erfunden.
Die Protokollanbindung wurde neu erfunden.
Die Hashtables wurden neu erfunden.
etc..

In Stockfish sind unzählige Ideen von mittlerweilen unzähligen Leuten drin.
Und alles wird unter einer meines Erachtens lächerlichen Lizenz gestellt (zu hart für das was enthalten ist).

Houdini 4 war in der Tat beeindruckend.
Egal wie Houdini 4 entanden ist, kein Programm konnte lange Zeit toppen.
Das sind die Tatsachen die niemand gerne liest.

Aber alle die oben standen regten sich darüber auf, obwohl selbst die eigene Arbeit auf bekannten Ideen beruhte.

Die ganze Szene ist in sich derart suspekt, dafür gibt es gar keine Worte mehr.
Pipi ... ich mache mir die Welt wie sie mir gefällt.
Trifft im Computerschach wahrscheinlich auf 98% aller zu.
Je nachdem welchen Lager sie sich selbst zugeteilt fühlen.

Was Marco Costalba schrieb ist jetzt für mich nicht das Maß aller Dinge.
Er war relativ unbekannt und nicht beteiligt an der maßgeblichen Arbeit rund um Gothmog und Glaurung.

Was Tord schreibt wäre jetzt z. B. für mich interessanter.
Auch wenn ich Marco Costalba aufgrund seiner seinerzeitigen sehr prägnanten Äußerungen schätzen gelernt habe.

Springen wir in der Kausalkette immer weiter zurück.
Vor Fruit war es Pepito (ca. gleiche Zeit)!
Was der Programmierer in den fantastischen Sourcen alles drin hatte beindruckte viele Programmierer.
Vergleichbar zu Crafty ... nur über Pepito redet niemand mehr obwohl vieles in so vielen anderen Engines dann auch wieder drin war.

Wie gesagt ... man darf nicht zu viel Wissen haben wenn man sich mit dem Thema Computerschach beschäftigt.

Viele Grüße
Frank

By Peter Martan Date 2022-04-01 09:23 Edited 2022-04-01 09:26

Frank Quisinsky schrieb:

Auch wenn ich Marco Costalba aufgrund seiner seinerzeitigen sehr prägnanten Äußerungen schätzen gelernt habe.

Marco Costalba ist insofern ebenso wie Tord Romstad (der die Sache ja persönlich sozusagen an Costalba übergeben hat) einer der Väter oder sogar der Vater von SF schlechthin, als er das Framework auf die Beine gestellt hat, zur Entwicklung und zum Testen der Patches, die dann erst so richtig von wirklich Vielen beigetragen wurden.
Und das sucht (und findet höchstens bei LC0 mittlerweile) so immer noch seinesgleichen.
Und das geht natürlich nur unter einer Lizenz wie GPL. Ok, es müsste nicht genau diese sein, aber restriktiv ("hart", wie du schreibst) ist die ja sowieso an sich überhaupt nicht, im Gegenteil, es wird nur immer wieder nicht verstanden oder will nicht verstanden werden, dass sie kein Copyright ist sondern ein Copyleft, und was der Unterschied wäre, würde man sich um ihn kümmern.
Lassen wir das lieber

By Frank Quisinsky Date 2022-04-01 09:34 Edited 2022-04-01 09:36

Hallo Peter,

sehe ich nicht so.
Die maßgeblichen Ideen rund um Stockfish kommen nicht von Costalba.
Was im weiteren Verlauf bei Stockfish passierte war genau das, was die Cloner jeden Tag machten.
Ausprobieren von Parametern oder neue einarbeiten die dann optimiert werden könnten.
Eher war Gian-Carlo der Auslöser vom Projekt.
Er schrieb das nur anhand von vorhandenen Programmoptimierungen / Parameteroptimierungen mehr als 100 Elo+ möglich wäre.

Es haben sich immer mehr Helfer eingefunden und was dann rund um Stockfish geschah war ein kleines Wunder.
Die Organisation rund um das Projekt und die mehr oder weniger sehr gute Aufsicht und Korrekturen der Sourcen war eher das Aushängeschild von Marco Costalba.
Dahingehend hat er bahnbrechendes geleistet. Eines der besten Projekte die es im Computerschach jemals gab entstand dank Marco Costalba.

Ich sehe Marco eher als perfekten Organisator mit fundamentalem Wissen über Schachprogrammierung.

Aber nicht als einen Programmierer der Kategorie : Romstad oder LETOUZEY.
Das waren andere Kaliber ... die aber sicherlich nicht die Stärken von Costalba hatten bzw. haben.
Das Team rund um Stockfish war wirklich genial!

Wie gesagt, habe eine sehr hohe Meinung von Marco aber man muss Stärken die Personen haben auch richtig zuordnen.

Der Lizenztyp steht dem Projekt im Wege, ist meines Erachtens kontraproduktiv!

Viele Grüße
Frank

By Peter Martan Date 2022-04-01 09:47 Edited 2022-04-01 10:09

Frank Quisinsky schrieb:

Die maßgeblichen Ideen rund um Stockfish kommen nicht von Costalba.
Was im weiteren Verlauf bei Stockfish passierte war genau das, was die Cloner jeden Tag machten.
Ausprobieren von Parametern oder neue einarbeiten die dann optimiert werden könnten.
Eher war Gian-Carlo der Auslöser vom Projekt.
Er schrieb das nur anhand von vorhandenen Programmoptimierungen / Parameteroptimierungen mehr als 100 Elo+ möglich wäre.

Was hat Gian-Carlo (Pascutto?) hier verloren? Mit SF hatte der, soviel ich weiß, nicht viel am Hut.
Dass er dann der Vater von LC0 wurde, ist ja auch etwas am Thema vorbei, findest du nicht?
Ok, GPL, aber auch nicht in deinem Sinn offenbar:

Frank Quisinsky schrieb:

Der Lizenztyp steht dem Projekt im Wege, ist meines Erachtens kontraproduktiv!

Du gehörst genau zu denen, die das einfach nicht und nicht verstehen wollen, und ich kann schon wieder richtig kommen sehen, was du jetzt wieder alles ablassen wirst in Folge, was sicher (wollen wir wetten?

) überhaupt nichts mit GPL zu tun haben wird.

Du willst nicht wahrhaben, dass ein Copyleft die Möglichkeit schlechthin darstellt, für ein Programm nicht nur zu erlauben, sondern dazu aufzufordern, dass es aufgegriffen und weiter bearbeitet wird. Alles, was du immer wieder dagegen wetterst, wäre der Sinn und Inhalt und der Zweck dieses rechtlichen Konstrukts, auch wenn dir das halt nicht und nicht in dein Weltbild vom Schachprogrammieren passt.
Macht ja nix, Frank, es hat bestens funktioniert, auch wenn es eigentlich das sein wird vermutlich, was dich am meisten daran stört.
Bei LC0, das auf GCP zurück geht, klappt's mittlerweile ja auch recht gut unter dieser Lizenz.

Und dass auch Gian-Carlo Pascutto mittlerweile zu seinem nicht nur closed source sondern überhaupt nicht mehr öffentlich zugänglichen Programm Stoofvlees zurück gekehrt ist, das ist vermutlich die Alternative schlechthin, die dir vorschwebt.
Ich bin hier jetzt wieder raus, Frank, viel Spaß bei weiteren Erzählungen dazu (oder vermutlich mehr zu anderen Themen, die dir noch so einfallen werden) aus deinem reichen Erfahrungsschatz, grüßt

By Frank Quisinsky Date 2022-04-01 09:56 Edited 2022-04-01 10:18

Peter,

als Stockfish bzw. die Testplattform entstand gab es mehrere Diskussion.
In einer hatte Gian-Carlo darauf hingewiesen, dass alleine durch Parameteränderungen mehr als 100 Elo möglich wären.
Das stand in Raum und viele glaubten daran, weil es von Gian-Carlo kam.

Seinerzeit gab es z. B. wenige UCI-Parameter ...
Stefan Pohl meine Wenigkeit und jemand anderes entwickelten eine Stockfish PSQ oder so ähnlich Einstellung.
Konnten nachweisen, dass diese UCI Parameter ca. 30 Elo stärker waren.
Nur was wäre mit Sourcen alles möglich ...

Nur ein Beispiel!

Ganz und gar nicht am Thema vorbei!
Ich sagte ja nicht Gina-Carlo hat Stockfish auf den Weg gebracht.
Ich sagte er animierte seinerzeit mit stichhaltigen Gründen, die ich selbst gar aus Auslöser vom Projekt sehe.
Sofern ich mich an die Kommentare von Marco in den seinerzeitigen Diskussionen noch erinnere.

Closed Sources:
Bin ein großer Fan davon weil ich denke das reichlich offen liegt.

Wäre eine Katastrophe wenn nun die Programmierer von Slow, Wasp und Pedone / Revenge veröffentlichen würden warum diese Programme so stark im Königsangriff sind.
Es gibt Dinge die sollten einfach nicht frei sein, sonst haben wir später 50 Programme mit den gleichen Stärken, die dann unter meines Erachtens lächerlichen GPL Varianten stehen die meines Erachtens nicht passend sind.
Gibt bessere moderner Alternativen die den eigentlichen Sinn vom Projekt in den Vordergrund stellen könnten.

Bin ein großer Fan von freier Software (Schriftzug in meinem Logo, rote Buchstaben ... seit mehr als 20 Jahren).
Aber alles mit Gemach und hier und dann auch mal mit ein wenig Überlegung.

Gruß
Frank

By Frank Quisinsky Date 2022-04-01 10:21

Hi Peter,

ich plabbere nicht gerne nach was andere mir den Mund legen möchten.
Denke das ist nicht verwerflich und bin froh zu den vielen Themen im Computerschach noch eine eigene Meinung vertreten zu können.

Greife auch andere nicht an die eine andere Meinung haben.
Versuche eher meine Meinung zu begründen und gebe mir Mühe dabei.
Ob ich immer richtig liege wage ich dabei zu bezweifeln.

Niemand von uns ist perfekt und jeder von uns ist ersetzbar!

Viele Grüße
Frank

Beitrag erfolgte weil Du Deinen nochmals geändert hast.
Will jetzt auch keien Streitdiskussion mit Dir, wünsche mir aber immer das durch mehr Akzeptanz Diskussionen friedlicher werden.

By Jörg Oster Date 2022-04-01 11:10 Upvotes 1

Frank Quisinsky schrieb:

Mit Verlaub, Frank, aber so langsam komme ich zu dem Schluss,
dass du es wie Pippi Langstrumpf machst ...

Ich glaube, dir fehlt es einfach viel zu sehr an Hintergrundwissen,
um hier eine fundierte Meinung abgeben zu können.

Es gab Stockfish übrigens schon Jahre vor dem Framework.
Schau dir doch mal die commit-Historie von Stockfish an.
Z. B. ab Stockfish 3 rückwärts gehend. https://github.com/official-stockfish/Stockfish/commits/sf_3_base
Da siehst du dann, wer die Arbeit gemacht hat und den Code geschrieben hat.

Aber was solls, ich halte mich jetzt wieder raus.

By Frank Quisinsky Date 2022-04-01 11:16

Hallo Jörg,

ich sprach ja nicht davon das sich Stockfish erst durch den Framework gebildet hat.
Ich sprach eher davon warum es zu diesem Framework kam.

Auch zweifel ich die Dokumentation nicht an.

Ich sprach eher von der Anfangszeit vom Framework, warum ist der entstanden und was ist draus geworden.
Stockfish war natürlich nicht von Framework Minute 1 das was es dann im Laufe der Zeit wurde.

Fand die Diskussionen seinerzeit sehr interessant.
Gerade auch den Einwand von Gian-Carlo und die auch die Antworten von Marco (sofern ich das noch im Kopf habe).
Müsste das nach so vielen Jahren selbst mal nachlesen.

Pipi ...
Ich schrieb es ja ... 98% ... wir machen uns die Welt wie sie uns gefällt.
Schließt Du dich davon im täglichen Leben aus?

Gemeine Frage ...

Viele Grüße
Frank

By Frank Quisinsky Date 2022-04-01 11:19

Antwort von meiner Seite:
Es gibt Situation im Leben da geht es nicht anders ... und das streite ich zumindest keinesfalls ab!!
Obwohl ich mich selbst dafür hasse aber ich bin kein Saubermann!

By Frank Quisinsky Date 2022-04-01 06:37

Wenn Du bei TCEC klotzt, siehst Du ja auch nicht einen Esel - meine Springer - rumhopsen.
Da sind mehrere ...

By Thomas Plaschke Date 2022-03-31 08:01 Upvotes 1

… und wenn Du bei Stockfish das Häkchen von "Use NNUE" entfernen würdest? Zählt das nicht als Nicht-NN-Engine?

Viele Grüße
Th. Plaschke

By Frank Quisinsky Date 2022-03-31 11:20

Hallo Thomas,

Gute Frage ...
Wird nicht zu viel gemixt zwischen ... was könnte gut in Kombination mit NN sein oder was nicht?
Müssten die Programmierer beantworten.

Könnte man ja testen.
Stockfish 11 vor der NN Zeit gegen Stockfish 14.1 ohne NN ... wahrscheinlich ist der Spielstärkeunterschied sehr gering.

Keine Ahnung, recht guter Einwand!!

Viele Grüße
Frank

By Benno Hartwig Date 2022-03-31 23:55 Edited 2022-03-31 23:58

Doch, stimmt, der sollte dann mitzählen.
Und schaue ich auf CCRL
so finde ich da beispielsweise:

Stockfish 10 64-bit 4CPU    3543
Houdini 6 64-bit 4CPU       3510

Und vermutlich wird der heutige SF ohne NNUE ja auch nicht schlechter spielen.

Ok, auf ohne-NNUE-Fortschritte würde ich bei SF aber nicht mehr zählen.

By Frank Quisinsky Date 2022-04-01 07:00 Edited 2022-04-01 07:16

33 Elo.
Nun muss man die drei Bugfixes berücksichtigen, die später gekommen sind und hier nicht ausgewiesen sind.
Hier spielt 6.0, es gab 6.01, 6.02, 6.03. Der Unterschied von 6.0 zu 6.03 ist nach meinen Aufzeichnungen von
früher ca. 23 Elo.

Ach so, in vielen Fällen sind einfach verschiedene Versionen zu einer zusammengezogen wurden.
Weil man mal wieder zu schnell gestetet wurde ... ohne etwas zu warten.
Wer weiß das schon ...

Und wer ohne Aufgabefaktor spielt (schnell, schneller am Schnellsten) will auch keine Partien wiederholen.

Na dann ...
Hoch lebe was da ist, egal was es ist, egal wie es zu Stande kommt.

---

Sehr simples Beispiel ...
Man könnte sagen 1 von 1.000

CEGT und Hiarcs 15.
Hiarcs spielt extrem schlecht gegen deutlich stärker.
Siehst Du schön bei der Turniertabelle von meinem run-2.

Ist bei mir in einem Turnier gegen die TOP-40 und ist hochgerechnet -25 zur CEGT.

CEGT testete gegen die Hälfe der Gegner ... 21!
Stärkster Gegner bei CEGT ist Platz 16.
ErrBar ist natürlich unter -25

Nun teste ich Hiarcs ohne die TOP-15 gegen eine andere Gruppe von Engines (laufender run-3).
Elo bei mir +20 besser, was mir nach CEGT Ergebnissen schon vorher klar war.

Nur ich habe jetzt 60 Gegner und keine 21 wie CEGT und bin immer noch ca. -15 zur CEGT.

Gibt unzählige noch viel krassere Beispiele!
Belasse es bei einem Beispiel!

Möchte auch die Gläubigen nicht quählen, die sich meist selbst nie mit dem Zeug wirklich beschäftigt haben.
Hätte bei CEGT Hiarcs nur 10 Gegner wäre das ja für Dich auch OK (war beim gleich hohen Einstiegsrating
nach ca. 1000 Partien der Fall), und selbst wenn Hiarcs 15 nur einen Gegner gehabt hätte wäre es Dir
sehr wahrscheinlich auch nicht aufgefallen.

Viele Grüße
Frank

By Frank Quisinsky Date 2022-04-01 07:11 Edited 2022-04-01 07:15

Wenn genau darauf nicht geachtet wird und das weil es immer so gemacht wurde ...
Arme Computerschachwelt.

Wenn alle Engines die oben stehen schwächere Gegner erhalten, aber Engines die sich weiter unten im Feld bewegen keine stärkeren Gegner erhalten wird das nichts.
Sammelt sich das Zeug mit den Jahren immer mehr an wird die Liste nicht mehr nachvollziehbar.

Im Gegensatz zu Dir (nach Deinen Worten eine Vermutung) möchte ich schon wissen wie stark eine Engine wirklich ist.
Kann ich das nicht an der Arbeit anderer erkennen, gibt es zwei Möglichkeiten ...

- ich akzeptiere jeden Fehler
- wenn mich wirklich etwas interessiert dann ... selbst ist der Mann!

By Thomas Plaschke Date 2022-04-01 11:24

Ich habe die Stockfish-Versionen 14.1 und 11 gegeneinander 1000 Partien spielen lassen (60"+0.6", 1 Thread, 256 MB-Hashtabellen, HERT-500-Eröffnungsbibliothek):

Code:

   # PLAYER            :  RATING  ERROR  POINTS  PLAYED   (%)  CFS(%)
   1 Stockfish 14.1 o. NNUE   :  3479.6    4.9   522.0    1000    52     100
   2 Stockfish 11             :  3464.0    4.9   478.0    1000    48     ---

White advantage = 33.11 +/- 5.61
Draw rate (equal opponents) = 77.36 % +/- 1.35

Stockfish 11 ist bei Andreas Strangmüller für diese Bedenkzeit mit den verwendeten 3464 Elo-Punkten notiert.

15 Punkte sind schon etwas mager. Diese Differenz wäre übrigens gemäß der Daumenregel 1 % schneller gleich 1 Elopunkt mehr durch die Verwendung von Cfish 11 statt Stockfish 11 fast aufzuholen.
Stockfish 14 mit NNUE thront mit 3600 Punkten aber deutlich über diesen Versionen.

Viele Grüße
Th. Plaschke

By Frank Quisinsky Date 2022-04-01 11:28

Hi Thomas,

und wenn Du nun viele andere Engines dazunimmt ... schwimmt das gegen 0.
Dachte ich mir ...

Vielen Dank für den Hinweis!
Aber ich denke es wurde seit dem zu viel verändert was auch mit NN zu tun hat.
Ob das heute wirklich noch genau testbar ist ... ich glaube das nicht.

Viele Grüße
Frank

By Thomas Plaschke Date 2022-04-02 11:44

Ich liefere das Cfish 11 - Ergebnis jetzt nach:
Unter den gleichen Bedingungen (60"+0,6, 256 MB, HERT500-Bib.)

Code:

   # PLAYER            :  RATING  ERROR  POINTS  PLAYED   (%)  CFS(%)
   1 Stockfish 14.1    :  3476.8    5.1  1022.5    2000    51      72
   2 Cfish 11          :  3473.6    7.8   495.5    1000    50      90
   3 Stockfish 11      :  3464.0    7.7   482.0    1000    48     ---

White advantage = 41.76 +/- 3.86
Draw rate (equal opponents) = 78.98 % +/- 0.97

Einzelergebnisse: Stockfish 14.1 vs.
Cfish 11         : 1000 (+124,=761,-115), 50.5 %
Stockfish 11     : 1000 (+135,=766,- 99), 51.8 %

Im ersten Vergleich erreichte Stockfish 11 nur

Code:

Stockfish 11 : 1000 (+144,=756,-100), 52.2 %

aber das liegt im Rahmen der statistischen Schwankungen, denke ich.

Viele Grüße
Th. Plaschke

By Peter Martan Date 2022-03-31 08:30 Edited 2022-03-31 08:51

Komodo 14.1 ist in Andreas Strangmüllers 60+0.6- Liste um 1 Elo besser gereiht.

http://www.fastgm.de/60-0.60.html

Die erste Liste, in der ich auf die Schnelle non- NNUE- Fische gefunden habe:

https://ccrl.chessdom.com/ccrl/4040/rating_list_all.html

Das sind's bei H6 3331 und bei SF11 3474.

By Frank Quisinsky Date 2022-03-31 08:46

Genau, siehst Du ja auch im FCP-Tourney-2020.
Da sind es 10 Elo bei 40 Gegner!

Viele Gegner sind immer wichtig!
Dann wird das Rating sehr schnell sehr sicher.
Bei 40 Gegner im Grunde schon nach 1100 Partien, siehe Excel Auswertungen der FCP Turniere.

Der Grund warum ich heute als Einstieg 1.200 Partien gewählt habe.

z. B. sind es bei 26 Gegnern ... ca. 1.400 Partien.
z. B. bei 20 Gegnern ... ca. 1650 Partien.

Wenn der Anspruch gehegt wird ein Rating zu bilden das mit weniger Partien sehr schnell sehr sicher wird.
Alles schon mehrfach ausgewertet.

Die erste Frage für mich wäre also ...
Wie viele Gegner hatte Komodo 14.1 bei Andreas.
Die zweite Frage wie viele Partien hat er.
Die dritte Frage ... welche Zeitkontrolle.

Und dann läßt sich im Grunde alles abwandeln wenn man die Engines, deren Stärken und Schwächen, kennt.

By Peter Martan Date 2022-03-31 08:48 Edited 2022-03-31 08:51

Ich hab' noch eine Weile rumeditiert, während du geantwortet hast.
Der größte Abstand (man müsste weiter in verschiedenen Listen suchen) mittlerweile 143 Elo in der CCRL vom obigen Link.

By Frank Quisinsky Date 2022-03-31 08:59 Edited 2022-03-31 09:34

Hi Peter,

ich weiß nicht ob Dir das aufgefallen ist?!

In CEGT und CCRL explodieren die Ratings der Engines die ganz oben stehen.
Gründe wird es geben aber selbst kann ich nur vermuten.

In allen meinen Turnieren bei 40 Gegnern ist das nicht so.
Ratings von Platz 1 oder 2 liegen durchschnittlich 50-75 Elo niedriger als in CEGT / CCRL.

Vermutlich hat das damit zu tun, dass in den größeren Ratinglisten alles wild gemixt wird.
Alles rein in die Liste, egal wie alt.

Ratinglisten sind nur Momentaufnahmen und eignen sich eher weniger um x Engines aus verschiedenen Generationen zu mixen.
Es sein denn die Engines die z. B. vor 10 Jahren genutzt wurden, werden aktuell immer noch eingesetzt.
Also z. B. ich nehme Critter in die Liste auf und Critter spielt dann in einem TOP-40 Turnier gegen alle anderen aktuellen Engines.

Nehme ich meine SWCR, die FCP und die jetzige Ratingliste und füge alles zu einer Liste zusammen habe ich das gleiche Problem.
Habe hier auch mehrere Millionen Partien aber es kommt nichts brauchbares dabei raus wenn ich alles zusammenbringe.

Für mich sind das wirklich Schrottwerte, so hart es klingen mag.
Es macht viel mehr Sinn ein Ratingsystem von Zeit zu Zeit neu aufzusetzen und wirklich darauf zu achten das möglich viele Engines gegeneinander antreten.

CCRL löst das Problem teils sehr gut.
Ältere Engines werden in Testverfahren neuerer Engines immer noch sehr oft eingesetzt.
Warum aber auch hier die Elo's der oberen oder unteren in einer Liste auseinanderklaffen ist mir teils ein Rätsel.

User glauben dann z. B. ein aktueller Stockfish ist 200 Elo besser als ein aktueller Koivisto.
Real sind es 130 Elo wenn beide Engines in Turnieren sind wo jeder gegen jeden spielt bei ausreichend Gegnern.

Das ist der Nachteil an den Ratinglisten, insofern baue ich wenn ich es brauche meine eigenen und berücksichtige alle mir bekannten Probleme aus meinen
Erfahrungswerten mit Ratinglisten.

Interessant ist ja im Grunde eh immer nur ...
Wie verhält sich eine aktuelle Engines in einer Gruppe anderer aktueller Engines.

Macht ja keinen Sinn einen Wasp 5.20 mit Engines zu mixen, die vor 10 Jahren aktuell waren und daraus eine Elo zu berechnen.
Wobei mache ich derzeit auf einem System.
Wasp wäre 65 Elo spielstärker in der Gruppe der Engines die vor 10 Jahren oben standen als in der Gruppe der Engines die heute oben stehen.
Und das bei 25 Gegner die ich für diesen Test einsetze.

Und insofern ... Momentaufnahme!!
Nicht mehr und nicht weniger!!

Viele Grüße
Frank

By Frank Quisinsky Date 2022-03-31 09:10 Edited 2022-03-31 09:40

Anderes Beispiel:

Wir haben die deutsche Fussballbundesliga ...
Da spielen 18 Teams, jeder gegen Jeden ... 2 Partien!

Nun kommt die CEGT / CCRL auf die Idee ...
Ich nehme Bayern München von 1985 dazu und von mir aus Bor. M'gladbach von 1985.

Das geht einfach nicht, es sein denn Bor. M'gladbach von 1985 würde die gleiche Anzahl an Spielen gegen die heutigen 18 Clubs spielen.

Wird genau das zu 100fach in einer Liste gemixt gibt es pures Chaos, ganz egal wie viele Partien.

Das Thema wurde schon x-mal diskutiert und ist für mich seit vielen Jahren abgeschlossen.

Wenn wirklich der Gedanke daran gehegt wird Elo zu missbrauchen für den Zweck des "ultimativen Einsatzes" oder ablesen von "Spielstärke" müssen grundsätzliche Dinge beachtet werden.

Nehmen wir das FCP Tourney-2020.
2.000 Partien, jeder gegen Jeden 50 Partien.
Schön, so soll es sein aber ...

Nehme ich nun 40 andere Engines und nur eine Engine aus dem FCP Tourney-2020 und bilde ein neues Turnier können wir die ErrBar vergessen.
Es bildet sich durch 40 anderen Engines eine andere Elo für die verbliebene Engine.

Teils weichen die Elos ganz erheblich voneinander ab.
Selbst bei 40 Engines hatte ich hier schon bei 2.000 Partien Ergebnisse, die 30 Elo von der ErrorBar entfernt waren.
Wenn ich dann aus Ergebnisse einer Engine in verschiedenen Turnieren miteinander vergleiche.

Elo ist und bleibt immer genau beim Einsatz der gleichen gesteteten Engines, aber ist niemals ultimativ anwendbar wenn sich die Kreis der Gegner verändert.
Der Grund warum es keinen Sinn macht riesige Elo Listen zu pflegen. Es sei denn man kennt die Probleme und liest genau diese Probleme raus.

Bedeutet ...
Innerhalb der Gruppe der 40 Engines beim FCP Tourney-2020 ist alles wunderbar.
Aber ultimativ sind auch diese Elo Werte nicht wenn viele andere Gegner hinzukommen.
Das ist leider Fakt ...

Eine Momentaufnahme ... mehr nicht.
Und selbst wenn 100 Engines jeder gegen Jeden 1000 Partien spielen würden.
Es ist und bleibt eine Momentaufnahme und auch hier wäre eine Elo niemals ultimativ.

Ganz egal wie viele Partein bei wie vielen unterschiedlichen Gegnern ...
Aber das bekommst Du aus den Köpfen der Leute nicht mehr raus weil viele Elo als ultimativ betrachten.
Und noch mehr denken, ich lasse viele Partien spielen und habe eine ganz genaue Elo weil die ErrorBar ...

Teilweise ja OK wenn sich der Glaube auf exakt die Engines die eingesetzt wurden bezieht.

By Frank Quisinsky Date 2022-03-31 09:36 Edited 2022-03-31 09:53

Ach so ... warum ist Wasp 65 Elo stärker?
Auch sehr einfach zu beantworten ... weil vor 10 Jahren die Spielstärke im Endspiel noch nicht explodiert ist und die Schwäche von Wasp hier gar nicht zu sehen ist.
Die Endspielschwäche von Wasp ist einfach nicht zu sehen.

Schwächen und Stärken der Engines herausfinden ist sehr viel interessanter als eine dumme Ratingliste zu erzeugen.
Warum war Bor. M'gladbach einige Jahre erfolgreicher als FC Bayern München.
Nicht, wo würde Bor. M'gladbach in der Hochzeit bei einem Vergleich heutiger Teams stehen.
Bei den Engines wäre das gar testbar aber viele würden vom Glauben abfallen wenn die Elo's damm verglichen werden.

Tja ... so weit zum Thema:
Ich mixe alles aus vielen Jahren zusammen und das zu 100fach und mehr.

Kommt wirklich Schrott dabei heraus!
So ca. stimmt es oft aber in vielen Fällen leider nicht, egal wie viele Partien und Gegner.

By Chess Player Date 2022-03-31 10:01

Frank Quisinsky schrieb:

---

Schwächen und Stärken der Engines herausfinden ist sehr viel interessanter als eine dumme Ratingliste zu erzeugen.
--

Zitat:

Du hast völlig recht mit dieser Aussage

Tja ... so weit zum Thema:
Ich mixe alles aus vielen Jahren zusammen und das zu 100fach und mehr.

Kommt wirklich Schrott dabei heraus!

Zitat:

Das stimmt!

By Frank Quisinsky Date 2022-03-31 10:10 Edited 2022-03-31 10:39

Das Problem ist ...
Wenn ich CEGT und CCRL zerreiße kann ich dann weiter machen mit meiner eigenen aktuellen Liste.

Versuche das im Griff zu bekommen, in dem ältere Engines gegen alle anderen spielen.
Habe ich vor nach dem "run-4".

Nur, je größer und mächtiger eine Liste ist, desto schwächer wird diese im Grunde.

John schrieb mir mal ...
Beschränke dich auf die Turniere.
Genauere Ratings für die Gruppe der eingesetzen Engines sind kaum zu erzeugen.

So dachte ich, baue eine Ratingliste mit Turnieren auf.
Passt auch ganz gut aber so 100%ig halt auch nicht.

Insofern ist bei 100.000 Partien Schluss mit lustig.
Dann beende ich die KI-Liste und baue lieber wieder eine neue auf.

Wichtig ist an Elo für mich eh nur ...
Spielstärkesteigerung bei Wasp ja oder nein ...
Unter Beibehaltung vom Spielstil ... ja oder nein ...

Alles andere interessiert mich eh nicht, wenn überhaupt die Spielstile der anderen Engines!
Bzw. wo steht Wasp ca. in einer Gruppe aktueller Engines (unter den TOP-20 oder TOP-30 etc..).

Zusammengefasst:
Meine KI-Ratingliste ist im Grunde ein Abfallprodukt aus den sicherlich spannenden Einzelturnieren.
Nicht mehr und nicht weniger.

Auch wenn viele andere Elo hier ganz anders sehen.
Mache das schon zu lange, mich langweilen pure Elolisten wenn ich nichts weiteres daraus ablesen kann als Elo-Zahlen die ich oft nicht nachvollziehen kann bzw.
nur dann nachvollziehen kann wenn ich die Spielstile der Engines kenne (z. B. unterschiedliche Ergebnisse im schnellen Blitz zu längeren Zeitkontrollen).

By Peter Weise Date 2022-04-01 07:35

Auf diese Thematik hat die Cegt schon vor Jahrzehnten hingewiesen und tut dies noch heute immer mal wieder!
Wenn ich mir dies aktuell ansehe halten sie sich auch daran.

http://www.cegt.net/25plus8Rating/25Plus8AllVersion/21.html

Hier spielte Revenge2 (Baujahr 2022) z.B. gegen:
Xiphos 06 (Bj. 2019)
Stockfish 11 (Bj. 2019)

oder noch aktueller

http://www.cegt.net/25plus8Rating/25Plus8AllVersion/18.html

Hier spielte Berserk 851 (Baujahr 2022) z.B. gegen:
Fire 71 (Bj. 2018)
Rofchade 23 (Bj. 2020)

Irgendwie auch logisch weil sonst auf Dauer "Cluster" entstehen würden und somit eine Auswertung nicht mehr möglich wäre!

By Frank Quisinsky Date 2022-04-01 08:15 Edited 2022-04-01 08:31

Hi Peter,

die Cluster-Theorie!
Die wackelt reichlich!

Achtest Du auf ...
Ich brauche mindestens 10 Cluster ...

Passiert nichts anderes wie ...
10 Engines in einer Liste: Jeder gegen Jeden
Du achtest auf die Elo einer der 10 Engines.

Nun spielst Du ein Turnier mit dieser Engine und 9 anderen Gegnern.
Bei 10 Engines spreitzen sich die Ergebnisse genau gesagt bis zu 120 Elo weil zu wenige Gegner.
Nichts anderes passiert bei zu wenigen Clustern.

Als wir früher die Ratinglisten mit vielen Gegnern starteten gab es eine nette Diskussion zwischen Gerhard Sonnabend und meiner Wenigkeit.
Wir waren beide der Meinung das ca. 6 Cluster ausreichen. Nun heute weiß ich es besser und sicherlich auch Gerhard Sonnabend.

Diese Theorie ist für den ...
Leider!

Es gibt im Grunde nur eine einzige Möglichkeit:
Jeder spielt gegen jeden für eine wirklich aussagekräftige Elo.
Zu berücksichtigen wäre möglich viele Gegner einzusetzen.

Hatte das mal in Excel anhand von regulären Daten hochgerechnet.
z. B. passiert nichts wirklich daramatisches wenn für ein Rating mehr als 25 Gegner herhalten.

Sprich, Engine Turniere "jeder gegen Jeden" wären perfekt wenn sich mindestens 25 in einem Turnier befinden.
Die Partieanzahl bei 25 Gegnern wäre ca. 1.800 pro Engine.

Nur:
Solche Turniere sind leider auch nur aussagekräftig, innerhalb der Gruppe der eingesetzen Engines.

Wird über Jahre alles miteinander verknüpft kannst Du im Grunde auch Kniffeln.
Wie gesagt, oft stimmen die Ausgaben in etwa aber genau kann das nicht sein und ist es auch nicht.

Viele Grüße
Frank

Kannst einfach keine Cluster berücksichtigten Daten über viele Jahre immer wieder verknüpfen, um dann den Anspruch zu hegen es wird sehr genau!
Je größer die Datenbank an Engines desto schlechter für die Ratingliste. Viele kleinere Ratinglisten, z. B. sortiert nach Jahren wäre deutlich interessanter und
auch spannender für die Anwender die verfolgen. Kannst ja mal CEGT Daten aus der CEGT Datenbank splitten und daraus dann neue Ratings erzeugen.
Die haben oft nichts mit den ausgegebenen zu tun.

By Peter Weise Date 2022-04-01 09:04

Frank Quisinsky schrieb:

Es gibt im Grunde nur eine einzige Möglichkeit:
Jeder spielt gegen jeden für eine wirklich aussagekräftige Elo.
Zu berücksichtigen wäre möglich viele Gegner einzusetzen.

Ich vermute das funktioniert nicht! Läßt man Programme gegeneinander spielen welche einen (zu) großen Stärkenunterschied aufweisen, dann kommt meines Erachtens nichts aussagekräftiges heraus.

By Frank Quisinsky Date 2022-04-01 10:59 Edited 2022-04-01 11:04

Hi Peter,

nun, dass wäre der Punkt der dagegen sprechen könnte.
Bedeutet, wir haben für Stockfish, Komodo und Lc0 nicht ausreichend Gegner.

Auch ein Karpow war ein spielender Weltmeister und verlor drastisch Punkte durch Remispartien gegen Schwächere.
Die Elo im Vergleich zu Kasparow oder heute Carlsen war niedriger als sie hätte sein können!

Eine echte Streitfrage!

Früher einigten wir uns darauf, dass in einem Turnier der Abstand von Platz 1 zum letzten Platz nicht höher als 280 Elo sein sollte.
Woher die 280 Elo kamen weiß ich gar nicht mehr. Erinnere mich auch an Aussagen von 350 Elo. Da gab es auch
viele Diskussionen aber letztendlich ohne wirklich gute Resultate. Wir mutmaßten sehr oft weil wir eher hilflos waren.

Wie das so ist ...

Habe mal in einem Protokoll von einem Schachverein (war bei der Vorstandssitzung der Protokollführer) geschrieben ...
Es wurde viel diskutiert ohne irgendein zwingendes Ergebnis.
Das Protokoll bestand nur aus diesem einen Satz, weil mir die Diskussionen um nichts und wieder nicht aus den Keks gingen.

Vom Thema abgekommen ... sorry!

Es ist und bleibt eine Streitfrage.
Kann nicht beweisen, dass viele schwächere Gegner das Rating manipulieren!
Denke es ist nicht beweisbar weil viele schwächere Gegner Stärken in Partiephasen haben die dann zu überraschenden "vielen" Remispartien führen.
Es wäre eher fatal diese Stärken zu ignorieren oder anderes heraum auch die Schwächen zu ignorieren.

Wir haben ja in der Excel von Klaus ein Tool eingearbeitet:
Hier kannst Du Engines aus einem 41er Turnier herausnehmen, auch mehrere, um zu schauen wie sich Ratings entwickeln.

Da kommt nie mehr dabei heraus als maximal +- 8 ... also 16 Elo in Einzelfällen in der Regel max. +-4 wenn überhaupt.
Allerdings unter Beachtung, dass durch Streichen von Ergebnissen die Partieanzahl geringer wird und das natürlich auch Auswirkungen zeigt.

Letztendlich bin ich der Meinung:
Wenn ich ein Turnier der TOP-40 bilde sind die Ergebnisse die produziert werden sehr genau.
Genauer geht es meines Erachtens nicht.
Wie sollte es auch?

Genauer heißt nicht das es letzendlich zu 100% perfekt ist.
Glaube den Anspruch hegt auch niemand!

Viele Grüße
Frank

War übrigens meine letzte Vorstandssitzung.
Die waren so zerstritten, dass sich der Verein gar auflöste.
Norf Allerheiligen ... und heilig war da wirklich niemand!

By Chess Player Date 2022-04-01 11:13

Frank Quisinsky schrieb:

Zitat:

Nein, er war zu gutmütig!

Früher einigten wir uns darauf, dass in einem Turnier der Abstand von Platz 1 zum letzten Platz nicht höher als 280 Elo sein sollte.
Woher die 280 Elo kamen weiß ich gar nicht mehr. Erinnere mich auch an Aussagen von 350 Elo. Da gab es auch
viele Diskussionen aber letztendlich ohne wirklich gute Resultate. Wir mutmaßten sehr oft weil wir eher hilflos waren.

Zitat:

Je größer der Unterschied ist um sooo vieeeel mehr Partien benötigt man. Ich sage sogar maximal 100 bis 200 Punkte.

Zitat:

Schau dir die letze WM an Carlsen gegen weißichnichtmehr.

Viele Grüße
Frank

War übrigens meine letzte Vorstandssitzung.
Die waren so zerstritten, dass sich der Verein gar auflöste.
Norf Allerheiligen ... und heilig war da wirklich niemand!

By Frank Quisinsky Date 2022-04-01 11:31 Edited 2022-04-01 11:36

Hallo ChessPlayer,

und was sagt uns dann das Tool was wir in Excel eingearbeitet haben.

Engines aus dem Kreis der 41 herausnehmen.
Auch das spricht dagegen.

Aber wie gesagt, ich bin mir bis heute trotz diesem Tool und den ganzen Arbeiten an Listen in der Vergangenheit nicht sicher genug um für irgend etwas meine Hand ins Feuer zu legen.

Viele Grüße
Frank

PS: Habe mal von jemanden gehört der Karpow kennt, dass er sich selbst im Nachhinein über gewisse Turnierteilnahmen ärgert.
Aber letztendlich ist es ihm egal, weil er es gerne liest eine spielender Weltmeister gewesen zu sein. Das hat glaubhaft die höhere Prio für ihn.

By Chess Player Date 2022-04-01 13:04

Frank Quisinsky schrieb:

Hallo ChessPlayer,

und was sagt uns dann das Tool was wir in Excel eingearbeitet haben.

Zitat:

Keine Ahnung.

Engines aus dem Kreis der 41 herausnehmen.
Auch das spricht dagegen.

Aber wie gesagt, ich bin mir bis heute trotz diesem Tool und den ganzen Arbeiten an Listen in der Vergangenheit nicht sicher genug um für irgend etwas meine Hand ins Feuer zu legen.

Zitat:

Was gibt es denn für sogenannte Tools für Schach? Was können die?

Viele Grüße
Frank

PS: Habe mal von jemanden gehört der Karpow kennt, dass er sich selbst im Nachhinein über gewisse Turnierteilnahmen ärgert.
Aber letztendlich ist es ihm egal, weil er es gerne liest eine spielender Weltmeister gewesen zu sein. Das hat glaubhaft die höhere Prio für ihn.

By Frank Quisinsky Date 2022-04-01 13:09

https://www.amateurschach.de/main/_excel.htm

Da liegen die Excel Tabellen der drei FCP Turniere.
2020, 2021 hatten 41.000 Partien.

Aus dem 2022 ist ja ein fortlaufendes gebastelt wurden.
Kannst ja mal mit dem 2021er Turnier und der Excel ein wenig experimentieren.

Excel 2016 oder Excel 365 solltest Du haben.

Viele Grüße
Frank

By Chess Player Date 2022-03-31 10:05

Nur die Rangliste von Schwartmann taugt etwas! Der Rest ist großer Käse.

By Frank Quisinsky Date 2022-03-31 10:55 Edited 2022-03-31 11:08

Turniere sind grunsätzlich spannender als Ratinglisten.
Bin kein TCEC Fan aber bei TCEC müssen die Elos auch nicht möglich genau sein.
Betrachte ich die Turnieridee die dahinter steckt ist alles OK.
Betrachte ich aussagekräftige Ratings ist das nichts, zumal Ergebnisse von Mehrpozessorengines oft nicht zu reproduzieren sind.

CCRL macht das gut ...
Viele kleinere Turniere in Ligen aufgeteilt.

Da kann man mitfiebern!
Aufstieg oder Abstieg, viele Engiens kommen zum Einsatz.

Resultate werden zu einem Abfallprodukt (so wie ich es sehe) bei CCRL auch zusammengefügt.
Das Event sind eher die kleinen spannenden Turniere.
Die großen Ratinglisten sind nur sehr bedingt interessant ...

Wenn ich auf CEGT schaue ...
Hier dann eher nicht auf die ermittelte Elo, sondern ob eine Engine z. B. grob in meine Turniere passen könnte bzw. wo sich +-75 Elo eine Engine in CEGT einsortiert hat.
Oder ob eine Engine im oberen oder unteren Feld zu finden ist. Die Elo selbst ist mir dabei völlig egal, weil die bei dem verwendeten System teils sehr ungenau ist.

Kenne von Schwartmann nur das System aus Gambit-Soft Zeiten, als Engines oftmals mit WB Adapter unter ChessBase GUIs eingesetzt wurden.
Da pflegte er mal eine eigene Liste auf einer Webseite. Die war ganz OK für die Möglichkeiten die wir seinerzeit hatten.
Waren einige gute Ideen drin, auch bei der Präsentation.

Gerhard Sonnabend machte das auch gut, oder viele Winboarder bei den spannenden Winboard Ratinglisten-Systemen.

Gibt mehrere Möglichkeiten und es gab unzählige wirklich sehr gute Ideen etwas spannend zu präsentieren.
Spannend wird es meines Erachtens immer wenn etwas in Turniere zusammengezogen wird.

Spießroutenlauf ist Elo pur.
Mache ich auch ab und an aber in Turnierform ist das Klassen besser und mitfiebern mit seinen Favoriten ist eh das eigentliche Event.

Viele Grüße
Frank

By Benno Hartwig Date 2022-04-01 06:38

> Die großen Ratinglisten sind nur sehr bedingt interessant ...

Oh, ganz ohne die großen Ratinglisten würde mir doch sehr viel fehlen!
Ich erinnere noch die 80er, wo regelmäßig anhand von kleinen Partieumfängen versucht wurde, Spielstärken abzuschätzen. Aus heutiger Sicht würde man nur müde über diesen Versuch lächeln.
Und wie froh war man (war zumindest ich) darüber, als die SSDF begann, ihre Liste zu pflegen und zu veröffentlichen!

Doch, die großen Listen geben tatsächlich halt, sind insofern auch besonders wichtig, sie sind (wenn man so will) deshalb auch besonders interessant.
Nur dass naturgemäß meist nichts so besonders Überraschendes dabei herauskommt. Ok, wenn das ausreichend Grund für Desinteresse sein soll.

Ich denke, wir würden ohne sie zumindest deutlich blinder und noch konträrer in den Meinungen durch das Enginegestrüpp hindurchirren und hindurchdiskutieren.
Ok, könnte ja auch interessant sein.

By Frank Quisinsky Date 2022-04-01 08:24

Hallo Benno,

das stimmt natürlich aber eine Ratingliste ...
Die kann doch selbst jeder in wenigen Wochen erzeugen.

Kann doch jeder eine bestehende Ratingliste nehmen und selbst erweitern.
Ich biete meine kompletten Daten immer an.
Einige Programmierer spielen z. B. die eigenen Testergebnisse in meine bestehende Daten um schnell ein Rating
zu ermitteln.

Das ging früher mit den Möglichkeiten die wir hatten nicht.
Gott sei Dank gab es die Engine Protokolle und die Hardware ist stärker geworden.

Die großen Ratinglisten sind mutlos.
Da wird immer alles gleich gemacht anstatt neue Erkenntnisse (die sicherlich vorhanden sind) auch mal einzuarbeiten.
Engines entwickeln sich auch weiter und bleiben in der Spielstärke nicht stehen!

Viele Grüße
Frank

By Chess Player Date 2022-04-01 13:01

Frank Quisinsky schrieb:

Turniere sind grunsätzlich spannender als Ratinglisten.

Zitat:

stimmt

Gerhard Sonnabend machte das auch gut, oder viele Winboarder bei den spannenden Winboard Ratinglisten-Systemen.

Zitat:

schreibt er hier nicht mehr?

Spießroutenlauf ist Elo pur.

Viele Grüße
Frank

By Frank Quisinsky Date 2022-04-01 13:13

Hallo,

habe lange nichts von Gerhard gelesen.
Er ist im Grunde auch einer der Engine-Turnier-Dinos.

Aber die meisten sind die stetigen nichtsbringenden Diskussionen auch satt.
Basteln lieber etwas ohne zu veröffentlichen.

Gibt z. B. zwei richtig spannende Listen die laufen die noch nie publiziert wurden.
Habe auch schon überlegt ob ich mich dran hänge und wir einen E-Mail Gruppe bilden.

Die Diskussionen sind auch spannender als die in offiziellen Foren.
Auf der anderen Seite, einige Programmierer beobachten mein Turnier und erfreuen sich daran.

Viele Grüße
Frank

By Peter Weise Date 2022-04-01 17:46

Chess Player schrieb:

Frank Quisinsky schrieb:

Gerhard Sonnabend machte das auch gut, oder viele Winboarder bei den spannenden Winboard Ratinglisten-Systemen.

schreibt er hier nicht mehr?

Auf dem Cegt Forum schreibt er noch regelmässig.

https://cegt.forumieren.com/f12-cegt-25-8-coordination

By Ingo Althöfer Date 2022-04-01 14:06

Benno Hartwig schrieb:

Mich interessierte, welches heute eigentlich die stärkste Engine ist, die nicht auf irgendeine Form von NN setzt,
bei der die positionellen Kriterien also durch den Entwickler in tapferer Handarbeit definiert wurden.

Schachprogramme ohne NN, kann so etwas überhaupt funktionieren

?
War das in der Zeit vor Baron Kempelen?

Man wundert sich im Rückblick über die rasante Entwicklung...

Ingo Althöfer.

By Frank Quisinsky Date 2022-04-01 14:33 Edited 2022-04-01 14:43

Hallo Ingo,

und die Entwicklung ist noch nicht vollzogen.

Da wird ein rofChade kommen, ca. 220 Elo stärker (nach Schätzung, letzte Version war 180 Elo stärker die ich getestet habe).
Wird wahrscheinlich auf Platz 4 oder 5 springen.

Auch von Shredder wird das erwartet.
Einige sehr starke Programmen werden offenbar derzeit nicht entwickelt.
Laser, Xiphos, Winter!
Weiss könnte mit NN die TOP-10 anknabbern.
Auch Hiarcs könnte sich nach oben hiefen!
Ein mir bekannter TOP-Programmierer von früher überlegt wieder zu veröffentlichen (nicht Chris Whittington).
Sein Programm liegt derzeit bei 3400 Elo, wäre also auf Platz 4.

Alles Programme die Spielstärken erreichen werden die Stockfish wahrscheinlich vor NN hatte.
Na ja, knapp dran zumindest!

Viele Programme rücken immer näher an Stockfish und Komodo.
Der Kreis schließt sich wieder und die Abstände werden geringer.

Wahrscheinlich haben die TOP-30 Ende 2022 alle über 3200 Elo ... wenn Shredder 13 im Vergleich 3125 Elo hat.
Das ist ein unglaublicher Sprung nach vorne!

Mein nächstes TOP-41 Turnier wird einen Elo-Durchschnitt erzeugen der bei 3240 Elo liegt.
10 Elo bis Turnier-Category XXXX (40)

Und das auf einem Core!!

Hättest Du das gedacht als Du begeistert vor einem Mephisto Exclusive oder München verweilt hast?

Viele Grüße
Frank