Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Eine Idee wäre es beim Engine-Test wie folgt vorzugehen ...
- - By Frank Quisinsky Date 2024-01-04 08:53
Hallo zusammen,

Stefan Pohl wird nicht böse sein aber bei "UHU-testen" zuzuschauen macht weder Spaß noch wirklich Sinn.
Dient meines Erachtens eher den statistischen Aussagen.
Auch die sind wichtig aber optimal wäre es eher alles normaler ausschauen zu lassen.

Es zeichnet sich ab, dass sich mit mehr Zeit die besten NN Programme sehr schnell annähern und die 1:0, 0:1 Entscheidungen ausbleiben.
Engine die oben stehen werden sich dann endgültig alle sehr lieb haben und sich eben nicht mehr gegenseitig die Augen auskratzen.

Also, was ist zu tun?

Eine Möglichkeit wäre es genau da zu tun was früher komplett verschrien war.
Seinerzeit wurde mühselig festgestellt, dass der Elo-Unterscheid zwecks Aussagekraft der Ergebnisse nicht höher als 250 in einem Turnier zwischen Engines sein sollte.
Wobei 250 ein mehr oder weniger "Ca.-Richtwert" war.

Heute können diese eingegrosteten Erkenntnis getrost über Board geschmissen werden, denn das bedeutet nur ... speedmäßig ansteigende Remis Quote bei mehr Zeit.

Zurück zum Aufhänger:
Was ist zu tun?

Nehmen wir an, wir haben 20 Programme, die alle sehr nahe aneinander liegen und wollten "just-for-fun" testen!?
Wenn wir diese 20 Programme gegen mindestens 150 schwächer abwärts bis zu 400 Elo abwärts antreten lassen, kann daraus einfacher ein Rating auf heutigem Niveau erzeugt werden.
Zusehen macht Spaß, nichts gekünzeltes durch Vorgabenbeeinflussung.

Das Problem an dieser Idee ist:
Sämtliche Taktiker, die in der Lage sind Partien schneller zu entscheiden werden bevorteilt.

Engines wie Uralochka, Velvet, Wasp, Revenge etc. werden mehr Gewinne einfahren.
Werden die wirklich bevorteilt?
Die Frage lasse ich im Raum stehen!

Die ruhigeren Gesellen in der ersten Partiephase werden mehr Remis spielen (der Grund warum ja früher Contempt kam).

Die ganze Sache hat einen weiteren bitteren Nachgeschmack:
Ehemalige TOP-Engines, die dann verwendet werden, dienen als Punchingball.
Ob das die Schöpfer dieser Engines wirklich wollten oder gut heißen?

Rybka verliert schnell und sehr gern im Königsangriff.
Das dann 1000x zu sehen ... kommt vielleicht auch Langeweile auf?!

Auch das schaue ich mir derzeit bei meinem laufenden Turnier an.
Die Remis Quote liegt bei 3280 Elo im Engine-Turnierdurchschnitt nur deswegen bei derzeit unter 60%, weil ich künstlich beeinflusse durch viele Engines mit klassischer Eval.
Steigert die Freude beim Zusehen aber beeinflusst auch ungemein sämtliche Endergebnisse.

Ferner stellt sich die Frage, ob das eine dauerhafte Lösung sein könnte um z. B. durch eng-eng Partien den heutigen Granaten Leben einzuhauchen.

Viele Grüße
Frank

Also:
z. B. Seer gegen 24 schwächere Engines.
Dann Caissa und RubiChess, Wasp und wie sich alles auch immer schimpft ...
Daraus ein Rating formen ... um Spielstärke zu vergleichen!
Parent - - By Frank Quisinsky Date 2024-01-04 09:24 Edited 2024-01-04 09:44
Stefan wirds sicherlich lesen:

Der Züge Durchschnitt für Gewinnpartien ist einer der wesentlichen Bewertungspunkte.

Hast Du dir mal angesehen, was bei Seer am Ende der Partie passiert.
Engine hat noch einige Bauern, wandelt um und gibt wieder weg, wandelt um und gibt weg und dann mit einer verbliebenen Dame Matt zu setzen.
Das beim Zugriff auf syzygy und genau das machen auch einige andere Engines wie rofChade, Caissa etc.

Bedeutet für den Züge Durchschnitt, dass der bei den Gewinnpartien hoch geht.

Passiert alles nicht, wenn die Engines ohne Endspieldatenbanken spielen.
Nur dann wäre der Züge Durchschnitt für Gewinnpartien genauer und als Bewertungsmaßstab viel besser geeignet.

Streng genommen sollten wir beim Testen (wenn Stats wichtig sind) die Endspieldatenbanken komplett rauslassen.
Erinnere mich noch an Matthias Feist, er erzählte mir früher mal er testet aus verschiedenen Gründen nur ohne Endspieldatenbanken.
Seinerzeit begeisterten uns die Nalimov Daten und die ersten verwendeten 5-Steiner.

Die Tester vertraten die Auffassung: Wir vermeiden mit 4-Steiner Endspielketten (was auch richtig war).
Allerdings wurde der Züge Durchschnitt dadurch immer schon sehr beeinflusst.

Heute kann man ja grundsätzlich auf Endspieldatenbankén verzichten, wird auch ohne sicherlich fast alles gefunden!
Nur könnte das Zeitmanagement davon wieder negativ beeinflusst werden.
Parent - - By Peter Martan Date 2024-01-04 10:48 Edited 2024-01-04 10:58 Upvotes 1
Frank, noch versuche ich, deinen Ausführungen zu folgen (ich lese sie noch ), aber auch wenn ich durchaus verstehen kann, dass der Zügedurchschnitt für dich eine wichtige Sache ist, würde mich halt schon endlich mal interessieren, wie du ihn als "Bewertungspunkt" eigentlich in eine irgendwie allgemeinere "Bewertung" der Engine einbeziehen willst.

Zitat:
Der Züge Durchschnitt für Gewinnpartien ist einer der wesentlichen Bewertungspunkte.


Wie, außer, dass du ihn als Durchschnitt ("Stat") irgendwo dazuschreibst, geht er in eine "Bewertung" ein?

Ich erwarte ja nicht, dass du die Elo oder irgendeine andere Art der Performance, die dann das Ranking der Engines untereinander bestimmt, damit neu berechnest, aber wenn dieser dein geliebter Zügedurchschnitt nicht irgendeine Rolle im Ranking spielt, dann ist er kein mit einem anderen Bewertungskriterium (von dem's halt trotz Zügedurchschnitt nach wie vor nur ganze und halbe Ergebnispunkte der einzelnen head to head matches gibt) vergleichbares, er ist und bleibt ein reiner Selbstzweck.

Und wie sehr er von den verschiedenen Matchbedingungen an und für sich abhängt (als da im Wesentlichen immer sind: Teilnehmer, Hardware- TC und Eröffnungen, beim Zügedurchschnitt auch noch, ob mit oder ohne tbs gespielt wird, ob die Engine aufgeben kann übers GUI und ob sie Remis anbieten kann) haben wir ja jetzt auch schon oft genug durchgekaut.

Du kannst für deine bestimmten Matchbedingungen eine eigene Rangliste aus dem Zügedurchschnitt machen, ja, warum nicht, aber mit irgendwelchen anderen Matchbedingungen kannst du die dann noch weniger vergleichen, als jede andere Art des Rankings. Wenn sie schon beim Ranking nach der Punkteperformance nicht aus der error bar kommt, tut sie das beim Zügedurchschnitt auch nicht, und vergleichbar ist sie selbst dann nicht zwischen verschiedenen Matchbedingungen, wenn sie statistisch ausreichend für das eine Match abgesichert ist und für das andere auch, aber unter anderen Bedingungen erspielt.
Also selbst wenn du es rein als Maß für sich stehen lässt, es sagt dir weder etwas über das Ranking in Punkten aus, noch nimmt es einen Einfluss darauf, noch ist es als Maß für sich mit anderen Ergebnissen in diesem einen Maß unter anderen Matchbedingungen vergleichbar.

Selbst wenn du unterscheidest zwischen Zügedurchschnitt bei Engines mit mehr Remispartien, mit mehr Gewinn-, und mit mehr Verlustpartien, besser, einen eigenen Remis- Zügedurchschnitt der Engine bestimmst, neben einem eigenen Gewinnpartien- Zügedurchschnitt und einem Verlustpartien- Zügedurschnitt, so lange du nicht mehr Punkte für einen kurzen Sieg vergibst und für ein kurzes Remis (oder doch im selben Sinn dann eher mehr für ein langes?) so lange spielt keiner der noch so spezifisch ermittelten Werte eine Rolle fürs Ranking. Und jetzt der Knackpunkt:
Nehmen wir an, du belohnst kürzere Gewinnpartien mit mehr Punkten (für bestimmte Zugzahlen eine bestimmte Zentipunkte- Anzahl), wie machst du's bei den Remis? Da sollten doch eigentlich die längeren die besseren sein, nein? Die Engine versucht möglichst lange, die Stellung zum ganzen Punkt zu bringen und findet sich nicht und nicht mit einem Remis ab. Ok, wenn sie sich in der Einschätzung, dass sie dadurch verlieren könnte, irrt, ist das schlecht für sie, aber das wird ja dann von der gegnerischen Engine ohnehin bestraft, es sei denn, die ist selbst zu schwach dazu, dann ist es ja aber wieder erst recht richtig, möglichst lang weiterzuspielen, nein? Wenn du jetzt das längere Remis relativ zum Kürzeren bestrafst, ist es eigentlich gegensinnig wirksam, wie von einer Engine so etwas wie "Aggressivität" zu verlangen und ihr die schnellen Gewinne eigens zu belohnen.
Von den schnellen Verlustpunkten wollen wir vielleicht lieber gar nicht eigens reden, aber wenn sie jetzt eigens durch die Mehrpunkte des Gegners bei schnellen Gewinnen zusätzlich bestraft werden, dann förderst du damit auch wieder diejenigen Remisschieber, die lieber ewig auf eine Stellung herumnudeln, in der sie auch noch gewinnen könnten, als den Verlust zu riskieren.
Schnelle Gewinne zu belohnen und lange Remis zu bestrafen, zusammenpassen tut das beides gemeinsam nicht für mich. Jetzt versuchen wir's ja in Punkte umzurechnen, wie lange eine Gewinnpartie und wie lange ein Remis dauert. Es ist widersinnig für mich, mehr Punkte für schnelle Gewinne zu vergeben und weniger für lange Remis, abgesehen davon, dass sich das sowieso, auch wenn du an die Remis keine eigene Zügedurchschnittspunkte vergibst, schon allein durch das Aufwerten der schnellen Gewinne dahingehend auswirkt. Es hebt den Gesamt- Zügedurchschnitt der Engine und das drückt ihre Gesamtpunkte. Und jede Engine kann nur versuchen, entweder zu gewinnen (natürlich möglichst schnell, warum sollte sie sich eigens Zeit dafür lassen, wenn's die gegnerische Engine auch schnell zulässt?) oder nicht zu verlieren, das dadurch zu vermeiden, möglichst schnell ins Remis zu kommen, ist auch Algorithmus- inert, wenn sie über die Eval kein Remis anbieten kann, was soll sie machen? Verlieren? Oder doch lieber so lange wie möglich weiterspielen?
Und wenn wir jetzt ein konträres Zusaztpunkte- System nähmen, Belohnung für kurze Gewinnpartien, hingegen auch Belohnung für lange Remis gegenläufig ebenso, würde es jetzt wieder nur davon abhängen, wie hoch die Remisrate der Engine im Vergleich zur anderen ist, ob sich mehr das Eine oder mehr das Andere auswirkte, ob sich die eine Engine ihre Zusatzpunkte durch schnelle Gewinne oder durch lange Remis erspielte, also in deinem Sinn, den Zügedurchschnitt drücken zu wollen, kann das wohl nicht funktionieren.

Du willst das vermutlich eben gar nicht zueinander umrechnen, Zügedurchschnitt und allgemeines Ranking, aber dann ist es eben kein "Bewertungspunkt", sondern nur ein zusätzlicher Schönheitspreis im Auge des Betrachters (des einen Matches für sich allein).

All dieses sophisticated pondering bleibt für mich hingegen ohnehin immer ziemlich heiße Luft, so lange es nicht anhand von Partie-, Varianten-, Züge- und Stellungsbeispielen betrachtet wird.
Auch deine Ideen, mehr Schwächere mitspielen zu lassen, um die Rankings der Stärkeren besser zu unterscheiden, ist nicht gerade neu und war und ist immer noch eine rein quantitative Frage, keine philosophische, wie viele wie Schwache mit wie vielen Stärkeren und dann wieder von vorn: unter welchen Hardware- TC- Bedingungen mit welchen Eröffnungen.
Was du an Charakteristika von Eröffnungsstellungen und Zügen (z.B. die "Figuren ins Abseits zu stellen") so skizzierst, bedürfte ganz besonders der Erklärung anhand von Beispielen, über derlei Dinge zu plaudern, ohne wenigstens das eine oder andere Partie- und Zügebeispiel hat wirklich keinen Sinn.
Zum Schluss noch
Zitat:
Ich glaube nicht das wir in der Nähe von Aussagen stehen wie z. B.
Schach wird in absehbarer Zeit gelöst sein, weil die Remis Quoten spielstärkster Engine kontinuierlich ansteigen.

Nein, vor solchen Aussagen stehen wir deshalb schon lange (sinnvoll) nicht mehr, weil Schach, was die Remisquoten spielstärkster Engines angeht (von ausgeglichenen Stellungen aus spielend), (Computer-) Schach längst praktisch so gut wie gelöst ist.
Nicht nur aus dieser praktischen Erfahrung des Schachspielers (dem reichen die Datenbanken allein schon lange für diese Erkenntnis, da braucht's gar keine spielstarken Engines mehr, um das wahrzunehmen) sondern auch aus mathematischer Sicht.
Die Frage ist nur noch, was lässt man mathematisch alles als "weiche Lösung" gelten, dass es noch (und wohl auch noch lange) nicht in die Nähe einer harten Lösung im Sinn der 32Steiner kommen wird, spielt ja, was das Spiel selbst angeht, eigentlich schon lange keine Rolle mehr.
Dazu empfehle ich, wenn's einem nur um Meinungen von (Computer-)Schachspielern geht, die sich schon länger mit derlei beschäftigen und in der Diskussion dieses Themas schon länger Übung haben, einen Thread wie diesen, willkürlich herausgegriffen aus der jüngeren Vergangenheit:

https://talkchess.com/forum3/viewtopic.php?f=2&t=82826

Irgendwo im Verlauf wird der Wiki- Artikel zur Definition von "gelöst" bei Spielen gebracht, das wäre der entsprechende auf Deutsch:

https://de.wikipedia.org/wiki/Gel%C3%B6ste_Spiele

Daraus gleich am Anfang

Zitat:
Sehr schwach gelöst (engl. ultra weakly solved) ist ein Spiel, wenn man für die Startposition des Spieles dasjenige Spielergebnis bestimmen kann, das jeder der beiden Spieler unabhängig von der Spielweise seines Gegners mindestens erzwingen kann. Ein diesbezüglicher Nachweis muss über die dafür notwendigen Spielweisen keine Aussage machen.
Parent - - By Frank Quisinsky Date 2024-01-04 11:28 Edited 2024-01-04 11:32
Guten Morgen Peter,

sprach jetzt vom Züge Durchschnitt für Gewinnpartien!

Das beobachte ich seit Urzeiten.
z. B. erzeugte bei den DOS-Programmen eigentlich konstant Kallisto und WChess den besten Züge Durchschnitt für Gewinnpartien.
Schaute man sich die Partien an war klar, dass die Engines besonders aggressiv waren und mithin auch die meisten Kurzpartien gewonnen haben.

Beide Programme waren ab nicht so stark, dass bei der Gesamtspielstärke mehr hätte, dabei herausspringen können.

Solche Programme gab es immer, Phalanx, ETChess, später Spark oder auch Aristarch etc.

Für die Aggressivität einer Engine ist also der Züge Durchschnitt nicht uninteressant.
Wenn der aber beeinflusst wird durch Endspieldatenbanken ist das schlecht.
Seer hätte z. B. anstatt 91 ohne Aufgabefaktor eher 87 oder gar darunter.
Dann wird es veröffentlicht was nicht der tatsächlichen Leistung entspricht.

Also, wenn man den Anspruch erhebt, genau zu sein, muss man sich wirklich alles im Detail ansehen und bei Bewertungen einfließen lassen.
Gerade wenn man versucht durch möglichst viele Beurteilungspunkte etwas über Stärken und Schwächen herauszufinden.

Um das Ranking oder Standardbewertungen von 1:0, 0:1 oder Remis geht es nicht.
Wirklich nur rein darum etwas über Stärken und Schwächen herauszufinden.

Anders Beispiel:
Uralochka erzeugt mehr Kurzpartien als jede andere Engine und das gar ziemlich eindeutig. Das ist nicht nur bei Stefan so.
Dennoch ist der Züge Durchschnitt dann bei ca. 87 für eine solche Engine an Gewinnpartien sehr hoch.
Echt außergewöhnlich ... noch nie vorher gesehen.

Ich weiß, worauf Du hinauswillst.
Ich habe mir schon oft Gedanken gemacht ob zu dem Ergebnis noch etwas anders in eine Bewertung einfließen sollte.
Aber das scheiterte alles.

Ich verstehe selbst unter Bewertungspunkte nur Dinge aus denen sich etwas ablesen lässt was den Spielstil betreffen könnte bzw. Spielstil = Sammlung von Schwächen und Stärken.
Stefan schaut eher auf die Stärken, ich schaue auch oft auf die Schwächen.

Deutlich schwächere Engines für einen Engine-Test zu benutzen ist neu.
Hast Du das vorher schon mal gesehen, ich nicht.

Allerdings testen einige Programmierer so!
Neu wäre es, wenn es dann mittels einer echten Ratingliste abgearbeitet wird.
Genau das gab es noch nicht und würde vielleicht sogar Sinn machen weil sich gerade aus diesen Daten auch viel über Spielstile ablesen lassen würde.

Ich glaube nicht das Computerschach längst praktisch so gut wie gelöst ist.
Wie oft musste ich das schon lesen vor Neural-Network. Glaube auch von Dir!
Und plötzlich gab es dann wieder einen Schub nach vorn.

Wirst Du bei meinem Turnier sehen.
Ein Stockfish mit klassischer Eval wird nicht weiter als maximal 80-90 von Dragon NN entfernt liegen.
Die meisten denken das NN 300 Elo ausmacht und wenn zwischen SF16 und Dragon 3.3 25 Elo liegen muss ein SF vor NN Zeit ja 275 Elo entfernt liegen.
Absoluter Käse ..
Und mit mehr Zeit wird es immer weniger.

Im Spätsommer des letzten Jahres machte ich folgendes Experiment.
Ich ließ Stockfish gegen sich selbst spielen und gab einem Stockfish 40x mehr Zeit.

Die Gewinnquote war weit davon weg, um zu behaupten Schach ist durch in absehbarer Zeit.

Eher ist es so, dass viele gleiche Ideen zu sehr hohen Spielstärken führen.
Mithin wird uns eher etwas vorgemogelt hinsichtlich der Denke ... Schach is bald durch.

Oder ist Dir bei Stockfish mit klassischer Eval mal folgendes aufgefallen.
Sehr oft gibt die Engine 0,00 im Mittelspiel oder nach den Eröffnungszügen aus und wird dann dennoch irgendwann doch an die Wand gespielt.
Schon passiert in meinem laufenden Turnier.

Soweit zu den 0,00 Ausgaben!
Nicht alles glauben, was man denkt zu sehen.

Es wird in 100 Jahren keine Maschine geben die so viele Postionen durchrechnen kann.
Und selbst mit allen programmiertechnischen Möglichkeiten sind wir Lichtjahre davon weg um zu sagen Schach ist durch.

Viele Grüße
Frank
Parent - - By Reinhold Stibi Date 2024-01-04 11:45 Edited 2024-01-04 12:06
Klar ist Schach durch.

Engine Spiele sind mit ausgeglichenen Eröffnungen bei den Spitzenprogrammen
zu 99 %  remis.

Es gibt sehr viele Stellungen, besonders im Endspiel, die remis sind; da würde auch ein 1000x schnellerer
Computer nichts nützen.

Du kriegst das so nicht mit weil du nicht im Internet spielst.

Die einzige Möglichkeit die Spielstärke der Spitzenprogramme aussagekräftig zu testen ist die von Stefan Pohl
und den Vorgabeeröffnungen wie in den TCEC Turnieren und taktisch bei den Stellungstests.

Grüße
Reinhold
Parent - - By Frank Quisinsky Date 2024-01-04 11:52 Edited 2024-01-04 11:55
Nur weil die Remisquote steigt ist es mathematisch nicht möglich das Spiel komplett auszurechnen.
Selbst Trilliarden von Positionen pro Sekunden werden dafür nicht ausreichen.

Interessant ist, das Programmiertechniken heute sehr viel höher zu bewerten sind als Hardware-Steigerungen.
Das hat sich im Verlauf der letzten Jahre dramatisch gedreht.

Hohe Remisquoten zeigen z. B. auch auf, dass vieles auf bekanntes Wissen beruht.
Können wir vergleichen mit Schach vor 10-15 Jahren.
Die Remisqoten waren deutlich niedriger wenn gleichstarke Programme gegeneinander antraten weil die auch teils komplett andere Stärken und Schwächen hatten.
Früher auch einfacher zu sehen als heute!!

Endspiel stimme ich absolut zu.
Da sind wir wahrscheinlich wirklich soweit zu sagen Schach ist Nahe an der Perfektion.
Aber noch lange nicht im Mittelspiel.
Daher schreibe ich auch immer sehr gern ... das Mittelspiel zählt und genau das macht Spaß näher zu beleuchten.
Erst Recht was nach den Eröffnungszügen passiert.

Genau die Programme, die das Mittelspiel außergewönlich gut meistern sind interessant.
Nicht die 50, die das Endpiel beherrschen und dadurch hohe Spielstärken erreichen.

Warum erzeugt z. B. ein Urlaochka doch so viel mehr kurze Gewinne als alle anderen?
Das zeigt doch deutlich das wir weit davon weg sind um zu sagen wir sind zu 99% durch.
Parent - - By Reinhold Stibi Date 2024-01-04 12:06 Edited 2024-01-04 12:10
Ja, Frank, ganz ausgerechnet wird Schach nie sein; das muss es auch nicht.

Was bringt es denn wenn bei den Spitzenprogrammen bei ausgeglichenen Stellungen bei den Eröffnungen
bei 1000 Partien vielleicht eine Partie gewonnen wird.

Bei so einem Ergebnis würde ich sagen ist Schach bei ausgeglichenen Stellungen
wirklich durch.

Gewonnen wird nur noch gegen schwächere Engines  wie Stockfish, oder schwacher Hardware
und bei Eröffnungsfehlern. Siege durch Abbruch zählen m.E. nicht und Siege durch Zeitüberschreitung
nach über 200 Zügen  nur bedingt.

Das passt dir nicht so, ist aber die Wirklichkeit.

Grüße
Reinhold  



Grüße
Parent - By Frank Quisinsky Date 2024-01-04 12:16 Edited 2024-01-04 12:25
Das ist genau der Punkt Reinhold.
Wenn zu vieles in Remis endet, bedeutet das nur das eine Schwelle erreicht wurde bei der evtl. schlechtere Züge nicht bestraft werden.

Der beste augenscheinliche Zug muss nicht der beste sein, wenn es darum geht, ein Partieresultat in eine andere Richtung zu lenken und sich ein langfristiger Vorteil durch den vermeidbaren zweitbesten Zug findet.

Thema vorausschauendes Spiel im Hinblick auf die Bauerketten die verbleiben.

Genau das stellt alle Taktiker in Frage.
Die meisten kurzen Gewinne werden durch aggressive Bauern und schnelles öffnen erzielt.

Nur laufen die Taktiker dann gegen positionell starke Programme gegen die Wand.
Die Angriffe werden abgeblockt, bei den Taktikern entstehen schwächere Bauerstrukturen und die Partie geht dann unter Umständen verloren.
Das spricht gegen Taktiker.

Umso erstaunlicher das Uralochka bei längeren Bedenkzeiten kaum verliert aber nach wie vor auch nicht gegen stärkere gewinnt.
Diese Engine begeistert mich derzeit ungemein!
Stellt so vieles auf dem Kopf!

Was mir passt oder nicht ist nicht wichtig.
Eher was mich mürbemacht.

Ich kann nicht sehen, was Du beschreibst.
Auch Alexandria ist eine Engine mit ca. 3400 Elo und ca. nur 100 Elo von Stockfish weg.
Gestern verloren nach unter 50 Zügen gegen Uralochka und Alexandria ist keinesfalls für schnelle Verluste bekannt.

Von diesen Partien gibt es immer noch genug, die aber heute meist nach 70-80 und nicht mehr nach 30-50 sehenswert enden.

Beamen wir uns ins Jahr 2020.
Mein FCP-Tourney-2020 auf 4.9Ghz endete und Stockfish erzielte folgendes Resultat:

Code:

  FCP Tourney-2020
  ----------------

  Date           : November 27th, 2020 (08:27)
  Games          : 41.000
  Version        : 50.0, after R50 (final results)
  Elo            : GullChess 3.0 BMI2 x64 = 3035
  Conditions     : http://www.amateurschach.de/main/_fcp-tourney-2020.htm

  Generated with : Ordo 1.2.6 x64 (Ratings for chess and other games)
  https://sites.google.com/site/gaviotachessengine/ordo
  by Miguel A. Ballicora (Argentina)

   # Player                                 :      Elo  Games  Score%   won  draw  lost  Points  Draw%   Error   OppAvg   OppE  MoveAvg
  -------------------------------------------------------------------------------------------------------------------------------------
  01. Stockfish 11 BMI2 x64                 :  3341.82  2.000    83.7  1353   643     4  1674.5   32.1   13.71  3029.12  10.38     81.1
  02. Komodo 14.0 BMI2 x64                  :  3271.29  2.000    77.7  1150   809    41  1554,5   40.5   12.57  3030.88  10.41     78.7
  03. Houdini 6.03 Pro x64                  :  3261.82  2.000    76.8  1104   865    31  1536,5   43.3   11.55  3031.12  10.44     81.0
  04. Ethereal 12.25 PEXT x64               :  3202.24  2.000    70.7   909  1009    82  1413,5   50.5   10.71  3032.61  10.46     93.0
  05. SlowChess Blitz 2.2 x64               :  3171.54  2.000    67.2   843  1002   155  1344,0   50.1   10.06  3033.37  10.48     84.0
  06. Fire 7.1 POP x64                      :  3169.39  2.000    67.0   818  1042   140  1339,0   52.1   11.17  3033.43  10.45     86.2
  07. Xiphos 0.6 BMI2 x64                   :  3147.47  2.000    64.3   755  1064   181  1287,0   53.2   10.57  3033.98  10.46     84.0
  08. Booot 6.4 POP x64                     :  3147.06  2.000    64.3   733  1106   161  1286,0   55.3   10.41  3033.99  10.47     77.5
  09. rofChade 2.3 BMI x64                  :  3144.36  2.000    64.0   764  1031   205  1279,5   51.5   10.37  3034.05  10.47     89.6
  10. Laser 1.7 BMI2 x64                    :  3120.35  2.000    61.0   672  1097   231  1220,5   54.9   10.05  3034.65  10.48     85.8
  -------------------------------------------------------------------------------------------------------------------------------------
  11. Shredder 13 POPCNT x64                :  3105.01  2.000    59.1   656  1052   292  1182,0   52.6   10.69  3035.04  10.46     85.8
  12. Fritz 17 (Ginkgo) x64                 :  3104.82  2.000    59.1   635  1093   272  1181,5   54.6    9.75  3035.04  10.48     85.6
  13. Schooner 2.2 SSE x64                  :  3102.45  2.000    58.8   606  1139   255  1175,5   57.0   10.41  3035.10  10.47     86.0
  14. Defenchess 2.2 POP x64                :  3095.96  2.000    58.0   586  1146   268  1159,0   57.3    9.91  3035.26  10.48     91.5
  15. RubiChess 1.7.3 x64                   :  3092.23  2.000    57.5   611  1077   312  1149,5   53.9   10.19  3035.36  10.47     88.2
  16. Andscacs 0.95 BMI2 x64                :  3084.43  2.000    56.5   589  1081   330  1129,5   54.0   10.10  3035.55  10.48     84.4
  17. Fizbo 2.0 BMI2 x64                    :  3068.55  2.000    54.4   582  1013   405  1088,5   50.6    9.98  3035.95  10.48     88.5
  18. Arasan 22.0 BMI2 x64                  :  3038.06  2.000    50.5   490  1038   472  1009,0   51.9   10.25  3036.71  10.47     86.4
  19. GullChess 3.0 BMI2 x64                :  3035.00  2.000    50.0   451  1100   449  1001,0   55.0    9.87  3036.79  10.48     89.6
  20. Fritz 16 (Rybka) x64                  :  2998.27  2.000    45.3   397  1016   587   905,0   50.8    9.78  3037.71  10.48     87.7
  -------------------------------------------------------------------------------------------------------------------------------------
  21. Pedone 2.0 BMI2 x64                   :  2990.00  2.000    44.2   362  1043   595   883,5   52.1    9.91  3037.91  10.48     88.1
  22. Chiron 4 x64                          :  2987.88  2.000    43.9   358  1040   602   878,0   52.0    9.93  3037.97  10.48     88.9
  23. Vajolet2 2.8 BMI2 x64                 :  2986.15  2.000    43.7   345  1057   598   873,5   52.9    9.79  3038.01  10.48     88.5
  24. Winter 0.8 x64                        :  2985.57  2.000    43.6   391   962   647   872,0   48.1   10.34  3038.02  10.47     85.0
  25. Wasp 4.00 Modern x64                  :  2984.99  2.000    43.5   342  1057   601   870,5   52.9    9.69  3038.04  10.49     88.6
  26. Critter 1.6a x64                      :  2974.14  2.000    42.1   353   979   668   842,5   49.0   10.35  3038.31  10.47     89.8
  27. Igel 2.5.0 BMI2 x64                   :  2971.80  2.000    41.8   314  1045   641   836,5   52.3    9.99  3038.37  10.48     83.1
  28. Equinox 3.30 x64                      :  2971.61  2.000    41.8   305  1062   633   836,0   53.1   10.03  3038.37  10.48     90.4
  29. Nirvanachess 2.4 POP x64              :  2967.71  2.000    41.3   300  1052   648   826,0   52.6   10.03  3038.47  10.48     85.8
  30. Nemorino 5.00 BMI2 x64                :  2954.56  2.000    39.6   323   939   738   792,5   47.0   10.44  3038.80  10.47     89.9
  -------------------------------------------------------------------------------------------------------------------------------------
  31. iCE 4.0 v853 Modern x64               :  2945.84  2.000    38.5   292   957   751   770,5   47.9   10.05  3039.02  10.48     85.4
  32. Demolito 2020-05-14 PEXT x64          :  2945.44  2.000    38.5   311   917   772   769,5   45.9   10.53  3039.03  10.46     96.4
  33. Protector 1.9.0 x64                   :  2938.85  2.000    37.6   264   978   758   753,0   48.9   10.41  3039.19  10.47     88.0
  34. Hannibal 1.7 x64                      :  2934.63  2.000    37.1   260   965   775   742,5   48.3   10.46  3039.30  10.47     91.1
  35. Texel 1.07 BMI2 x64                   :  2931.60  2.000    36.8   263   944   793   735,0   47.2   10.27  3039.37  10.47     89.5
  36. Minic 2.33 x64                        :  2929.38  2.000    36.5   269   921   810   729,5   46.0   10.56  3039.43  10.46     84.5
  37. Senpai 2.0 BMI2 x64                   :  2910.10  2.000    34.1   220   925   855   682,5   46.3   10.62  3039.91  10.46     88.9
  38. Combusken 1.2.0 x64                   :  2896.88  2.000    32.5   204   894   902   651,0   44.7   10.25  3040.24  10.47     86.1
  39. SmarThink 1.98 AVX2 x64               :  2886.62  2.000    31.4   230   794   976   627,0   39.7   10.80  3040.50  10.46     86.9
  40. Monolith 2 PEXT x64                   :  2858.99  2.000    28.2   122   885   993   564,5   44.3   11.01  3041.19  10.45     83.0
  -------------------------------------------------------------------------------------------------------------------------------------
  41. Rodent IV 0.22 POP x64                :  2851.68  2.000    27.4   129   839  1032   548,5   42.0   11.53  3041.37  10.44     86.9
  -------------------------------------------------------------------------------------------------------------------------------------

  MoveAvg (average)           : 174.60 / 87.300
  White advantage             : 48.86  +/- 1.20
  Draw rate (equal opponents) : 62.06% +/- 0.30

  Games        :  41.000 (finished)
  White Wins   :  12.717 (31.0%)
  Black Wins   :   7.944 (19.4%)
  Draws        :  20.339 (49.6%)
  Unfinished   :       0

  White Perf.  : 55.8%
  Black Perf.  : 44.2%

  ECO A00-A99  :   7.427 Games (18.1%)
  ECO B00-B99  :  10.649 Games (26.0%)
  ECO C00-C99  :   7.965 Games (19.4%)
  ECO D00-D99  :   7.910 Games (19.3%)
  ECO E00-E99  :   7.049 Games (17.2%)


Vier Partien verloren!
Und beim FCP-Tourney-2021 waren es 2 Partien.

Nun nehme diese Stockfish Versionen und lasse die gegen heutige NN Programme spielen.
In der ersten Runde von meinem aktuellen Turnier gab es 4 Niederlagen nach nur 43 Partien.

Und seinerzeit schrieben hier schon einige.
Schach ist durch!

oder das Ende der klassischen Engines als Lc0 in aller Munde war.
Das kam auch von Dir. Dann folgten die "Klassischen Engines" mit Neural-Network und wo sind jetzt die ganzen Experten?
Niemand hat das natürlich gesagt ...

Ist klar!
Was habe ich hier schon alles gelesen!
Auch im Jahr 2010 schrieben schon einige ... 2800 Elo ist nicht zu steigern.

Was schrieb z. B. der Anaconda / Gromit / Gingko Programmierer in der CSS zum Thema Spiesltärke von Amateurprogrammen.
An Crafty mit 2500 ist kaum ein vorbeikommen für Amateure.

Oder Christopher Theron (ChessTiger).
Niemals wird ein Amateurprogramm einem Profiprogramm das Wasser reichen können oder überholen.

Was gab es nicht alles schon für Aussagen ... Junge, Junge, Junge!
Parent - - By Frank Quisinsky Date 2024-01-04 12:00
Ach so ... TCEC ist für viele super und was Stefan macht auch.
Aber das sind nur Möglichkeiten von abertausend denkbaren anderen Kombinationen etwas festzustellen.

Ist natürlich so auch nicht richtig.
Wenn nur Winzigkeiten verändert werden ...entsehen komplett andere Spielstärkeeindrücke.

Du kannst also das was Stefan Pohl feststellt nicht mit TCEC Vergleichen und umgekehrt.
Das ist weder identisch noch ist beides ultimativ.

Etwas ultimatives wird es nie geben!!
Parent - - By Reinhold Stibi Date 2024-01-04 12:49
Frank, Stockfish und gleichwertige Abkömmlinge spielen bei ausgeglichenen Eröffnungen
und Hardware  gegeneinander nahezu zu 100 % remis.

Das sieht schon bei Lc0 oder Dragon anders aus, aber bei diesen Engines braucht es viele Anläufe von Stockfish
um eine Partie zu gewinnen.

Die Spielstärke lässt sich auch auf deine Art durch ein großes Turnier feststellen wie die Spitzenengines  gegen
die schwächeren Engines abschneiden.

Der Zügedurchschnitt ist zweitrangig und interessiert nur ganz Wenige.
Parent - By Frank Quisinsky Date 2024-01-04 13:18 Edited 2024-01-04 13:21
Reinhold,

aber da bin ich komplett raus.
Die Abkömmlinge von Stockfish interessieren mich nicht.
Halte es gar für Zeitverschwendung sich damit zu beschäftigten.

Sei mir nicht böse wenn ich das so krass schreibe.

Der Zügedurchschnitt ist aus mehreren Gründe interessant.
Schaut sich kein Schachspieler gerne Partien an bei denen 100 und mehr Züge unnötiges passiert wenn die Partie doch schon längst Remis ist.
Aus einem sehr hohen Zügedurchschnitt lässt sich einiges ablesen, gar Fehler im Programm werden auffälliger, z. B. bei der Mattführung.
Anhand von einem klaren Zügedurchschnitt lassen sich Stats besser erstellen, die auch vergleichbar sind.
etc..

Wenn z. B. eine Engine bei Gewinnpartien einen Zügedurchschnitt von über 100 produziert kannst Du schon davon ausgehen das irgend etwas nicht stimmt.
Schaust Du Dir dann das Ende der Partien an wird es in fast allen Fällen deutlich. Gleiches bei dem Zügedurchschnitt der Remispartien und meist hat das auch etwas mit den Endspielen zu tun (falsche Läufer Endspiele werden nicht erkannt und dann wird gespielt bis es zur 50-Züge Regel kommt). Oder Programmiertechniken die der Engine sagen ... einfach auch bei 0,00 weiter zu spielen weil der Gegner könnte ja einen Fehler machen. Oder durch Contempt Eintstellungen etc..

Gruß
Frank

Ist bei Lc0 nicht anders wie bei allen anderen!
Parent - - By Peter Martan Date 2024-01-04 12:24 Edited 2024-01-04 12:32
Frank Quisinsky schrieb:

sprach jetzt vom Züge Durchschnitt für Gewinnpartien!

Ich weiß, aber der hängt vom Durchschnitt der Nichtgewinnpartien ab, würdest du ihn nicht nur als Sebstzweck ermittlen, sondern wirklich als Bewertungskriterium, das andere Bewertungskriterien beeinflusst, würde sich das Belohnen eines niedrigen Gewinnpartien- Zügedurchschnitts gegen die Partien der Engine mit langen Remis automatisch auch auswirken. Die haben aber bei derselben schachlichen Aufgabe "gewinne möglichst schnell und verliere möglichst lange nicht", meiner Meinung nach diese Verminderung des Wertes ihrer langen Remis nicht verdient.

Zitat:

Deutlich schwächere Engines für einen Engine-Test zu benutzen ist neu.
Hast Du das vorher schon mal gesehen, ich nicht.

Jetzt hör aber bitte wieder auf, jeder, der nicht nur die stärksten Engines allein gegeneinander spielen lässt (und wie weit auch bei denen die Range sein darf und soll ist dieselbe Frage) sondern einen irgendwie bunteren Mix, macht das schon immer so.
Was genau unterstellst du denn da den großen Ranglisten allen? Cherrypicking würde ich es auch nennen, ausgesucht schlechte gegen ausgesucht starke spielen  zu lassen, wenn du das meinst, das hieß früher einfach immer Ergebnisse nach Wunsch erzielen, das geht auf die verschiedensten Arten, und der mit den Stärke- Unterschieden, um selbige mehr hervorzuheben, ist nun wirklich kein neuer.
Zitat:

Ich glaube nicht das Computerschach längst praktisch so gut wie gelöst ist.
...
Und mit mehr Zeit wird es immer weniger.

Eben genau nicht sondern genau umgekehrt, je länger die TC aus ausgeglichenen Stellungen gespielt, desto mehr kannst du davon sprechen, dass das Remis vorprogrammiert ist, und desto weniger zählen die Spielstärkeunterschiede, mit denen du das praktisch siehst. Du kannst um das mehr Schwache dazu nehmen und nivellierst die Unterschiede einfach mit der steigenden TC (ab einer gewissen Untergrenze) wieder weg.
Aber das hatten wir ja auch gerade erst.

Ich werde das, was am Zügedurschnitt für sich allein betrachtet, der Widerspruch in schachlicher Hinsicht in sich selbst ist, vielleicht am besten so erklären können:
Der Auftrag jeder Engine (und jedes menschlichen Spielers) ist bei jeder Stellung, von der aus sie ziehen muss, den kürzesten Weg zum eigenen Gewinn zu finden. Nehmen wir das Extembeispiel, dass das Matt schon zwingend ausrechenbar ist, soll sie diejenigen Züge finden, die die kürzest Distanz zum Matt haben, dabei aber jeweils diejenigen Züge in die Berechnung einbeziehen, die das von der verteidigenden Seite her möglichst weit hinausschieben. Es ist von beiden Seiten, der gewinnenden und der verlierenden, dieselbe Rechenaufgabe, finde die besten Angriffs- und die besten Verteidigungszüge.
Einen Preis für das Finden der kürzesten DTM zu vergeben, der nicht gleichsinnig einen für das Finden der besten (zähesten, längsten) Verteidigung  darstellt, hat keinen Sinn. Es mag ja sein, dass sich manche Engine im Mattsetzen leichter tun als darin, das unvermeidbare Matt für die eigene Seite möglich weit hinauszuschieben, an und für sich ist die Aufgabe des Angreifers meistens leicht als die des Verteidigers, aber was du zwangsläufig machst, wenn du nur die kurze DTM belohnst, aber das möglichst lange Hinausschieben bestrafst (auch schon nur durch den Extrapreis für den Sieger, es auch noch möglichst schnell geschafft zu haben) ist schachlich inkonsequent.
Aus dieser Überlegung heraus wäre mit einem Preis für kurze Gewinnpartien als Gegengewicht ein Preis für die lange Remispartie notwendig, sonst bestrafst du mit dem Gewinnpartiedurschnitt den Remispartiedurchschnitt automatisch gegenläufig.
Kurze Gewinnpartien als "Aggressivitäts"- Merkmal zu bezeichnen, kann man machen, hinkt aber auch schon als Vergleich, weil Aggressivität in der Nachteilsstellung eben wieder kontraproduktiv wäre, es sei denn, man sieht's dann auch als aggressiv von der Engine an, möglichst lange nicht ins Remis einzuwilligen.
Langer Rede kurzer Sinn, Gewinnpartiezügedurchschnitt ist Gewinnpartiedurchschnitt, nicht mehr und nicht weniger, was der wem in welchem Zusammenhang sagt oder nicht sagt, hängt allein vom Geschmack des Publikums ab, es irgendwie mit anderen Bewertungskriterien zu vergleichen, scheitert daran, dass der einzelne Zahlenwert, den du da in einem bestimmten Turnier ermittelst, völlig und noch mehr als das Ranking vom Teilnehmerfeld, der Hardware- TC und den Eröffnungen abhängt. Wäre es kein Zahlenwert allein, könnte man ja noch sagen, ok, ist halt numerisch nicht so genau zu nehmen, aber der Zügedurchschnitt hat es halt so an sich, ein Zahlenwert zu sein, wenn der nicht numerisch zählt, wie dann überhaupt?
Davon ganz zu schweigen, dass manche Leute natürlich in ihren Matches lieber die Möglichkeit für die Engines erlauben, Remis zu bieten und aufzugeben, man kann beides quantitativ sehr verschieden über die GUIs definieren, auch unabhängig voneinander, beispielsweise ohne Aufgabefaktor aber mit adjudizierbarem Remis, überhaupt kann natürlich jeder für sich selbst so testen, wie er (oder sie) will, dass das dann nicht nur andere, sondern auch irgendwie besonders relevante Ergebnisse sind, ist für sich allein einfach absolut nicht gesagt.
Parent - - By Frank Quisinsky Date 2024-01-04 13:01 Edited 2024-01-04 13:05
Peter,

ich unterstelle doch nichts.
Du liest etwas heraus was Du Dir wünscht zu interpretieren.

Es gab noch keine einzige Ratingliste die ausschließlich stärkere Engiens nur gegen schwächere getestet hat.
Das ist Fakt!

Erneut, nenne mir eine!

Das eine Ratingliste natürlich Stärkere auch gegen Schwächere testet ist absolut üblich.

Schrieb ich schon oft ...
Das ist nichts anderes als der Effekt bei den UHU-Vorgaben.

Ob ich durch Positionen abschwäche oder durch die Auswahl an Engines hat gleiche Effekte.
Die Frage ist welche sinnvoller sind oder mit welchen sich mehr andere Dinge feststellen lassen.

Aber ich will nicht die Idee von Stefan angreifen weil er feststellt welche Engines sich in schlechtere Positionen noch in ein Remis mogeln können.
Das ist nicht uninteressant, ganz im Gegenteil ... netter Bewertungsaspekt hinsichtlich Spielstil-Beurteilungen!!

Kann sonst meist nicht nachvollziehen was Du schreibst (Durchschnitt der Nicht-Gewinnpartien).

Wenn z. B. ein Dragon 3.3 gegen 4 Engines mit gleichen Eröffnungsvorgaben antritt und erzielt nach x Partien 40 schnelle Gewinne
Nun dann ein Velvet gegen die 4 Engines antritt mit gleichen Eröffnungsvorageben und erzielt nach x Partien auch 40 schnelle Gewinne

Ist das ein Unterschied wenn beide in der Gesamspielstärke weiter voneinander entfernt liegen.
Also hat Velvet definitiv eine echte Stärke und eignet sich z. B. für Eröffnungsnalaysen mindestens genauso gut wie ein Dragon, wenn man auf der Suche ist nach einen Vorteil und Velvet genau hier einiges anders macht als Dragon.

etc..

Du siehst das vielleicht falsch weil Du als Aufhänger das Ergebnis Remis nimmst.
Mit mehr Bedenkzeit enden nur deswegen mehr Partien Remis, weil die Schwächeren dann in der Lage sind mehr zu sehen.
Das hebt oder hebelt logischer Weise den Spielstärkevorteil aus.
Plötzlich stehen viele Engines viel näher an Stockfish oder Dragon als gedacht.

Distanz zum Matt hat für mich eher was mit Kunst zu tun wenn das beherscht wird.
Wenn ich weiß das eine Engines hier sehr gut ist, setze ich für eine Analyse keine ein die dann zum Thema rumeiert.

Ich will in 30 Minuten auf der Arbeit sein und muss mir das nicht antun 2 Stunden über die Dörfer zu fahren um zum Ziel zu gelangen, auch in dem Wissen ich komme ja irgend wann dort an.

Das meine ich mit kompliziert wenn ich Dir antworte.
Weil Du packst so viel in Deine Mitteilungen auch zu Themen die kein Thema waren.
Wenn ich dann nicht antworte schreibst Du ich hätte nicht alles gelesen.

Mein Aufhänger im Thread war ein ganz anderer als das worüber wir diskutieren.
Generell ist es schwierig über schwierige Themen im Internet zu diskutieren.

Viele Grüße
Frank
Parent - - By Frank Quisinsky Date 2024-01-04 13:10
Ach so ...
Weil ich schrieb Seer, rofChade oder auch Caissa spielen in Endspielen nicht den direkten Weg zum Matt.

Die machen das aber wenn syzygy gar nicht benutzt werden.
Ist wahrscheinlich eher ein Problem mit dem Code der hierzu angeboten und genutzt wird.

Stellt sich ja wie beschrieben überhaupt die Frage ob man die Endspieldatenbanken für einen Engine Test nicht komplett weglassen sollte.
Denke so bei näherer Betrachtung wäre das gar besser.

Teste ich derzeit ein wenig.
Nur, wenn ich die Endspieldatenbanken weglasse hebt das generell den Zügedurchschnitt an.
Klare Remisstellungen werden oft nicht erkannt und dann kommt es verstärkt zur 50-Züge Regel und generell längeren Partien.

Wie immer ...
Hat alles Vor- und Nachteile wenn man bedenkt das es nicht nur 2 Schachprogramme gibt und man vieles gerne ausgeglichen berücksichtigen möchte.
Parent - By Jörg Oster Date 2024-01-04 13:22
Frank Quisinsky schrieb:

Ach so ...
Weil ich schrieb Seer, rofChade oder auch Caissa spielen in Endspielen nicht den direkten Weg zum Matt.

Die machen das aber wenn syzygy gar nicht benutzt werden.
Ist wahrscheinlich eher ein Problem mit dem Code der hierzu angeboten und genutzt wird.

Stellt sich ja wie beschrieben überhaupt die Frage ob man die Endspieldatenbanken für einen Engine Test nicht komplett weglassen sollte.
Denke so bei näherer Betrachtung wäre das gar besser.

Teste ich derzeit ein wenig.
Nur, wenn ich die Endspieldatenbanken weglasse hebt das generell den Zügedurchschnitt an.
Klare Remisstellungen werden oft nicht erkannt und dann kommt es verstärkt zur 50-Züge Regel und generell längeren Partien.

Wie immer ...
Hat alles Vor- und Nachteile wenn man bedenkt das es nicht nur 2 Schachprogramme gibt und man vieles gerne ausgeglichen berücksichtigen möchte.

Hier gebe ich dir allerdings recht.
In der Art und Weise, wie Engines die TBs benutzen, sehe ich durchaus auch noch Verbesserungsbedarf.
Parent - - By Jörg Oster Date 2024-01-04 13:19 Upvotes 1
Frank Quisinsky schrieb:

Peter,

ich unterstelle doch nichts.
Du liest etwas heraus was Du Dir wünscht zu interpretieren.

Es gab noch keine einzige Ratingliste die ausschließlich stärkere Engiens nur gegen schwächere getestet hat.
Das ist Fakt!

Erneut, nenne mir eine!

Das eine Ratingliste natürlich Stärkere auch gegen Schwächere testet ist absolut üblich.
(snip)

Das muss man nicht wirklich verstehen, oder?
Es liegt in der Natur der Sache, dass die stärkste Engine zwangsweise nur gegen Schwächere spielen wird. Punkt.
Parent - By Frank Quisinsky Date 2024-01-04 13:26
Siehe Einleitung ...
Wir nehmen für einen Test ausschließlich Engines die 150-400 Punkte entfernt sind.

Hatte das doch so deutlich beschrieben und mir so viel Mühe gemacht!

Aber es gibt auch noch andere Möglichkeiten um mit Vorteil zu starten ...

z. B. was Larry machte ...
Nehme z. B. einen Bauern raus.

etc.
Parent - - By Peter Martan Date 2024-01-04 13:31 Edited 2024-01-04 13:49
Frank Quisinsky schrieb:

Es gab noch keine einzige Ratingliste die ausschließlich stärkere Engiens nur gegen schwächere getestet hat.
Das ist Fakt!

Das ist ein Frank- Fakt

Was heißt "ausschließlich", was heißt "stärkere" und was "schwächere"?
Du scheinst ernsthaft zu meinen, du lässt SF und Lc0 (von mir aus noch Dragon) nur gegen Fritz9, Shredder7 und Hiarcs8 spielen?
Gib bitte eine etwas konkretere beispielhaftere Definition ab von dem, was dir vorschwebt, es einerseits noch nie gegeben hat und andererseits aber (möglichst) doch auch irgendeine praktische Relevanz hätte.
Natürlich haben alle Ranglisten ausschließlich stärkere gegen schwächere Engines drin, weil's nur ausschließlich stärkere und schwächere gibt, wie bei deinem Zügedurchschnitt (und jedem anderen Zahlenwert) sind es halt die Zahlen, die zählen, du musst dich nicht auf Elo festlegen, die wären ja vor allem auch im historischen Verlauf dessen, was Elo im Computerschach schon für Bedeutungswandel durchgemacht haben, schwer zahlenmäßig einzugrenzen, aber wenigstens die Plätze, die Engines auf größeren Ranglisten derzeit so einnehmen, wären schon hilfreich als Zahlenwerte ungefährer Aussage.
Du würdest z.B. einfach bei der CGT- Rangliste All Version 40/20 die ersten 10 Plätze ausschließlich gegen die spielen lassen, di 100 Plätze später kommen? Da wärst du schon schön enttäuscht, weil da hättest du immer noch z.B. Etheral 13.75NN ziemlich weit oben single threaded als Gegner, ganz zu schweigen von denen, die dann noch viel weiter unten erst viel später kommen, fängst du beispielsweise erst bei Platz 200 an, ist Wasp 6.50 single thread auch immer noch oder wieder dabei.
Ist der jetzt dann schon Kanonenfutter für die ganz oben oder noch bei denen dabei, deren Ranglistenplätze du besser voneinander unterscheiden können willst.

Wenn du aus deinem eigenen Turnier das ganze Mittelfeld raussteichst, was bleibt dann übrig, was nimmst du anstatt dessen rein und was passiert, glaubst du, zwischen SF (wenn der überhaupt auch mitspielen darf) und Dragon? Ich glaube, ich kann's dir, was die letzte Frage angeht, sagen, gar nichts ab einer gewissen Grenze von Oldies zu Goldies im Verhältnis vom Einen zum Anderen, wo diese Grenze genau liegen würde, bei der du also zwischen 2 Engines in der SF- Liga auch einfach gar nichts mehr an Erkenntnisgewinn von noch und noch ganz Schwachen und ganz ganz Schwachen hättest, das bedürfte wieder sehr vieler Partien und verschiedener Samples, aber bitte, wozu?
Was machst du denn dann mit dem Ranking zwischen Dragon und SF, von dem du (bei sonst halbwegs vernünftigen Bedingungen) auch jetzt schon (und sogar head to head) eine LOS hast, wenn es dann gegen ausschließlich Fritz4 und Shredder3 erspielt wurde? Und was wäre, wenn da das Verhältnis zwischen den beiden am Ende dann doch sogar ein umgekehrtes wäre, sei's auch nur, weil du noch mehr Zufallsstreuung mit der 1:1- Paar- Flut bekämst anstelle der Remis? Bekanntlich heben diese 1:1- Paare die error bar stärker als es die Remis bei gleicher Performance tun, dass du andere Ergebnisse bekämst, kann schon sein, aber wer sagt dir, dass du für sie und die gleiche statistische Signifikanz weniger Partien bräuchtest? Die Elo zu spreizen ist immer nur das Eine, mit diesem neuen größeren Abstand über die in aller Regel auch steigende error bar wieder und vielleicht sogar noch weiter rauszukommen, ist in aller Regel indirekt proportional. Merke: du kannst Remis durch 1:1- Paare leicht ersetzen, wenn du den Vorteil einer Seite der Stellungen, die du ausspielen lässt, entsprechend groß machst, ebenso, wenn du entsprechend ungleich starke Engines nimmst, das Verhältnis von Diskrimination zu Irrtumswahrscheinlichkeit kannst du dadurch nicht austricksen.
Also, welches Teilnehmerfeld schwebt dir konkret vor?

Zitat:

Distanz zum Matt hat für mich eher was mit Kunst zu tun wenn das beherscht wird.

Distanz zum Matt ist der eine harte Endpunkt einer jeden Partie, die nicht zum Remis führt, Remis ist der andere. Dass du in der Mehrzahl der Stellungen die optimale DTM noch nicht ausrechnen kannst, heißt ja nicht, dass es sie nicht gibt, wenn du einer Partie eine besondere Qualität dadurch zuordnest, dass du ihre kurze Dauer bis zum Matt belohnst, kommst du nicht darum herum, der schachlichen Fairness halber (oder besser, um der Sicht einer Stellung, eines Zuges, einer Variante, einer Partie immer von beiden Seiten, der am Zug und der gegnerischen, gerecht zu werden) diese Dauer zum Matt für die verlierende Seite ebenso mit umgekehrten Vorzeichen zu belohnen, beim Remis ist es dasselbe. Du kannst nicht dadurch, dass du die schnellen Gewinnpartien für besonders löblich hältst, außer Acht lassen, dass sie im Remisfall deshalb so lange nicht zum Ende kommen, weil sich beide Seiten redlich und erfolgreich bemüht haben, den Verlust möglichst lang hinauszuschieben, wenn kein Gewinn mehr erreicht werden kann.
Parent - - By Frank Quisinsky Date 2024-01-04 13:49 Edited 2024-01-04 13:51
Dann nenne mir eine Ratingliste die genau das macht.

Siehe doch meine Einleitung zum Thread.
Sprach davon das viele Engines auf einem gleichen Niveau und nicht weit von Stockfish / Dragon enfernt sind.
Also diese Gruppe gegen 150 - 400 Elo schwächere ausschließlich antreten lassen.

Kannst ja nochmal in Ruhe lesen.
Habe doch genau beschriebern worum es geht!

Fritz 9, Shredder 7 etc. sind zu weit weg. Sicherlich um die 800 Elo, das würde nichts bringen.
Wie gesagt, siehe mein Eingangsposting.

Hinzu kommt:
Bei längeren Bedenkzeiten werden die Vorteile offenbar deutlich kleiner.
Engines rücken immer näher zusammen (wird mein laufenden Turnier deutlich machen).
So gesehen bringt eng-eng testen wenig.

Auch Fizbo spielte schon Remis gegen Dragon 3.3 (mein laufendes Turnier).
Es kommt zu mehr Gewinnpartien und anhand von Gewinnpartien lässt sich mehr auswerten.

So würde es dann z. B. zu folgender Ratingliste kommen.

1. Engine A          200x gewonnen, 50x Remis, 0x verloren
2. Engine B          180x gewonnen, 70x Remis, 0x verloren
3. Engine C          150x gewonnen, 100x Remis, 0x verloren

Hat den Vorteil ...
Mehr Spass beim Zusehen! Im Vergleich als wenn bei Engine A, B und C 180x Remis, 175x Remis und 170x Remis steht.
Wenn die denn gegeneinander spielen!

Die Elo-Spreizung wird größer, wie z. B. bei den Vorgabestellungen bei Stefan.

Ferner lässt sich mehr Auswerten bei den Spielstilen als im Vergleich zu Remispartien.
Das geht zwar auch aber ist komplizierter.

Gruß
Frank
Parent - - By Peter Martan Date 2024-01-04 13:52
Ein Teilnehmerfeld, Frank, das etwas ganz anderes wäre, als das, was wir in quantitativ unterschiedlicher Größe sowieso haben, du musst ein solches etwas genauer angeben, ich sage ja, alle Ranglisten testen Schwache und Starke gegeneinander.

Welche Ranglistenplätze nimmst du aus einer der gängigen großen Listen raus und wieviele Engines bleiben übrig? Welche zählen zu denen, bei denen dich das Ranking interessiert, und welche dienen nur als Punktelieferanten?
Parent - By Frank Quisinsky Date 2024-01-04 14:07
Genau!

Das Problem was ich sehe ist, wenn dann Engines als Punchingball benutzt werden.
Das sehen die betroffenen Programmierer bestimmt nicht gern.

Was ich bei der Zusammenstellung der Engines im laufenden Turnier gemacht habe ist, die wirklich starken Engines mit klassischer Eval hinzuzuholen.
Laser, Fizbo, Xiphos, Shredder, Chiron etc. (da versammeln sich einige bei ca. 3100-3175 Elo).

Sofern ich hier wirklich 50 Runden spielen lasse kann man mit den Daten spielen.
Es haben alle gegeneinander gespielt und dann kann man sämtliche Konstellationen siumulieren.

Wie sieht die Ratingliste z. B. aus wenn die TOP-20 ausschließlich nur gegen Platz 21-44 gespielt hätten.
Etc..

Gruß
Frank
Parent - - By Stefan Pohl Date 2024-01-04 13:49 Edited 2024-01-04 13:58 Upvotes 1
Frank Quisinsky schrieb:

Hallo zusammen,

Stefan Pohl wird nicht böse sein aber bei "UHU-testen" zuzuschauen macht weder Spaß noch wirklich Sinn.


Du meinst, deiner Meinung nach macht das weder Spaß noch Sinn.
Das sehen zum Glück andere Leute anders. Die auch erheblich mehr als du und ich vom Schach verstehen:

The Big Greek (IM, Deutschlands Schach Youtuber Nummer 1) über eine Partie auf chesscom, wo die Engineturniere ausschließlich mit meinen UHO-Eröffnungen gespielt werden, die ich ihm aus dem gesamten Turnier rausgefiltert hatte:
https://youtu.be/JleRxjFRRIU?si=sQo2pNPuW8_rHkcR
(bevor jemand fragt: Das "Rückspiel" (also gleiche Eröffnung, aber Lc0 Weiß und Stockfish mit Schwarz) konnte Stockfish übrigens Remis halten. Die Vorgabe ist hier also eben nicht für den Sieg ausschlaggebend, was einige Ahnungslose immer wieder behaupten.)

Levy Rozman (IM, weltweit größter Schachyoutuber) über das letzte TCEC 25 Superfinale. Hier benutzt man zwar nicht meine UHO-Eröffnungen, aber man hat das Konzept (highly biased openings) von UHO übernommen. Nachdem man vor einigen Seasons schon keinen Erolg mehr damit hatte, mit ausbalancierten aber scharfen Varianten die Remisqoute im Superfinale unter 85% zu drücken:
https://youtu.be/WOxKJnmOVvU?si=OfZKDXEgFF2wiInB
https://youtu.be/cax7AENa0YA?si=su_PhzZ0oUSkD-uQ

Also, wem diese (UHO-)Partien keinen Spaß machen, dem ist nun echt nicht mehr zu helfen. Da sollte man sich dann vielleicht ein anderes Hobby suchen. Weil geiler kann HighEnd-Computerschach nun kaum noch sein.
Die beiden IMs in den Videos sind jedefalls begeistert. Ich auch. Und die Klickzahlen der Videos sprechen dafür, daß das auch andere Leute so sehen... (die beiden Rozman-Videos kommen zusammen auf über eine Million Klicks!)
Parent - By Frank Quisinsky Date 2024-01-04 13:59
Hi Stefan,

das ist die Frage.
Glaubst Du wirklich daran das viele zusehen.

Ich absolut nicht.
Da wird schnell eine Statistik erzeugt, meist mit ultra-schnellen Partien um einen Elo-Unterschied zu testen bzw. festzustellen ob eine Änderung im Programm erfolgreich war.

Eigentlich auch logisch, weil bei so schnellen Partien schaut niemand zu, kann niemand folgen was passiert.

Anders:
Stelle Dir vor im Turnierschach spielen alle mit solchen Vorgaben.
Wer schaut zu wenn ein direkter Vergleich nicht möglich wird aus einer ausgeglichenen Bewertung.

Vieles ist mit Fussball vergleichbar.

Dann spielt Leverkusen zukünftig nur noch mit 8 Spielern.
Was glaubst Du wie viele dann noch ins Stadion gehen würden.

Muss das realisisch sehen!

Es gibt mehrere Möglichkeiten Spielstärke festzustellen.
Das ein Vorteil produziert wird macht Sinn wenn sonst zu viel Remis ausgeht.
Aber so rein vom zusehen her ... dann lieber Dragon - Fizbo, Stockfish - Fizbo anstatt mit UHU Positionen.

Suche ja auch nur nach alternativen Wegen, sage ja nicht das die Idee von Dir nicht gut ist.
Alternative Wege die spannender sind!

Gruß
Frank
Up Topic Hauptforen / CSS-Forum / Eine Idee wäre es beim Engine-Test wie folgt vorzugehen ...

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill