Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Obsidian
- - By Peter Martan Date 2023-12-29 17:47 Edited 2023-12-29 17:51
...heißt der nächste neue Shooting- Star, hat auf TCEC schon ganz gut mitgespielt und ist im CCC Bitz (3/2) Main- Feld unter den 12 Teilnehmern in der unteren Mitte.

https://github.com/gab8192/Obsidian/

Ein kleines head to head match mit 3'+1" single thread und 6mvs 110-119cp UHO:

Score of Chess-System-Tal-2.00-v21 vs Obsidian90: 119 - 107 - 274 [0.512]
Elo difference: 8.3 +/- 20.5, LOS: 78.8 %, DrawRatio: 54.8 %
500 of 500 games finished.

Noch deutlich zu wenig Partien, um gegen CST aus der error bar zu kommen.

Guten Rutsch nach 2024 an Alle!
Parent - - By Frank Quisinsky Date 2023-12-29 22:25 Edited 2023-12-29 22:27
Hi Peter,

nur leider das nächste Programm, welches nicht aufhören will zu spielen.
Viele, viele Endspiele falsch einschätzt, keinen Syzygy support hat, keinerlei sonstigen Features hat und auch bei den Gewinnpartien einen sehr hohen Züge Durchschnitt produziert.
Von diesen Programmen gibt es schon einige!

Allerdings, das Programm könnte interessant werden, wenn die Probleme mal alle angegangen werden.
Nur Neural-Network Optimierungen zu machen oder Wissen einzubringen ... das sind dann lange noch keine fertigen Schachprogramme.

Ich denke davon werden wir bald in den TOP-100 50 oder mehr haben.
Zumindest schaut alles danach aus.

Einer macht NN und dann ...
Einer ist auf Discord und dann ...
Einer präsentiert auf Github und dann ...

Aber ...
Eine Person hat Lunte gerochen, interessiert sich für Computerschach und ist sehr fleißig und sicherlich auch besonders stolz auf diesen schnellen und guten Ergebnissen hinsichtlich
... muss das leider sagen ... stinknormale Spielstärke, die heute sehr schnell erreicht werden kann.

Letztes Jahr hat mir ein 14-Jähriger innerhalb von 2 Monaten ein Programm mit 3100 Elo präsentiert.
Er meinte dann ... das kann deutlich höher gehen aber ist mir zu langweilig. Nicht meine Welt mich mit mehr von den github Seiten zu beschäftigen.
Auch brauche ich zu lange, um selbst etwas zu entwickeln und ich habe nicht wirklich viel Ahnung vom Schach.

3100 Elo, die Spielstärke des mehrfachen Computerschachweltmeisters Shredder oder von Rybka ...

Also, die Sensationsmeldungen von früher ...
Sind das heute noch welche?

Die Frage stelle ich mal in den Raum!

Gruß
Frank
Parent - - By Stefan Pohl Date 2023-12-30 07:26 Edited 2023-12-30 07:29 Upvotes 1
Frank Quisinsky schrieb:

und auch bei den Gewinnpartien einen sehr hohen Züge Durchschnitt produziert.


Also das stimmt so nicht. Obsidian 9 ist ja in meiner UHO-Top15 Liste drin und hat einen Zugdurchschnitt der Gewinnpartien von 79 Zügen. Das ist zwar über dem Durchschnitt der Engines meiner Liste (76 Züge), aber das liegt mehr daran, daß die beiden Stockfishe und Torch den Durchschnitt stark drücken. De facto ist Obsidian 9 mit diesem Schnitt von 79 auf Platz 7 (von eben 16 Engines). Das kann man wirklich nicht als sehr hohen Züge Durchschnitt bezeichnen. Denn (nur als Beispiel) Rebel EAS hat z.B. einen viel schlechteren Wert (84 !), selbst CSTal 2.0 ist hier schlechter als Obsidian (81).

Und diese Zahlen basieren bei mir ja nun auf sehr, sehr vielen Gewinnpartien. Obsidian hat z.B. von seinen 15000 Partien immerhin 2727 Gewinnpartien, die dafür vom EAS-Tool ausgewertet wurden. Bei Rebel EAS sind es auch noch 2145 Gewinnpartien, CSTAl 2.0 hat sogar 2735 Gewinnpartien. Ergo sind die Zahlen sehr zuverlässig.

Die schlechtesten Top15 Engines bzgl. Zugdurchschnitt der Gewinnpartien sind Ethereal 14.25 und Koivisto 9.2 mit jeweils 86 Zügen. Das ist ein sehr hoher Zügedurchschnitt... nämlich 10 Züge mehr als der UHO-Top15 Ranglisten Durchschnitt.
Parent - - By Frank Quisinsky Date 2023-12-30 09:25 Edited 2023-12-30 09:27
Hi Stefan,

das kann an der Bedenkzeit liegen. bei mir waren es 90 Minuten Partien auf 4Ghz.
Ist mit Blitz nicht vergleichbar.

Der Zügedurchschnitt lag bei 93. Von den 41 Engines hatte nur 6 ein noch schwächeres Ergebnis.
4 Engines lagen gar bei 100 und gar deutlich drüber.

Bem Zügedurchschnitt der Remispartien waren auch nur 6 Engines vergleichbar hoch bzw. bis deutlich höher (wie z. B. Stockfish).

Schaut man sich dann an warum war es sehr klar.
Viele Endspiele werden falsch eingeschätzt und 50Züge Regel wird vermieden.
Die Mattführung stimmt auch nicht und wird oft unnötig in die Länge gezogen, dass siehst Du natürlich nicht wenn
Du mit Aufgabe=on spielst. Und wie immer sieht es dann auch der Programmierer nicht wenn er so testet.

Bestes Beispiel ist Peacemaker ...
Der Zügedurchschnitt der Gewinnpartien war 150 Züge ...
Warum, weil er kurz vor dem Matt gemäß der 50Züge Regel das eigene Matt verhindert, sicherlich weil irgend ein versteckter Contempt auch noch im Weg ist.
Und das alles sieht man nicht wenn mit Aufgabefaktor gespielt wird. Der Programmierer sieht es nicht weil er nicht in andere Partien schaut und selbst ohne
Aufgabefaktor spielen lässt und die Bugs sind 100-Jahre im Programm.

Diese ganzen Krampfpartien vom letzten Turnier.
Bin froh das das zu Ende ist.

Schaue mir die ganzen Engines, die bei mir nicht mehr spielen in einem Jahr an.
Vielleicht ist dann bei denen der Zügedurchschnitt normalisiert.

Viele Grüße
Frank
Parent - By Frank Quisinsky Date 2023-12-30 09:59 Edited 2023-12-30 10:19
Hallo Stefan,

glaube es war Franck ZIBI (ZChess und Pharaon) oder Sylvain RENARD (Capture) die selbst die Anderen franz. Programmierern gerne darauf hingewiesen haben (die hatten ein eigenes geschlossenes Forum, gab viele franz. Programme) ... testet mit Aufgabefaktor und prüft Ponder und Zeitmanagment vor einem Release. Und genau das sind schon seit Beginn an die Hauptprobleme bei den Engines. Das zieht sich bis heute durch. Seinerzeit hatte in Winboard Zeiten gar eine Bugliste. In den ersten 15 Jahren seit Winboard habe ich die Programmerier auch selbst noch unterrichtet weil selbst auf die Bugliste schauten die Wenigsten. So nach und nach verschwanden auch die Fehler in den Programmen. Ich weiß das auch einige andere, besonderes die CEGT und auch einzelne CCRL-Tester Programmierer immer wieder auf typische Probleme hingewiesen haben. Alle die, an lange an Ratings gearbeitet haben, waren als nicht nur Betreiber von Ratinglisten, sondern auch die Beta-Tester der Programmierer. Das wird ja heute noch von einigen ausgenutzt, die dann private Testversionen zu den Herren senden bevor released wird. Sind die zu faul um selbst einfache Dinge zu testen oder brauchen die Werbung und benutzen dafür Personen die zum Spaß testen.

Ich weiß es nicht!

Selbst habe ich dazu heute einfach keine Lust mehr.
Weder auf immer gleiche Fehler, noch auf private Versionen, die ich seit mindestens schon 12 Jahren ablehne.

Und gerade die Programmierer die von 0 auf 100 kommen möchte.
Bestes Beispiel ist Rybka ... Vas schaffte es mal ein einem Abend 4 Updates zu machen als in einem Forum immer wieder neue Bugs mit neuen Versionen auftauchten. Muss wirklich lange überlegen um Programme herauszupicken, welche derart anfällig in der Königssicherheit bei vielen Figuren auf dem Brett sind. Irgendwie wiederholt sich im Computerschach immer alles und das finde ich dann persönlich wirklich stink-langweilig. Erfahrene Programmierer schauen sich genau an was sie releasen und wenn ich mir heute die Versionen von denen anschaue ... da gibt es einfach nichts zu bemängeln wenn ein Release kommt.

Lasse mich mal schauen wie es bei Rybka war?
Vom 11.12.05 - 11.02.06 gab es 13 Versionen ... er hörte ja nicht auf immer wieder neue Bugs zu produzieren wenn ich auf die Bugliste schaue.
Vom 01.05.06 - 10.05.06 gab es 18 Versionen

Es stellte gar mal einer die Frage ... kannst Du überhaupt programmieren oder probierst Du an zusammengesetzten Sourcen nur irgend etwas aus.
Und dieses Programm zog mal die Massen an.
Darum lehnte ich bei der Schach-Welt den Test von diesem Programm irgend wann ab.
Ob es auf Platz 1 stand oder nicht ... so Dinger haben mich nie interessiert, schaue auf ganz andere Dinge!

Sobald irgend etwas eine hohe Spielstärke erreicht werden heute immer noch Personen angezogen.
Sei es die ganzen Igorit Clones, vor allem dann die vielen Invanhoes ... 50 Versionen in kurzer Zeit und selbst die letzte war voller Fehler.
Und selbst heute noch, schaue ich auf die ganzen Stockfish Ableger.

Für Ratinglistenbetrieber ist das eher schlecht, die handeln sich wieder ein Programm mehr ein bei denen es zu unzähligen Updates in kurzer Zeit kommt.

Viele Grüße
Frank
Parent - - By Peter Martan Date 2023-12-30 10:11 Edited 2023-12-30 10:18 Upvotes 1
Frank Quisinsky schrieb:

nur leider das nächste Programm, welches nicht aufhören will zu spielen.

Also würden Programm wirklich etwas wollen, wäre das ja wohl das Mindeste, was man sich von einem Programm wünschen könnte, dass es überhaupt spielen wollte und nicht immer gleich wieder möglichst schnell aufhören

Dass es nur aufhören kann, indem es gewinnt, remis spielt oder verliert, das kann man auch nicht dem Programm vorwerfen, das sind die Regeln, ein Programm abzudrehen (ich mach das in aller Regel übers GUI) hatte ich eigentlich noch nie Schwierigkeiten, die Programme daran zu hindern,  zu früh Remis zu machen oder zu verlieren, das scheint mir das weitaus größere Problem.

Aus deiner Antwort an Stefan
Frank Quisinsky schrieb:

das kann an der Bedenkzeit liegen. bei mir waren es 90 Minuten Partien auf 4Ghz.
Ist mit Blitz nicht vergleichbar.

Nichts ist mit nichts vergleichbar, der Zügedurschnitt schon gar nicht, weil er natürlich außer mit der Bedenkzeit ganz stark mit dem Teilnehmerfeld zu tun hat und wenn ich mir die statistische Absicherung deiner Rankings anschaue (dass z.B. Dragon innerhalb der error bar auch gegen SF hätte gewinnen können), dann frage ich mich halt schon auch (dich hab' ich das in dem Zusammenhang auch schon mal gefragt, wenn du dich erinnerst) wie gut statistisch abgesichert deine Zügedurchschnitte sind (merke: ein Durchschnitt von Zahlenwerten allein sagt nichts über die Irrtumswahrscheinlichkeit dieses einen Wertes aus). Wie groß ist die error bar deiner Zügedurchschnitte?
Du bist dir schon im Klaren, dass es so wie bei den Ratings und Rankings auch einfach ziemlich viele Zufall sein wird, bei den vielen Teilnehmern und den relativ wenigen head to head- Partien, was da die einzelne Engine zum Schluss gerade für einen Zügedurchschnitt hat, ja? Was die Eröffnungen angeht, hättest du vielleicht auch etwas weniger error mit Farbwechsel, die Remisrate und den Zügedurchschnitt würde es vermutlich nicht senken (keine Ahnung, müsste man fürs jeweilige Teilnehmerfeld und die jeweilige Hardwar- TC auch ausprobieren, und natürlich kommt's ohne Farbwechsel erst recht aber auch mit ihm, enorm drauf an, welche der zufällig gespielten Eröffnungen wirklich gewählt werden, ein bestimmtes Set in bestimmter Reihenfolge sortiert und von allen Engines gleichermaßen abgearbeitet, hilft da auch stark, überbordenden Zufall einzuschränken) aber die Schwankungsbreite der Ratings, Rankings und des Zügedurschnitts hingegen vermutlich schon.

Und ein für alle Mal: warum, zum Henker, weigerst du dich hartnäckig, GUI- Adjudizierungen für Remis und Aufgabe zu setzen, wenn dir nichts so wichtig ist, wie der Zügedurchschnitt?
Gerade der ist doch, wenn die Engine gar keine Chance hat, mit noch so häufig wiederholter 0.00- Eval das Remis übers GUI herbeizuführen und mit noch so häufiger Verlust- Eval gar nicht "aufgeben" kann, sehr viel mehr vom Zufall und von den Gegnern abhängig, als bei vernünftigen GUI- adjudications.
Just my two cents...
Parent - - By Frank Quisinsky Date 2023-12-30 10:34
Hallo Peter,

Du musst mir nichts erklären was ich seit 20 Jahren feststelle und dokumentiere.

Beim Zügedurchschnitt ist es so, dass der sich im Grunde selbst bei unterschiedlichen Bedenkzeiten kaum verändert.

Richtig ist, dass es auf die Gegner ankommt.

Wenn z. B. bei meinem letzten Turnier 14 Programme den Zügedurchschnitt hochtreiben, geht der logischer Weise auch für alle anderen teilnehmenden Engines hoch.
Aber das ist logisch und Bedarf keiner Erklärung.

Niemals aber auch niemals darf eine GUI eine Engine beeinflussen.
Das ist NoGo!

GUI = Sklave
Engine = Chefsache

Einheitliche Meinung seinerzeit von der Mehrzahl der Programmierer und es gab unzählige Diskussionen darüber.
Die müssen wir nicht immer wieder wiederholen.

Ob es die Verwendung von Endspieldatenbanken ist oder Partieentscheidungen manipuliert werden.
Selbst bei +3 und Abbruch ist die Partie noch nicht verloren (in vielen kommt es noch zum Remis, allein durch die falschen Läufer Endpiele) und das ist nur 1 Beispiel.
Du bist doch nun schon so lange dabei ... das muss Dir doch nicht mehr erklärt werden!

Abbruch macht nur Sinn bei:
Möglich viele Partien zu produzieren um schnell grob etwas zu testen.
Vielleicht hier und da noch verständlich in früheren Zeiten bei schwächerer Hardware und Ratinglistenbetreiber.

Für die Veröffentlichung aber völlig unbrauchbar.
Gerade der Weg zum Sieg hat von je her die Schachspieler im Computerschach begeistert und die wenigsten mögen es unfertige Partien nachzuspielen.

Wenn mit Computerschach begeistert werden möchte, dann ganz sicher nicht mit unfertigen Partien!

Und gerade bei dem was Dich interessiert!
Du testest doch gerne Stellungen, viele beruhen auf Matt-Kombinationen.
Dann suche mal in den Datenbanken, wenn weit vorher eine Partie abgebrochen wird.

Du müsstest eher ein Verfechter für Aufgabefaktor = off sein.
Alles andere wäre widersprüchlich aber bei Dir ist eh vieles wiedersprüchlich.
Sehe keine klare Linien in dem was Du oft schreibst.

Viele Grüße
Frank
Parent - By Peter Martan Date 2023-12-30 10:40 Edited 2023-12-30 10:43 Upvotes 1
Frank Quisinsky schrieb:

Beim Zügedurchschnitt ist es so, dass der sich im Grunde selbst bei unterschiedlichen Bedenkzeiten kaum verändert.

Zitat:

das kann an der Bedenkzeit liegen. bei mir waren es 90 Minuten Partien auf 4Ghz.
Ist mit Blitz nicht vergleichbar.

Zitat:

Richtig ist, dass es auf die Gegner ankommt.

Und auf die Eröffnungen und auf die Hardware- TC und aufs GUI und wenn du die Adjudizierungen alle abdrehst, ist das auch ein GUI- Einstellung, genau so willkürlich gewählt wie jeder andere Grenze, die du da definierst.
Zitat:

Niemals aber auch niemals darf eine GUI eine Engine beeinflussen.


Dann darfst du nicht über GUIs spielen lassen.
Zitat:

Alles andere wäre widersprüchlich aber bei Dir ist eh vieles wiedersprüchlich.

Parent - - By Thomas Plaschke Date 2023-12-30 16:13 Upvotes 2
Frank, da ist einiges widersprüchlich oder mehrdeutig in dem, was Du schreibst.

Frank Quisinsky schrieb:
...
Du musst mir nichts erklären was ich seit 20 Jahren feststelle und dokumentiere.
...

Etwas 20 Jahre lang zu machen heißt nicht, etwas 20 Jahre lang richtig zu machen.
So wenig Alter ein Verdienst ist, macht man aus Erfahrung alles richtig.

Frank Quisinsky schrieb:
...
Beim Zügedurchschnitt ist es so, dass der sich im Grunde selbst bei unterschiedlichen Bedenkzeiten kaum verändert.
...
Hier widersprichst Du Dir selbst. Denn dann sind Stefans Ergebnisse doch mit Deinen vergleichbar! Wenn's auf die unterschiedlichen Bedenkzeiten nicht ankommt, hat er mit seiner besseren Datenlage aber auch das bessere Ergebnis, oder?

Frank Quisinsky schrieb:
...
Niemals aber auch niemals darf eine GUI eine Engine beeinflussen.
Das ist NoGo!

GUI = Sklave
Engine = Chefsache
...
Es soll Leute geben, die genau diese Rollenverteilung nur im xboard/Winboard-Standard für gegeben halten. Prof. Hyatt gab kund, aus dem Grund nie Crafty als UCI-Engine herausgegeben zu haben. Ich muss Dir nicht erzählen, was ihm - und anderen - am UCI-Standard nicht gefällt und wo die Engines durch das GUI "bevormundet" sein sollen.

Frank Quisinsky schrieb:
...
Abbruch macht nur Sinn bei:
Möglich viele Partien zu produzieren um schnell grob etwas zu testen.
Vielleicht hier und da noch verständlich in früheren Zeiten bei schwächerer Hardware und Ratinglistenbetreiber.
...
Teils, teils. Ich erinnere mich ungern an Seeschlangen, die von beiden Engines längst als remis erkannt wurden, aber trotzdem mit Bauern- oder Schlagzügen von beiden am Leben gehalten wurden. Gerade, wenn es auf den Zügedurchschnitt ankommt, sollte der Zeitpunkt der Partie von Interesse sein, an dem beide Engines den folgerichtigen Ausgang der Partie erkannt haben. Abbruchkriterien - die das allfällige Ende der Partie vorwegnehmen - sind dann im Gegenteil genau der richtige Weg! Wir reden von Programmen, die längst keine Endspielpatzer mehr sind, wie viele Schachcomputer und Programme der 80er und 90er Jahre. Die wussten in jeder Partiephase und besonders im Endspiel eine Partie zu ihren Ungunsten zu drehen. Was aber in der Tat durch das Abschätzen verloren geht, ist die konsequente "Bestrafung" einer zu großzügigen Zeiteinteilung. Nur, wer möchte totremise Endlospartien totgeblitzt sehen? Auch da gibt es ein Für und Wider.

Frank Quisinsky schrieb:
...
Und gerade bei dem was Dich interessiert!
Du testest doch gerne Stellungen, viele beruhen auf Matt-Kombinationen.
Dann suche mal in den Datenbanken, wenn weit vorher eine Partie abgebrochen wird.
...
Und genau das passiert nicht (mehr). - Im Übrigen: Woran sollte man erkennen das eine mit "falschem" Ergebnis abgebrochene Partie mit einem Mattangriff der benachteiligten Seite geendet hätte, wenn die Partie wegen der Abschätzung eben nicht zuende gespielt wurde? Andererseits ist die Mehrzahl der Partien auch in Deinen Datenbanken Remis ausgegangen. Wie viele dieser Partien hätte eine Abschätzung nicht geschadet?
Übrigens sind Abschätzungen durch das GUI recht differenziert möglich. Beispiel cutechess: Für die Aufgabe kann man einstellen, dass eine bestimmte Anzahl Züge lang die Bewertung beider Engines einen bestimmten Wert unter- bzw. überschreitet. Damit lässt sich eine hoffnungslose Partie gut beschreiben, finde ich. Zur Remiseinschätzung hat man die Möglichkeit, anzugeben, ab welchem Zug der Partie eine Abschätzung erst erfolgen soll, dann kann man einen Wertbereich angeben, der als Remisbewertung der Programme anzusehen ist (bspw. +-4 cp), und zuletzt, über wie viel Züge hinweg beider Bewertung in diesem Intervall liegen muss. Zu guter Letzt gibt es dann noch die Abschätzung durch Endspieltabellen. Wenn beide Engines ohnehin Endspieltabellen verwenden, nimmt die Einschätzung durch das GUI das unvermeidliche Ende ohnehin nur vorweg. Es obliegt dem Nutzer, seine Werte für die Eingaben zu finden. Ich selbst lasse die Gewinnabschätzung mit mindestens 700 cp von beiden Engines bewertet über 5 aufeinanderfolgende Züge erfolgen. Remis lasse ich geben, wenn ab dem 30. Zug beide Seiten für 10 aufeinanderfolgende Züge keine Bewertung von mehr als 4 cp haben. Ich rechne eher mit einer Programmfehlfunktion als mit einem Missgriff der Abschätzung bei Engines, die über 3.200 Elo-Punkte vorweisen können. Was aber immer gegen diese "Partieabkürzungen" spricht, ist, dass Engines mit schlechter Zeiteinteilung einen besonderen Nutzen davon haben.

Viele Grüße
Th. Plaschke
Parent - - By Frank Quisinsky Date 2023-12-30 20:54 Edited 2023-12-30 21:15
Hi Thomas,

natürlich mache ich Fehler!

--

Stefan spielt mit Aufgabefaktor!
Ich habe mit und ohne lange nicht mehr verglichen.
Generell macht das durchschnittlich 15 Züge aus, zumindest ca. ab dem Zeitpunkt als Engines ca. ein Level von 2800 Elo erreichten (danach nicht mehr verglichen).

--

Ja, Stefan hat mehr Partien und mithin eine bessere Datenlage.
Das ist absolut klar, verwende ja ca. das 20fache an Zeit und vermutlich den deutlich schnelleren PC, teste nur auf einem PC. Ich bin aber auch der Meinung das Tendenzen erkennbar sein sollten und völlig ausreichend sind. Es muss nicht alles bis zu der maximalen Grenze ausgetestet werden, weil das keinen Sinn macht. Wenige Engine Updates verändern, Bedingungen verändern und mithin macht die Extrem-Testerei kaum einen Sinn. Es sei denn man stellt sinnvolles mit den Daten fest. Genau das macht Stefan ja und hat sich hierzu auch einiges einfallen lassen.

--

Prof. Hyatt ...
Nein, musst Du mir nicht erzählen.
Seine Meinung war allerdings sehr klar und eindeutig.
Hinsichtlich der Protokoll-Unterschiede war seine Meinung teils gar eindeutig nachvollziehbar. Und nach meinen ganzen Informationen ist tatsächlich das Winboard Protokoll das eigentlich bessere Protokoll.
Sei heute dahingestellt, welches das bessere Protokoll ist. Ich denke für alle Beteiligten ist sicher UCI das einfachere und das ist gut so, Winboard war leider zu kryptisch.

--

Dass die GUI nicht beeinflussen sollte, wirklich rein gar nichts, hat sich meines Erachtens aus unterschiedlichen Gründen geformt, die auch alle nachvollziehbar sind.
z. B. für Martin Blume maßgeblich deswegen, weil wenn die GUI beeinflusst laufen mehr Prozesse im Hintergrund die RAM kosten und unnötig sind.
Auch hatte er keine Lust auf unnötige Diskussionen mit Engine-Programmierern.

Wir hatten auch in Arena Möglichkeiten drin Partien abzubrechen. Teils ungern implementiert wenn ich die Diskussionen noch alle richtig im Kopf habe.
Von Shredder 12 auf Shredder 13 kam da auch etwas bei den Remispartien hinzu.

Grundsätzlich war es früher so, dass Nalimov kam.
Die Umsetzung war zeitaufwendig und eine Fleißarbeit für die Programmierer.
Daraus entstanden dann meist typische Probleme beim Zeitmanagement, beim Pondern und nicht zuletzt auch mit den Endspieldatenbanken selbst.
Sicherlich die Hauptgründe warum so viele Programmierer auch nicht wollten das Partien mittendrin abgebrochen werden. Es gab gar Herren die dann gar böse worden. Wenn etwas abgebrochen wird, entscheidet das immer noch meine Engine. Klar, die Engine kann 3fache forcieren. Was um sich schlägt ist, das Engines 50-Züge Regel vermeiden, wenn denn ein Bauernzug möglich ist.

Fakt ist, dass die meisten Personen, die Partien nachspielen, den Weg zum Sieg auch komplett sehen möchten.
Und heute noch verstecken sich viele Fehler, die zum Ende der Partie auch erst auffällig werden, dass ist heute nicht groß anders als früher.

--

Seeschlangen
Den Begriff habe ich auch noch nie gehört.

Grundsätzlich gibt es immer lange Partien bei Resign = off.
Aber ich kann schauen in welche Statistik auch immer.
Der Züge Durchschnitt liegt bei vielen Engines in einem Turnier bei 86-88 Zügen sehr konstant und das schon seit vielen Jahren, ca. seit die Engines ein Niveau von 2800 Elo erreicht haben.
Wie oben beschrieben kannst Du den drücken mit Resign = on auf ca. 15 Züge weniger.
Cutechess hat ein paar Optionen drin, um diesen vielleicht noch weiter zu drücken (bei den Remis Partien). Dazu hast Du am Ende von Deinem Beitrag selbst etwas geschrieben.

Wenn jetzt aber direkt 14 Engines der TOP-44 einen Züge Durchschnitt von 107 erreichen (picke ich die alle in ein Turnier) stellt sich die Frage warum. Kommt einer mit einer Idee zieht das heute bekanntlich die Schleife.

Entstehen durch:

- Fehler bei der Einschätzung von Endspielen (z. B. bei Booot). Dann will eine Engine kein Remis in klarer Remis Stellung und die Partien enden mit 50-Züge Regel.
- Fehler bei der Mattführung
- Swindle-Mode (scheint um sich zu schlagen).
- versteckter Contempt / nicht funktionierender Contempt

Selbst wenn alle Engines perfekt spielen würden gibt es lange Partien. Und für viele der langen Partien gibt es tatsächlich auch Gründe das die wirklich laufen sollten.
Aber wenn zu viel Unsinniges in den Engines drin ist, um hier und da noch einen Elo rauszuholen, in Zeiten, bei denen fast alle der TOP-50 sich nicht wirklich in Endspielen
beschummeln lassen, macht das heute keinen Sinn mehr. Die Zeit für Contempt Parameter, bei den eine stärkere Engines dann gegen eine schwächere Engines doch
noch Punkte einfahren konnte sind lange vorbei.

Du schreibst es ja selbst ... wie viele der langen Partien enden mit 1:0 oder 0:1.
Sofern ich das richtig überblicke, hat sich bei meinem letzten Turnier eine einzige Engine selten beschummeln lassen.
Das war ein Turnier von 41 der 44 besten verfügbaren Schachprogramme.
Und dafür dann ein so deutlich höheren Zügedurchschnitt?

Man sollte mal an Stromverbrauch für absolut unnützes denken.
Dieses Verhalten entsteht ja auch bei Partien mit Aufgabefaktor, auch hier geht der Zügedurchschnitt hoch.
Nur ist das nicht so krass zu sehen wie in Partien ohne Aufgabefaktor.

--

Was ich nicht verstehe ...
Es legen viele Wert auf genau Ergebnisse, brechen aber Partien ab.
Was bringt Dir eine genaue ErrorBar wenn dadurch die Ergebnisse wieder ungenau werden.
Schon allein, wenn ich an schlechter Läufer Endspiele denke.

Aber sei es drum!
Die Wege des Herrn ...

Was Sinn machen würde, wäre ...
Die Engines spielen die Partien ohne Aufgabefaktor zu Ende.
Hätten wir ein Tool, welches dann Engine Ergebnisse bereinigt wäre das viel effizienter hinsichtlich genauer Ergebnisse, als wenn mutwillig mittendrin abgebrochen wird.
Ich habe dazu einen Vorschlag in TalkChess unterbreitet, denn ein solches "Cleaning-Tool" für PGN-Files gibt es tatsächlich nicht.
Dann könnte man Partien auch viel besser für Stats vorbereiten oder auch für Präsentationen versenden.

Und nochmals zu Deiner Einleitung.
Natürlich mache ich Fehler, aber ich berichte ja immer nur von dokumentierten Daten.
Ich kann etwas feststellen, wenn ich Datenbanken auswerte.

Ob nun jede Auswertung immer sinnvoll ist, sei dahingestellt, aber ich beziehe mich immer auf Datenquellen und keinesfalls auf Wunschdenken.
Bilde mir meine Meinungen also im Computerschach seit eh und je immer aufgrund Fakten anhand ganz normaler Daten. Alles andere wäre auch völliger Quatsch.
Ich wundere mich oft warum das immer gleiche Personen in Frage stellen, die meist selbst noch nie irgendetwas beigetragen haben.
Letztendlich denke ich mir dann ... mein Gott was haben wir für Experten rumflitzen, die vertreiben dann auch noch die letzten Mohikaner.

Viele Grüße und Dir einen guten Rutsch!

Gruß
Frank
Parent - By Frank Quisinsky Date 2023-12-30 21:32 Edited 2023-12-30 21:37
Schaue mir das mit dem Züge Durchschnitt Ende 2024 wieder an. Vielleicht haben ein paar Programmierer etwas verändert?!

Jetzt läuft erstmal ein Turnier, bei dem ich dieses Problem nicht habe und es deutlich mehr Spaß macht die Engine-Engine Partien zu verfolgen.
Letztendlich wollen wir Spaß haben ...

Überlege seit zwei Tagen wie ich vorgehe, weil drei der 44 Engines mit höchsten Züge Durchschnitt noch rausgeholt werden.
So machte ich heute ein paar Stats zum Züge Durchschnitt aus vergangenen Turnieren.
Wie viele Partien sind also notwendig, um zu sehen wann wird der Züge Durchschnitt sicher.
Ich komme grob auf ca. 300 mindestens!

Ich habe reichlich Material, z. B. die vergangenen FCP-Turniere.

So habe ich heute beschlossen, ich lasse die 44 Engines jetzt 8 Runden spielen.
8x43 Partien = 344 Partien.

Sortiere dann eine Engine aus, nach 10 Runden die Zweite und nach 12 Runden die Dritte.

Ich bin mir sicher ich komme dann auf ein Ergebnis von einem Züge Durchschnitt von 84!
Die verbliebenen 41 Engines können dann zu Ende spielen, mag das wenn genau 41 Engines im Turnier sind.

Ein solches Turnier mit so geringen Züge Durchschnitt von 84 bei Resign = off hatte ich zuletzt um 2005 / 2006 ... und das dann heute bei ca. 3280 Elo Durchschnitt.
Sind aber auch alle Versucher dann ausgeschaltet (hört sich negativ an, ist aber eine für mich logische Konsequenz)!
Parent - - By Stefan Pohl Date 2023-12-31 07:19 Edited 2023-12-31 07:32 Upvotes 1
Frank Quisinsky schrieb:


Stefan spielt mit Aufgabefaktor!
Ich habe mit und ohne lange nicht mehr verglichen.
Generell macht das durchschnittlich 15 Züge aus, zumindest ca. ab dem Zeitpunkt als Engines ca. ein Level von 2800 Elo erreichten (danach nicht mehr verglichen).



Das ist doch schlicht falsch. Alle Partien in meinen Tests laufen so, wie es auch auf meiner Website zu lesen ist:
Cutechess-cli (GUI ends game, when a 5-piece endgame is on the board, all other games are played until mate or draw by chess-rules (3fold, 50-moves, stalemate, insufficent material))

Also bis zum Matt, Remis nach Schachregel (3fach, 50, Patt) oder bis ein 5-Steiner auf dem Brett ist. Daß bei 5 Steinen auf dem Brett die Partie per Syzygy beendet wird (mit 100% korrektem Ergebnis) kannst du doch wohl nicht ernsthaft als Aufgabefaktor bezeichnen??? Für jeden halbwegs normalen Menschen bedeutet Aufgabefaktor doch, daß aufgrund einer Eval der Engine die GUI irgendwann die Partie abbricht. Das finde ich ebenfalls höchst fragwürdig, weil es einige Einzelstatistiken (wie z.B Zügeschnitt) versaut. Daher würde ich auch nie so spielen lassen.
Parent - By Peter Martan Date 2023-12-31 09:43 Edited 2023-12-31 09:51
Stefan Pohl schrieb:

Für jeden halbwegs normalen Menschen bedeutet Aufgabefaktor doch, daß aufgrund einer Eval der Engine die GUI irgendwann die Partie abbricht. Das finde ich ebenfalls höchst fragwürdig, weil es einige Einzelstatistiken (wie z.B Zügeschnitt) versaut. Daher würde ich auch nie so spielen lassen.

Ich schon, meistens. Man hat halt einen anderen Zügedurchschnitt, würde er mich überhaupt interessieren, wäre mir der praktisch genau so aussagekräftig wie der ohne Abriegelung bei 10cp, interessiert mich der kürzere, wird er durch die Züge bis zum Matt "versaut", ebenso wie er das durch die Züge wird, die das GUI als tbs- Stellung abschneidet. Ob die Engine da dann noch die beste DTM findet beim Ausspielen oder nicht, ist mir in der Statistik der Ergebnisse egal und natürlich kommen auch immer noch hin und wieder mal unnötige Umwege in der Mattführung vor, besonders unter Zeitdruck, dass eine Engine über +10 bewertet und es wäre eigentlich doch noch ein Remis gegangen, das ist bei vernünftiger TC und halbwegs modernen Engines der oberen Gruppen schon eine Seltenheit heutzutage. Nämlich bei den Stellungen, die aus den Eng-Eng-Partien aufs Brett kommen, komponierte Fortress- Studien sind etwas Anderes, aber um die zu beurteilen, hab' ich ja die Stellungstests

Und wenn eine Engine die mögliche Mattführung einfach nicht findet und statt dessen ewig lang (10 Züge als Limit würde ich aber auch da genug finden, muss ja auch nicht unter Zug Nr. 30 erlaubt sein) am 0.00 herumnudelt, dann tut sie das auch so lange, bis endlich doch die 50 Züge zuschlagen oder sich die gegnerische ins 3fold rettet. Da kann ich also auch gleich genau so gut nach 10x0.00 das GUI Remis sagen lassen. Das ist es, was wirklich endlos- Partien vermeidet, hingegen erlaubt das natürlich schon auch den meiner Meinung nach größeren Krebsschaden, dass Engines gleich nach der Eröffnung Schluss machen, weil sie's nicht mehr der Mühe Wert finden, überhaupt ein Endspiel anzufangen, das muss man halt mit einer Zuggrenze, unter der gar nicht adjudiert werden darf, unterbinden, und ansonsten sollen diese Engines meiner Meinung nach dieses Verhalten durchaus auch zeigen dürfen, da sieht man wenigstens gleich am Ende der Partie, wer hier trotz noch spielbaren leichten Vorteils gekniffen hat und wer nur berechtigt damit einverstanden war und nicht erst nach 50 weiteren Zügen.
Obwohl ich dazu eigentlich nichts mehr schreiben wollte heuer, naja, ist ja eh schon fast im nächsten Jahr...

Wie man die eigenen Statistiken macht, ist jedem selbst überlassen, man sollte nur nicht immer wieder Zwangsbeglückung Anderer veranstalten unter dem Argument, nur die eine Art, die man selbst die beste findet, sei die einzig richtige. Vergleiche anzustellen zwischen verschiedenen Messungen unter verschiedenen Bedingungen wird sowieso immer fragwürdiger, bedarf aber dafür heutzutage umso mehr der Erkenntnis, wo die Unterschiede liegen, vielleicht auch noch, wie groß sie sein mögen.
Parent - By Frank Quisinsky Date 2023-12-31 09:45 Edited 2023-12-31 09:50
Hallo Stefan,

dann habe ich das übersehen!
Sorry, MIST!

Aufgabe = AN
Es versaut auch viele andere Statistiken die ich hier und da händisch mache.
Schlicht, jede Datenbank ist im Grunde zu mindestens 75% wertlos.

Dann rührt der deutlich bessere Zügedurchschnitt bei den Gewinnen von den UHU Positionen bzw. der Vorteile die damit einhergehen!
Habe noch nie mit den UHU-Positionen getestet aber das hat einen ganz entscheidenden Grund.

Ich schaue bei den Partien zu wenn ich die Zeit habe.
Die verwendete Zeitkontrolle ist oftmals an meiner Einschlafgrenze, bzw. schon drüber ... egal und eigentlich viel zu hoch gewählt.
Aber wenn ich zuschaue möchte ich natürlich das alles ausgeglichen startet, sonst macht das Zusehen weniger Spaß!

Dir einen guten Rutsch und nochmals Sorry!
Einige Zügedurchschnitte bei den Gewinnen waren derart minimiert, dass ich immer davon ausging das Du mit Aufgabefaktor spielen lässt.
Das wunderte mich dann wieder wegen vielen Stats die nicht gehen.
Hätte besser lesen sollen!

Gruß
Frank
Parent - - By Frank Quisinsky Date 2023-12-30 11:02 Edited 2023-12-30 11:25
Gebe Dir mal ein einfaches Beispiel.

Mein laufendes Turnier habe ich vorher schon mit 3+1 simuliert.
Spiele ja jetzt mit 66+6

Der Zügedurchschnitt war 87,1 und die Remisquote lag bei 59,8

Ziel war es die Versucher vom hohen Zügedurchschnitt zu finden und herauszuholen.

Für Zügedurchschnitt als auch für Remisquote sind nicht viele Partien notwendig, nicht vergleichbar mit einer Elo-Berechnung.
Ich schrieb Dir ... der Zügedurchschnitt als auch die Remisquote wird heruntergehen bei längeren Bedenkzeiten.
Bin mir zwar nicht so 100% sicher aber es deutet vieles daruaf hin.
Reine Neural-Network Stats (es waren 41 NN Engines zuletzt im abgebrochenen Turnier) sind leider auch nicht mit reinen HCE Stats vergleichbar.
Vieles scheint ein wenig gedreht zu sein.

Ein Peter Martan geht wie üblich auf Gegenwehr und spielt Donquixote, ohne mal mit irgend einer aussagekräftigen Statistik selbst etwas festzustellen.

Nun wie schaut es nach nur 414 Partien aus ...

Zügedurchschnitt liegt bei 86 ... anstatt 95 vorher (Verursacher sind draußen)
Remisquote liegt bei 59,7% vorher 70,5%

Läuft alles nach Plan aber das sind auch keine großartigen Wunder, weil logisch für mich.

Remisquote sollte aber noch auf 59,0 oder gar darunter gehen. Durch längere Bedenkzeiten geht die Quote bei dieser Spielstärke nicht höher!!
Klar, die Elo-Spreizung im Feld ist größer aber auch das Buch beeinflusst ein wenig.

Also, alles OK mit dem Zügedurchschnitt wie bei 99% aller Engines wenn die Versucher gefunden sind.
Leider gehört auch Opsidian dazu.

Ich frage mich nur ...
Warum derzeit 14 Programme in so einem engen zeitlichen Ablauf gleichzeitig verusachen.
Was stimmt da nicht?

Setzt man die alle in ein Turnier, die ganzen Versucher ... ist der Zügedurchschnitt um 20 Züge höher als wie gesagt 99% aller Engines durchschnittlich produzieren.
Das ist so auffällig und dann stellt sich die Frage warum ist es so!

Immerhin sind 14 Programme der TOP-41 betroffen.
Auch wenn es so scheint das es zwei Schwerpunkte für diesen Tatbestand gibt wären beide unnötig.

---

Remisquote ist klar ... geht durch mein Buch um 3-4% zurück im Vergleich zu vorherigen Buch weil ein wenig optimiert.
Ansonsten ca. gleich, deswegen geringer weil Elo-Spreizung höher

Zügedurchschnitt ist auch klar ... Verursacher sind draußen.

Unklar ... geht bei längeren Bedenkzeiten Zügedurchschnitt und Remisquote nach unten?
Bin mir hier zu 70% sicher ... ja
Weil mehr entscheidende Züge gefunden werden, die den Partieausgang beeinflussen (entgegen früherer Meinung).

Forschen macht Spaß ... war noch nie anders!
Parent - By Frank Quisinsky Date 2023-12-30 11:50 Edited 2023-12-30 12:22
Remisquote ist interessant ...
Habe ein Turnier aus dem Jahr 2008 von mir gefunden bei dem die Partiezahl ausreichend ist.
Es waren nur 16 Programme am Start, die waren ca. 280 Elo voneinander weg.

Vergleiche ich die Remisquote:
In meinem letzten Turnier bei ca. 270 Elo von Platz 1-41 = 70,5% ... 41x NN zuletzt am Start.
Seinerzeit bei 280 Elo von Platz 1-16 = 67,1% ... der Zügedurchschnitt seinerzeit bei 83,5% ... heute üblich 85-86%

Remisquote und Zügedurchschnitt steigen bei höheren Spielstärken an aber nur leicht und eigentlich immer synchron.

Kann ich schön feststellen, weil ich immer ohne Aufgabefaktoren spielen lasse.

Also, hoher Zügedurchschnitt heute ist hausgemacht was ja gerade sehr offensichtlich wird.
Hohe Remisquote ist nach wie vor entsprechend der höheren Spielstärke völlig normal.

Schrieb ich hier aber schon mal vor 3-4 Jahren, als die Remisquote hier ein größeres Thema war.
Parent - By Peter Martan Date 2023-12-30 12:12 Edited 2023-12-30 12:41
Frank Quisinsky schrieb:

Gebe Dir mal ein einfaches Beispiel.

Frank, gib mir bitte kein weiteres Beispiel, weder ein einfaches noch ein anderes, weil ich könnte dir natürlich auch noch und noch Beispiele geben, wie man's anders machen könnte, die Meisten machen's (ganz) anders und das hat seine Gründe.
Wenn du darauf beharrst, dass die Engine dasjenige ist und das Einzige sein soll, was auf den Zügedurchschnitt Einfluss nehmen darf, dann übersiehst du damit hartnäckig, dass sie das viel besser kann, wenn du ihr übers GUI die Möglichkeit gibst, Remis und Aufgabe über die Evals anzubieten.
Die (Evals) kommen ja trotzdem und erst recht nur von der Engine, das GUI macht nichts anderes, als darauf so zu reagieren, wie du's einstellst, Remis- und Aufgabefaktor auf "nie" zu setzen, ist genau so reine Willkür, wie jeder andere Wert und Einfluss nimmt das GUI dann eben genau so und quantitativ am meisten, weil es damit die Engines zwingt, so lange weiterzuspielen, wie sie irgendeinen Grund dazu haben. Den haben sie bei optimalen Einstellungen, (mit dem Contempt herumzubasteln, ist erst recht eine willkürlich vom User gewählte Einstellung und du nimmst sie auch übers GUI vor)  je länger, je weniger die gegnerische Engine ihr Gelegenheit gibt aufzuhören, und auch die könnte das natürlich viel besser, wenn sie Remis und Aufgabe anbieten könnte.
Es hängt also dieser Wert, den du so (ohne Adjudizierungen anhand der Evals) ermittelst, mehr von allen anderen Faktoren ab, als der, den du mit Partielängen ermittelst, die anhand der Evals abgeriegelt werden.
Wenn mich der Zügedurchschnitt überhaupt intessierte (was er nicht wirklich tut, schon deshalb nicht, weil er noch mehr von den übrigen Bedingungen abhängt, als alles Andere) dann höchstens einer, der mit Aufgabe- und Remisfaktor erspielt würde, weil in den ginge wenigstens auch die Möglichkeit der Engine ein, Remis und Aufgabe überhaupt anzubieten.

Das war für heuer das letzte Mal, dass ich darüber was geschrieben habe, du kannst gern dir selbst weitere Beispiele dafür bringen, was für deine Welt des Engineschachs zählt, ich gönn' sie dir ja, diese deine Welt, aber hör bitte auf, mich und Andere davon überzeugen zu wollen, dass es die einzig richtige oder gar die einzig existierende Welt ist.
Oder auch nur, dass sie irgendwie mit der Welt der Anderen vergleichbar wäre, natürlich kannst du sagen, dass das, was du als Zügedurchschnitt bestimmst, dasjenige ist, was "Spielstil" für dich schlechthin definiert, aber dann müsstest du zumindest zur Kenntnis nehmen, dass diese deine Definition mit dem, was Andere unter "Spielstil" verstehen und mit dem, was Andere als Zügedurchschnitt ermittlen, wenig bis gar nichts zu tun hat.
Parent - By Stefan Pohl Date 2023-12-31 07:26
Peter Martan schrieb:

dann frage ich mich halt schon auch (dich hab' ich das in dem Zusammenhang auch schon mal gefragt, wenn du dich erinnerst) wie gut statistisch abgesichert deine Zügedurchschnitte sind (merke: ein Durchschnitt von Zahlenwerten allein sagt nichts über die Irrtumswahrscheinlichkeit dieses einen Wertes aus). Wie groß ist die error bar deiner Zügedurchschnitte?


Ja, das ist ein wichtiger Punkt. Eine Errorbar für Zügedurchschnitte haben wir natürlich nicht, aber die Argumentation ist prinzipiell richtig. Genau deshalb spielt jede Engine bei mir 15000 Partien. Eben weil sich solche Einzelstatistiken wie Zügedurchschnitte oder Opfersiege-Quoten etc. noch später einpendeln als eine Spielstärke/Elozahl. Das kennt man ja aus normalen Ranglistentests: Wenn eine Engine ein Gauntlet gegen diverse Gegner spielt, muß man relativ wenige Partien spielen, wenn man nur das Gesamtergebnis der zu testenden Engine statistisch halbwegs ordentlich haben will. Will man aber auch statistisch stabile Einzelergebnisse in den eizelnen head-to-heads des Gauntlets, braucht man ein Vielfaches an gespielten Partien. Derselbe Effekt.
Up Topic Hauptforen / CSS-Forum / Obsidian

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill