Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Könnte mal jemand schnell etwas testen?
- - By Frank Quisinsky Date 2023-12-25 19:21
https://www.amateurschach.de/fling/index.html

Über dem Schachbrett die Auswahlbox.
Dauert etwas, werden fast 12.000 Partien geladen.
Seht Ihr eine leere Auswahlbox und wenn ihr darauf klickt dann die Liste mit den Partien?

Glaube ich habe etwas zerschossen und sehe immer gleiches wenn ich die Seite online aufrufe.
Sehe derzeit nur Böhmische Dörfer, shit html.
Parent - - By Peter Martan Date 2023-12-25 19:25 Edited 2023-12-25 19:30 Upvotes 1
12864 Partien zur Auswahl, Frank, und sowohl die erste als auch die letzte davon lassen sich darstellen, eine in der Mitte hab' ich auch noch probiert, funktioniert bei mir alles wie es soll. Bis sich die site aufgebaut hatte, hat's ein bisschen gedauert, vielleicht eine gute Minute lang.
Parent - - By Frank Quisinsky Date 2023-12-25 19:29
Puh ...
Danke Peter ...
Und wenn Du eine beliebige Partie in der Liste anklickst wird die auch geladen?
Gehe davon aus?!

Bin die ganze Zeit am friemeln, dass die erste Partie in der Auswahlbox angezeigt wird.
Sonst weiß ja niemand wie er die Partien laden kann.
Kann in der Ecke oben rechts keinen Hinweis anbringen, dann geht mir jedesmal der Code hops.
Bin einfach zu blöd dafür, egal.
Parent - - By Peter Martan Date 2023-12-25 19:31 Upvotes 1
Ja, wie gesagt, die erste und die damals letzte und eine in der Mitte haben sich aufschlagen lassen.
Parent - By Frank Quisinsky Date 2023-12-25 19:42
Dank Dir nochmals!
Dann läuft das ...
Parent - By Frank Quisinsky Date 2023-12-25 20:00 Edited 2023-12-25 20:04
Hi Peter,

ach so (Ladezeiten) ... ist klar.
Da werden 50Mb geladen wegen über 12.000 90-Minuten Partien.

Werde beim nächsten Turnier ein wenig tricksen.
Nur die Partien der laufenden Runde werden geladen, dann werden maximal 4Mb geladen (ca. 4MB an PGN Daten bis zum Ende einer Runde).
Die anderen Partien können dann immer gesammelt heruntergeladen werden.
Die Links zum neuen Turnier werde ich noch auf der Seite ändern.

- Logos werden nicht alle dargestellt, da ich nur die Engine Logos von dem kommenden Turnier im Verzeichnis habe.

Das Turnier startet am 27.12.2023 um 23:45!
Dann läuft sicherlich alles so gut es irgend geht.

Im Grunde auch nur Spielerei ... ABM speziell für mich.
Norman Schmidt wünschte sich die Seite, zumal er die mal selbst erstellt bzw. optimiert hat.
Mit diesem Wunsch machte er mir keine große Freude, habe die Schnauze voll von Webseitenkram!!
Aber das hier ist nicht wirklich viel Arbeit wenn es denn läuft, läuft ja jetzt und gut ist.

Viele Grüße
Frank
- - By Peter Martan Date 2023-12-26 18:07 Edited 2023-12-26 18:19
Danke übrigens für den Downloadlink zu deinen Eröffnungsstellungen, Frank, den du auf Talkchess veröffentlicht hast.

https://talkchess.com/forum3/viewtopic.php?p=956465#p956465

Hab gleich mal, weil das ja unser Thema war, SF gegen Dragon damit (den ersten 250 der feobos-6m-v2.1) mit Farbwechsel eine weitere Runde 3'+1" (was ja den Elo- Abstand wieder erhöht, wie wir an den Vorversuchen genau dieser beiden Engines in den anderen head to head matches mit den längeren TCs von 25'+5" gesehen haben) single thread laufen lassen:

Score of Stockfish_23120210 vs Dragon-3.3: 57 - 1 - 442 [0.556]
Elo difference: 39.1 +/- 9.9, LOS: 100.0 %, DrawRatio: 88.4 %
500 of 500 games finished.
Parent - - By Frank Quisinsky Date 2023-12-26 18:46 Edited 2023-12-26 18:56
Hi Peter,

zunächst:
Ich teste ja mit SF16. Du ja eher mit den letzten dev Versionen.
Vielleicht liegt der Unterschied auch darin begründet das ich einen stärkeren Dragon sehe.
Aber ich bin absolut davon überzeugt das Dragon im Vergleich zu Stockfish mit mehr Zeit an Spielstärke zulegt.

Ein paar Infos zu den Eröffnungsstellungen:
So groß sind die Unterschiede zu meiner Test EPD, die 9 Züge tief geht, nicht. Ich habe in der 9-Züge Datenbank schon kräftig ausselektiert aber das kann man auch mit der von mir angebotenen 6-Züge Datenbank machen. In dem man einfach einige Match-Konstellationen über die 3.698 Stellungen jagd. So kann sich dann jeder seinen Test-Set selbst zusammenstellen. Zum Beispiel: Test-Set zu Stockfish-Dragon, der dann eine unglaubliche niedrige Remisquote hat. Nach meinen Test-Ergebnisse würde dann ca. zu 65% dieser Stockfish-Dragon Test-Set auch deutlich niedrigere Remisquoten bei anderen Match-Konstellationen von TOP-Engines erzeugen. Gibt aber ein paar harte Nüsse wie Seer, Minic, Arasan die sich nicht beeindrucken lassen und dann doch wieder eine hohe Remisquote mit einem Stockfish-Dragon Test-Set erspielen.

Wenn ich die 41.614 FEOBOS Positionen auf 6 Züge kürze und dann die Zugumstellungen heraushole und ferner dann noch ein paar NN Engines hohe Evals ausselektieren lasse bleiben 33.000 Stellungen übrig. Dann ist natürlich alles drin von A00-E99 aber auch die vielen Varianten die sehr remisträchtig sind. Die hier angebotene Datenbank mit 3.698 Positionen ist ja mehr oder weniger schon das Ergebnis aus meinen Engine-Engine Partien, bei welcher der Postionen es zu kurzen Gewinnen gekommen ist. Also die bisherigen Sahnestücke der FEOBOS Datenbank gekürzt auf 6 Züge.

Habe auch eine Statistik zu verwendeten der 41.614 FEOBOS Positionen zur Remisquote.
Im Laufe der Jahre sind viele der Positionen schon x-mal angespielt wurden.

So habe ich z. B. auch einen Test-Set von den FEOBOS Positionen kreiert, bei denen die Remisquote niedrig war.
Nur sind Eng-Eng Ergebnisse mit dem Test-Set der kurzen Gewinne produktiver und erzeugen auch einen wesentlich niedrigeren Zügedurchschnitt.
Daher habe ich von der Idee Abstand genommen, möglich viele Partien zu den jeweils 41.614 FEOBOS Positionen zu sammeln.

Ich denke die kleine 3.698er Datenbank ist ne nette Arbeitsdatenbank um sich einen Wunsch-Test-Set ausgeglichener Positionen zusammenzuschustern!!

Gruß
Frank
Parent - - By Peter Martan Date 2023-12-26 19:07 Edited 2023-12-26 19:17
Ohne dieses Fass noch einmal allzu weit aufmachen zu wollen, Frank, die Unterschiede zu meinen Matches hatten wir ja schon zur Genüge, aber 2 Sachen spielen halt auch einfach eine nicht zu verachtende Rolle:
Farbwechsel finde ich persönlich gerade bei irgendwie willkürlich ausgewählten (und andere haben ja keinen Sinn mehr heutzutage) Stellungen halt schon für wichtig, um die Unausgeglichenheit, die die Stellungen zwangsweise irgendwie haben (die Grundstellung hat auch einen Anzugsvorteil) doch irgendwie von beiden Seiten zu beleuchten.
Und dann sind die 766 Partien, die die beiden Engines in dieser deiner Liste haben

https://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=167549#pid167549

selbst in diesem bunten Teilnehmerfeld (aber auch gerade da, weil ja die Partien der beiden direkt gegeneinander halt nur ein kleiner Teil sind) zum Schluss einen Elo- Unterschied von 4 bei einer error bar von 14, da ist zuviel Zufall drin, small sample size, selbst wenn die Gesamtpartiezahl beachtlich ist. Natürlich kann sich da dann sogar das Ranking zwischen den beiden auch einmal umkehren, wie du selbst dann noch geschrieben hast, 2 Engines raus und schwupps, Dragon ist Nr.1.
Es fehlt die statistisch abgesicherte sogenannte likelihood of superiority. 4 Elo sind in 14 ein paar Mal drin, auch ohne, dass du Partien willkürlich rausnimmst, hätte das rein zufällig andersrum ausgehen können zwischen den beiden Engines unter diesen Bedingungen mit dieser Partiezahl.

Dragon kommt selbst bei den noch ausgeglicheren Stellungen, die ich hier zuletzt verwendet habe (ganz unten im Posting)

https://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=167461#pid167461

immer näher an SF heran, in der letzten EloStat- Auswertung sind's auch nur mehr 6 Elo Unterschied, aber halt auch bei einer error bar von -4+9, das ist aber immer noch relativ weniger Zufall als 4 Unterschied bei 14 error.
Sorry, ist halt so, just my two cents,
Parent - - By Frank Quisinsky Date 2023-12-26 19:29 Edited 2023-12-26 19:32
Hi Peter,

ich verstehe was Du meinst und ich dachte das auch immer ...

Aber bei statistisch gesehen vielen Gegnern sind deutlich weniger Partien notwendig, um so eine Art Elo zu erzeugen, die wir kopfmäßig als ultimativ betrachten könnten (auch wenn es das mathematisch nicht gibt und auch nur zu den verwendeten Bedingungen).
Es kommt auch immer auf das Anspruchsdenken an ... mein Anspruch war nie eine möglich niedrige Error bar zu erzeugen. Und das kann auch nicht mein Anspruch sein, weil mich Blitz nur für diverse Simulations-Ergebnisse interessiert.

Wenn Du z. B. die Runden-zu-Runden Ergebnisse betrachtest, das hat Klaus Wlotzka bei den FCP-Turnieren sehr schön herausgearbeitet, dann verschwinden ganz schnell Dinge, die über Jahre hinweg im Kopf herumgeistern.
Es gab bei jedem FCP-Turnier nach 2.000 Partien eine von 41 Engines, die Katz und Maus gespielt hat. Da gingen unglaublicher Weise nach selbst 40 der 50 gespielten Runden die Prozente nach unten. Das hat gar mal Wasp erwischt.
So verlor Wasp nach 1600 Partien zu 2000 Partien fast 20 Elo. Aber das passiert so selten.

Testest Du nur mit wenigen Gegnern schaut das ganz anders aus.

Ein Beispiel: Ich habe zwei Engines kürzlich aus dem laufenden Turnier geholt und durch 2 andere ersetzt. Superultra sagt danke und legt dramatisch an Elo zu.
Selbst bei 41 Gegnern ... und so veränderten sich gar die Platzierungen in der Tabelle der 41 Teilnehmer signifikant.

Ich habe Stockfish und Dragon auch in vielen meiner Blitz-Test-Turniere drin. Blitz setzte ich nur ein, wenn ich etwas rund um die FEOBOS Stellungen teste oder etwas simulieren möchte.
Da ist der Unterschied zwischen v16 bei Stockfish und v3.2 bei Dragon eigentlich immer gleich bei ca. 40 Elo.

Ich verstehe was Du schreibst aber das ist nicht so wirklich mein Thema.
Eher die Spielstile und nicht 20, 40, 100 oder gar 200 Elo-Unterschied zwischen den Engines.
Was mich maßgeblich interessiert ist das Mittelspiel und aggressive Spielstile und alles andere dahinter ... der Sack Reis in China.

Viele Grüße
Frank
Parent - By Frank Quisinsky Date 2023-12-26 19:44 Edited 2023-12-26 19:51
Ach so ... deutet nach den Rundentabellen auch nichts darauf hin, dass sich der Abstand von SF zu Dragon deutlich erhöhen könnte.
In der Regel passiert das nur, wenn eine Engine bei den Rundenergebnisse dazu neigt öfters stark zu schwanken.

Also z. B. in einigen Runden um Platz 10 lag und in anderen Runden um Platz 20 lag.
So interpretierte ich eigentlich immer das, was ich aus den Excel Stats von Klaus rausgelesen habe.
Wenn es denn wirklich dazu kommt das eine Elo stark fällt oder steigt.

Auch passiert das eher nicht bei Engines, die sehr weit oben oder unten im Feld stehen.
Eher bei Engines, die in der Mitte stehen.

Hat etwas von besser wissen, aber es ist immer Gleiches was ich hierzu sehe und ich mache das ja schon sehr lange.
Wäre es anders würde ich dazu ja auch schreiben.

Aber wo Du absolut Recht hast ...
640 Partien ist wenig ... es sollten schon so 800-1200 mind. sein.
Nur ich habe auf dieses blöde Turnier keinen Bock mehr.
Wollte schon vor einen Monat abbrechen aber das wäre auch nicht korrekt weil viele beobachteten.

Heute Nachmittag wollte ich mir dann die letzten Partien von Obsidian ansehen ... eine ging 380 Züge und die andere lief auch schon über 200 Züge, eine dritte lief von den 16 laufenden auch noch und war bei 160 Züge.
Bin froh wenn die ganzen Krampf Engines beim nächsten Turnier raus sind.

Diese dämlichen Schlechten-Läufer Endspiele, damit haben so viele Engines Probleme.

Wenn 10 oder mehr Engines im Turnier sind, die nicht aufhören wollen zu spielen ist das Event dahin ...
Das macht dann absolut keinen Spaß mehr.

Wird sich beim kommenden Turnier drastisch ändern!
Parent - - By Peter Martan Date 2023-12-26 19:48 Edited 2023-12-26 19:53
Frank Quisinsky schrieb:

Aber bei statistisch gesehen vielen Gegnern sind deutlich weniger Partien notwendig, um so eine Art Elo zu erzeugen, die wir kopfmäßig als ultimativ betrachten könnten (auch wenn es das mathematisch nicht gibt und auch nur zu den verwendeten Bedingungen).
Es kommt auch immer auf das Anspruchsdenken an ... mein Anspruch war nie eine möglich niedrige Error bar zu erzeugen.

Möglichst niedrig geht nur mit unendlich vielen Spielen, kleiner als der Unterschied sollte sie halt sein, weil sonst auch die Reihenfolge nicht wirklich gesichert ist.
Das größere Teilnehmerfeld (je nachdem, welches, mit lauter SF- Branches und ein paar Lc0- Versionen mit verschiedenen Netzen z.B. wieder weniger, da kannst du soviele "verschiedene" nehmen, wie du willst, sind halt einfach kleinere Unterschiede zwischen den Engines, und nimmst du ein zu unausgeglichenes Feld, profitieren die Starken gleichermaßen zu sehr von den Schwachen, um gegeneinander dadurch wieder besser unterscheidbar zu werden) hilft die Elo zu spreizen, aber die error bar steigt genau so mit, wie mit 1:1- Paaren bei stark unausgeglichenen Eröffnungen.
Und die Hardware- TC ist auch nur umgekehrt proportional spreizend (in bestimmten Grenzen und nicht linear) und aber auch bei ihr wächst der error mit, bis die halt auch für dieses Verhältnis ausreichende Partiezahl erreicht ist.
Es kommt auf die Teilnehmer, die Eröffnungen und die Hardware- TC an, und je nach diesen Bedingungen müssen dann die Partiezahlen so groß sein, dass die Unterschiede in Elo, Performance- Prozenten oder Punkten (für das einzelne Turnier ist es ja egal, welches Maß zu für das relevanteste hältst, die Elo sind ja auch nicht übertragbar auf das nächste andere Turnier, da kannst du die Unterschiede genau so gut anders messen, wenn du die error bar halt dann auch für dieses Maß berechnest) die jeweilige korrespondierende Irrtumswahrscheinlichkeit wenigstens übersteigen.
Parent - - By Frank Quisinsky Date 2023-12-26 20:09 Edited 2023-12-26 20:21
Peter,

ja aber wenn die Reihenfolge gesichert ist (schaue mal bei meinem Turnier wie eng Clover, rofChade, Revenge und Uralochka zusammenliegen) dann kommt ein einziges Engine Update und alles schaut wieder anders aus.
Eine gesicherte Reihenfolge gibt es im Grunde nicht wirklich, wenn die Unterschiede so gering sind. Lohnt nicht dafür Strom zu verschwenden. Auch wenn durch viele Gegner Unterschiede deutlicher werden.
Zumal kleine Beeinflussungsfaktoren wie Zeit eh wieder andere Reihenfolgen produzieren.

Bin einfach davon schon sehr lange weg.
Ist mir also scheiß egal ob Uralochka auf Platz 8 oder 12 steht. Ich weiß das Ding ist stark und gehört zu den TOP-20.
Wenn ich ergänzend weiß, dass dieses Teil eine Zertrümmerungsmachine nach den Eröffnungszügen für schwächere Engines ist, weiß ich doch schon viel.

Und so setzt sich mit immer mehr Stats ein Bild zu einer Engine zusammen.
Spielt langweilig aus der Eröffnung, hat die gleichen Stärken im Endspiel wie so viele andere ... etc.
Dann vergebe ich ein Minus oder ein Plus und mehr muss ich nicht wissen.

Die Engines mit vielen Plus interessieren mich logischer Weise ... für Elo vergebe ich noch nicht mal ein Minus oder ein Plus.
Weil in der Regel eine hohe Elo nicht gleichbedeutend ist mit ... alles ist perfekt, oder besser was ich gerne sehen würde wird tatsächlich auch produziert.

Viele Grüße
Frank

So, die letzten drei Partien vom Turnier laufen ... eine läuft schon 260 Züge ... die kann noch 200 Züge gehen.
Eine 170 und eine 140 Züge ...

Nur 140 Züge, das geht bald als Kurzpartie durch!
Parent - - By Frank Quisinsky Date 2023-12-26 20:46
Werde dafür sorgen, dass verschiedene Engine Programmierer Besuch von Frau Holle bekommen.
Die sorgt dann dafür, dass auf deren eigenen PCs keine Partie mehr mit Aufgabefaktor läuft.
Das wird ganz streng kontrolliert, keine Pizza mehr beim Programmierern und so Scherze.

Die müssen das selbst sehen was produziert wird!

Dann gehen die zum Kleiderschrank, ziehen ihre Kampfrüstung an, schreiten zum PC, und programmierern was das Zeug hält.
Machen ein paar Updates und präsentieren sich dann in der Form: Mein Name ist Hase, ich weiß von nichts.



Wie z. B. bei Torch ... schaue Dir den Zügedurchschnitt bei Stefan Pohl an.
Dann schaue Dir den Zügedurchschnitt bei Berserk, Ethereal und Koivisto an.

Da war Frau Holle schon ... mein Name ist Hase!
Parent - - By Stefan Pohl Date 2023-12-27 07:05 Edited 2023-12-27 07:16 Upvotes 1
Frank Quisinsky schrieb:


Wie z. B. bei Torch ... schaue Dir den Zügedurchschnitt bei Stefan Pohl an.
Dann schaue Dir den Zügedurchschnitt bei Berserk, Ethereal und Koivisto an.


Ich gebe nur mal zu bedenken, daß sich bei mir die Zugdurchschnittsangaben (des EAS-Tools) nur auf die Gewinnpartien beziehen. Denn ich bin - im Gegensatz zu dir - der Meinung, daß eine lange Remispartie einer Engine nichts Schlechtes ist. Ein schlechtes Remis (bad draw) ist für das EAS-Tool etwas ganz anderes. Eher das Gegenteil. Frühe Remisen (bezogen auf die Materialmenge, nicht die Zugzahl!) sind für das EAS-Tool etwas Schlechtes. Und Remisen, wo eine Engine schon Materialvorteil in der Partie hatte (verienfacht ausgedrückt). Denn ich finde, eine Engine sollte ein Remis nicht bei vollem Brett anstreben, wenn es nicht sein muß (bei Materialnachteil in der Partie ignoriert das EAS-Tool die Frage, ob das Brett bei Remisschluß noch voll oder eben nicht mehr ist). Wenn man nun aber - wie meine Wenigkeit - der Meinung ist, daß eine lange Remispartie nichts Schlechtes ist, eine lange Gewinnpartie (= umständliches Spiel zum Sieg) aber eben schon, dann ist klar, daß es nicht sinnvoll ist, alle Partien einer Engine zur Ermittlung der durchschnittlichen Partielänge heranzuziehen, sondern eben nur die Gewinnpartien. Was das EAS-Tool eben auch genau deswegen so macht.

Ich weiß, dich stört primär daran, daß die Partien sich manchmal sehr ziehen. Aber, wenn du eine Bedenkzeit nimmst, die eine rel. hohe Basiszeit und einen kleinen Fischerbonus beinhaltet (wie mein 3min+1sec (Verhältnis hier 180:1)), dann dauern Partien mit sehr vielen Züge (lange Remispartien...) gar nicht soooo viel länger als kurze Partien, weil das Spieltempo sich in der Partie ja immer weiter steigert, bis die Engines im Takt des Fischerbonus/Inkrements ziehen müssen:
Wenn ich in meine Datenbanken schaue, dann verbrauchen die Engines zu Partiebeginn und im Mittelspiel gut 4-6 Sekunden pro Zug (im Schnitt). Und, wenn die Partie lange dauert (in Zügen!) fällt die Bedenkzeit im Schnitt (logischerweise) auf ca. 1 Sekunde pro Zug (= dem Inkrement). Ergo dauern die ersten 40-50 Züge der Partie so um die 6 Minuten. Aber: Eine Endlospartie, wo die Engines danach noch 100 Züge mit 1 Sekunde pro Zug spielen, dauert dann nur noch 3.3 Minuten länger (100 Züge = 200 plies = 200 Sekunden = 3.3 Minuten). Ob eine Partie also 50 oder 150 Züge dauert, verlängert den Zeitverbrauch dieser Partie nur um gut 50% (obwohl die Partie in Zügen gerechnet 3x länger ist !!!). Wenn man eine vernünftige Bedenkzeit wählt, also eine mit hoher Basiszeit und kleinem Inkrement.

Es gibt da ein nettes Tool, das den Bedenkzeitverbrauch von Partien mittelt und anzeigt. Kannst du dir von meinem GoogleDrive runterladen, falls du das noch nicht hast:
https://drive.google.com/file/d/1tPPqkRkfbilLUbscxUE8nvinhehbVddH/view?usp=sharing
Ich weiß aber nicht, ob es auch mit ShredderGUI-Partien funktioniert. Mit meinen cutechess-cli Partien geht es jedenfalls. Es ist aber leider recht langsam. Ein paar Tausend Partien zu mitteln dauert gerne mal ein paar Minuten...
Parent - - By Frank Quisinsky Date 2023-12-27 08:32 Edited 2023-12-27 08:34
Hi Stefan,

vielen Dank das Du dir die Zeit genommen hast.
Ist klar was Du schreibst zu der Zeitkontrolle.
Unternehme einiges beim kommenden Turnier, um von meiner Seite selbst zu drücken.

Nur woher kommen denn die plötzlichen und wundersamen vielen langen Partien, die nur einige Engines produzieren?
Schaue 2 Jahrzehnte auf Züge Durchschnitt und erinnere mich sehr gut daran, als ich mir die Frage stellte, was macht der Programmierer von Demolito.
Er schaffte es einen Züge Durchschnitt von knapp über 100 zu produzieren. Das sah ich in vielen Jahren zuvor nicht.

Und wie durch ein Wunder tummeln sich heute viele Programme mit solch einem deutlich höheren Partiedurchschnitt in den TOP-50?

Das von Dir erwähnte Tool schaue ich mir gern an.
Glaube ich habe so ein Tool in meinem Stat Verzeichnis aber einige Jahre nicht mehr benutzt.

Fest steht, dass wie von Dir beschrieben durch die Bedenkzeit etwas geändert werden kann.
Nur gebe ich zu Bedenken, das ich immer x Züge in x Minuten verwendet habe und ich mich wirklich wundere das plötzlich so viele
Programme so viele langen Remis Partien produzieren.

Zu den schlechten Remisen ...
Nun es gibt auch die folgende Konstellation:

Eine Engine hat Probleme mit Endspielen, sind ja hier nicht alles auf höchsten Level.
Da macht es Sinn Endspiele, wenn möglich früh zu vermeiden und früh in ein Remis zu gehen, wenn denn kein Vorteil aus Mittelspiel erkennbar ist.
Ich will Dir jetzt nicht sagen, wen ich diesen Vorschlag mal unterbreitet habe, und es funktioniert.

Ja, lange Gewinnpartien müssen betrachtet werden.
Oft ist es so, dass es einfach daran liegt, weil die Programme Probleme mit der Distanz zum Matt haben.

Beispiel:
Programm hat noch König und Turm und 2 Bauern. Spielt aus den Endspieldatenbanken bzw. greift darauf zu.
Dann wird der Turm gegeben, ein Bauer umgewandelt und auch diese Figur gegeben, um dann nach der Umwandlung des letzten Bauern Matt zu setzen.
Da haben sich einige offenbar drauf spezialisiert. Caissa, rofChade ... einige andere sah ich mit solchen Partien. Und Bingo der Züge Durchschnitt der Gewinne geht hoch.

Also, bei den Remisen muss man im Detail schauen.
Wenn eine Engine die im Endspiel nicht auf dem absoluten TOP-Niveau unterwegs ist, früh ein Remis sucht ist das eher richtig als falsch!
Wenn denn z. B. das frühe Mittelspiel eine Stärke ist und kein Vorteil erspielt werden konnte, muss der Gegner stark sein.
Insofern kann man den halben Punkt einfahren und muss nicht noch das Endspiel erzwingen, um den halben Punkt zu verlieren.

Kommt immer darauf, an welche Stärken und Schwächen die Programme haben und in der Regel wissen das die Programmierer und arbeiten trickreich.

Aber für diese vielen unnötigen langen Remis Partien muss es Gründe geben.
Das gab es noch nie und ist hausgemacht, hat nichts damit zu tun das generell die Spielstärke höher geht ... wenn denn andere Programme die in den Bereichen liegen eine völlig normale Partielänge erspielen.

Viele Grüße
Frank
Parent - By Stefan Pohl Date 2023-12-27 09:15 Edited 2023-12-27 09:19
Wenn du auf eine zeitgemäße GUI umsteigen würdest, also die Cutechess GUI z.B., dann kannst du dir die 5- oder auch die 6-Steiner Syzygy auf die Platte legen und cutechess beendet alle Partien automatisch, sobald nur noch 5 bzw. 6 Steine auf dem Brett sind. Das kann schon einige lange Endspielgeschiebe-Partien vermeiden bzw. deutlich verkürzen.

Die 3-5-Steiner sind ja sehr klein, ca. 1GB.
Die 3-6 Steiner leider nicht: 150 GB

Aber Ed Schröder bietet sie wohl gerade zum Download an (ich mußte das seinerzeit mit einem Torrent machen, was recht umständlich war und auch immer die Gefahr birgt, sich einen Virus einzufangen.):
https://drive.google.com/drive/folders/115hOg42ZzhgxXy7Mtd--81su3eL39YBJ?usp=drive_link

Die cutechess GUI setzt auf cutechess-cli auf (was ich ja benutze) und ist daher zwar recht spartanisch, aber sie läuft dafür extrem stabil (und für normale Testruns braucht man ja die ganzen Features nicht, die FritzGUI, ShredderGUI und Co sonst noch so anbieten). Den ganz neuen Versionen (1.3 und höher) traue ich persönlich nicht so Recht. Nimm V1.2, die ist sehr stabil:
https://github.com/cutechess/cutechess/releases/tag/1.2.0
Parent - - By Stefan Pohl Date 2023-12-27 09:24 Edited 2023-12-27 09:33 Upvotes 1
Frank Quisinsky schrieb:


Nur woher kommen denn die plötzlichen und wundersamen vielen langen Partien, die nur einige Engines produzieren?


Ein Grund ist die Umstellung auf nnue-Netz Bewertungsfunktion, meine ich. Wir kennen das schon von Lc0, das Engines mit Neuralnetz tendenziell eher etwas umständlicher spielen. Engines mit HCE spielen einfach stringenter.
Siehe dazu meine full UHO-Ratinglist, die eine einzige Engine mit HCE enthält, nämlich "Stockfish final HCE", also die letzte Version vor Umstellung auf das nnue-Netz. Und nun schauen wird auf die Stats des EAS-Tools bzgl. der Partielänge (nur Gewinnpartien!) :

C: Very short wins (45 moves or less)       :
(1) 04.86% Stockfish final HCE  
(2) 04.65% Uralochka 3.40a avx2  
(3) 03.72% Slow Chess 2.9 avx2  
(4) 03.60% Stockfish 16 230630  
(5) 02.75% Stockfish 15.1 221204 

D: Most short wins overall                  :
(1) 31.15% Stockfish final HCE  
(2) 28.07% Torch 1 popavx2  
(3) 27.32% KomodoDragon 3.2 avx2  
(4) 27.28% Stockfish 16 230630  
(5) 25.04% Stockfish 15.1 221204 

E: Average length of all won games          :
(1) 069 KomodoDragon 3.2 avx2  
(2) 069 Stockfish 16 230630  
(3) 069 Torch 1 popavx2  
(4) 070 Stockfish 15.1 221204  
(5) 070 Stockfish final HCE

(Bei Kategorie E nur Platz 5, aber die Partielänge ist mit 70 ja trotzdem nur 1 Zug schlechter als die besten mit 69)

Dafür ist Stockfish final HCE aber bei den bad draws auf dem allerletzten Platz, mit dem unterirdischen Score von fast 25%: 24.59% bad draws (also Remisen vor dem Endspiel und Remisen, wo Stockfish (zwischenzeitlich zumindest) in der Partie Materialvorteil hatte). Auch das ist durchaus typisch: HCE-Engines neigen stärker zu frühen Remisen als nnue-Engines, selbst mit einem default-contempt, den Stockfish final HCE ja hat (!).
Parent - - By Frank Quisinsky Date 2023-12-28 01:09
Sehr gut Stefan,

ich kannte diese / Deine Stats rund um SF HCE noch nicht.
Ganz unabhängig von dem, was Du geschrieben hast ...
Hatte vor ein paar Tagen zufälligerweise entschieden die letzte SF Version 200731 (also vor NN) ins Turnier zu holen anstatt SF 13 (letzte offizielle Version mit Contempt).
Ich habe aber Contempt = 0 gesetzt.

An der Stelle als die Stockfish Entwickler Contempt herausgenommen habe, gab es auch einen Hinweis warum.
Auch das wusste ich nicht. Offenbar haben die keine Lösung gefunden wie Contempt mit Neural Network reibungslos funktioniert und haben dann die letzte HCE-Version empfohlen wenn Contempt genutzt werden möchte.
Genau das habe ich dann gemacht (sofern ich alles richtig verstanden habe).

Hatte immer im Gefühl, dass die Aggressivität bei Stockfish deutlich heruntergegangen ist seit den ganzen NN-Versionen.
Du bist ja auf SF spezialisiert, ich habe da deutlich weniger Wissen.

Seinerzeit war die letzte HCE-Version sehr deutlich auf Platz 1 vor Dragon. Wenn ich mir so meine letzten getesteten HCE Stockfish Versionen anschaue und mal alle Ergebnisse von längeren Partien in eine Datenbank nehme, Elo auswerte komme ich gerade mal auf 160 Elo schlechter als Stockfish 16. Also, die letzte HCE-Version von Stockfish hat ca. das Level von Fritz 19 NN. Ich bin sehr gespannt auf das laufende Turnier.

DanaSah wieder zu sehen, einige der HCE Engines drin zu haben und Hakkapeliitta war seinerzeit ein TOP-3 favorisiertes Programm von mir. DanaSah hat bei Dir auch immer sehr gut abgeschnitten. Was seinerzeit bei Dir nicht zu sehen war, waren Stats zu den Verlusten. DanaSah kann schnell gewinnen aber auch schnell verlieren, so ein bissel vergleichbar zu Fizbo. Fizbo spielt auch wieder mit. Ich brauche jetzt mal so richtig Motivation für Computerschach und pusche mir zu Recht was mir heilig war. Die vielen langen Remis Partien machten mich in den beim Zusehen mürbe. Schon wenn eine Partie bestimmter Engines gestartet wurde, ging ich zum PC und schaltete auf irgendetwas mit niedrigem Züge Durchschnitt. Wollte das dann nicht mehr sehen.

Es gibt auch lange Partien, die richtig interessant sind. Gerade lief so eine bei den ersten Partien des neuen Turniers. Da spielte Hiarcs - Midnight. Da machte es Spaß zuzusehen und die Manöver zu beobachten. Aber lange Partien mit vielen Steinen auf dem Brett sind ja bekanntlich eher selten. Und ja zu der neuen Bedenkzeit. Ich habe um 20:00 Uhr gestartet und sitze hier gebannt vor dem PC. Rubi hat schön gegen DanaSah gewonnen, Wasp hat gar einen Sieg gegen Arasan eingefahren und vor allem das mit der Zeit ist interessant. Im Endspiel wird also geblitzt und im wichtigen Mittelspiel lassen sich die Engines genug Zeit. 66 Minuten + 6 Sekunden ist geil, gefällt mir. Auch das neue kleine Buch, was ich erstellt habe, ist super. Vergleiche gerade FEOBOS stats zu gespielten Varianten aus den ersten Partien. Uralochka spielte gegen BlackCore 6. Auch BlackCore gefällt mir. Aber als ich gesehen habe welche Variante ausgewählt wurde dachte ich mir ... BlackCore wird einen BlackDay haben. Das geht niemals über 60 Züge. Nicht gegen Uralochka und nicht in dieser ausgeglichenen Variante. BlackCore war nach 56 Zügen Matt. So lange ich irgendetwas noch in dieser Form anhand Wissen über Eröffnungen oder Engines in 10% der Fälle auch mal vorhersehen kann ... so lange ist alles im grünen Bereich.

Glaube ich habe alles richtig gemacht.
Geiles Turnier, es läuft und ich bin mir zu 100% sicher ...
Das wird richtig spannend.

Dragon 3.3 (aggr) verlor in der ersten Partie gegen Rebel EAS. Ich habe keine Ahnung wie weit Dragon 3.3 (aggr.) abgeschwächt wird. Vermutlich wird RubiChess gegen Caissa um den Turniersieg spielen.
Viele schöne Partien werden erzeugt und die Engine-Welt ist wieder OK.

Viele Grüße
Frank
Parent - - By Stefan Pohl Date 2023-12-28 06:28 Edited 2023-12-28 06:32
Frank Quisinsky schrieb:


Hatte immer im Gefühl, dass die Aggressivität bei Stockfish deutlich heruntergegangen ist seit den ganzen NN-Versionen.
Du bist ja auf SF spezialisiert, ich habe da deutlich weniger Wissen.



Das stimmt so auch nicht, das Gegenteil ist der Fall. Schaut man sich alle Stats im EAS-Tool und auch den Gesamtscore an, spielt Stockfish 16 deutlich aggressiver als Stockfish final HCE:
https://www.sp-cc.de/files/uho_full_list.txt
(unterhalb der full List ist die full EAS-Liste)

SF16 (21.8%) hat deutlich mehr Opfer gespielt als SF final HCE (17.74%), dafür hat SF16 etwas weniger Kurzsiege, das stimmt schon. Aber dafür hat eben SF16 auch viel weniger "bad draws" (9.11%) als Stockfish final HCE (24.59%). Gesamtlänge der Gewinnpartien ist quasi gleich (70 bzw. 69 Züge).

Daher ergibt sich auch (folgerichtig), daß SF 16 einen deutlichen höheren EAS-Score hat (199261), was auch der absolute Bestwert in meiner full-List ist. Stockfish final HCE hat nur 124287 und liegt deutlich dahinter (übrigens auch noch hinter SF 14 und SF 15.1, die ich ja auch für die full List getestet habe).

Aber ich verstehe, warum du den Eindruck hattest, daß die NN-Stockfishe weniger aggressiv spielen. Denn beim Durchschauen der Partien ohne EAS-Tool, ist man automatisch fixiert auf Kurzpartien und stringente Gewinnführung und da ist Stockfish final HCE auch wirklich besser als die NN-Stockfishe. Aber eben nicht bei Opfer-Quoten und "bad draws"-Prozentwerten (Remisen noch bei vollerem Brett, vor dem Endspiel, vereinfacht gesagt). Aber diese - für das Gesamtbild des Spielstils der Engines sehr wichtigen - Zahlen hat man ohne EAS-Tool schlicht nicht.
Parent - - By Frank Quisinsky Date 2023-12-28 09:22
Hallo Stefan,

ja, muss mehr auf die Opfer achten anstatt nur auf die Kurzpartien.
Könnte ja in meinem ZIP File auch die Auswertungen von Deinem Tool aufnehmen?

Wäre ja auch mal interessant die Auswertungen dann von Runde zu Runde zu betrachten bzw. zu verfolgen?

Viele Grüße
Frank
Parent - - By Stefan Pohl Date 2023-12-28 15:05 Edited 2023-12-28 15:16
Frank Quisinsky schrieb:

Hallo Stefan,

ja, muss mehr auf die Opfer achten anstatt nur auf die Kurzpartien.
Könnte ja in meinem ZIP File auch die Auswertungen von Deinem Tool aufnehmen?

Wäre ja auch mal interessant die Auswertungen dann von Runde zu Runde zu betrachten bzw. zu verfolgen?

Viele Grüße
Frank


Naja, du kannst natürlich mit dem EAS-Tool machen, was du willst. Es ist aber immer folgendes zu bedenken: ca. 4/5 aller EAS-Punkte und Stats kommen ausschließlich aus den Gewinnpartien der zu beurteilenden Engine. Und da die Punktevergabe des EAS-Tools exponentiell ist (die Prozente (*100) der einfachen Bauernoper geben 5 Punkte, die Damenopfer-Partien-Prozente (*100) geben 400 Punkte, also das 80zig fache (!!!). Das muß natürlich auch so sein, weil Damenopfer viel seltener sind.)
Aus diesen beiden Tatsachen folgt nun leider, daß man für einen halbwegs stabilen EAS-Score und auch brauchbare Einzel-Stats, sehr viele Partien benötigt.
Das EAS-Tool meckert zwar erst, wenn die Engine weniger als 50 Gewinnpartien in der Datenbank hat, aber aus meiner Erfahrung heraus würde ich sagen, eine Engine sollte mindestens 300 Gewinnpartien haben, damit der EAS-Score halbwegs stabil ist. Das klingt erst mal wenig. Aber eine Engine verliert ja auch Partien und remisiert noch mehr. Wenn wir also davon ausgehen, daß eine Engine so um die 50% Score hat, und die Remisquote bei 50% liegt, folgt daraus nun aber, daß es noch 300 Verlustpartien gibt und 600 Remisen. Damit hätte die Engine dann insgesamt 1200 Partien, die sie spielen müßte, nur um 300 Gewinnpartien zu generieren...
Und, wie gesagt, 300 Gewinnpartien sind auch noch sehr wenig. Für einen wirklich zuverlässigen EAS-Score und auch gute Einzelstats, sollten es schon 1000 Gewinnpartien sein.
All diese Partiezahlen sind bei deinen langen Zeitkontrollen aber völlig utopisch, würde ich meinen.

Genau deswegen spiele ich in meiner Rangliste so extrem viele Partien (15000 pro Engine). Für ein stabiles Elo-Rating würden mir auch 5000 Partien reichen. Aber für die Gamepair-Auswertung, wo sich alle Partiezahlen natürlich halbieren (2 Partien = 1 Gamepair)  und eben besonders wegen des EAS-Tools, brauche ich so viele Partien. Denn in einem RoundRobin-Turnier, wie meiner UHO-Top15 Rangliste, hat die schlechteste Engine natürlich prozentual recht wenige Gewinnpartien:
Zur Zeit ist die schwächste Engine Uralochka 3.40a. Sie hat nur einen Gesamtscore von 36.9%. Daher hat Uralochka zwar 15000 Partien gespielt, aber trotzdem nur 1974 Gewinnpartien. Das reicht natürlich noch dicke für eine gute EAS-Auswertung. Aber viel weniger sollte es dann auch nicht sein.

Insofern würde ich dir abraten, das EAS-Tool zu benutzen. Du kannst aber natürlich stattdessen mein Opfer Such Tool nutzen, um schöne Opferpartien zu finden:
https://www.sp-cc.de/files/sacrifice_games_search_tool.7z
Parent - - By Frank Quisinsky Date 2023-12-29 12:56 Edited 2023-12-29 13:00
Hi Stefan,

schaue mir morgen alle Tools nochmals im Detail an.
Habe genug Partien oder kann schnell reichlich erzeugen wenn ich will bzw. habe genug davon.

Aber letztendlich reichen mir wirklich auch die Tendenzen aus.
z. B. bei Dir die vielen kurzen Gewinne von Uralochka.

Das sieht man auch mit deutlich weniger Partien.

Versuchte gestern mal auswerten ...
Wer ist der beste Allrounder von allen getesteten Schachprogrammen von mir.

Nutze hierfür auch wenige Stats zum späten Mittelspiel oder auch zum Endspiel.
Habe eine Excel mit 24 wichtigen Bewertungspunkten ... 22 sind ausgewertet.

1. Stockfish (hätte eher an Dragon gedacht).
2. Arasan ... völlig verblüffend für mich, dat Ding wird immer besser, denke es ist die Erfahrung die der Programmierer angesammelt hat.
3. Rebel ... genauso verblüffend für mich!
4. Dragon
5. RubiChess
6. Revenge
...
11. Wasp



Berücksichtig auch die Möglichkeiten der Programmen und alles dennoch sehr individuell nach meinen Vorstellungen bewertet.
Kann ich nicht veröffentlichen!

Wasp würde deutlich besser stehen wenn die Spielstärke im späten Mittelspiel und vor allem im Übergang zum Endspiel nicht so krass abfallen würde.
Würde ich die Bereiche ausblenden bzw. die ganzen Stats dahingehend wäre Wasp auf Platz 6.
Und bei dem was mich am meisten interessiert ist Wasp abgefallen auf Platz 3.

Und ich habe Deine Stats noch nicht berücksichtigt.
Deswegen, das schaue ich mir morgen alles an und dann noch eine Excel Geilheit an der Klaus Wlotzka arbeitet (nichts mit Schach zu tun).

Hier ist immer was los!

Mit Deinen vielen guten Hinweisen machst Du mir viel Freude!
Warum ... weil ich meist festgefahren unterwegs bin und dieses Jahr nur selten irgend etwas neues habe einfließen lassen.
Komme zeitlich nicht dazu.

Dir einen guten Rutsch!
Mache bitte weiter so ... so habe ich auch mehr Lust wenn ich mich an irgend etwas hochziehen kann was gut ist.

Viele Grüße
Frank
Parent - By Frank Quisinsky Date 2023-12-29 13:19 Edited 2023-12-29 13:48
Wäre vielleicht sinnvoll folgendes zu tun:

Bin mit der Auswahl an Engines bei meinem laufenden Turnier sehr zufrieden.
Denke ich habe vieles besser gemacht, von Buch über 6-Steiner, der Zeitkontrolle etc..
Schwächere Engines mit klassischer Bewertung rein zu holen ist ein vergleichbarer Effekt wie UHU.
Deutlich geringere Remisquote, also mehr Gewinne und was mir wichtig ist ... der Zügedurchschnitt wird wieder ganz normal aussehen.
Insgeheim hoffe ich auf 85!!

Könnte das Turnier länger laufen lassen, könnte auch alle 44 Programme drin lassen und keine drei entfernen (was der Plan war).
Muss mir dafür die Auswertungen der ersten 4 Runden ansehen.

So könnte ich dann, bei der Bedenkzeit ... eine Partie läuft immerhin 2.5 Stunden ...  innerhalb eines Jahres knapp mehr als 50-Runden erzeugen.
Also mindestens 2.000 Partien pro Engine.

Für Tendenzen reicht das mit Deinen Tools aus.
Und wer weiß was Du da noch einfließen lässt.

Wenn ich das mache kannst Du ja die Auswertungen von dem Turnier auch für Deine Seite benutzen.
Ich mache an meiner nichts mehr, wenn Du möchtest ...

Nur eine Ausnahme beim laufenden Turnier ... meine die kleine Replay-Zone.
Ist so vielleicht auch besser zu verfolgen als mit dem simplen Download der Daten.

Oder lasse es besser, sonst fühlen sich einige Herren Programmierer auf den Schlips getreten die mir derzeit nicht gut gesonnen sind.



Junge, Junge, Junge ...
Parent - - By Peter Martan Date 2023-12-28 09:06
Frank Quisinsky schrieb:

Ich habe keine Ahnung wie weit Dragon 3.3 (aggr.) abgeschwächt wird.

Stark, weil du ihm mit der Anwahl einer Personality die NNUE-Unterstützung abdrehst, die Engine spielt dann mit "Regular Eval".
Parent - - By Frank Quisinsky Date 2023-12-28 09:20
Hi Peter,

OK, dann muss ich NN aus dem Namen entfernen und das bei der durchschnittlichen Elo-Berechnung berücksichtigen.
Oder ich muss die Personality Aggr. wieder abstellen oder ich lasse MCTS spielen.

Hast Du einen Vorschlag für mich, habe bei Dragon immer nur Standard Settings eingesetzt!

Viele Grüße
Frank
Parent - - By Peter Martan Date 2023-12-28 09:34 Edited 2023-12-28 09:40
MCTS kostet jedenfalls deutlich weniger Spielstärke, der MCTS- Modus wird daher auch in vielen Listen zusätzlich geführt.
Was deinen geliebten Contempt angeht, aus der Readme:
Zitat:
Note that Contempt also works now in MCTS mode. Note that the very nature of MCTS makes it act as if a moderate value of Contempt was set, so positive settings of Contempt are reduced by 16 (not to below zero) automatically to compensate.


Jedes Setting, das du manuell mit den vielen möglichen Einstellungen vornimmst, das die Eval betrifft (z.B. Nullmove oder LMR kannst du schon trotzdem abdrehen, aber das schwächt im game playing natürlich auch stark), macht nur Sinn mit Regular Eval, weil es sich nur dann auswirkt, drehst du also NNUE nicht ab, kannst du an den manuellen Eval- Einstellungen verändern, was du willst (Ausnahme: Contempt, aber wie ich dir dazu auch schon mal schrieb, das, was er vor NNUE war, ist er auch nicht mehr, dafür gibt's zusätzlich das NNUE- Scale), es wird trotzdem gleichermaßen aus dem Netz evaluiert. Die vielen alten Settings, die ich für komodo in der Vor- NNUE- Ära hatte, kann man jetzt vergessen, was die Vergleichbarkeit der Spielstärke im eng-eng-match angeht.
Parent - - By Frank Quisinsky Date 2023-12-28 09:41
OK, habe die Readme wirklich lange nicht mehr gelesen und immer nur Standard getestet.
Dann fällt MCTS weg wegen Contempt weil Dragon dann sicherlich aufgrund Zügedurchschnitt nach Runde 6 draußen wäre.

Nach Runde 4, 5, 6 ist jeweils die Engine mit dem höchsten Zügedurchschnitt draußen.
So das dann nach Runde 6 mit den üblichen 41 Engines zu Ende gespielt wird.

Also verbleibt Dragon 3.3 NN Standard zu testen oder Dragon 3.3 (aggr.).
Dann muss ich beim Namen NN rausholen und Dragon schätzungsweise um 200 Elo bei der Berechnung abschwächen.
Oder ich teste etwas anderes bei Dragon?

Was meinst Du ...
Wahrscheinlich bei dem Teilnehmerfeld intererssant alles so zu belassen.
Stockfish spielt auch ohne NN.
Könnte man Dragon 33 (aggr.) mit Stockfish vergleichen!

Viele Grüße
Frank
Parent - - By Peter Martan Date 2023-12-28 09:50 Edited 2023-12-28 10:02 Upvotes 1
Frank Quisinsky schrieb:

Dann fällt MCTS weg wegen Contempt weil Dragon dann sicherlich aufgrund Zügedurchschnitt nach Runde 6 draußen wäre.

Keine Ahnung, wenn sich Contempt auf ansonsten Standard so positiv auswirkt in deinem Sinn, wie du mal geschrieben hast, müsste er das bei gleicher Einstellung im MCTS erst recht, wie du aus meinem Zitat oben entnehmen kannst. Du müsstest dazu einfach entweder 16 mehr einstellen oder darauf vertrauen, dass, wie breschrieben, die Auswirkung durch das interne Angleichen bei MCTS ohnehin äquivalent ist, also das, was du beim Contempt bisher verstellt hast, bei MCTS gleich stark wirkt.
Frank Quisinsky schrieb:

Stockfish spielt auch ohne NN.
Könnte man Dragon 33 (aggr.) mit Stockfish vergleichen!

Ja, stinkt aber halt meiner Vermutung nach wahrscheinlich eher etwas mehr ab, SF ohne NNUE gibt's ja jetzt schon länger gar nicht mehr, SF in der Vor- NNUE-Ära war zwar auch um einiges schwächer, aber der Abstand zu komodo, bevor der NNUE- Unterstützung bekam, war eher größer als jetzt.
Hier

https://computerchess.org.uk/ccrl/4040/rating_list_all.html

ist komodo 14 bei 3328 und SF 11 bei 3421, beides single thread.
Parent - - By Frank Quisinsky Date 2023-12-28 10:08
Hi Peter,

genau ...
Wenn die letzte SF Version mit klassischer EVAL ca. 160 Elo zu SF 16 entfernt liegt (bei längeren Bedenkzeiten) müsste Stockfish vom 31.07.2020 ca. bei 3350 Elo landen (ca. die Elo von Fritz 19).
Nun sorgt die Zeitkontrolle aber auch dafür das im Endspiel durch das +6 eher geblitzt wird und der Unterschied könnte noch größer werden.

Bei Dragon 3.3 ohne NN wäre der Unterschied dann um die 200. Nun wird aggr. auch weiter abschwächen, so dass es vielleicht 225-250 Elo weniger wären.

Wäre wichtig um die Elo für das Turnier neu zu berechnen.
Das drückt den Durchschnitt von 3280 natürlich um einiges nach unten ab.

Tja, was mache ich ...
Dragon 3.3 NN hat sich bewährt mit Contempt = 0 beim letzten Turnier und auch bei meinen Testpartien für den Test-Set an dem ich parallel arbeite.
Außerdem wäre Dragon 3.3 NN mal interessant gegen diese Gegner bei den EAS Stats von Stefan zu sehen.
Dragon wäre dann natürlich direkt der Turnierfavorit wenn ich aggr. wieder herausnehme.

Bin gerade überfordert!
Tja, wenn etwas gegen Plan läuft passiert das bei mir ...

Von MCTS lasse ich besser die Finger von.

Viele Grüße
Frank
Parent - - By Peter Martan Date 2023-12-28 10:20 Edited 2023-12-28 10:36
Frank Quisinsky schrieb:

Von MCTS lasse ich besser die Finger von.

Warum jetzt eigentlich?
Ich hätte dir nichts vom Contempt schreiben sollen

Sinngemäß steht da in der Readme ja aber eh nur, dass MCTS eher etwas mehr "Contempt" mitbringt als das bei A-B bedeutet, und dass das daher intern bei gleicher Einstellung der UCI- Option angeglichen wird.
Wenn du also jetzt ohnehin mit Contempt 0 (was ja um 20 weniger ist als default) spielst, stell das bei MCTS eventuell auf -16 ein, und es sollte sich an dem, was der Contempt bei NNUE überhaupt noch bewirkt (meiner Erfahrung nach ist das ohnehin mehr Output- Kosmetik als etwas anderes) numerisch in der Auswirkung kaum etwas ändern.
Du fürchtest um deinen zum Kult erhobenen Züge- Durchschnitt, wie der bei MCTS und deinen übrigen Bedingungen an und für sich ist, habe ich natürlich keine Ahnung, aber du bist ja derjenige, den sowas interessiert
Parent - By Frank Quisinsky Date 2023-12-28 10:32
Wäre gegen den Sinn vom Turnier den Zügedurchschnitt zu drücken wenn ich jetzt ungetestet loslege mit MCTS.
Glaube Dir das alles und lese das natürlich aber ich hätte dann Bauchschmerzen dabei.

Auf der anderen Seite wollte ich MCTS immer schon mal testen ... aber das wäre jetzt der falsche Zeitpunkt.
Kann ich später machen, bei einem kommenden Turnier ... nicht bei dem.

Neige dazu aggr. wieder herauszunehmen.

Werde das Turnier gleich kurz anhalten und die Dragon Partien wiederholen lassen.

Aber ich schaue mir MCTS dann später an.

Schaue mal auf die Ergebnisse vom FCP-Tourney-2020 ... wie schön das testen war mit solchen Zügedurchschnitten in den ganzen Jahren.
Jetzt gehen offenbar viele Engines auf teils weit über 100 Züge, genau darauf habe ich keinen Bock und insofern spielen genau die auch alle nicht mehr mit.

Macht keinen Spaß die Partien zu verfolgen und ich schaue halt gerne zu.

Viele Grüße
Frank
Parent - By Frank Quisinsky Date 2023-12-28 10:19
Hi Peter,

habe das 3fache an Partien als CCRL zu diesen Engines in meinen Datenbanken.
Aber CCRL ist gut mit meinen Ergebnissen vergleichbar weil ca. die gleichen Bedenkzeiten.

Bei mir ... Komodo 14 bei 3284 und SF 11 bei 3333 (aller Partien).

Aber ich brauche nur auf mein FCP-Tourney-2020 schauen, da spielten die auch!

Code:
  FCP Tourney-2020
  ----------------

  Date           : November 27th, 2020 (08:27)
  Games          : 41.000
  Version        : 50.0, after R50 (final results)
  Elo            : GullChess 3.0 BMI2 x64 = 3035
  Conditions     : http://www.amateurschach.de/main/_fcp-tourney-2020.htm

  Generated with : Ordo 1.2.6 x64 (Ratings for chess and other games)
  https://sites.google.com/site/gaviotachessengine/ordo
  by Miguel A. Ballicora (Argentina)

   # Player                                 :      Elo  Games  Score%   won  draw  lost  Points  Draw%   Error   OppAvg   OppE  MoveAvg
  -------------------------------------------------------------------------------------------------------------------------------------
  01. Stockfish 11 BMI2 x64                 :  3341.82  2.000    83.7  1353   643     4  1674.5   32.1   13.71  3029.12  10.38     81.1
  02. Komodo 14.0 BMI2 x64                  :  3271.29  2.000    77.7  1150   809    41  1554,5   40.5   12.57  3030.88  10.41     78.7
  03. Houdini 6.03 Pro x64                  :  3261.82  2.000    76.8  1104   865    31  1536,5   43.3   11.55  3031.12  10.44     81.0
  04. Ethereal 12.25 PEXT x64               :  3202.24  2.000    70.7   909  1009    82  1413,5   50.5   10.71  3032.61  10.46     93.0
  05. SlowChess Blitz 2.2 x64               :  3171.54  2.000    67.2   843  1002   155  1344,0   50.1   10.06  3033.37  10.48     84.0
  06. Fire 7.1 POP x64                      :  3169.39  2.000    67.0   818  1042   140  1339,0   52.1   11.17  3033.43  10.45     86.2
  07. Xiphos 0.6 BMI2 x64                   :  3147.47  2.000    64.3   755  1064   181  1287,0   53.2   10.57  3033.98  10.46     84.0
  08. Booot 6.4 POP x64                     :  3147.06  2.000    64.3   733  1106   161  1286,0   55.3   10.41  3033.99  10.47     77.5
  09. rofChade 2.3 BMI x64                  :  3144.36  2.000    64.0   764  1031   205  1279,5   51.5   10.37  3034.05  10.47     89.6
  10. Laser 1.7 BMI2 x64                    :  3120.35  2.000    61.0   672  1097   231  1220,5   54.9   10.05  3034.65  10.48     85.8
  -------------------------------------------------------------------------------------------------------------------------------------
  11. Shredder 13 POPCNT x64                :  3105.01  2.000    59.1   656  1052   292  1182,0   52.6   10.69  3035.04  10.46     85.8
  12. Fritz 17 (Ginkgo) x64                 :  3104.82  2.000    59.1   635  1093   272  1181,5   54.6    9.75  3035.04  10.48     85.6
  13. Schooner 2.2 SSE x64                  :  3102.45  2.000    58.8   606  1139   255  1175,5   57.0   10.41  3035.10  10.47     86.0
  14. Defenchess 2.2 POP x64                :  3095.96  2.000    58.0   586  1146   268  1159,0   57.3    9.91  3035.26  10.48     91.5
  15. RubiChess 1.7.3 x64                   :  3092.23  2.000    57.5   611  1077   312  1149,5   53.9   10.19  3035.36  10.47     88.2
  16. Andscacs 0.95 BMI2 x64                :  3084.43  2.000    56.5   589  1081   330  1129,5   54.0   10.10  3035.55  10.48     84.4
  17. Fizbo 2.0 BMI2 x64                    :  3068.55  2.000    54.4   582  1013   405  1088,5   50.6    9.98  3035.95  10.48     88.5
  18. Arasan 22.0 BMI2 x64                  :  3038.06  2.000    50.5   490  1038   472  1009,0   51.9   10.25  3036.71  10.47     86.4
  19. GullChess 3.0 BMI2 x64                :  3035.00  2.000    50.0   451  1100   449  1001,0   55.0    9.87  3036.79  10.48     89.6
  20. Fritz 16 (Rybka) x64                  :  2998.27  2.000    45.3   397  1016   587   905,0   50.8    9.78  3037.71  10.48     87.7
  -------------------------------------------------------------------------------------------------------------------------------------
  21. Pedone 2.0 BMI2 x64                   :  2990.00  2.000    44.2   362  1043   595   883,5   52.1    9.91  3037.91  10.48     88.1
  22. Chiron 4 x64                          :  2987.88  2.000    43.9   358  1040   602   878,0   52.0    9.93  3037.97  10.48     88.9
  23. Vajolet2 2.8 BMI2 x64                 :  2986.15  2.000    43.7   345  1057   598   873,5   52.9    9.79  3038.01  10.48     88.5
  24. Winter 0.8 x64                        :  2985.57  2.000    43.6   391   962   647   872,0   48.1   10.34  3038.02  10.47     85.0
  25. Wasp 4.00 Modern x64                  :  2984.99  2.000    43.5   342  1057   601   870,5   52.9    9.69  3038.04  10.49     88.6
  26. Critter 1.6a x64                      :  2974.14  2.000    42.1   353   979   668   842,5   49.0   10.35  3038.31  10.47     89.8
  27. Igel 2.5.0 BMI2 x64                   :  2971.80  2.000    41.8   314  1045   641   836,5   52.3    9.99  3038.37  10.48     83.1
  28. Equinox 3.30 x64                      :  2971.61  2.000    41.8   305  1062   633   836,0   53.1   10.03  3038.37  10.48     90.4
  29. Nirvanachess 2.4 POP x64              :  2967.71  2.000    41.3   300  1052   648   826,0   52.6   10.03  3038.47  10.48     85.8
  30. Nemorino 5.00 BMI2 x64                :  2954.56  2.000    39.6   323   939   738   792,5   47.0   10.44  3038.80  10.47     89.9
  -------------------------------------------------------------------------------------------------------------------------------------
  31. iCE 4.0 v853 Modern x64               :  2945.84  2.000    38.5   292   957   751   770,5   47.9   10.05  3039.02  10.48     85.4
  32. Demolito 2020-05-14 PEXT x64          :  2945.44  2.000    38.5   311   917   772   769,5   45.9   10.53  3039.03  10.46     96.4
  33. Protector 1.9.0 x64                   :  2938.85  2.000    37.6   264   978   758   753,0   48.9   10.41  3039.19  10.47     88.0
  34. Hannibal 1.7 x64                      :  2934.63  2.000    37.1   260   965   775   742,5   48.3   10.46  3039.30  10.47     91.1
  35. Texel 1.07 BMI2 x64                   :  2931.60  2.000    36.8   263   944   793   735,0   47.2   10.27  3039.37  10.47     89.5
  36. Minic 2.33 x64                        :  2929.38  2.000    36.5   269   921   810   729,5   46.0   10.56  3039.43  10.46     84.5
  37. Senpai 2.0 BMI2 x64                   :  2910.10  2.000    34.1   220   925   855   682,5   46.3   10.62  3039.91  10.46     88.9
  38. Combusken 1.2.0 x64                   :  2896.88  2.000    32.5   204   894   902   651,0   44.7   10.25  3040.24  10.47     86.1
  39. SmarThink 1.98 AVX2 x64               :  2886.62  2.000    31.4   230   794   976   627,0   39.7   10.80  3040.50  10.46     86.9
  40. Monolith 2 PEXT x64                   :  2858.99  2.000    28.2   122   885   993   564,5   44.3   11.01  3041.19  10.45     83.0
  -------------------------------------------------------------------------------------------------------------------------------------
  41. Rodent IV 0.22 POP x64                :  2851.68  2.000    27.4   129   839  1032   548,5   42.0   11.53  3041.37  10.44     86.9
  -------------------------------------------------------------------------------------------------------------------------------------

  MoveAvg (average)           : 174.60 / 87.300
  White advantage             : 48.86  +/- 1.20
  Draw rate (equal opponents) : 62.06% +/- 0.30

  Games        :  41.000 (finished)
  White Wins   :  12.717 (31.0%)
  Black Wins   :   7.944 (19.4%)
  Draws        :  20.339 (49.6%)
  Unfinished   :       0

  White Perf.  : 55.8%
  Black Perf.  : 44.2%

  ECO A00-A99  :   7.427 Games (18.1%)
  ECO B00-B99  :  10.649 Games (26.0%)
  ECO C00-C99  :   7.965 Games (19.4%)
  ECO D00-D99  :   7.910 Games (19.3%)
  ECO E00-E99  :   7.049 Games (17.2%)
Parent - By Frank Quisinsky Date 2023-12-28 09:48
Bei Xiphos gibt es offenbar ein Problem.
Aufgrund von einem Bug gegen Winter verloren.
Habe ich bei Xiphos noch nie gesehen.
Liegt vielleicht an den 6-Steinern syzygz ... muss da auch nochmal schauen.

War mir schon klar das das eine oder andere noch nicht so ganz rund läuft.
So lange ich mich vorher mit der Auswahl der Engines auch immer beschäftigt habe.

Dragon hatte ich nicht so wirklich auf dem Schirm.
Dachte lasse mit aggr. spielen und gut ist.

Viele Grüße
Frank
Parent - By Frank Quisinsky Date 2023-12-26 20:15
doppelt
Up Topic Hauptforen / CSS-Forum / Könnte mal jemand schnell etwas testen?

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill