Stockfish 14.07.19 Costalba schlägt zurück !

By Tom Paul Date 2019-07-16 14:50

Reinhold Stibi schrieb:

Bisher hatten die letzten Lc0s gegen Stockfish im Zweikampf
leicht die Nase vorne.

Nun zeigt aber Stockkfish 14.07.19 Costalba gegen Lc0 Net 42668
wo der Barthel den Most holt.

je 1 Min. +1 Sek. je Zug und Stefan Pohl 4 Züge Eröffnungsvorgabe

104 Partien +25 =64 -15 . = 54,8 % = + 34 Elo für Stockfish

Das Match wird aber fortgesetzt bis 500 Partien.

1. je 1 Min. +1 Sek. je Zug
2. Stefan Pohl 4 Züge Eröffnungsvorgabe
=3. +25 =64 -15 . = 54,8 = + 34 Elo für Stockfish

By Reinhold Stibi Date 2019-07-16 16:17

War am Anfang skeptisch gegen die ganz kurzen Bedenkzeiten von Stefan Pohl
mit 58 Sek. für die Partie + 500 Millisekunden pro Zug.

Im nachhinein betrachtet muss ich Stefan Pohl rechtgeben.
Mir kam der Gedanke dass sein neuer Computer ja die kürzeren Latenzzeiten hat,
da sein Arbeitsspeicher viel schneller ist, wie bei meinem alten Xeon E5345.
Damit dürfte die Anlaufzeit für das Hochfahren der Engines nicht ins Gewicht fallen.

Bei mir klappt es mit meiner ebenfalls sehr kurzen Bedenkzeit mit meinem Xeon E5345
mit 1 Min. pro Partie und 1 Sek. je Zug sowie Ponder on sehr gut.

Erstaunlich wie tief die Engines in dieser kurzen Zeit rechnen.

By Reinhold Stibi Date 2019-07-16 22:11

Nach nun 206 Partien: + 51 =125 -30 =55,1 % + 36 Elo für Stockfish.

Der Unterschied zu 104 Partien sind gerade 2 Elo.

Mal schauen wie es weiter geht.

By Reinhold Stibi Date 2019-07-17 06:41

Nun über Nacht sind 320 Partien gespielt.

+ 84 = 188 -48 = 55,6 % = + 39 Elo für Stockfish

Zu 104 Partien ist eine Abweichung von 5 Elo.

Ich hätte gedacht, dass sich Lc0 verbessert. Finde das Ergebnis
für Stockfish zu hoch. Keine Ahnung, liegt es an der sehr kurzen Bedenkzeit
oder an der Hardware, die aber ja ausgeglichen ist ?

Auf die Bedenkzeit soll die Errobar ja keine Auswirkungen haben, da ja diese
gleich ist für beide Engines.

Wenn dieser Test mit 500 Partien zu ende ist, werde ich zum Vergleich mit
mit meiner RTX 2070, statt der GTX 1050 Ti einen weiteren Test durchführen.

By Clemens Keck Date 2019-07-17 10:11

Reinhold Stibi schrieb:

Ich hätte gedacht, dass sich Lc0 verbessert. Finde das Ergebnis
für Stockfish zu hoch. Keine Ahnung, liegt es an der sehr kurzen Bedenkzeit
oder an der Hardware, die aber ja ausgeglichen ist ?

Ich hatte das schon öfters in Test runs, das mir das Ergebnis "verdächtig" vorkam. Meistens wurde durch öfteren reboot des Rechners der Turnierverlauf wieder etwas normaler.
Aber eben nicht immer. Ein run mit 180 Partien 5m+3s dauert ca. 3 Tage. 3 - 4 Mal ca. hatte ich den Rechner neu gestartet. Mit f16 GUI kein problem. Ich spiele die Zweikämpfe als engine Turnier, die lassen sich völlig problemlos fortsetzen nach dem Neustart.
Die letzten 2 Lc0 Tests waren dennoch für die Katz. Gleich 2 Mal ein super Ergebnis gegen Stockfish. Aber auf der zweiten Maschine hatte Lc0 dann mit ach und krach nur 50% geholt.
Beide MAschinen gleiche Cpu und 2060er GraKa.

C.K.

By Eduard Nemeth Date 2019-07-17 11:35

Die Testzeit ist schon arg kurz. Ich würde WENIGSTENS einen Testrum auf 100 Partien mit 1+2 durchführen. Ändert sich dann nicht viel dann ist Stockfish besser.

By Stefan Pohl Date 2019-07-17 12:10

Reinhold Stibi schrieb:

Nun über Nacht sind 320 Partien gespielt.

+ 84 = 188 -48 = 55,6 % = + 39 Elo für Stockfish

Zu 104 Partien ist eine Abweichung von 5 Elo.

Diese Abweichung ist natürlich geringer, weil ja alle gespielten Partien insgesamt in die Auswertung einfließen. Je mehr Partien es werden, desto weniger macht ein Einzelergebnis aus, will sagen, desto geringer werden die Schwankungen. Deswegen spielt man eben möglichst viele Partien und deswegen wird die Errobar ja mit mehr Partien eben kleiner.
Um Schwankungen innerhalb von Testverläufen zu messen, muß man daher die gespielten Partien in 50er oder 100er Blöcke auftrennen und diese separat auswerten. Ist ja mit Fritz/Chessbase keine große Sache.

By Benno Hartwig Date 2019-07-17 10:17

> Der Unterschied zu 104 Partien sind gerade 2 Elo.

Wenn du zunächst 100 Partien hast und der Zufall bewirkt, dass du um x Elo daneben liegst,
dann wirkt sich dieser "Fehler" auch nach 200 Partien immer noch reichlich kräftig aus.

Beispiel: gleichstarke Engines A und B, aber der Zufall liefert zunächst 60,0 : 40,0 an Punkten für A.
Die zweiten 100 Partien wären tatsächlich 50,0 : 50,0 ausgegangen,
dann hast du insgesamt immer noch den strahlenden Sieger mit 110,0 : 90,0 Punkten

Benno

By Stefan Pohl Date 2019-07-17 12:14

Benno Hartwig schrieb:

Das stimmt. Leider.
Man kann (und muß) eben hoffen, daß sich das mit Ausreißern in die andere Richtung letzlich ausgleicht. Was umso wahrscheinlicher wird, je mehr Partien man eben spielt. Daher spiele ich ja jetzt 3000 Partien pro lc0-Testrun (500 gegen jede einzelne Gegner-Engine).
Genau deswegen sind eben nur 100 oder 200 Partien gegen einen Gegner so problematisch. Spielt man natürlich gegen sehr viele Gegner, hat man dafür insgesamt ja viele Partien und damit auch ein recht zuverlässiges Gesamtergebnis. Nur sollte man dann eben die Einzelergebnisse nicht überbewerten. Hier muß man eben auf einen Ausgleich von extremen Einzelergebnissen im Gesamtergebnis hoffen.

By Benno Hartwig Date 2019-07-17 13:51

Geschrieben hatte ich meinen Text auch vor folgendem Hintergrund:

Ich spielte manchmal Testläufe von zunächst 100 Partien, fand das Ergebnis irgendwie erstaunlich (letztlich "unglaubwürdig"), und ich ließ also weiterspielen.
nach 200 oder auch 500 Partien wollte ich dann gern mehr Vertrauen in das Ergebnis haben.
Es ist aber so, dass ein ggf. kräftiger Fehler zu Beginn dadurch nicht "weg" ist. Er wirkt immer noch kräftig mit, nur eben nicht mehr so doll.
"Zuviel" zu Beginn lässt erwarten, dass auch am Ende ein "Zuviel" im Ergebnis steht, nur eben im Verhältnis nicht so dolle.

Benno

By Stefan Pohl Date 2019-07-17 11:56 Edited 2019-07-17 12:10

Wie ist denn die Leela-Ratio bei diesem Testrun?
Generell war ja Net 42668 bei meinem Testrun mit den damals noch längeren Bedenkzeiten und nur 100 Partien gegen Stockfish auch schlecht. Da war lc0 auch deutlich unter 50% gegen Stockfish. Insofern glaub ich eher, du solltest mal ein anderes Net probieren...

By Reinhold Stibi Date 2019-07-17 12:49

Nach 400 Partien: + 104 = 232 -64 =55,0 % = + 35 Elo für Stockfish.

Bei diesem großen Testdurchlauf ging es mir hauptsächlich um die Streuung der Eloergebnisse
bei ca. 100, 200, 300,400 und 500 Partien und die sind bei mir sehr gering.

Von 100 Partien zu 400 Partien nur 1 Elo-Punkt. Von einem 100er Block zum Anderen war
die Streuung der Ergebnisse auch sehr gering; siehe meine Ausführungen oben.

Hinsichtlich der Leela Ratio: Stockfish mit Xeon E5345 in der Grundstellung ca. 600 Kn/s.
Habe mit 3 Threads spielen lassen und da schafft Stockfish 1.800 Kn/s. Lc0 mit GTX 1050 Ti.
Die Leela Ratio dürfte also in dem Bereich 1.0 bis 1.3 liegen; denke eher bei 1.0.

Auch bei mir hat das Net 42668 bei einem früheren Test nicht besonders gut im Zweikampf gegen
Stockfish abgeschnitten (waren glaube ich 24 Elo minus), dafür aber gegen andere Engines sehr gut.
Dieses Net gewann ein großes Turnier bei mir. Auch bei dir hatte Net 42668 stolze Ergebnisse gegen
andere Engines.
Kann auch sein dass der neueste Stockfish vom 14.07.19 Costalba (den ich verwendete habe) auch an
Spielstärke dazugewonnen hat, so dass das Ergebnis doch schlüssig ist.

Werde aber anschließend auch ein Match mit dem neuesten und bestem Net von Lc0 gegen Stockfish 14.07.19
durchführen, vielleicht sogar mit meiner RTX 2070 und Stockfish mit 18 Threads

By Stefan Pohl Date 2019-07-17 13:11

Reinhold Stibi schrieb:

Hinsichtlich der Leela Ratio: Stockfish mit Xeon E5345 in der Grundstellung ca. 600 Kn/s.
Habe mit 3 Threads spielen lassen und da schafft Stockfish 1.800 Kn/s. Lc0 mit GTX 1050 Ti.
Die Leela Ratio dürfte also in dem Bereich 1.0 bis 1.3 liegen; denke eher bei 1.0.

OK, das ist natürlich insgesamt eine recht langsame Testumgebung. Stockfish läuft auf meinem Hexacore-Notebook mit ca. 7.5 MN/s in der Grundstellung. Und meine RTX-Karte (die ich wegen der Leela-Ratio ja um ca. 1/3 abgebremst habe) bringt ca. 11.500 n/s für lc0 in der Grundstellung. Also ist meine Testumgebung ca. Faktor 4.2x schneller. Also würde meine Bedenkzeit von 50''+500ms bei dir ca. 210'' + 2100ms, also 3.5 Minuten + 2.1 Sekunden Bedenkzeit entsprechen. Das ist natürlich schon beträchtlich mehr, als dein 60''+1000ms. Das hatte ich ja schon neulich betont, daß Bedenkzeit allein eben nichts aussagt, sondern nur in Kombination mit der Rechenleistung des PCs...entcheidend ist eben, wieiele Knoten pro gespieltem Zug wirklich durchgerechnet werden. Nicht, wie lange das dauert.
Schwer zu sagen, inwiefern sich das auswirkt, daß du nun deutlich "schneller", will sagen, mit deutlich weniger Knoten pro gespieltem Zug, spielen läßt, als ich.

By Reinhold Stibi Date 2019-07-17 13:26

Ja, da hast du recht.

Was mir auffiel ist, dass Stockfish gut in die Rechentiefe kam, Lc0 aber weniger.

Auch habe ich meine ursprüngliche Bedenken gegen deine ganz kurzen Bedenkzeiten
revidiert; siehe meine Anmerkung dazu oben, da deine Hardware doch Spitzenklasse
ist und das damit ausgleicht.

By Eduard Nemeth Date 2019-07-17 13:30 Upvotes 1

Ich habe eine Frage. Welche Art von Schach erwartet man von Lc0 auf solchen Stufen wie 1+1 auf schwacher Hardware? Wie gediegen soll der Inhalt denn sein? Stockfish kann da wenigstens auf seine Taktik bauen und auch auf das Endspiel. Lc0 ist im Anfang und Mitte gut. Aber bei so einer Spielstufe erwarte ich hier garnix.

By Guenter Stertenbrink Date 2019-07-17 14:14 Edited 2019-07-17 14:16

solange die Elos stimmen auf der Spielstufe , also die Elo-Differenzen dieselben sind ,
dann ist doch der Spielstil egal.

Ich wuerde weiter runtergehen mit der Bedenkzeit, solange bis die EloDifferenzen sich aendern.
(dauert ja nicht so lange)

By Peter Martan Date 2019-07-17 18:39

Die Elodifferenzen ändern sich natürlich sofort auch, wenn du eine andere Engine mit dazu nimmst. Die Elosion, es käme nur nicht auf die Absolutwerte an, so lange die Differenzen gleich bleiben, ist rein mathematisch reiner Unsinn, weil es natürlich, sollten die Differenzen wenigstens irgendwie übertragbar also transitiv sein, nicht nur die Hardware- TC entscheidend ist, sondern zumindest auch noch zwei andere große Unbekannte neben der Hardware- TC, die Eröffnungen und der Pool an Engines, zwischen denen ausgespielt wird.

Spreizung gut und schön, ab einem einzelnen Teilnehmer, der ein anderer ist, oder wenn du einen weiteren dazu nimmst oder einen weg lässt, kannst du nicht nur die Absolutwerte, sondern auch die Differenzen vergessen.

Also einfach immer nur die TC immer kürzer machen, bis sich zwischen 2 bestimmten Engines X und Y endlich auch die Differenzen ändern, und meinen, alles andere würde den eigentlichen Sinn der Messung in Elo, nämlich den, dass diese ermittlelten Werte so etwas wie "overall playing strength" wiedergäben und übertragbar wären auf andere Engines unter anderen Bedingungen, trotzdem noch erfüllen, ist der Irrtum schlechthin, dem man bei der Spielstärkenmessung von Menschen und von Maschinen in Elo unterliegt, seit Arpad Elo die Formel aufgestellt hat.

Der hat übrigens selbst unter diesem Irrtum als Schachspieler sehr wohl dann selbst noch genug gelitten, war er vermutlich doch der einzige, der das jemals ganz so verstanden hat, wie er's sich gedacht hatte. Als Performance- Messung in einem bestimmten Zeitraum unter bestimmten Turnierbedingungen für ein mehr oder weniger geschlossenes Teilnehmerfeld. Und natürlich unter völligem Verzicht auf Dinge wie Konfidenzintervall und Errorbar, kurz gesagt, seine Formel hatte und hat per se überhaupt nichts mit Statistik zu tun.

Natürlich kann man Statistiken zum eigenen Bedarf und Belieben damit betreiben, da könnte man aber genau so gut, wenn's eh nur auf die Relationen zwischen 2 einzelnen Engines unter bestimmten Hardware- TC und Eröffnungs- Bedingungen ankommt, einfach die ganzen und halben Punkte selbst nehmen, die erspielt werden für die statistische Relevanz bräuchte man deshalb nicht mehr und nicht weniger Partien.

Nur weil das hier wieder mal hoffnungslos in einen Topf geworfen wird, Einzelergebnisse bestimmter statistischer Relevanz und "schachliche Aussagekraft" in Elo oder sonstwas.

Sorry, das war mir mal wieder eine Pause von der Schreibpause wert.

By Guenter Stertenbrink Date 2019-07-18 05:44 Edited 2019-07-18 05:59

aber ein Beispiel, wo das mit den Computer-Elos angeblich nicht so gut klappt
hast du wieder nicht. Die wenigen Beispiele sind ja meist bereits bekannt.
Komodo gewinnt bei Bedenkzeitverdopplung ca. 5 Elo
Lc0-CPU ca. 70 Elo , jedenfalls unterhalb 60min pro Partie.
Lc0 mag wohl absurde,ungewoehnliche Ereoeffnungen nicht, obwohl Stefan Pohl das
bzgl. Drawkiller bestreitet.
Just hatte ich diese Diskussion just in diesem thread :
http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=122899
Mein Vorschlag der Bedenkzeitverkuerzung dient ja gerade dem Zweck
herauszufinden, ob und ab wo es bei Lc0 mit den Elos nicht mehr so gut klappt.

ELO-(Un)Abhaengigkeit von der Eroeffnungsvorgabe:
http://magictour.free.fr/POHL19A.GIF

ELO-(Un-)Abhaengigkeit von der Ratingliste :
http://magictour.free.fr/ERETP2.GIF

fastgm 1min : http://www.fastgm.de/60-0.60.html
fastgm 60min : http://www.fastgm.de/60min.html
sieht doch ziemlich aehnlich aus, oder ?

By Peter Martan Date 2019-07-18 08:13 Edited 2019-07-18 09:07

Guenter Stertenbrink schrieb:

Mein Vorschlag der Bedenkzeitverkuerzung dient ja gerade dem Zweck
herauszufinden, ob und ab wo es bei Lc0 mit den Elos nicht mehr so gut klappt.

Günter, zum allerletzten Mal:
Die Frage ist nicht, ob's klappt oder nicht, sondern, wenn du's so formulieren willst: wie gut es in welchem Fall klappt.
Ein rein quantitatives Problem.
Nicht: halb voll oder halb leer, sondern halb oder viertel oder dreiviertel oder was?

Und die quantitativen Antworten auf solche quantitativen Fragen bekommst du immer nur für einzelne Beispiele:

Fürs Fernschach, für menschliches over the board unter "normalen" Turnier- TCs, fürs Schnellschach, fürs Blitzschach, unter Bullet- Bedingungen und das alles und mehr (weil stufenlos auch je nach Hardware regelbar) noch einmal fürs Computerschach, und dann hast du bei dem auch noch die Eröffnungen willkürlich zu wählen. Du kannst so tun, als wäre es das GUI, das wählt, indem du "Buch" sagst, "Zufall" (weil's ja Statistik sein soll

) ist's aber trotzdem nicht.

Und dann ist völlig abgehoben von diesen einzelnen Anwendungsbeispielen die Frage der statistischen Absicherung eine wieder völlig andere.

Wie viele Partien brauchst du für eine 95%- Power deiner Statistik für welche 2 oder mehr Engines bei welcher Remishäufigkeit. Die Antwort auf diese ganz andere Frage ist just the same nur für den einzelnen konkreten Testfall, völlig egal, ob du Elo, ganze und halbe Partiepunkte, % oder Güntergrad als Maßstab nimmst.

Güntergrad wäre aber viel besser als Elo für Günter, wäre Günter dadurch davor bewahrt, Güntergrad im Anwendungsfall SF-LC0 auf einer bestimmten CPU und GPU bei bestimmtem Eröffnungsbuch mit Güntergrad im Fernschach zu verwechseln.

Die Zahl der notwendigen Partien für Konfidenzintervall 5% hängt bei einer bestimmten Güntergrad- Differenz zwischen den beiden bestimmten Engines und einer bestimmten Hardware- TC und einem bestimmten Buch nicht davon ab, wie groß der Unterschied in Elo wäre, sondern von der Remishäufigkeit und oder eventuell noch der Häufigkeit von 1-0- Paaren.
Period.

Die eine Frage hat mit der anderen eigentlich überhaupt nichts zu tun, wäre das anders, könntest du dir die vielen Einzelstatistiken und die vielen Einzelmatches nämlich sparen, kannst du das?
Nein, weil sonst kannst du zwar vermuten, ja wird schon irgendwie "klappen" aber wie klein oder wie groß deine Klappe dabei ist, weißt du nicht.

Und bei den geringen Spielstärkeunterschieden und der großen Remishäufigkeit ist es heutzutage eben nicht einmal zwischen 2 einzelnen Engines mehr so, dass es einfach sicher gut genug klappt, wenn zu den 2 Engines eine dritte dazukommt, die Hardware- TC eine auch nur ein bisschen andere ist, damit du auch nur die einzig wirklich minimal bzw. maximal (halbvoll oder halbleer) interessante Frage beantworten kannst, ob die eine oder die andere Engine "stärker" ist, bei dem bestimmten Hardware- TC- Fall und dem einen bestimmten Buch kannst du's sagen, bei dem anderen nicht, ohne es wieder eigens auszuprobieren, und merke:
wieder mit einem völlig eigenen 95%- Konfidenzintervall, das ist der eigentliche Punkt.

Also quäl dich doch nicht so mit Elodifferenzen zwischen 2 Engines, die bei einer bestimmten Hardware- TC einmal die eine oben haben nach einer bestimmten Partiezahl und einer bestimmten statistischen Sicherheit und einmal die andere.

Die Differenzen ändern sich zwischen Plus und Minus mit Änderung der Hardware- TC ab bestimmten Grenzen, die Frage ist zunächst mal überhaupt noch nicht, was passiert, wenn ich eine zweite, dritte, vierte Engine dazunehme und eine anderes Buch, die Frage ist zunächst mal ganz banal, wer führt überhaupt, und sei's nur ums A...bsichern unterschieden, und wieviel Partien brauche ich dazu, um mir wenigestens dessen halbwegs sicher zu sein, welche überhaupt die Nase vorn hat.

Und dann, wenn du wenigstens das mal für den bestimmten Einzelfall von 2 bestimmten Engines mit bestimmter Hardware- TC und bestimmtem Buch geklärt hast, dann könntest du anfangen zu grübeln, wie sehr (nicht "klappt's oder klappt's nicht?") unterscheiden sich die Elodifferenzen von dem einen gemessenen Fall vom anderen. Wie sehr im gespreizten Fall und wie sehr im ungespreizten.
Und will ich lieber weniger Partien brauchen um überhaupt statistisch relevante Differenzen in Elo oder Güntergrad zu bekommen oder will ich mit mehr Spreizung Partiezahlen sparen und wie sehr erreiche ich das für bestimmte Matches mit welcher TC, bei Nichtvölligaußerachtlassung der Tatsache, dass ich mit mehr Spreizung weniger Übertragbarkeit auf andere Matches bekomme, die ja ihrerseits auch wieder mehr oder weniger gespreizt sein können, neben der Hardware- TC auch durch ein anderes Teilnehmerfeld und andere Bücher oder Teststellungen.

Und von einzelnen Netzwerken statt einzelnen Engines wollen wir gar nicht erst anfangen.
So what?

By Guenter Stertenbrink Date 2019-07-18 09:20

Peter, zum wiederholten Mal:
Die Frage ist nicht, ob's klappt oder nicht, sondern wie gut es in welchem Fall klappt.
Ein rein quantitatives Problem.
Ich bestreite nicht, dass es Probleme gibt, denke aber du uebertreibst deren Wichtigkeit.
Ich denke weiterhin, dass die Test-Bedenkzeiten generell zu hoch sind und dass man bessere
Resultate bekommt mit geringeren Bedenkzeiten.
Ein guter Test hat mehrere verschieden Bedenkzeiten und Buecher.
Erst teste man, ob Lc0-others vs. SF-others dieselben Resultate ergibt wie
Lc0-SF , wenn ja, dann reicht in Zukunft erst mal Lc0-SF,
m3:Teste man, ob Lc0-SF auf halber Bedenkzeit diselben Resultate liefert,
wenn ja goto m3

CEGT : http://magictour.free.fr/CEGT19H.GIF
fastGM : http://magictour.free.fr/FASTGM9D.GIF

By Peter Weise Date 2019-07-18 09:13

Teilzitat:
"Der hat übrigens selbst unter diesem Irrtum als Schachspieler sehr wohl dann selbst noch genug gelitten, war er vermutlich doch der einzige, der das jemals ganz so verstanden hat, wie er's sich gedacht hatte. Als Performance- Messung in einem bestimmten Zeitraum unter bestimmten Turnierbedingungen für ein mehr oder weniger geschlossenes Teilnehmerfeld. Und natürlich unter völligem Verzicht auf Dinge wie Konfidenzintervall und Errorbar, kurz gesagt, seine Formel hatte und hat per se überhaupt nichts mit Statistik zu tun."

Gibt es dazu eine Quelle?
Ich hatte ELOs System auch immer so verstanden die Möglichkeit zu haben Vergleiche zwischen Schachspielern zu ziehen OHNE daß diese jemals selbst gegeneinander angetreten sind (waren). In diesem Zusammenhang hört sich "mehr oder weniger geschlossenes Teilnehmerfeld" doch sehr konträr an?! Beispiel Schacholympiade: hier gewinnt die stärkere Mannschaft lt. ELO fast ausnahmlos gegen die schwächer eingeschätzte und dies obwohl die Spieler im Vorfeld noch nie gegeneinander angetreten waren.

By Peter Martan Date 2019-07-18 09:44

Peter Weise schrieb:

Aus Wiki zu "Arpad Elo"
https://de.wikipedia.org/wiki/Arpad_Elo

Zitat:

Er selbst sagte über das von ihm entwickelte System:

„Manchmal denke ich, ich habe Frankensteins Monster erschaffen! Die jungen Spieler interessieren sich mehr für die Elo-Wertung als für die Dinge auf dem Brett.[2]“

Und genau, der Sinn war ursprünglich Spieler, die nicht (und schon gar nicht statistisch relevante Partiezahlen

) direkt gegeneinander gespielt hatten, abzuschätzen in ihrer relativen Stärke anhand von Spielen gegen Andere.
Aber auch dazu (und das hat sich dann erst so richtig im Lauf der Zeit eingespielt), gar nicht erst jeden gegen jeden antreten zu lassen, sondern die Spieler in Spielklassen zu unterteilen, natürlich auch je nach Turnier.

Daraus eine Vorhersage für die Engine X gegen die Engine Y abzuleiten, bei denen es schon Unmengen von Partien braucht, um überhaupt durch den direkten praktischen Vergleich herauszufinden, welche besser ist, um sich durch so eine Vorhersage direkte Matchews zu ersparen, war, sag' ich jetzt mal wieder einfach, ohne es auch mit konkreten Quellen aus seinem Leben und Werk belegen zu können, nicht seine unmittelbar primäre Absicht.

By Peter Weise Date 2019-07-18 10:37

Danke für den Link. Natürlich kann es nicht die Absicht von Arpad Elo gewesen sein Schachcomputer miteinander zu vergleichen. Als er die Formel veröffentlichte gab es kaum schachspielende Programme. Davon unberührt ist seine Formel für Computerschach geradezu ideal! Hierbei gibt es keine Störfaktoren wie Tagesform, Angstgegner, Druck vom Mannschaftsleiter oder selbst gemachter Druck ob des Turnierstandes und so weiter. Zudem ändern Schachprogramme ihre Spielstärke von Geburt an nicht mehr. Ideale Bedingungen also um Auswertungen nach ELO vorzunehmen. Allerdings halte ich es nicht für unmöglich eine (noch) bessere Auswertungsformel für Computerschach zu kreieren.

By Peter Martan Date 2019-07-18 17:21 Edited 2019-07-18 17:30 Upvotes 1

Peter Weise schrieb:

Allerdings halte ich es nicht für unmöglich eine (noch) bessere Auswertungsformel für Computerschach zu kreieren.

Und ich halte es für völlig belanglos, nach welcher Maßzahl man die Auswertung der Matches vornimmt, wenn man sich über die jedem Ratingsystem als solchem innewohnende Intransitivität der Ergebnisse im Klaren ist und nicht glaubt, deshalb, weil man Elo als Zahl verwendet, sei dadurch die Übertragbarkeit von einem Engine- Pool auf einen anderen oder von einer Hardware- TC auf eine andere oder von der Verwendung eines bestimmten Buches oder Testsets auf ein anderes größer oder kleiner, als wenn man einfach nur die Punkte zählt.

Und bevor ich jetzt zum gefühlt tausendsten Mal in diesem Forum den Link zu Wiki zum Thema Elo-Zahl wieder einmal in einem Posting sehe (ich selbst werde ihn geschätzte 100 Mal gesetzt haben) gehe ich einfach davon aus, dass es mittlerweile hinlänglich bekannt ist, dass jedes Ratingsystem die der entsprechenden Anwendung entsprechende solche (Intransitivität) in sich trägt, die nicht davon abhängt, in welchen Maßzahlen man sie angibt, die Ergebnisse, sondern dass diese bestimmte Intransitivität in der bestimmten Anwendung enthalten ist (im Fußball z.B. anders als im Scrabble oder Schach), und dass auch die Berechnung nach Elo daran just gar nichts ändert, wie groß oder klein die ist. Das einzige, was an der etwas ändert, ist das Teilnehmerfeld und die genau definierten Spielregeln, zum Beispiel mit welcher Bedenkzeit oder mit welchen Eröffnungsstellungen gespielt wird, so denn auch da welche vorgegeben werden.

Und ja, zwischen Menschen sind die Ergebnisse von Matches zwischen verschiedenen Gegnern sicher noch stärker schwankend und von noch mehr Faktoren abhängig als im Computerschach, aber dass es auch bei dem immer schon darauf angekommen ist, welche Engines mitgespielt haben und welche nicht, hat sich glaube ich auch schon schön langsam herumgesprochen, und die Frage sollte also nach wie vor und mittlerweile erst recht nur noch sein wie groß die Unterschiede ermittelter Ratingwerte sind, wenn man ein bestimmtes Teilnehmerfeld um einzelne bestimmte Teilnehmer ändert, um bestimmte Hardware- TCs und um bestimmte Eröffnungsstellungen.

Und seit es zwischen LC0 und SF jetzt schon länger immer enger zugeht, allein schon bei der direkten Auseinandersetzung 1:1 und der Frage, welche der beiden Engines hat die Nase vorn, wenn sie unter TCEC-Sufi- Bedingungen gegeneinander spielen oder Blitzschach mit anderen Büchern auf schwacher Hardware, sollte halt nicht mehr wirklich nur dauernd darüber diskutiert werden, wie kurz darf die TC sein, damit die Ergebnisse (wenigstens was die Differenzen angeht) noch irgendwie korrelieren oder anders ausgedrückt, damit man nicht noch einmal die gleiche Partienzahl für die gleiche Signifikanz ausspielen muss, um wirklich sagen zu können, ja ziemlich egal oder nein, eigentlich schon ganz und gar nicht mehr egal.

Die Frage sollte hingegen immer nur mehr sein: wie genau will ich's wissen, um auf einer bestimmten Hardware und einer bestimmten TC mit einem bestimmten Buch oder Testset, nach wievielen Partien sagen zu können, reicht mir an Genauigkeit oder nicht.

Die Frage sollte spätestens seit man sich täglich neu fragen könnte, ist dieses oder jenes LC0- jetzt besser als das von gestern, einfach nicht mehr sein: spielt die Hardware- TC und das Teilnehmerfeld und die Eröffnungswahl überhaupt eine Rolle.

Diese meiner Meinung nach nicht erst seit LC0 in praxi längst hinlänglich geklärte, obsolete und absurde Frage könnte man schön langsam eigentlich als mit "ja, spielt schon eine Rolle" beantwortet sehen. Und dann könnte man daran gehen, dem Remistod im Engineschach, der ja noch das Ganze, was die statistische Beantwortbarkeit angeht, erst so richtig spannend macht, durch Verkürzung der Hardware- TC, durch Varianz des Teilnehmerfeldes und oder durch mehr Selektion bei den Eröffnungsstellungen im Sinne einer "Ergebnisspreizung" entgegenzuwirken, um mit weniger Partien mehr statistische Signifikanz durch weniger Remis zu bekommen.

Spätestens da wär's dann halt erst recht gut, man wäre sich auch im Klaren darüber, dass man mit mehr "Spreizung" der Ergebnisse weniger "Übertragbarkeit" auf andere Hardware- TC, Teilnehmer und Eröffnungen bekommen wird.
Oder noch genauer: man sollte zumindest von der Möglichkeit ausgehen, dass die Transitivität mit der Spreizung sinken könnte, damit allein wäre nämlich schon die Notwendigkeit gegeben, es nachzuprüfen, ob und wie sehr sich da auch was ändert, dann erst, wenn man's extra ausprobiert, kann man's wirklich sagen, ob und vor allem auch wieviel.

Nein, sagen kann man's eh auch so, wissen kann man's aber nicht, und will man einfach nur bescheidenster Weise wissen und sagen können, wie's ungefähr gerade steht zwischen LC0 und SF (nur so als Beispiel, noch besseres Beispiel: zwischen zwei verschiedenen LC0- Netzen), dann kann man ja auch einfach sagen, in den nächsten paar Tagen werden LC0 und SF auf durchschnittlicher Hardware mit nicht allzu kurzen TCs immer noch ungefähr gleich stark sein, und in diesem Spielstärkenbereichen ist bei der normalen Remishäufigkeit der Unterschied auch nicht sonderlich groß, wenn ein paar mehr ungefähr gleich starke Engines mit ein bisschen anderen Büchern mitspielen.

Kurzum, es ist überhaupt nicht mein Problem, dass Andere gern alles noch soo viel genauer wüssten und beweisen würden, als es ohnehin leicht für einen jeden selbst zu Hause nachprüfbar ist, ich würde allen, die hier am Indus sitzen und voll Qual diskutieren,

Zitat:

Es saßen drei Hindus
und diskutierten am Indus.
Ihr Problem war fatal, sie diskutierten voll Qual:
ist er's, bist ich's, bin du's.

allen denen würde ich einfach wieder gerne mal zurufen, lasst es gut sein, es muss gar nicht soo genau sein, weil wenn SF 17 07 19 jetzt 3 Elo gegen LC0 auf Hardware- TC x gegenüber dem letzten Match aufgeholt hat nach 500 Partien und Einrechnung der +- Errorbar, ist das eh schon wieder ganz was anderes, wenn man ein anderes Netz nimmt, andere Eröffnungen, eine dritte bestimmte Engine mitspielen lässt, besonders, wenn's eine deutlich schwächere ist, und wahrscheinlich auch schon bei einer einfachen Hardware- TC- Verdopplung.

Also ereifert Euch hier doch nicht wegen 93, 95 oder 97% Konfidenz, wenn auch die schon wieder eine andere ist unter anderen Bedingungen, würde ich denen gerne hin und wieder zurufen, macht Euch locker und wartet einfach ein paar Wochen Software- Hardware- Entwicklung ab, um für die dann geänderten Bedingungen (und halt wieder nur für die) mal wieder vielleicht ja wirklich etwas anderes herauszubekommen, was dann doch auch ein bisschen mehr zählt.

Und bei denen dann die Schwankungen, die sich aus der Errorbar ergeben, nicht nur kleiner sind als die ermittelten Elodifferenzen, sondern wenigstens auch noch kleiner als sie wahrscheinlich wären, wenn man eine dritte Engine auf doppelt so großer Hardware- TC mitspielen lässt.
Oder buchlos.

Und wenn sich dann nach ein paar Wochen immer noch nichts Revolutionierendes geändert hat, einfach den Abstand zur nächsten Super- Über- Drüber- Messung noch etwas größer machen. Oder sich was am Hardware- Software- Sektor rein technisch geändert hat, das Problem mit LC0 ist da halt, dass kein Mensch wirklich Einblick in die Netz- Entwicklung hat von außen, wenn von außen kein menschlicher Eingriff erfolgt, außer durch eng-eng-eng- Matches.

Und ruhig auf immer kürzeren Hardware- TCs testen und mit immer wilderen Büchern, oder überhaupt nur mehr Stellungstests machen, und sich halt im Klaren sein, dass das alles immer nur absolut relative einzelne Messungen sind.

Und es wird nach wie vor, je länger das so weiter geht erst recht, absolut keine Rolle mehr spielen, ob das in Elo oder Performance- Prozenten oder ganzen und halben Punkten gemessen wird.
Period.

By Peter Weise Date 2019-07-19 09:28

Sehr viel Text muß ich sagen.
Von meiner Seite: alle von mir bisher selbst gemachten Erfahrungen und die vielen Beobachtungen der diversen Ranglisten zeigen klar auf daß man sehr wohl diese Listen miteinander vergleichen darf (oder sogar soll/muß) da sie alle zu fast 100% die selben Ergebnisse ausspucken unter Verwendung vollkommen konträrer Bedingungen! Allein dies ist Beweis genug um den Zahlen Glauben zu schenken! Und meines Erachtens ist es dabei vollkommen egal (die Praxis zeigt dies jeden Tag) welche Programme mitgewirkt haben weil gerade in solchen Fällen ELO sehr gut funktioniert! Einzig die Anzahl der Mitwirkenden und die Anzahl der Partien darf nicht zu klein sein, reine "Zweikämpfe" haben kaum Aussagekraft. Die Auswahl der Hardware und der Bedenkzeit ist quasi unbedeutend solange für alle Teilnehmer identische Vorgaben diesbezüglich gelten. Das gilt ebenso für die Bücher oder die Stellungen: nach genügend Partien kommt immer das selbe heraus. Und sobald ein NN-Programm mitwirkt muß eben das Ratio erwähnt werden damit man das Hardwareverhältnis auch einschätzen kann. Ein A/B Programm auf einem i7-4770 mit einem Core sollte man gegen LC0 auf einer RTX-2070 fairerweise NICHT antreten lassen. Für dieses Szenario haben die CCRL und auch die CEGT aus meiner Sicht die optimale Lösung gefunden und deshalb vertraue ich deren Zahlen zu 100%.

By Peter Weise Date 2019-07-19 10:00

Als Ergänzung eine Auflistung der "ersten 5 mit einer CPU" jeweils ermittelt unter total unterschiedlichen Bedingungen:


Programm     CCRL 40/4  CCRL 40/40  CEGT 40/4  CEGT 40/20  CEGT 3+1 ponder CEGT 5+3 ponder
------------------------------------------------------------------------------------------
Stockfish 10    # 1       # 1          # 1         # 1          # 1           # 1       
LC0 (32930)     # 2      fehlt         # 2         # 2         fehlt          # 2
Houdini 6       # 3       # 3          # 3         # 3          # 3           # 4
Komodo 13       # 4       # 4          # 4         # 4          # 4           # 3
Komodo 13 MC    # 5       # 5          # 5         # 5          # 5           # 5

Einzig bei der CEGT 5+3 mit ponder ist die Reihung zwischen Houdini und Komodo vertauscht aber dort sind auch gerade einmal 1500 Partien gespielt worden.

By Peter Martan Date 2019-07-19 13:10 Edited 2019-07-19 14:10

Peter Weise schrieb:

Einzig die Anzahl der Mitwirkenden und die Anzahl der Partien darf nicht zu klein sein, reine "Zweikämpfe" haben kaum Aussagekraft.

Du bist dir schon darüber im Klaren, dass es um einen reinen Zweikampf in diesem Thread geht, ja?

Aus dem Eröffnungsposting:

Reinhold Stibi schrieb:

Bisher hatten die letzten Lc0s gegen Stockfish im Zweikampf
leicht die Nase vorne.

Mit anderen Worten, das, worüber du anstatt über Zweikämpfe ohne Aussagekraft lieber schreiben willst, mit wieviel oder wie wenig Text auch immer, hat mit dem Thread hier deiner Meinung nach eigentlich gar nichts zu tun.

Gut, dann wären wir uns vielleicht deiner Meinung nach ja im für dich wesentlichen Punkt sogar einfach einig, meiner Meinung nach aber auch nicht, weil für mich haben Zweikämpfe sehr wohl auch Aussagekraft, aber (ebenso wie alle anderen möglichen Matches) eben genau nur für die eine konkrete Testumgebung des einen bestimmten Zweikampfes (ich hätte ansonsten in diesem Thread nicht mitgeschrieben, nicht mit viel und nicht mit wenig Text) für andere mehr oder weniger ähnliche und unähnliche Zwei- oder Mehrkämpfe, hat er eine mehr oder weniger gut übertragbare Aussagekraft.

Die Frage ist nicht, ob überhaupt, sie ist nicht, ob überhaupt nicht, sondern einzig und allein: wie sehr. Es handelt sich, falls ich es noch nicht erwähnt haben sollte, um eine rein quantitative Frage.

Also nicht um die Frage, ob das Glas halb voll oder halb leer ist, sondern wie genau der einzig mathematische Inhalt der Aussage, das "halb", genau oder ungenau, richtig oder falsch ist.

Und dazu noch so am Rande, andere als Zweikämpfe werden beim Schach eigentlich überhaupt extrem selten ausgetragen, sieht man von Mannschaftswertungen ab.
Auch Ranglisten mit noch so vielen Teilnehmern werden dadurch erstellt, dass einzelne Zweikämpfe ausgetragen werden, dass davon manche direkten Zweikämpfe zu bestimmten Zeiten von mehr Interesse sind als so manche Summenrechnungen, wirst du vielleicht auch schon bemerkt haben. Aus gegebenem Anlass vielleicht auch noch aus einem neuen Thread zum momentanen auch schon direkt alten Thema Nr.1:

http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=123248#pid123248

Stefan Pohl schrieb:

Da in den Einzelbegegnungen gegen die 6 AB-Engines nun immerhin 500 Partien gespielt wurden, kann man sich nun auch mal guten Gewissens die Resultate nur gegen Stockfish im Vergleich anschauen, die ja wohl die meisten Leute primär interessieren:

Das nur wegen "Resultate nur gegen Stockfish..., die ja wohl die meisten Leute primär interessieren", dem würde ich mich halt schon auch irgendwie anschließen.
Dich interessiert die direkte Auseinandersetzung SF- LC0 als reiner "Zweikampf" nicht, ok, Wissen ist Macht, ich weiß nix, macht auch nix.

Damit lass ich's jetzt wieder gut sein ("Period" war eigentlich schon irgendwie so gemeint gewesen), damit mein Text nicht wieder zu lang wird, bevor ich mich dann endlich wieder überhaupt in die wohlverdiente Fortsetzung der Schreibpause zurückziehe

By Peter Weise Date 2019-07-19 14:40

Teilzitat:
Du bist dir schon darüber im Klaren, dass es um einen reinen Zweikampf in diesem Thread geht, ja?

Selbstverständlich. Trotzdem wollte ich es der Vollständigkeit halber erwähnen. Und ohne Aussagekraft hatte ich nie geschrieben! Meine Formulierung war kaum Aussagekraft! Viele dieser Zweikämpfe mit verschiedenen Schachprogrammen vereint in eine Liste dagegen haben deutlich mehr Aussagekraft. Wie immer: die Menge machts. Weshalb die Schreibpause?

By Wolfgang Battig Date 2019-07-19 15:39

Peter Weise schrieb:

...Weshalb die Schreibpause?

Peter schreibt in einem Posting ca. drei- bis zehnmal soviel wie andere Nutzer.
Daher braucht er auch mehr Schreibpausen im selben Verhältnis...

By Peter Martan Date 2019-07-19 16:17 Edited 2019-07-19 16:25

Endlich einer, der mich versteht.

Wobei das "wohlverdient", das ich als Begründung der Schreibpause ohnehin angegeben hatte, ja auch (oder sogar in erster Linie) für das P.T. Publikum gilt. Meine Leser verdienen sich hin und wieder Schreibpausen von mir mindestens so sehr wie ich selbst.

By Reinhold Stibi Date 2019-07-17 14:19

Meine GTX 1050 Ti ist keine schwache Hardware, sondern Mittelklasse.

Die Ergebnisse zu meiner RTX 2070 waren vergleichbar.

Auch mit der Bedenkzeit von 1 Min. Partie + 1 Sek. pro Zug kommen sehr
anspruchsvolle Partien zustande-

Die sehr kurze Bedenkzeit kannst du nicht mit der menschlichen Bedenkzeit
vergleichen. Übrigens hatten wir in unserem Schachclub einen Fidemeister
der mich mit 1 Minute Blitz, ich mit 5 Min. abzog.

Bei Stefan Pohls ganz kurzer Bedenkzeit bin ich zuerst richtig erschrocken.
Man muss dies aber nicht aus menschlicher Sicht sondern aus Computersicht sehen.

Aber trotzdem werde ich die Bedenkzeit mit meiner GTX 1050 Ti verlängern
auf 1 Min.Spiel +3 Sek.pro Zug.

By Tom Paul Date 2019-07-17 14:31

Reinhold Stibi schrieb:

Meine GTX 1050 Ti ist keine schwache Hardware, sondern Mittelklasse.

Eine GTX 1050 Ti ist eine schwache Hardware.
Eine RTX 2060 ist Mittelklasse.

By Eduard Nemeth Date 2019-07-17 15:57

Ich sehe das inzwischen auch so. Ich persönlich richte mich, was die Spielstärke angeht, am ccc bei chess.com und am TCEC. Bei chess.com spielt Lc0 auf 4 Karten und erzielt im Mittelspiel ca. 100 kn/s. Stockfish läuft auf 90 Treads mit etwa 100 Mkn/.

In einem Blitzmatch mit einem 320x24 Netz und Stockfish zeigt sich dass Lc0 um einiges besser ist. Im aktuellen Match mit einem 256x20 Netz spielen beide Engines auf Augenhöhe.

By Tom Paul Date 2019-07-17 16:58

Eduard Nemeth schrieb:

Dann wird es wohl Zeit das man ganz offiziell auf 24x320 Netze umsteigt und evtl. einpaar Turniere und Engine Vergleiche durchführt.

By Stefan Pohl Date 2019-07-17 16:37 Edited 2019-07-17 16:39

Tom Paul schrieb:

Eine GTX 1050 Ti ist eine schwache Hardware.
Eine RTX 2060 ist Mittelklasse.

Du hast du ausnahmsweise mal Recht.

By Reinhold Stibi Date 2019-07-17 18:46

Test Game Star:
Mit der Geforce GTX 1050 Ti hat Nvidia im Okt. 2016 eine flotte Mittelklasse Grafikkarte
vorgestellt die schnell genug für aktuelle Spiele in Full HD Auflösung mitsamt hohen
Details ist.

Erstaunlich wie dicht die Ergebnisse im Schach mit meiner RTX 2070 beieinander liegen.

Die Grafikkarte macht auch optisch einen großen Eindruck.

By Reinhold Stibi Date 2019-07-17 19:13

Sehr guter Test für MSI GTX 1050 Ti im GameStar vom 24.01.18.

By Stefan Pohl Date 2019-07-17 20:10

Was die Grafikleistung angeht ist die Karte GTX 1050 Ti sicherlich gute Mittelklasse. Aber wir reden hier von Computerschach. Und da die RTX-Karten lc0 dank der cudnn-fp16 (Fließkommaberechnungen auf 16bit Bandbreite begrenzen) Option massiv beschleunigen, sind die RTX Karten das Maß der Dinge und die alten GTX Karten fallen leistungsmäßig bei der NeuralNetz-Verarbeitung massiv ab. Daher ist eine RTX 2060 Mittelklasse, wenn es um lc0 geht. Bestenfalls. Und alle GTX Karten sind leider diesbzgl. nur als schwach zu bezeichnen.

By Reinhold Stibi Date 2019-07-17 21:27

Klar sind die RTX Karten ca. 7 x schneller, habe ja selber eine RTX 2070.

Doch als schwach für Lc0 würde ich die GTX 1050 Ti trotzdem nicht bezeichnen.
Erstaunlich, dass diese Grafikkarte auch schwierige Teststellungen innerhalb
5 Sekunden löst; hat mich sehr beeindruckt, da ja Lc0 lange taktische Schwäche
nachgesagt wurde.

By Reinhold Stibi Date 2019-07-17 21:48

Die parallene zu Stockfish:

Stockfish mit 12 Kernen ist ca.8 bis 10 mal schneller als Stockfish mit 1 Kern.

Trotzdem würde ich Stockfish mit 1 Kern nicht als schwach bezeichnen.

Dasselbe trifft auch auf die GTX 1050 Ti zu, die auch ein hohes Niveau bei
Lc0 liefert.

RTX Karten sind natürlich absolute Spitzenklasse-und Luxus-Karten.

By Stefan Pohl Date 2019-07-17 16:40

Reinhold Stibi schrieb:

Aber trotzdem werde ich die Bedenkzeit mit meiner GTX 1050 Ti verlängern
auf 1 Min.Spiel +3 Sek.pro Zug.

Ja, ich glaube, auf dieser Hardware wäre das sinnvoll. Oder 2+2.

By Stefan Pohl Date 2019-07-17 16:34 Edited 2019-07-17 16:39

Eduard Nemeth schrieb:

Solltest du aber:

https://rebel13.nl/home/whatever.html
"Encouraged by the excellent results of Lc0 on OKE topping alll lists we tried Lc0 next. The same 1.4 million positions were analyzed at depth=1 (about 100-200ms) which is a factor 25-50 slower than Stockfish and surprise Lc0 was able to win the 5000 game match with a small margin (51.9%)."

Oder man bedenke, daß das übliche Netzlernen bei lc0 mit 800n pro Zug läuft. Das wären auf einer RTX-Karte, die je nach Typ und Taktung so um 25.000 n/s schafft eine Rechenzeit pro Zug in den Lernpartien von 32ms (!). Und das reicht immerhin aus, um lc0 mit diesen Lernpartien peu a peu in die Elo-Sphären von Stockfish 10 zu hieven...

Wenn man lc0 in der NibblerGUI nutzt und dort nur 1 Knoten pro Zug "Rechenleistung" erlaubt, also quasi gar keine, sondern nur das Betrachten der Ausgangsstellung, und spielt dagegen, dann merkt man, daß selbst ganz ohne Suche lc0 mit einem guten Netz eine ganz erstaunliche Spielstärke erreicht. Natürlich nicht im Bereich von Stockfish, aber lc0 mal so eben vom Brett spielen, das wird auch nichts.

By Wolfgang Battig Date 2019-07-17 14:18

Da nach ca. 4 Monaten (zuletzt Version vom 20. März) eh mal wieder der Test einer Stockfish-Dev. ansteht, werde ich diese Version, die bei Reinhold offensichtlich sehr stark spielt, für unsere 40/4-Liste testen.

http://cegt.forumieren.com/t1115-testing-stockfish-development-versions#2378

CPU: i7-4770 @ 3,4 GHZ (1 Core)
GPU: GTX 970
Ratio: ~1,3

By Reinhold Stibi Date 2019-07-17 15:13

Wolfgang, freut mich, wenn ich eine positive Anregung geben konnte.

Bin gespannt auf eure Ergebnisse.

By Stefan Pohl Date 2019-07-17 16:43

Wolfgang Battig schrieb:

Da nach ca. 4 Monaten (zuletzt Version vom 20. März) eh mal wieder der Test einer Stockfish-Dev. ansteht, werde ich diese Version, die bei Reinhold offensichtlich sehr stark spielt, für unsere 40/4-Liste testen.

<a class='urs' href='http://cegt.forumieren.com/t1115-testing-stockfish-development-versions#2378'>http://cegt.forumieren.com/t1115-testing-stockfish-development-versions#2378</a>

CPU: i7-4770 @ 3,4 GHZ (1 Core)
GPU: GTX 970
Ratio: ~1,3

Der Testrun dieser Version läuft bei mir noch. Warte doch auf mein Endergebnis, dann hast du ein 5000-Partien Resultat. Montag sollte es spätestens vorliegen.

By Reinhold Stibi Date 2019-07-17 20:13

Nun ist der Test mit 500 Partien Stockfish 14.07.19 Costalba gegen Lc0 Net 42668
zu ende.

+ 122 =295 -83 =53,9 % = + 27 Elo für Stockfish.

Test Unterschied von 100 Partien zu 500 Partien = 7 Elo

Teste nun neuester Stockfish 14.07.19 Costalba gegen Lc0 mit neuestem und bestem Net

Meine Prognose: Stockfish + 10 bis 15 Elo vor Lc0.

Anschließend noch ein großes Turnier mit über 20 Engines. Denke dass auch da Stockfish
knapp vorne liegt.

By Reinhold Stibi Date 2019-07-21 08:38

Nach 5 einzelnen 100er Blöcken aufgeteilt traten bei meinem 500er Turnier
doch große Schwankungen auf.

Die größte Schwankung war 53 Elo.

Damit muss ich Stefan Pohl und Wolfgang Battig rechtgeben.

By Reinhold Stibi Date 2019-07-21 08:40

Stockfish lag zwar immer vorne, aber z.T. ganz knapp.

Im 3er Block aber + 60 Elo.

By Benno Hartwig Date 2019-07-21 09:16

> Die größte Schwankung war 53 Elo

Ob die Ergebnisse solcher Blöcke nun dicht beieinander liegen oder weit schwanken, gestattet aber keine weiteren Rückschlüsse auf die Genauigkeit des Ergebnisses.
Die Reihenfolge von Siegen und Niederlagen spielt halt keine Rolle.
Die Regeln der Statistik beschreiben, in welchem Maße bei diesen Gegebenheiten Abweichungen zu erwarten sind.
Allenfalls: wenn man diese Regeln nicht kennt, könnte man diese Schwankungen zur Abschätzung der Genauigkeit betrachten wollen.
Benno