LS-Rangliste: Website ein Jahr online

By Willem Date 2013-12-03 13:45

Vielen Dank Stefan für 365 Tage LS-Rangliste !
Ich bin schon wieder gespannt wie Stockfish DD (und Komodo 7 ?)
in diene Liste abschneiden werden.
Alles Gute im neuen LS Jahr !

Willem,

By Stefan Pohl Date 2013-12-04 07:05

Willem schrieb:

Vielen Dank Stefan für 365 Tage LS-Rangliste !
Ich bin schon wieder gespannt wie Stockfish DD (und Komodo 7 ?)
in diene Liste abschneiden werden.
Alles Gute im neuen LS Jahr !

Willem,

Der Stockfish DD Test ist durch, ich kann ihn aber erst morgen einbauen, da ich z.Zt. auf Arbeit bin (falls ich morgen nicht auch noch arbeiten muß, das ist noch unklar (Krankheitsfälle!). Ich kann dir aber schon sagen, daß das Ergebnis praktisch genau mit dem Wert von Stockfish 131111 übereinstimmt. Was ich auch so erwartet hatte, denn seit dem 11.11. ist nur ein minimaler Elorelevanter Patch in Stockfish etabliert worden (2 andere wurden zurückgenommen). Ergo war es zu erwarten, daß das Ergebnis praktisch identisch ist...
Jetzt läuft der Test von Jörg Osters adapted contempt Stockfish DD. Das wird noch bis Samstag dauern. Bisher kann und will ich dazu nur sagen, daß das frühe Zwischenergebnis einige interessante Aspekte aufweist, zu denen will ich mich aber erst detailliert äußern, wenn das Endergebnis vorliegt. Nach einer nennenswerten Elosteigerung sieht es aber (noch) nicht aus. Es sind aber auch erst 1500 Partien absolviert.
Komodo 7 gibts ja noch nicht. Sollte es diese Woche noch kommen, geht es damit natürlich dann Samstag los.

Stefan

By Jörg Oster Date 2013-12-04 13:15

Schonmal vorab nochmal vielen Dank fürs Testen.

Hier der Test im Fishtest-Framework gegen eine künstlich geschwächte SF-Version. http://tests.stockfishchess.org/tests/view/522c894e0ebc59317b9047a9
Zum Vergleich ein Test mit fixem Contempt. http://tests.stockfishchess.org/tests/view/522c1f180ebc59317b904781
So gut wie keine Veränderung gegen einen Gegner.

Auf die interessanten Aspekte des Tests bin ich auf jeden Fall mal gespannt.

By Benno Hartwig Date 2013-12-03 14:04

Ja, thanx für deine Arbeit!
Statistisch außerordentlich belastbar, auch bis in Einzelvergleiche hinein.
Immer sehr schnell mit den aktuell interessierenden Ergebnissen dabei.
Und dabei auch noch mit mancher zwischendurch-Version.
Super
"Du kannst nicht alles haben"-summend denke ich, dass da denn die sehr kurzen Zeiten in Kauf genommen werden müssen.
Ich habe auch sehr stark den Eindruck gewonnen, dass diese Zeiten Ergebnisse liefern, die meist nur mit sehr kleinen Fehlern auf deutlich längere Zeiten übertragbar sind.
Wenn eine neue Engine-Version bei dir irgendwo im Gefüge eingerordent wird, dann wird sie ziemlich genau hier auch bei längeren Zeiten einzuordnen sein.
Stefan, mache bitte weiter so!

Benno

By Stefan Pohl Date 2013-12-04 06:01

Benno Hartwig schrieb:

Hi Benno,

man muß sich immer vor Augen halten, daß die Zeiten, mit denen ich teste, gar nicht so kurz sind. Bei vollem Brett im Mittelspiel 2-3 Sekunden pro Zug und in langen Endspielen nie unter 0.5 Sekunden pro Zug. Gemittelt ca. 1 Sekunde pro Zug. Das scheint nur wenig, wenn man das aus menschlichem Blickwinkel betrachtet, weil Menschen in so kurzer Zeit nicht viel Durchblick in einer Stellung haben können. Diesen Maßstab aufs Computerschach zu übertragen ist aber falsch und völlig unangebracht. Eine Sekunde Rechenzeit auf einem modernen CPU-Kern ist für eine Engine eine lange Zeit, in der z.B. Houdini mehr als 2 Millionen Stellungen durchrechnet.
Der Mensch hat nur die Eigenschaft, alles in sein eigenes Maßstabssystem zu pressen, auch wenn das für den Bereich Bedenkzeit im Computerschach natürlich völliger Quatsch ist.

Stefan

By Stefan Pohl Date 2013-12-04 06:56

Stefan Pohl schrieb:

Benno Hartwig schrieb:

Ergänzend sollte ich hinzufügen, daß es nicht nur auf die Länge der Bedenkzeit, sondern auch auf einen ausreichend großen Fischerbonus ankommt. Es gibt nämlich einige Leute, die mit 1 Minute pro Partie ohne Fischerbonus testen. Das ist zwar nur eine etwas kürzere Gesamtbedenkzeit als bei mir (ca. 80 Sekunden pro Partie/Engine), aber ohne Fischerbonus gibt es bei langem Endspielgeschiebe fatale Zeitnotdramen, welche die Ergebnisse dann enorm verzerren. Das kann bei mir eben nicht passiern, da ich 0.5 Sekunden Fischerbonus nutze. Das ist - gerade bei kurzen Bedenkzeiten - ganz, ganz wichtig!

Stefan

By Benno Hartwig Date 2013-12-04 07:39

Klar, einen Fischerbonus sollte man immer nehmen.
Der darf sogar sehr kurz sein. Mit 1 Sekunde pro Zug oder auch schon deutlich darunter wird die Engine einigermaßen klare Remisstellungen ganz locker remis halten.
Und die schwierigeren? Ja, da soll sie auch gern verlieren können, wenn sie vorher zu leichtfertig mit der Zeit umging. Dann geht es ja wieder um Können.
Benno

By Benno Hartwig Date 2013-12-04 08:53

Klar, auch bei 1-2 Sekunden spielen die Engines ein sehr gutes Schach. Wer darüber öffentlich die Nase rümpft, sagt vor allem was über sein Verständnis.
(Ich schlug darum ja auch mal vor, Engines auf einem Kern mit 1s/Zug in normalen Turnieren mitspielen zu lassen, um zu sehen wie weit sie damit im Menschenumfeld kommen.
Oder auch bei anderen Zeiten, bei denen man meint, dass sie irgendwo im Mittelfeld landen.
Aber ach...)
Interessant ist aber trotzdem die Frage, was sich im Enginesspiel ggf. doch ändert, wenn sie durchschnittlich statt 1 nun 180 Sekunden haben.
Vielleicht ändert sich ja auch wirklich nicht viel. Es sieht ein wenig so aus.
Bei der Frage "Wie gut spielen Engines heute eigentlich?" denke zumindest ich zuerst an Turnierzeiten.
Benno

By Stefan Pohl Date 2013-12-04 10:29 Edited 2013-12-04 10:32

Benno Hartwig schrieb:

Klar, auch bei 1-2 Sekunden spielen die Engines ein sehr gutes Schach.
(Ich schlug darum ja auch mal vor, Engines auf einem Kern mit 1s/Zug in normalen Turnieren mitspielen zu lassen, um zu sehen wie weit sie damit im Menschenumfeld kommen.

Gute Idee, die natürlich garantiert nie umgesetzt wird. Schade, denn da würden so einige Illusionen platzen...
Aber man kann sich das ja etwa so vorstellen: Eine Mephisto Turniermaschine hat seinerzeit ca. 15000 Knoten pro Sekunde geschafft (und damit schon auf unterem GM-Niveau gespielt), also hätte diese etwa 2,5 Minuten gerechnet, um so viele Knoten zu berechnen, wie Houdini bei mir auf einem Core in einer Sekunde schafft. Und Houdini dürfte zusätzlich auf der Programmebene mindestens 300 Elo besser sein (wahrscheinlich mehr). Daher sollten bei deinem Gedankenexperiment locker 2700-2800 Elo rauskommen. Und damit auch bei der LS-Rangliste, wobei dort ja im Mittelspiel wie schon erwähnt ca. 2-3 Sekunden pro Zug gerechnet wird und nicht nur eine Sekunde...Aber dieses schachliche Niveau ist meine Kritikern leidee noch nicht hoch genug...lieber noch mehr Eloniveau und dafür die statistische Qualität über Bord werfen. Grotesk!

Stefan

By Gunther Date 2013-12-04 11:32

Denkfehler: die "15000 Knoten/Sekunde" vom alten Mephisto sind überhaupt nicht mit der Knotenzählung heutzutage vergleichbar! Dies gilt auch und genauso für Tiefenanzeigen.
Gunther

By Benno Hartwig Date 2013-12-04 13:31

> Denkfehler: die "15000 Knoten/Sekunde" vom alten Mephisto sind überhaupt nicht mit der Knotenzählung heutzutage vergleichbar!

An welche Unterschiede, die eine Vergleichbarkeit unmöglich machen, denkst du gerade?
Benno

By Stefan Pohl Date 2013-12-04 13:46

Benno Hartwig schrieb:

An welche Unterschiede, die eine Vergleichbarkeit unmöglich machen, denkst du gerade?
Benno

Durchgerechneter Knoten ist durchgerechneter Knoten. Laß doch die Anons ihren Quatsch posten. Zeitverschwendung auf sowas zu reagieren, Benno...

Stefan

By Benno Hartwig Date 2013-12-04 13:39 Edited 2013-12-04 14:11

> Daher sollten bei deinem Gedankenexperiment locker 2700-2800 Elo rauskommen.

Da könntest du Recht haben.
Darum schob ich nach, dass auch andere (noch kürzere!) Zeiten vorstellbar wären, sodass die Engine dann irgendwo im Mittelfeld landet.
Ich möchte ja gern erhalten, dass die Teilnehmer ein Event erleben, bei dem tatsächlich die besten Menschen letztlich den Sieger ausspielen.
Die Engines sind sozusagen als physische Hindernisse im Parcour, und wer gegen die Engine kommt, muss sich voll reinhängen, wenn er vorn mitspielen will.
==> ernsthafte Partien gegen die Engine (bei sehr(!) kurzen Zeiten)
Menschen mit ELO-Zahl und x-min/Zug gegen Houdini_1core_0,2sec/Zug (als Beispiel)

Was man letztlich damit anfangen könnte, müsste noch genau überlegt werden.
Ich fänd aber superinteressant, diverse Partieergebniss und eine ELO-Einschätzung der Engine (bei diesen Bedingungen) zu haben

Und ich finde, diese Idee müsste Veranstalter und Teilnehmer auch noch nicht mal unbedingt schockieren.
Benno

By Frank Brenner Date 2013-12-03 14:32

Hi Stefan,

gratulation. Du hast eine sehr gute Liste. Bitte mach weiter so für die nächsten 70 Jahre.

Ich finde es auch toll dass du so viele Entwicklerversionen testest ....

Eine Frage habe ich aber noch, vielleicht bin ich nur zu Faul deine Homepage genau durchzulesen:

Welche Eröffnungen Spielst du ? Sind die Eröffnungen irgendwie geordnet, zb die ersten 100 1.c4 , dann die nächsten mit 1.d4 usw.. oder sind die komplett per Zufall permutiert ?

Vielleicht wäre die Konvergenzgeschwindigkeit schneller wenn du die Eröffnungen stehts in einer Zufälligen reihenfolge ausspielst, auch zufällig für jeden unterschiedlichen Gegner.

Hast du kontakt zum Programmierer von LittleBlitzer GUI ? Der Könnte diese Option ja mal programmieren.

Grüße
Frank

By Chess Player Date 2013-12-03 20:58

Frank Brenner schrieb:

...
Vielleicht wäre die Konvergenzgeschwindigkeit schneller wenn du die Eröffnungen stehts in einer Zufälligen reihenfolge ausspielst, auch zufällig für jeden unterschiedlichen Gegner.
...

Grüße
Frank

Davon gehe ich sehr stark aus! Warum dies noch nicht möglich sein soll weiss ich nicht.

By Stefan Pohl Date 2013-12-04 04:05

Frank Brenner schrieb:

70 Jahre? Dann wäre ich 113. Naja, schaun mer mal.
Zu deinen Fragen: Nein, die Eröffnungen sind nicht geordnet. Sie waren es in der ursprünglichen Frank Q SWCR-Datnebank, aber ich habe sie dann per Hand zufällig duchmischt. Kannst sie dir ja bei mir runterladen und dir das anschauen. Und was die LittleBlitzerGUI angeht, so habe ich vor geraumer Zeit den Autor auf den en passant Bug aufmerksam gemacht, der den geschlagenen Bauern auf dem Brett beläßt, wenn en passant in der Eröffnugnsvorgabestellung vorkam - und habe nie eine Reaktion erhalten, geschweige denn, daß es ein bugfix gegeben hätte. Glücklicherweise mußte ich nur 2 meiner 500 Vorgabestellungen austauschen, um meine Vorgabestellungen en passant frei zu bekommen. Ich fürchte, der Autor hat die Arbeit an der LBG eingestellt.

Stefan

By Patrick Götz (Mod.) Date 2013-12-03 15:34

Vielen Dank für deine wertvolle Arbeit. Neben dem Stockfish-Projekt ist sie für mich aufgrund der hohen Aktualität und Genauigkeit das spannendste im Computerschach. Vielleicht gibt es irgendwann auch die Möglichkeit sich über einen Spendenbutton an deinen Kosten zu beteiligen?

Gruß Patick

By Stefan Pohl Date 2013-12-04 04:12

Patrick Götz schrieb:

Hi Patrick,

nein, das wird es bei mir nicht geben. Denn mir ist meine Objektivität als Tester sehr wichtig, besonders weil ich selbige bei anderen Testern schmerzlich vermisse (Stichwort: Derivate-Boykott!). Und ein Donation-Button könnte mich diesbzgl. in Probleme bringen, wenn z.B. jemand eine größere Donation macht, und mich dann bittet, seine Engine doch zu testen, obwohl sie noch rein privat ist, oder sein superdupertolles Spezialsetting unbedingt sofort zu testen, oder ähnliches.
Da bleibe ich lieber unabhängig, auch finanziell. Es ist nett gemeint, und ich bekomme diese Anfrage auch durchaus häufiger, aber meine Stromrechnung zahle ich lieber selbst. Und neue Hardware auch (und bei der jetzigen Hardwaresituation besteht in absehbarer Zeit noch kein Handlungsbedarf, sofern mir nicht einer meiner Rechner kaputtgeht, denn selbst die schnellsten Prozessorkerne (i7-4930k) sind im moment nur ca. 70% schneller als die Kerne meiner Notebooks, das lohnt auf keinen Fall schon, sich was Neues zu kaufen),

Gruß - Stefan

By Stefan Pohl Date 2013-12-04 06:19

Stefan Pohl schrieb:

, denn selbst die schnellsten Prozessorkerne (i7-4930k) sind im moment nur ca. 70% schneller als die Kerne meiner Notebooks, das lohnt auf keinen Fall schon, sich was Neues zu kaufen),

Kleiner Rechenfehler meinerseits: Die Kerne des i7-4930k sind sogar nur 60% schneller als die Kerne meiner Notebooks. Für 70% bräuchte man sogar den 4960er.
Ergo: Bevor Intel nicht die nächste Prozessorgeneration rausbringt und diese preislich in einen bezahlbaren Bereich gefallen ist, kaufe ich mir nix Neues. Und das wird wohl dann wahrscheinlich erst 2015 der Fall sein.
Ist auch besser so, denn mit neuer Hardware müßte ich ja mit der LS-Rangliste wieder bei Null anfangen...

Stefan

By Klaus Wlotzka Date 2013-12-04 13:18

Hallo Stefan,

Wenn ich auch anfangs sehr skeptisch war, ob bei den derart kurzen Bedenkzeiten etwas sinnvolles rauskommt, so hat deine Rangliste mich eines besseren belehrt. Die Ergebnisse harmonieren mit anderen Ranglisten, nur mit dem Unterschied, dass die Ergebnisse wesentlich schneller vorliegen und auf Grund der Partienvielzahl statistisch aussagekräftiger sind.

Wenngleich ich die ein oder andere klassische Engine, wie Hiarcs, Shredder Junior, Fritz u.a. vermisse, einfach um den Spielstärkeunterschied zu den Top-Engines zu erkennen. Ich weiß, dass die Ergebnisse bei zu hohen Spielstärkeunterschiede statistisch problematisch sind, daher wäre dies nur mit einer separaten Liste für etwas schwächere Engines durchführbar. Aber vielleicht interessiert das auch nur eine Minderheit, also die "alten Hasen", welche die Entwicklung dieser Klassiker live mitverfolgen konnten.

Lass dich nicht beirren und mach einfach so weiter, wie du es für richtig hältst. An dieser Stelle möchte ich mich noch mal für deine tatkräftige und konstruktive Mitarbeit im Zuge der CSS-Rangliste bedanken.

Viele Grüße

Klaus

By Stefan Pohl Date 2013-12-04 13:44

Klaus Wlotzka schrieb:

Mensch Klaus, dich gibts auch noch! Schön mal wieder was von dir zu hören. Ich war ja auch schon damals für die kurzen Bedenkzeiten zuständig...nur sind sie heute eben noch ein wenig kürzer geworden.
Das mit den alten Klassikern ist schon schade. Aber wie ich hier schon mehrfach ausführte und dir natürlich sowieso klar ist, müßte man bei solch großen Elodifferenzen eine zweite Liga aufmachen, weil Tests von Houdini gegen Shredder, Haircs und Co. keine Tests sind, sondern Massaker, die noch dazu statistisch im Randbereich liegen und daher statistisch grober Unfug sind. Und für eine zweite Liga der LS-Rangliste fehlt mir die Hardware und ehrlich gesagt auch das Interesse. Mich hat immer schon der Top-Bereich interessiert. Und würde ich einen meiner 2 Rechner für eine zweite Liga benutzen, könnte ich sehr viel weniger Development-Versionen von Stockfish etc. testen. Das will ich ehrlich gesagt auch nicht. Außerdem ist bei schwächeren Engines eine ungefähre Eloeinschätzung doch ausreichend, und dafür reichen die CEGT-Listen völlig aus.

Wäre super, wenn du dich auch mal wieder mit einem eigenen Test-Projekt einklinken würdest!

Die allerbesten Grüße - Stefan

By Klaus Wlotzka Date 2013-12-04 14:09

[/quote]

Wäre super, wenn du dich auch mal wieder mit einem eigenen Test-Projekt einklinken würdest!

Die allerbesten Grüße - Stefan
[/quote]

Hallo Stephan,

ja, ich lebe noch, mir geht es sehr gut. Ich bin zwar nicht mehr aktiv im Computerschach dabei, verfolge das Ganze aber hin und wieder hier im Forum.

Nun, dass Testen von Schachengines habe ich sehr lange betrieben und ehrlich gesagt hat es für mich auch den Reiz verloren. Der hauptsächliche Grund, warum ich damals aufhörte, war einzig der Zeitfaktor, welcher neben der Erstellung und Aufbereitung der Rangliste mit dem Erstellen der Online-Berichte für das CSS erforderlich war. Daran hat sich grundsätzlich nichts geändert.

Aber die Vielzahl neuer Engines, welche praktisch auf Anhieb extreme Spielstärken erreichen, hat derart zugenommen. Dies ist natürlich nur möglich, wenn man sich einer guten Grundlage bedient. Sicher, muss man das Rad nicht immer neu erfinden, aber eigenständige Engines mit kreativen Ideen und sehr unterschiedlichen Spielansätzen bleiben dabei auf der Strecke.

Die Erstellung einer Rangliste mit einer größeren Anzahl von eben in jeder Beziehung sehr ähnlichen Engines hat für mich kein Reiz. Und Spaß sollte es für dem Tester machen, sonst hält er nicht lange durch.

Also, daher verfolge ich lieber die Entwicklung und schaue mir die ein oder andere Rangliste an, ein eigenes Projekt zu starten kommt für mich nicht mehr in Frage.

Ich wünsche Dir natürlich weiterhin viel Spaß bei der Erstellung deiner Rangliste.

Viele Grüße

Klaus

By Michael Scheidl Date 2013-12-04 14:26

Es freut mich ebenfalls, ein Lebenszeichen von Dir gesehen zu haben!

Alles Gute.

By Klaus Wlotzka Date 2013-12-04 14:42

Michael Scheidl schrieb:

Es freut mich ebenfalls, ein Lebenszeichen von Dir gesehen zu haben!

Alles Gute.

Hallo Michael,

deine Beiträge lese ich nach wie vor mit besonderem Interesse. Darauf beschränke ich mich zumeist. Dadurch, dass ich mich nicht mehr so intensiv mit der Schachcomputerszene beschäftige, fehlt mir der Input, um hier einen inhaltsreichen Beitrag zu leisten.

Viele Grüße aus dem Odenwald in schöne Österreich

Klaus

By Dirk Triebel Date 2013-12-05 14:12

Hallo Stefan,

auch von mir ein Lob für Deine tolle Arbeit und dem unermütlichen Engagement auch hier im Forum.

Ein kleines "nice to have" würde ich mir wünschen auf Deiner Seite. Leider kann man nicht sehen wie welche engine gegen die anderen genau gespielt haben (Siege/ Remis/ Niederlagen). Die Unterschiede wären interessant vorallem bei Testversions von Stockfish oder halt Nachvolgerversions. Ich werte das eigentlich immer mit dem Test einer neuen engine mit aus und manchmal interessante Erkenntnisse. Bei Dir dürfte es aber noch interessanter sein, da Du ja erheblich mehr Partien spielst. Bei Elostat kein Problem. Denke es sollte bei bayeselo auch ohne Probleme möglich sein.

Naja, wie gesagt nur ein "nice to have" und wenn der Aufwand net so groß ist.

Ansonsten weiter so!

Gruß,
Dirk

By Stefan Pohl Date 2013-12-08 08:35

Dirk Triebel schrieb:

Nun immerhin gibt es ja die Kreuztabelle des LS-top10-tournaments, in der die Einzelergebnisse einer neu getesteten Engineversion gegen die anderen 10 Engines des top10-tournaments zu sehen sind (sofern die getestete Engineversion gut genug für das top10-tournament ist (bei Stockfish, wie von dir angesprochen, ist das ja der Fall)). In dieser Kreuztabelle gibt es allerdings keine Aufschlüsselung in Siege, Remisen und Niederlagen, das ist wahr. Allerdings hauptsächlich deswegen, weil die Tabelle sonst viel zu breit wäre, um noch auf die Website zu passen...
Wer sich für noch mehr Details interessiert, kann mich ja jederzeit per Kontaktformular ansprechen, dann schicke ich gerne alle 55000 Partien des LS-top10-tournaments oder auch nur die Partien der zuletzt getesteten Engine per mail zu, dann kann man zuhause jede nur mögliche Statistik aus den Partien selbst erstellen.
Ich versuche, den Arbeitsaufwand für die "Wartung" meiner Website möglichst gering zu halten, da ich ja ganz nebenbei noch voll berufstätig bin, noch dazu im Schichtbetrieb...Daher soll und muß der Einbau eines neuen Testergebnisses möglichst einfach und schnell vonstatten gehen. Und so jage ich die Ergebnisse durch bayeselo und lasse mir von der FritzGUI schnell eine Kreuztabelle erstellen und lade das dann hoch. Da die alte Kreuztabelle auch noch auf der Website verbleibt, kann man z.B. bei einer neuen Stockfishversion schön vergleichen, wie die neue Version im Vergleich zur alten Version abgeschnitten hat, indem man die beiden Kreuztabellen vergleicht. Das sollte doch eigentlich im Normalfall genug Information sein, denke ich.

Aber wie gesagt: Wenn du irgendwas genauer wissen willst, dann schicke ich gerne Teile meiner Partiedatenbank per mail zu.

Stefan

By Krug Peter Date 2013-12-07 19:29

Hallo Stefan,

gratuliere dir zu diesen großen Erfolg deiner Engineliste!
Die Elozahlen erscheinen mir nicht überhöht.
Ich selber verfolge immer mit Interesse die Enginesentwicklung, aber
letztendlich

um eine bessere Analyseengine irgendwann zu bekommen.

Bisher habe ich nur Houdini 1.5 und bei deiner Liste sehe ich, dass Houdini 4 schon 100 elo mehr hat.
Vielleicht hat ja jemand schon Erfahrung gemacht, ob es sich auszahlt den neuen Houdini 4 für Analysezwecke
trotzdem zu kaufen.

Ich sehe, dass Rybka 4.1 , damals wohl die allerbeste, nun schon auf Platz 44 abgerutscht ist... und von den
alten Meistern damaliger Ranglisten wohl NICHTS mehr übrig geblieben ist...

Hiarcs weg, Fritz weg, Junior weg, Shredder weg, Fruit weg, Rybka 2.3 weg und so weiter...

Das ist wohl der Gang der Zeit! Der Fluss der Geschehnisse...

- Auch wir werden eines Tages hier nichts mehr schreiben und nur für wenige (hoffentlich)
in vager Erinnerung bleiben.

Alles Gute Peter

Stefan Pohl schrieb:

Hallo zusammen,

seit nunmehr einem Jahr ist meine LS-Ranglisten Website nun online (die Rangliste an sich gibt es schon etwas länger). Da bietet es sich an, kurz Bilanz zu ziehen, und diese fällt sehr positiv aus:
Mehr als 54000 Klicks in einem Jahr (also ca. 150 pro Tag), das ist weit mehr als ich erwartet hatte. Auch bekomme ich in den Foren und per Mail ein überwiegend positives Feedback. An dem beim Testen generierten Partienmaterial gibt es erhebliches Interesse und etliche Leute nutzen meine Eröffnungsvorgaben und ähnliche Zeiteinteilungen, um ihre Tests mit meinen Ergebnissen vergleichen zu können. Die Kreuztabelle des LS-top10-tournaments mit ihren 1000 Partien pro Einzelvergleich ist ebenfalls ein Feature, daß sehr gut ankommt, wie ich aus etlichen emails weiß, zumal es weltweit einmalig ist und bei keiner anderen Rangliste angeboten wird (geht ja auch nur mit sehr viel gespielten Partien...). Denn eine Ranglisten-Elozahl einer Engine ist ja gut und schön, aber wie eine Engine im Einzelvergleich gegen z.B. Houdini oder Stockfish abgeschnitten hat, ist ja auch interessant. Und diese Einzelvergleiche gibt es mit ausreichend großer Partienzahl (1000) eben nur auf der LS-website.
Nebenprojekte, wie z.B. mein Test von Stockfish mit den 3-5er Syzygy-Bases (+11 Elo) oder der nun bald startende Testlauf des adaptive contempt-Stockfish von Jörg Oster, wären ohne das Vergleichsdatenmaterial der LS-Rangliste ebenfalls nicht bzw. nur mit sehr viel höherem Aufwand möglich.

Lange Rede - kurzer Sinn: Vielen Dank an die Community für das große Interesse und überwiegend positive Feedback. Ich weiß das zu schätzen und es motiviert mich, weiterzumachen!

Stay tuned - Stefan

By Stefan Pohl Date 2013-12-08 05:53

Krug Peter schrieb:

Hallo Stefan,

gratuliere dir zu diesen großen Erfolg deiner Engineliste!
Die Elozahlen erscheinen mir nicht überhöht.

Nun ja, die absolut-Werte der Elozahlen sollte man nicht überbewerten. Es geht primär um die Reihenfolge und die Eloabstände zwischen den Engines. Ich habe seinerzeit, als ich mit der LS-Liste anfing, relativ willkürlich entschieden, daß mein Elofixpunkt (Robbolito 0.085g3, der Ur-Ippolit-Stammvater) 3000 Elo bekommen sollte. Einfach auch deshalb, weil das eine schöne, runde Zahl ist. Alle weiteren Zahlen ergaben sich dann aus diesem Ursprungswert...Ob Robbolito 0.085g3 nun "wirklich" 3000 Elo hat oder nicht, kann niemand sagen, da die Engines ja heutzutage nicht mehr gegen Menschen in Turnieren spielen, so wie seinerzeit die Brettcomputer.
Generell ist es so, daß die Eloabstände zwischen den Engines in der LS-Liste etwas größer sind, als in anderen Listen, weil durch die kurze Bedenkzeit und die nur mittelmäßige Hardware die Remisqouten relativ gering sind. Mit mehr Zeit rücken die Ergebnisse näher zusammen.

Stefan

By Willem Date 2013-12-08 11:41

Mit mehr Bedenkzeit rücken nicht "nur" die Ergebnisse zusammen auch die Reihenfolge ändert sich manchmal.
Sehe z.B. in deine LS-Liste ist Stockfish DD 31 Elo schwächer als Houdini 3.
in der CEGT 5'+3" Liste ist Stockfish DD 10 Elo starker als Houdini 3.
Deshalb benutze ich deine LS-liste gerne für einen schnellen aber "nur" sehr globalen Eindruck.

Willem,

ps: Komodo TCEC enttäuscht offenbar ein wenig, wie steht es bei dir ?

By Stefan Pohl Date 2013-12-08 12:38

Willem schrieb:

Das stimmt, Stockfish legt mit mehr Zeit und/oder besserer Hardware überproportional zu (verglichen mit anderen Top-Engines), weil Stockfish einfach deutlich selektiver sucht (daher die deutlich höheren Suchtiefen) und sich nicht so im Suchbaum festfrißt, wenn länger gerechnet wird. Gemessen an praxisnahen Analysezeiten ist ja auch das Tempo 5+3 noch recht schnell, ergo könnte man für Analyse-tätigkeiten Stockfish sogar noch höher ansiedeln. Allerdings bewertet Stockfish recht extrem und selektiert sehr stark, was wiederum nicht unbedingt für Analysen taugt.
Man sollte m.E. verschiedene Ranglisten nicht vergleichen, die Bedingungen sind einfach zu unterschiedlich. Ich teste eben mit sehr kurzen Zeiten (aber nicht ultrakurz!), weil ich gerade die Leistungen bei kurzen Bedenkzeiten besonders bewundernswert finde und weil man so einfach mehr Partien spielen kann, wodurch man statistisch bessere Gesamtergebnisse und überhaupt brauchbare Einzelvergleiche erhält. Andere Ranglisten bieten letzteres gar nicht und haben dafür aber eben höheres schachliches Niveau. Wobei ich diesbzgl. nicht müde werden kann und will, darauf hinzuweisen, daß auch das schachliche Niveau der LS-Rangliste sich noch locker auf Super-GM Niveau bewegt - der modernen Hardware sei dank! Vor 10 oder 15 Jahren hätten die LS-Testbedingungen wirklich keinen Sinn gemacht.

Bei Komodo TCEC sind mittlerweile im LS-Testrun gut 4000 Partien durch und es sind momentan ca. +19 Elo. Aber es ist noch nicht mal Halbzeit. Ergebnis voraussichtlich Dienstag.

Stefan

By Willem Date 2013-12-08 14:23

Stefan, danke für deine ausführliche Antwort.
Dass das schachliche Niveau der LS-Liste trotz sehr kurzen Bedenkzeiten sich
immerhin noch auf Super-GM Niveau bewegt habe ich mich niemals realisiert.

+19 Elo für Komodo TCEC könnte man ungefehr erwarten.

Willem,

By Stefan Pohl Date 2013-12-09 06:24 Edited 2013-12-09 06:26

Willem schrieb:

Stefan, danke für deine ausführliche Antwort.
Dass das schachliche Niveau der LS-Liste trotz sehr kurzen Bedenkzeiten sich
immerhin noch auf Super-GM Niveau bewegt habe ich mich niemals realisiert.

Wenn man davon ausgeht, daß die Top-Engines sich bei Turnierbedenkzeit mit 4-6 Cores auf mindestens 3100 Elo bewegen (was ich für konservativ geschätzt halte), kann man das leicht runterrechnen/abschätzen. Wenn man die durchschnittliche LS-Bedenkzeit (von 1 Sekunde pro Zug auf singlecore) 10 mal verdoppelt, ergibt das Faktor 1024 (= ca. 180 Sekunden * 5.6 Cores (oder 4 sehr schnelle Cores)). Wenn man nun annimmt, daß eine Verdopplung ca. 40 Elo bringt (was großzügig geschätzt ist, ich würde eher nur +35 Elo annehmen), bzw. eine Halbierung 40 Elo kostet, dann hat man 3100 - (10*40) = 2700 Elo, also SuperGM-Niveau. Und das ist wie gesagt alles schon deutlich zuungunsten der LS-Bedingungen geschätzt. Ich würde eher von 3200 Elo Ausgangswert und 35 Elo für eine Verdoppelung ausgehen und käme so auf 2850 Elo LS-Niveau.
Und wenn die LS-Rangliste irgendwann auf neue, schnellere Hardware umgestellt wird, so steigt das Niveau dann natürlich nochmal an. Aber das wird wohl noch etwas dauern. Aber 2700 Elo sollten für Normalsterbliche doch eigentlich ausreichen, meine ich. Deswegen investiere ich meine begrenzten Ressourcen lieber in mehr gespielte Partien und somit in die statistische Qualität der Ergebnisse, nicht in noch höhere schachlich Qualität. Aber das ist natürlich Ansichtssache.

Stefan

By Michael Scheidl Date 2013-12-09 14:03

Ich stimme Dir zu, aber typische Schachmenschen werden das niemals akzeptieren. Darüber sollten wir einfach hinwegsehen... nicht jeder hat die Gabe einen so radikalen Fortschritt akzeptieren zu können. Sollen sie in ihren Träumen leben - wir leben in unseren.

By Stefan Pohl Date 2013-12-09 14:11

Michael Scheidl schrieb:

Hi Michael,

ob das auf den Menschen bezogen wirklich ein Fortschritt ist, das kann man sicher diskutieren. Auf jeden Fall ist es ein radikaler Umbruch, ähnlich wie die Derivate-Engines (übrigens wird es bald Fire 3.0 geben. Kranium hat mich per email schon auf den LS-Test angesprochen, der natürlich erfolgen wird, sobald die Version released wird...Fire 3.0 soll vor Weihnachten noch kommen und ein Fortschritt sein, was immer das heißt) und schafft schlicht fürs Engine-Testen bzw. fürs Computerschach insgesamt eine komplett neue Situation. Irgendwann werden das auch alle kapieren und (hoffentlich) akzeptieren, ähnlich wie damals beim Wechsel von Brettcomputer auf PC. Nur dauert es eben bei manchen etwas länger. Oder sogar viel länger...

Stefan

By Benno Hartwig Date 2013-12-09 14:49

> Dass das schachliche Niveau der LS-Liste trotz sehr kurzen Bedenkzeiten sich immerhin noch auf Super-GM Niveau bewegt habe ich mich niemals realisiert.

Ich hatte vor kurzen vorgeschlagen, auf normalen Meisteschaften doch gerne mal Engines mit einem Kern und festen 1s/Zug mitspielen zu lassen.
So in der Erwartung, die würden sich dann vielleicht so in der Mitte des Feldes tummeln.

Inzwischen denke ich, dass man die Zeit ggf. viel niedriger ansetzen sollte.
In normalen regional-Turnieren dürften die Top-Engines vielleicht auf einem Kern nur 1/10 Sekunde pro Zug habe.
Kommen die und die gängigen GUIs mit solchen Zeitschnipseln überhaupt zurecht? Welche ELO-Performance könnten die Super-Haudegen dann entwickeln, wenn ihre Gegner mit Turnierzeit denken?
Könnte solche eine Turniererweiterung nicht auch doch ebenfalls für die teilnehmenden Menschen interessant sein?

Benno

By Benno Hartwig Date 2013-12-08 08:41

> Die Elozahlen erscheinen mir nicht überhöht.

Das ist das große Computerschachmysterium unserer Zeit, und es wird ggf. in alle Zukungft erhalten bleiben.
Ein anerkennend gemurmeltes "Saustark sind die Burschen!" ist vermutlich noch der konkreteste Spielstärkevergleich, der heute zwischen Menschen und Engines machbar ist.

Benno