Komodo 8

By Ralf Mueller Date 2014-09-03 20:01

Vielen Dank, ich habe dein und Franks Live-Testing in zwei Tabs offen, aktualisiere regelmäßig und bin schon sehr auf die Ergebnisse gespannt!

By Benno Hartwig Date 2014-09-03 21:06

After 190 games K8 seems to be on a good way with 76,84%.

OK, it is just the beginning.
Benno

By Ralf Mueller Date 2014-09-03 21:14

Bei Frank läuft es ja bisher ein wenig schlechter - wenn man beide Ergebnisse zusammen nimmt, sieht es bisher nach einer Verbesserung von 20 Elopunkten gegenüber Komodo 7a aus.

By Frank Rahde (Mod.) Date 2014-09-03 21:22

Hm, ich vertraue den Testergebnissen, die auf der Komodo-Webseite stehen. Sie nehmen den Mund nicht gern voll. Werden schon 40-50 ELO auf 4 Core herauskommen. Bin dennoch gespannt, ob sich das bestätigt.

Gruß, Frank

By Frank Quisinsky Date 2014-09-03 21:55 Edited 2014-09-03 21:59

Hi Ralf,

ist nicht einfach das darzustellen ob jetzt verbessert oder nicht.
Habe das gerade auf meiner Startseite mal etwas anders aufgebaut.
82% sind erforderlich und Komodo hätte bei einem ca. 50% Ergebnis gegen SF die gleiche Stärke wie Stockfish 03.08.14 BMI2 x64.

Schön das Ingo auch testet, bin ich entlastet ...
Bei Ingo sieht es derzeit nach gleicher Stärke zu SF5 aus.
Bei mir dient ja ne ziemlich aktuelle Version von SF zum Vergleich.

Nach den Ankündigungen sollte ja Komodo vor SF liegen aber so richtig glaube ich das nicht wenn gegen Houdini und Co getestet wird.
Wenn Komodo gut gegen Houdini spielt, dann auch gut gegen die ganzen anderen IPPs.
Wenn die Tester viel dagegen getestet haben und der Eindruck entsteht das Komodo ca. 20 Elo vor SF liegt ... weiß nicht (Betrachtungssache).
Wie gesagt der Beeinflussungsfaktor Gegner und Anzahl der Gegner ist nicht zu unterschätzen.
Gerade dann wenn etwas gemessen werden soll auf diesem Niveau ... im Grunde fast nicht möglich.

Aber wenn im Vergleich bei mir rauskommt +20 und bei Ingo kommt raus +30 sehen wir auf jeden fall das eine Verbesserung vorliegt.
Kann so direkt gar nicht verglichen werden weil Ingo und ich andere Gegner nehmen bzw. andere Zeitkontrollen einsetzen.

Wobei bei diesem Niveau ...
Die Auswahl meiner Gegnerschaft kann da kaum halten.
Macht die Sache für mich im Grunde auch unmöglich etwas ganz genaues auszugeben.
Aber immerhin, wir sehen verbessert oder nicht und dann mal Komodo durch die Stats jagen.

Gruß
Frank

By Bernhard Traven Date 2014-09-04 10:32

jetzt knapp bei der hälfte der partien angekommen, schaut es so aus
als ob der "platzhirsch" Stocki 5 seine position als nr.1 weiter (knapp) verteitigen kann...

für Houdini 4 schauts hingegen nicht sooooooo berauschend aus...

ps. danke Ingo für deinen prompten test!!

By Ingo B. Date 2014-09-04 11:14

Bernhard Traven schrieb:

jetzt knapp bei der hälfte der partien angekommen, schaut es so aus
als ob der "platzhirsch" Stocki 5 seine position als nr.1 weiter (knapp) verteitigen kann...

...

Zu früh für eine Endabrechnung!
Ein nichtoptimierter knapper Vorgänger lag am Schluß ohne Syzygy in der Gesammtauswertung knapp vor S5 ...

Ich lasse zwar in der Classic die Eröffnungen "zufällig" ausspielen, aber das heißt nichts. Die erste Eröffung in der PGN geht an die erste Paarung, die zweite Eröffnung an die zweite ... usw, usf. Am Schluß (nach fast 3080 Spielen) spielt die letzte Engine die erste Eröffnung, die vorletzte die zweite Eröffnung. Da die Eröffnungen bei meiner PGN von SEHR kurz, nach sehr lang sortiert sind (also von allgemein nach speziel), kommen am Schluß eigentlich die interessanteren "Menschensysteme" ...

Langer Rede, kurzer Sinn. Das ist keine Buchrangliste die zufällig etwas gutes oder schlechtes für eine Engine spielen kann und "abgerechnet wird am Schluß"

Ausgehend von der Beta würde ich erwarten das K8 vor S5 rauskommt. Wenn nicht, ist es so knapp das es sowieso alles Zufall ist ...

Gruß
Ingo

By Frank Quisinsky Date 2014-09-04 22:39

Hallo Ingo,

Die Verwendung der Eröffnungssysteme gefällt mir.
Gute Idee, denke das wirkt sich dann auch gut auf das abschließende Ergebnis aus.

Was mir aufgefallen ist, nach 900 Partien war die Leistung im Vergleich zum jetzigen Stand nach 2.637 Partien ... 74,2 zu 75,0%.
Also die übliche Veränderung, das beobachte ich meist bei Deinen Round-Robins weil ich so lange nicht spielen lassen kann.

1. Nicht genug Rechner
2. Höhere Zeitkontrolle
3. Denke nicht notwendig

Warum ich das denke rührt meist aus Deinen Round-Robins bzw. aus meinen Auswertungen der SWCR1.
Da haben so mache Engines auch um die 4.000 Partien gehabt.

Passiert einfach zu selten das es um mehr als +-5 nach oben oder unten geht wenn ca. 800 Partien schon vorliegen.
Und wenn dann auch nur mal um 14 Elo (das höchste was ich bei Dir bislang vernommen habe, habe aber nicht alle Round Robins verfolgt).

Schwierig zu messen ... bei den Engines ganz oben.
Denke zu sagen ... die sind ca. auf dem gleichen Level ist auch OK.

Viele Grüße
Frank

PS: Wie hast Du den Link zur Shredder GUI aus der Live Tabelle bekommen?
Werde immer noch gefragt ... wenn ich auf den Download klicke passiert ja nichts.
Keine Ahnung wie ich das raus bekomme!

By Bernhard Traven Date 2014-09-05 06:12

wie von dir prognostiziert Ingo

ein wimpernschlag-finale:

Komodo 8 - Stockfish 5s (349) 109.5 - 110.5 49.77% Perf=348
------------------------------------------------------------------------------------------------------------

und hier doch (unerwartet hoch für mich) recht deutlich:

Komodo 8 - Houdini 4 (338) 126.5 - 93.5 57.50% Perf=390

By Stefan Pohl Date 2014-09-05 07:08

Bernhard Traven schrieb:

wie von dir prognostiziert Ingo

Dazu 2 Anmerkungen: Die Einzelergebnisse sollte man nicht zu hoch bewerten. Bei nur 220 Partien haben diese eine hohe Zufallsschwankungsbreite. Das betont Ingo auch selbst (zu Recht) immer wieder. Und zweitens: Selbst wenn Komodo 8 evt. ganz knapp auf Platz 1 in der IPON vorrückt, so kann man wohl davon ausgehen, daß jeder halbwegs versierte Computerschächer die aktuelle Development-Version von Stockfish nutzt und nicht mehr Stockfish 5. Und die Dev-Versionen sind (trotz der langen Stagnationsphase, in der sich die Entwicklung von Stocki momentan leider befindet) schon gute 15 Elo besser als Stockfish 5.
Siehe dazu meine Stockfish-Tests: http://spcc.beepworld.de
Ergo: Noch ist Stockfish auf jeden Fall die Nummer 1. Wenn das allerdings auch so bleiben soll, muß bald mal was Brauchbares aus dem Framework kommen...

Stefan

By 2phil4u Date 2014-09-05 07:55

Hier soll es zwar um Kommodo 8 gehen, aber ich habe den Eindruck der oder die Houdini Entwickler bzw Vertreiber haben aufgegeben.

Wahrscheinlich eine Kombination aus zu wenig Einnahmen (Schach ist im Moment nicht besonders im Trend) und zu starker Konkurrenz, so dass sich ein Versuch mit Houdini 5 nochmal was zureissen, eventuell einfach nicht rechnet.

Man nimmt noch das Geld von den paar Leuten mit, die jetzt noch Houdini 4 kaufen und das wars.

Jetzt noch gegen Houdini 4 zu testen (ein Programm ohne updates seit Ewigkeiten) wird zwangslaeufig zu immer schlechteren Ergebnissen für Houdinie fuehren.

Eigentlich schade,Houdini 4 hat seine Staerken, seine Schwaeche ist aber eindeutig zu wenig pruning, er erreicht einfach keine Tiefe (im Verhaeltnis zu Stockfish) und rechnet zu viel Schrott an manchen Stellen, dafür bewertet das Programm sehr gut und wie ihr schon sagt,vom Mittelspiel zum Endspiel laeuft Houdini nicht wie Stockfish euphorisch in totenremis Endspiele.

Entweder man arbeitet noch an Endspielstaerke in Zukunft oder man verlaesst sich in der Zukunft des Computerschachs auf noch umfangreichere Endspieldatenbanken + die Faehigkeit irgendwann mal an der Stellung nichts aendernde Zugumstellungen irgendwie zu cutten, fragt mich aber nicht wie.

Mit Stocki bin ich auch nicht ganz zufrieden, Stockfish ist sowas wie ein total zugedopter Sprinter, schnell aber total planlos im Kopf.

Kommodo kenne ich nicht, kauf ich mir auch nicht, habe gerade andere Sorgen was Geld angeht, aber das ist zu privat.

By Kurt Utzinger Date 2014-09-05 09:02

2phil4u schrieb:

[...]
Jetzt noch gegen Houdini 4 zu testen (ein Programm ohne updates seit Ewigkeiten) wird zwangslaeufig zu immer schlechteren Ergebnissen für Houdinie fuehren.
[...]

"Ein Programm ohne Updates seit Ewigkeiten" sagt schon viel über die
unsägliche Anforderungsmentalität der Computerschächer aus. Ist
vergessen gegangen, dass Houdini 4 am 25. November 2013 erschienen
ist. Wenn das eine "Ewigkeit" ist, dann versteh ich die Welt nicht mehr.
Ich brauch doch nicht mehr als ein Update pro Jahr. Das andauernde
Updaten von Engines - kaum dass die letzte Version erschienen ist -
geht mir persönlich gründlich auf den Wecker. Für solch schnelle
Updates mit wenigen Elo-Sprüngen dann noch bezahlen zu müssen,
finde ich unerträglich.
Mfg
Kurt

By Benno Hartwig Date 2014-09-05 09:13 Edited 2014-09-05 09:16

+1
Und das kleinere ELO-Sprünge so gratis mittels Patches unter das eh nicht zu zahlreiche Computerschach-Volk gebracht werden, darf man ja auch nicht erwarten.
Wie soll der arme Entwickler denn dann einen genügend großen ELO-Sprung für seine nächste Hauptversion realisieren können, die erneut Käufer motivieren soll?

Rybka und Shredder gucke ich angesichts ihres Alterungszustandes aber tatsächlich ein wenig traurig an.

Die Karawane ist weitergezogen. Aber man sieht sie noch. Ganz weit dahinten zwischen den Dünen...

Benno

By Frank Quisinsky Date 2014-09-05 09:28 Edited 2014-09-05 09:32

Hi Kurt,

die Computerschach-Historie erzählt uns die Geschichten.
Ein Programmierer kommt aus dem Nichts, nutzt frei Sourcen, bringt eigene Ideen ein und verschwindet dann irgend wann nach einem kommerziellen Produkt.
Das ist nicht "NEU".

Klar können wir Sourcen verbessern auch um 150 Elo.
Das machen die Programmierer laufend, die die von Anfang an ein Programm selbst aufgebaut haben.

Das Geheimnis ist ja wie setze ich etwas zusammen wenn denn die Geheimnisse fast alle offen liegen.
Und nicht zu unterschätzen ist das was der Critter Programmierer kürzlich machte ... was nicht gut ankam bei vielen Leuten.
Wenn das so einfach ist wie er es demonstrieren wollte ... ja dann ist kein Programm mehr sicher.

Halte Houdini ja selbst nicht für wichtig, eher die Programme die selbst komplett aufgebaut werden.
Das Ideen genutzt und verwendet werden ist ja OK, aber auf ein komplettes Programm aufzusetzen und dann zu schreiben ... danke für die Ideen in Richtung Fruit und Crafty ... die daran ja gar nicht beteiligt waren wenn zu 99% Robbolite genutzt wurde. Finde ich einfach nicht ehrlich und das ist bei weitem nicht meine Meinung allein.

Finde da jeden Test von einem Programm wo sich ein Entwickler wirklich anstrengt weit aus interessanter.
Aber die Communty schaut auf Spielstärke, wo diese herkommt ... das ist letztendlich dem Anwender doch egal.
Mir nicht!

Das Programme kommerziell released werden die dann kaum zugelegt haben.
Jede kleine Verbesserung ist eine Verbesserung aber 3 kommerzielle Updates in kurzer Zeit halte ich auch für sehr viel.
Im Falle von Komodo aber es ist wie es ist, das müssen die Entwickler entscheiden.
Einen Gefallen tun sie sich damit langfristig nicht, kurzfristig vielleicht ja.

Aber dennoch ...
Bei Komodo muss immer gesehen werden, dass die Engine so weit oben steht das Verbesserungen in der Tat schwieriger werden.
Stellt sich wieder die Frage ist das Ende der Fahnenstange zumindest derzeit kurzfristig erreicht?

Interessant wird im Computerschach sein ...
Welche Engines schaffen den Anschluss. Wir haben da so ein paar Kandidaten die es schaffen könnten und es ist wie es ist ...
Bekannte Programmentwicklungen von einst verschwinden, andere kommen hinzu.

Wir schauen heute nicht mehr auf Kallisto oder WChess, Genius oder Tiger, Zarkov oder Gandalf, Ruffian oder sonst was ...
Computerschach ist eine stetige Entwicklung.

Und wenn morgen Texel plötzlich 50 Elo vor Stockfish liegt ...
Dann wird Texel gefeiert, auch wenn kein Clone ... das ist doch der Community egal.
Ist es mal ein Clone der dann 50 vor Stockfish stehen wird ... geht die ganze Lobhudelei wie bei Rybka oder Houdini wieder von vorne los.

Ist immer das Gleiche!

Gruß
Frank

By Ingo B. Date 2014-09-05 08:10

Bernhard Traven schrieb:

wie von dir prognostiziert Ingo

Wie gesagt, die nichtoptimierte Beta hatte praktisch das selbe Ergebniss (fast bis ins individuelle) - und die 3% mehr Speed machen halt den Kohl nicht fett. (Deswegen meine Skepsis bzgl Spezialcompiles um noch das letzte rauszulutschen. Erstens lohnt es sich nicht und zweitens macht es nur Ärger, weil es hier und dort nicht läuft - anderes Thema)
Die Beta war soga einen Hauch besser, obwohl sie langsamer war - schönes Bsp von statistischem Rauschen auch bei einer großen Zahl von Spielen. Wenn ich das nochmal spielen würde, könnte K8 auch 1% besser oder schlechter sein ...

Bernhard Traven schrieb:

Zum einen sind 220 Spiele zu wenig. Zwischendurch war mal dieser, mal jener vorne. Am Schluß ist es halt so wie es ist. Zum anderen ist Stockfish so etwas wie Komodos Nemesis (schrieb ich schon mal irgendwo). Das deutliche Ergebniss gegen H4 (und die anderen) zeigt, das Komodo ausgerechnet gegen SF am schlechtesten (aber nicht schlecht!) zurechtkommt. Die beiden sind ein Level; und auch wenn die SF Development Version ein bisschen weiter ist, glaube ich nicht, dass die beiden sich untereineander etwas tun.

Tatsächlich sind 2311 Punkte volle 18 Punkte mehr als SF5 gegen diese Gegner hatte (meine 75.1 nannte ich, weil ich auch nicht erwartet hätte das die zweite Nachkommastelle eine Rolle spielen würde). Nun habe ich als SF5 rauskam extra von Bayes auf Ordo umgestellt, weil lt. Bayes H4 vor SF5 lag obwohl SF5 H4 geschlagen hatte und "alle" in statistischer Unkenntniss aufgeschrien haben. Nun habe ich das selbe Problem mit ORDO - ich gebe es auf, so ist das halt ... Allerdings spiele ich jetzt erstmal in Ruhe gegen DF14, dann mache ich eine Auswertung und DANN sehen wir weiter.

Gruß
Ingo

By Frank Quisinsky Date 2014-09-05 08:58 Edited 2014-09-05 09:01

Hallo,

sofern ich das richtig verstehe ...
Komodo 8 erkennt automatisch Haswell.
Stellt wohl dann automatisch auf BMI2 ... das ist auch nicht zu unterschätzen.

Das konnte glaube ich Komodo 7a schon und der spielte bei mir ja schon sehr erfolgreich.
Im Turnier welches kürzlich endete landete Komodo 7a gar vor Stockfish 5, schon die 7a war sehr gut.
Allerdings spielte SF ohne Endspieldatenbanken, also die Release Version so wie sie war.

Wenn jetzt weitere kleine Speedups gemacht wurden muss das nicht heißen das diese dann bei Komodo 8 im Vergleich zu Komodo 7a nochmal viel gebracht haben.
Sind so ein paar Dinge die hier und da ein paar Pünktchen bringen oder auch nicht wenn schon vorher auf Haswell.
Stockfish dev. von Anfang August läuft bei mir ja und ist da auch optimiert wurden.

Wie Stefan auch schon geschrieben hat, ich kann mir nach dem derzeitigen Stand bei mir auch nicht vorstellen das Komodo 8 an Stockfish vorbeizieht.
Gegen GullChess kommt Komodo 8 meist über ein Remis bei mir auch nicht hinaus.
Auch GullChess ist verdammt gut auf Haswell optimiert.

Hätte mir dennoch nach dem derzeitigen Stand mehr erwartet.
Komodo gibt auch zu viele Remise gegen Schwächere ab und das hat nichts mit Contemp zu tun, denke eher der funktioniert gut wenn ich auf die kurzen Remispartien schaue.

Stockfish hat einen entscheidenden Vorteil (unabhängig von der guten Taktik).
Die Engine gibt zwar deutlich schneller Partien Remis aber spielt im Endspiel überragend im Vergleich zu Komodo.

Ich sehe im Grunde derzeit fast nichts wo etwas verbessert wurde.
Maximal das das Mittelspiel etwas besser ist und das Endspiel etwas schlechter ... aber für richtig gute Auswertungen sind dann auch meine 1.000 Partien nicht genug.

Na ja ...
So richtig haut mich Komodo daher auf Haswell bzw. im Vergleich zu Version 7a bei mir nicht vom Hocker.
Die besseren Ergebnisse gegen IPPs sehe ich hier ja nicht, weil ich diese nicht einsetze bzw. mit Fire nur eine einzige IPP drin habe.

Nur 10 ELO mehr nach 500 von 1.000 und nach 500 regt sich kaum noch was wenn ich auf meine History der Ergebnisse schaue.
Vielleicht geht es noch maximal um 10 nach oben.

Gruß
Frank

By Ingo B. Date 2014-09-14 09:55

Sorry, dass ich diesen Thread aus der verdienten Vergessenheit reissse, aber ein Punkt hat mir keine Ruhe gelassen.

Ingo B. schrieb:

Tatsächlich sind 2311 Punkte volle 18 Punkte mehr als SF5 gegen diese Gegner hatte (meine 75.1 nannte ich, weil ich auch nicht erwartet hätte das die zweite Nachkommastelle eine Rolle spielen würde)....

Wie ich auf die 75.1% gekommen bin weiß ich nicht mehr, allerdings war die damalige Liste mit einem anderen Ordo und anderen Parametern erstellt als heute.

Jedenfalls sieht die ordentliche IPON-RRRL und "Prä"-K8 Liste, also mit K7a, so aus:


   1 Stockfish 5s          :      0     10   2487.0    3300   75.4%
   2 Houdini 4             :    -11      9   2448.5    3300   74.2%
   3 Komodo 7a             :    -34     10   2362.5    3300   71.6%
   4 Gull 3                :    -71      9   2219.5    3300   67.3%
   5 Equinox 3.00          :   -136      8   1946.5    3300   59.0%
   6 Critter 1.4a          :   -152      8   1874.0    3300   56.8%
   7 Deep Rybka 4.1        :   -177      8   1765.0    3300   53.5%
   8 Deep Fritz 14         :   -243      8   1469.0    3300   44.5%
   9 Chiron 2              :   -252      8   1426.0    3300   43.2%
  10 Protector 1.6.0       :   -272      9   1338.5    3300   40.6%
  11 Hannibal 1.4b         :   -273      9   1333.0    3300   40.4%
  12 Texel 1.04            :   -301      9   1214.0    3300   36.8%
  13 Senpai 1.0            :   -303      9   1204.0    3300   36.5%
  14 Naum 4.2              :   -303      9   1202.5    3300   36.4%
  15 HIARCS 14 WCSC 32b    :   -330      9   1091.5    3300   33.1%
  16 Jonny 6.00            :   -348      9   1018.5    3300   30.9%

Wie man sieht hatte Stockfish gegen diese Gegner einen Schnitt von 75.4%.

Am einfachsten ist es nun anzunehmen, dass eine neue Engine die ebenfalls 75.4% (oder mehr) erreicht die neue Nr. 1 ist.
Das ist mit Sicherheit richtig, lässt allerding unberücksichtigt, dass die alte Nr.1 dann einen "schlechteren" Durchschnitt erreichen wird.

   1 Komodo 8              :      0      9   2486.0    3300   75.3%
   2 Stockfish 5s          :     -5      9   2468.0    3300   74.8%
   3 Houdini 4             :    -18      9   2423.0    3300   73.4%
   4 Gull 3                :    -73      9   2211.5    3300   67.0%
   5 Equinox 3.00          :   -139      9   1933.0    3300   58.6%
   6 Critter 1.4a          :   -155      9   1864.0    3300   56.5%
   7 Deep Rybka 4.1        :   -179      9   1757.0    3300   53.2%
   8 Deep Fritz 14         :   -244      8   1465.0    3300   44.4%
   9 Chiron 2              :   -255      8   1416.0    3300   42.9%
  10 Protector 1.6.0       :   -273      9   1337.0    3300   40.5%
  11 Hannibal 1.4b         :   -275      9   1329.0    3300   40.3%
  12 Texel 1.04            :   -303      9   1208.5    3300   36.6%
  13 Naum 4.2              :   -305      9   1202.5    3300   36.4%
  14 Senpai 1.0            :   -306      9   1196.5    3300   36.3%
  15 HIARCS 14 WCSC 32b    :   -332      9   1087.0    3300   32.9%
  16 Jonny 6.00            :   -350      9   1016.0    3300   30.8%

Wie man sehen kann, ist S5a um 0.6% gefallen und Komodo 8 hat trotzdem nicht den Durchschnitt von S5s erreicht ...
Auch die absolut erreichten Punkte sagen nichts, das S5s ursprunglich 2487 Punkte erreicht hatte, K6 aber "nur" 2486. Der eine Punkt hat gelangt, um beim Runden 0.1% Unterschied anzuzeigen, obwohl ein Punkt es nur 0,030303...% sind.

Für die Zukunft kann ich nur sagen das eine leicht geringere Erfolgsquote (%) langt um eine Engine zu verdrängen.

Käme eine Engine aus dem "Nichts" in diese Liste müßte Sie GENAU den Prozentsatz (+einen Punkt oder 0.030303...%) erreichen um eine Engine in der Platzierung zu verdrängen. Käme ein neuer Jonny, ist die Lücke zw. nötigem% & und tatsächlichem% kleiner, weil der Einfluß von Jonny auf die Liste als Nr. 16 nicht so groß ist wie z.B. der eines K7a als Nr. 3.

Ausrechnen mit einer "über den Daumen" Regel, wie es bisher mit Bayes oder Elostat möglich war, ist, mit Ordo, leider nicht mehr möglich.

Gruß
Ingo

By GS Date 2014-09-14 13:12

Hi Ingo !

Ich bin da auch gerade dran und habe ein paar Szenarien durchgespielt.

Folgendes "passt" ganz gut:
liegen die Performances mehrheitlich zw. 40-60%, dann kann man einfach
diese zusammen addieren und durch die Anzahl an Gegner teilen.
Solch eine Vorhersage passt dann ganz gut.
Sind jedoch viele Performances grösser 60% dabei, dann muss man
5-10 Punkte zur Durchschnittsrechnung dazu zählen.
Bei vielen Performances unterhalb 40% entsprechend 5-10 abziehen.

Viele Grüsse,
G.S.

By Ingo B. Date 2014-09-14 14:05

GS schrieb:

Hmm das haut bei mir nicht hin. Ich Testlauf hat K8 ja 75% geholt, in der ad hoc Berechnung aber 20 Punkte hinter S5a gelegen ...

Meine obige Arbeitshypothese oben geht sowieso nur bei Rundenturnieren. Freies Spiel, wie es die meisten Ranglisten praktizieren, geht so nicht. Vielleicht geht da deine These.

Wir bräuchten von Miguel ein Tool, das aus der ORDO Durchschnittsgegnerperformance und der erreichten %-Performance eine Überschlagsordoelo errechnet ...

Habe übrigens ein "-D" in meine Ordoformel eingefügt. Das ändert leicht die Errorbars weil es die Remisquote gegen vergleichbare Gegner mit einbezieht. In meinem TOP16 Turnier wurde die Errorbar minimal kleiner, im der Komplettliste etwas größer. Im ganzen sieht das besser aus.
Mit -z kann mann die Elodifferenz bei einer gewissen Erfolgsquote manipulieren. Ordo macht wohl 202 Elo bei 76%. Damit bin ich am rumexperimentieren. (http://www.talkchess.com/forum/viewtopic.php?topic_view=threads&p=587187&t=53645)

Ich bin mathematisch ein interessierter Laie und bekomme das Gefühl das ORDO und Elo(formel) nicht wirklich zusammen passen. Ist ein bischen wie Celsius und Fahrenheit. Beide können eine Temperatur ausdrücken nur die Skala (und damit die Abstände) ist eine andere ... Wenn man lange genug eine Skala benutzt sieht es aber normal aus.

Gruß
Ingo

By GS Date 2014-09-14 14:53

Ingo B. schrieb:

[...snip...]
Mit -z kann mann die Elodifferenz bei einer gewissen Erfolgsquote manipulieren. Ordo macht wohl 202 Elo bei 76%. [...snip...]

Hhm, das sind gerade mal 2 Punkte zuviel, "richtig" lt. ELO wären 200.

Ich bin auch weiter am experimentieren.

Viele Grüsse,
G.S.

By Ingo B. Date 2014-09-05 08:16

Frank Quisinsky schrieb:

PS: Wie hast Du den Link zur Shredder GUI aus der Live Tabelle bekommen?

Mit Lars Bremers "Autocopy". Das kann Zeilen aus Texten (in diesem Fall HTML) ausschneiden und neu abspeichern. Das Tool fehlt auf LBs Seite, ist nicht freigegeben (hat er bestimmt einfach vergessen). Du mußt ihn direkt anfragen.
ACHTUNG: Autocopy (wie auch FTPTrigger) brauchen im Taskmanager eine dedizierte Zugehörigkeit, sonst stürzen sie über kurz oder lang ab.

Ingo

By Frank Quisinsky Date 2014-09-05 08:44

Hallo Ingo,

super, werde Lars anschreiben!

Und ja, FTP Trigger stürzt bei mir oft ab, immer schon.
Wusste gar nicht das ich das das ich das im Taskmanager justieren kann.
Weiß gar nicht wie, muss mal recherchieren.

Hatte den FTP Trigger seinerzeit immer auf allen 4 SWCR1 Rechnern, bzw. heute auf beiden FCT1 Rechnern gestartet. Wenn beide abstürzen und ich sehe das nicht, Bingo!
Wird nichts mehr LIVE eingeblendet.

Viele Grüße
Frank

By Benno Hartwig Date 2014-09-05 09:09

Thanx.
Nach 3080 Partien hat K8 nun 75.03% erspielt. Schon beeindruckend.
Ist das nun direkt vergleichbar mit den 75.40% von "Stockfish 5s" ? Oder sollten die 220 weniger Partien (gegen wen eigentlich?) noch nachdenklich machen? Wie müsste ggf. korrigiert werden?

Jetzt darf die Phantasie spekulieren, wie sich dieser "Stockfish 5s" nun ggf. unterscheidet vom aktuellesten (mit besten?) Stockfish. (vgl.: http://spcc.beepworld.de/)

Und man darf gespannt sein, welchen Eindruck SF und K8 bei TCEC machen, auf großer Hardware und bei langen Zeiten.

Benno

By ? Date 2014-09-05 09:27

Benno Hartwig schrieb:

Thanx.
Nach 3080 Partien hat K8 nun 75.03% erspielt. Schon beeindruckend.
Ist das nun direkt vergleichbar mit den 75.40% von "Stockfish 5s" ?

Nein, S5s hat jetzt ja weniger Punkte gegen K8 als gegen K7a ... Ich schrieb schon oben, gegen gleiche Gegnerschaft hat K8 jetzt 18 Punkte mehr als S5s.

Benno Hartwig schrieb:

Oder sollten die 220 weniger Partien (gegen wen eigentlich?) noch nachdenklich machen? Wie müsste ggf. korrigiert werden?

Ich bezweifle das jetzt K8 mehr als 18 Punkte weniger holt als S5s - und es ist DF14. Mit den Fritzens muß ich halt immer über die "Krücke" CB-GUI gehen.

Benno Hartwig schrieb:

Jetzt darf die Phantasie spekulieren...

Spekulieren, auch über development Versionen, darf man natürlich; ich gehe davon aus das heute K8 und SF (egal welcher), gleich stark sind bzw je nach Konditionen mal der eine mal der andere die Nase ein bischen weiter vorn hat. Finde ich gut, da bleibt es spannend.

Der "ultimative Test" ist übrigens der Engine Server von CB und da vermute ich, wird SF die Nase vorn behalten weil zum einen fast nur geblitzt wird, zum anderen SF mit seinen fast täglichen neuen Versionen natürlich glauben läßt das die aktuelle Version jetzt eben doch ein Quäntchen besser ist und zum dritten haben die paar Buchfrickler sich auf SF und Blitz eingeschossen. Das passt dann nicht so gut für K8 und er fällt hinten runter. Um die Frickler zu überzeugen muß halt plötzlich ein deutlicher Vorsprung vorhanden sein - und den haben wir eben im Moment nicht.

Gruß
Ingo

By Benno Hartwig Date 2014-09-05 10:21 Edited 2014-09-05 10:41

> ich gehe davon aus das heute K8 und SF (egal welcher), gleich stark sind bzw je nach Konditionen mal der eine mal der andere die Nase ein bischen weiter vorn hat. Finde ich gut, da bleibt es spannend.

Stimmt.
http://spcc.beepworld.de/ zeigt, dass alle SF ab Mai 2014 so annähernd gleich stark sind. Die meisten so zwischen 3181 und 3190 ELO.

Und ich meine, es war Larry Kaufman, der vor Kurzem zu Komodo 8 schrieb
"There is little doubt that Komodo 8 will be the top rated commercial engine; whether it will outrate Stockfish will depend on test conditions and on whether or not the latest dev. version of Stockfish is used." Er mag damit Recht haben! Und das ist gut so.

Benno

By 2phil4u Date 2014-09-05 11:42

November 2013, alles schön und gut, aber war nicht zu Beginn Houdini 4 die stärkste engine, ich bin noch nicht so lange beim Computerschach dabei.

Wenn ich das richtig verstanden habe, geht der trend jetzt eh Richtung 32 Kerne und 24 h Spiele, jedenfalls soll das getestet werden, denn engines werden ja vor allem für Analysen gebraucht und fürs Fernschach.

Irgendwelche shortmatches sind daher zwar berechtigt, aber sie bringen eben so manchen Nachteil, wie (Programm a findet schnell gute Taktiken über 10 oder 11 Züge), aber wenn man sie länger rechnen lässt, wird man oft enttäuscht.

Trotzdem entdeckt Stockfish, trotz zunehmendem pruning bei höherer Tiefe irgendwann plötzlich ein sehr abstraktes Matt in 9-11 Zügen, was mich dann wundert, denn wenn immer mehr geprunt wird, wieso sucht dann Stocki plötzlich bei den ersten Zügen mehr ?

Meiner Meinung nach fehlt es einfach an finanziellen Ressourcen, derzeit gibt es meines Wissens keinen einzigen Großcomputer, auf dem intensiv geforscht wird, der letzte wurde für die 7-Steiner benutzt.

In den nächsten 2 Jahren wird Intels manycoreprozessor rauskommen mit stacked ram (sehr schneller und sehr viel ram) und als Sockelprozessor.

Bin mal gespannt, ob wenigstens für den was kommt.

Das extremste Beispiel für wirklich tiefe Berechnungen sind derzeit wohl das match gegen Naiditsch, die nächsten paar Züge scheinen klar und es wird in der Zeit (3 Tage pro Halbzug) alles mögliche probiert um in gewonnene Endspiele reinzukommen und irgendwelche forced aber nur schwer erkennbare Züge für Naiditsch zu finden.

By Stefan Pohl Date 2014-09-05 12:16

Benno Hartwig schrieb:

Stimmt.
<a class='ura' href='http://spcc.beepworld.de/'>http://spcc.beepworld.de/</a> zeigt, dass alle SF ab Mai 2014 so annähernd gleich stark sind. Die meisten so zwischen 3181 und 3190 ELO.

Ja. Aber die besten Stocki-Devs sind +17 Elo besser als Stockfish 5 und damit (auch außerhalb der Errorbars!) meßbar stärker als SF5.

Stefan

By Ralf Mueller Date 2014-09-05 10:55

Ich bin schon sehr auf die Aktualisierung deiner Rangliste gespannt.
Ich hatte mich bisher an Komodo 8's Performance von 330 orientiert, die ja um 19 Punkte niedriger als die Elozahl von Stockfish 5s liegt. Daher ging ich davon aus, dass dort noch ca. 20 Punkte Differenz sind. Oder wie sind diese Zahlen zu interpretieren?

By Ingo B. Date 2014-09-05 11:47

Ralf Mueller schrieb:

Ich schrieb gleich im Eingangsposting: "Do not look at the rating"!

Ich will eigentlich keine Ratings mehr geben die irgendwie mit "Menschen" verwechselt werden können. Deswegen ist miene eigentliche Liste immer mit 0 für die beste Engine geeicht.
Leider verträgt die Classic GUI diese negativen "Elo"-Werte nicht. Also dachte ich das ich einfach jeweils 349 dazuaddiere. Leider haut das alles nicht mehr hin, weil die Classic stur nach Eloformel berechnet, ich aber ORDO Werte eintrage (und Stockfish Elo MIT den Spielen gegen K7a und DF14 ist) . Bei Bayes war es schon immer so, dass die Endergebnisse aus der Classic leicht vom Endergebniss mit Bayes abwichen, mit ORDO geht das gar nicht mehr. Ich werde in Zukunft keine ELOs in einem laufenden Turnier angeben. Wer möchte kann sich aus dem Download die individuellen Ergebnisse rausholen und den Prozentsatz der benötigt wird um diese oder jene Engine zu schlagen selber ausrechenen - oder er wartet, bis die Auswertung fertig ist. Der %-Satz ist aber eigentlich ein ziemlich guter Indikator, eigentlich könnte man auch einfach die erreichten Punkte als Rangliste verwenden da ich ja ein komplettes RR Turnier spiele ...

Gruß
Ingo

PS: Ich selber schaue bei mir eigentlich auch schon vor ORDO auf die Prozentwerte, weil ich über den Daumen den Vorgänger im Blick habe. Das geht immer und man braucht keine vermaledeiten Elos mehr

(Geht natürlich nicht bei "normalen" Ranglisten ohne RR und mit verschiedenen Gegnern, da braucht es halt Statistikprogramme die das auswerten, stimmt am Schluß aber auch)

By Michael Scheidl Date 2014-09-07 00:50

Zitat:

Ich will eigentlich keine Ratings mehr geben die irgendwie mit "Menschen" verwechselt werden können. Deswegen ist miene eigentliche Liste immer mit 0 für die beste Engine geeicht.

Eine begrüßenswerte Entscheidung wie ich finde. Da man einfach direkt die Rückstände auf die Nr. 1 ablesen kann, halte ich das für transparent.

Bei CEGT 5+3 pb liegt Houdini 4 auf Rang Eins, bei überlappenden Errormargins mit SF.5, und Komodo 7a liegt 43 Punkte hinter H4 und 33 hinter SF.5. D.h. mit etwas statistischem Pech von K8 sozusagen, könnte die Reihenfolge der Top-3 in beiden Listen umgekehrt ausfallen.

By Ingo B. Date 2014-09-07 07:58

Michael Scheidl schrieb:

Zitat:

Ich will eigentlich keine Ratings mehr geben die irgendwie mit "Menschen" verwechselt werden können. Deswegen ist miene eigentliche Liste immer mit 0 für die beste Engine geeicht.

Bei mir haben die ersten drei überlappenden Errormargins (und kleiner als bei der CEGT). Eine baugleiche K8-Beta hatte ohne SYZYGY und als nicht optimierter compile 3 Elo mehr bei mir. Ausser statistischem Rauschen (ob besser oder schlechter weiß ich nicht) habe ich dafür keine Erklärung. Bei 3300 Spielen haben die drei TOP-Engines nur 18 und 45 Punkte Unterschied. Wenn ich das komplett nochmal spielen ließe, würde ich wetten das die Abstände anders, vielleicht sogar anders herum, wären ...

Bei mir ist fast zufällig K8 im Moment der "primus inter pares", wenn das bei anderen anders wäre würde es mich nicht wundern.

Gruß
Ingo

By Ingo B. Date 2014-09-07 08:43

Ingo B. schrieb:

...
Bei mir ist fast zufällig K8 im Moment der "primus inter pares", wenn das bei anderen anders wäre würde es mich nicht wundern.
...

Interessant ist vielleicht die LOS nach Bayes (im IPON Download).
Ich versuchs mal hier zu posten und hoffe das das Format erhalten bleibt:

                    Ko St Ho Gu Eq Cr De De Ch Pr Ha Te Na Se HI Jo
Komodo 8               88 94100100100100100100100100100100100100100
Stockfish 5s        11    67100100100100100100100100100100100100100
Houdini 4            5 32   100100100100100100100100100100100100100
Gull 3               0  0  0   100100100100100100100100100100100100
Equinox 3.00         0  0  0  0    98 99100100100100100100100100100
Critter 1.4a         0  0  0  0  1    99100100100100100100100100100
Deep Rybka 4.1       0  0  0  0  0  0   100100100100100100100100100
Deep Fritz 14        0  0  0  0  0  0  0    96 99 99100100100100100
Chiron 2             0  0  0  0  0  0  0  3    99 99 99 99 99100100
Protector 1.6.0      0  0  0  0  0  0  0  0  0    64 99 99 99100100
Hannibal 1.4b        0  0  0  0  0  0  0  0  0 35    99 99 99100100
Texel 1.04           0  0  0  0  0  0  0  0  0  0  0    50 60 99 99
Naum 4.2             0  0  0  0  0  0  0  0  0  0  0 49    59 99 99
Senpai 1.0           0  0  0  0  0  0  0  0  0  0  0 39 40    99 99
HIARCS 14 WCSC 32b   0  0  0  0  0  0  0  0  0  0  0  0  0  0    99
Jonny 6.00           0  0  0  0  0  0  0  0  0  0  0  0  0  0  0

Selbst H4 hat noch eine 5% Chance besser zu sein als K8 und 32% besser zu sein als S5s ...
Bei Gull ist schon alles gelaufen!

Gruß
Ingo

By Ralf Mueller Date 2014-09-07 10:06

Zitat:

Bei Gull ist schon alles gelaufen!

Gull hat vermutlich auch noch maximal 1% bzw. 5% Chancen, je nachdem, wie die Fehlermarge (95% oder 99%) eingestellt ist, oder?

Unmöglich ist (fast) nichts!

By ? Date 2014-09-07 12:28

Ralf Mueller schrieb:

Zitat:

Bei Gull ist schon alles gelaufen!

Gull hat vermutlich auch noch maximal 1% bzw. 5% Chancen, je nachdem, wie die Fehlermarge (95% oder 99%) eingestellt ist, oder?

Unmöglich ist (fast) nichts!

Es sind 95% für die Errorbar nur dein Schluß ist nicht richtig, du darfst nicht die Errorbar mit der LOS (Likelyhood of superiority) verwechseln. Sicher besteht die 5% Möglichkeit das Gull besser ist als die Errorbar anzeigt, aber das er gleich 55Elo oder 5.5 mal meine Errorbar (SD) besser ist, die Wahrscheinlichkeit darf dir gerne ein Mathematiker ausrechnen (siehe LOS oben). Die steht mit Sicherheit weit unter 0.5% weil Bayes dann abrundet zu 0% (Houdini steht auf 100%)
Recht hast allerdings das fast alles möglich ist. Ab einem gewissen Punkt ist mir das zu abwegig.

Gruß
Ingo

By Kurt Utzinger Date 2014-09-07 16:39

Hallo Ingo

Partien mit 5m+3s sind m.E. eben doch aussagekräftiger als Games mit bedeutend tieferen Bedenkzeit, wo Komodo 8 weniger gut punktet.
Mfg
Kurt

By Ralf Mueller Date 2014-09-07 16:54

Hallo Kurt,
ich glaube, dass die gewählte Bedenkzeit jeweils nur für die jeweilige Bedenkzeit aussagekräftig ist und für andere Bedenkzeiten gute Schätzungen liefern kann.
Aber dass eine einzelne Bedenkzeit generell aussagekräftiger als eine andere ist, halte ich für falsch. Es kommt eben immer auf das Bezugssystem an.

Nur weil Komodo 8 unter irgendwelchen Bedingungen schlechter abschneidet, muss diese Bedingung ja nicht schlecht sein. Wenn eine Testumgebung nur gut wäre, wenn Komodo 8 vorne liegt, bräuchten wir nicht mehr testen, weil wir das Ergebnis schon vorher kennen.

By Kurt Utzinger Date 2014-09-07 18:01

Ralf Mueller schrieb:

Hallo Ralf
Ich muss Dir wohl Recht geben und deshalb meine Aussage revidieren.
Mfg
Kurt

By Benno Hartwig Date 2014-09-08 13:53

Grundsätzliche Zustimmung!

> Nur weil Komodo 8 unter irgendwelchen Bedingungen schlechter abschneidet, muss diese Bedingung ja nicht schlecht sein.

Auch richtig. Aber die Nutzer haben bisweilen ein Vorstellung davon, was ihnen das Wichtigste ist. Was für sie die Königsdisziplin ist.
Mancher, und ich gehöre dazu, möchte gern der Engine die Krone aufsetzen, die sich im Zweifelsfall bei Turnierbedenkzeit ca. 3m/Zug als die stärkste zeigen kann.
Jeder Denkzeit (Bullet, Blitz, Rapid, Turnier und gern auch 24h/Zug) kann einen eigenen Champion hervorbringen, und der ist es dann auch, richtig und echt.
Aber einer davon kann einem persönlich als der wichtigste erscheinen. Und ein Schätzverfahren, welches dem am nächsten kommt, kann man dann bevorzugen, es dann ggf. auch irgendwie 'richtig' finden, auch wenn das Wort nicht 'richtig' passen will. Allerdings sollte es auch praktikabel sein. 3min/Zug-Turniere scheiden dann wohl eben doch oft aus.

Benno

By Ingo B. Date 2014-09-07 20:06

Kurt Utzinger schrieb:

Hallo Ingo

Partien mit 5m+3s sind m.E. eben doch aussagekräftiger als Games mit bedeutend tieferen Bedenkzeit, wo Komodo 8 weniger gut punktet.
Mfg
Kurt

Falls du meinst das zu kurze Bedenkzeiten nichts taugen würden ist die klare Antwort darauf ein Jein!

Ich bin der Meinung das es einen gewissen Schwellwert gibt unter dem ein Testen keinen Sinn mehr macht weil einfach gewisse Teile der Engine immer gleich viel Zeit verbrauchen (z.B. Zugerzeugung pro Stellung). Wo diese Grenze liegt, hängt von der Hardware, sowie von der Effektivität des gewählten Algorithmus ab. Darunter macht keinen Sinn. Darüber gibt es einen Zwischenbereich in dem die eine Engine schon gut funktioniert, eine andere noch nicht. Ab einer gewissen Zeit passiert eigentlich nichts Relevantes mehr in den Ranglisten (bei genug Spielen), ausser das die Engines etwas näher zusammen rücken wegen steigender Remisquote.
Wo jetzt die Grenzen liegen, darüber läßt sich trefflich streiten, Fakt ist, das ich mit meinen 5+3 uauf meiner HW deutlich oberhalb jedes genannten Schwellwertes liege (immerhin ~16 min pro Spiel Ponder on). Die CEGT 40/20 z.B bringt nach einiger Zeit, sobald sie genug Spiele zusammen haben, eigentlich die selbe Reihung zustande (mal abgesehen von Engines die praktisch identisch stark sind, dann liegen die mal getauscht), CCRL lassen wir mal aussen vor, aber die hat andere Probleme (und praktisch NIE genug Spiele). Ich gehe sogar so weit und behaupte das eine Rangliste mit z.B. 90min + 30s auch nichts großartig anderes prodzieren würde als meine Liste - bei gleicher Spieleanzahl. Bis heute habe ich keine Engine erlebt (und ich mache das schon eine Weile) die mit viel Zeit plötzlich in Regionen vordringt die sie bei 5 + 3 nicht hatte. Und ich weiß, dass das immer wieder behauptet wurde und immer wieder behauptet werden wird weil SUBJEKTIV mal ein einzelnes tolles Spiel von einem Fn beobachtet wurde - irrelevant! (Interessant ist, das wenn jemand das laut und öfter behauptet, einige Uninformierte anfangen das zu glauben. Aber das haben wir in allen Bereichen und ist ein anderes Thema)

Kurz, auf halbwegs moderner HW ist mehr als 5 + 3 Zeit-, Strom und Resourcenverschwendung - womöglich ist mein 5+3 schon Resourcenverschwendung.
Allerdings gebe ich zu bedenken, das der Gewinn der bei Selbsttest und / oder sehr kurzen Bedenkzeiten von Stockfish in der Vergangenheit immer genannt wurde, sich in den klassischen Ranglisten NIE bestätigt hat, es war immer weniger. Deswegen bin ich auch sehr skeptisch wenn ich jetzt lese, das "der aktuelle Stockfish aber 17 Elo besser ist als S5". Wenn davon die Hälfte übrig bleibt ist das praktisch immer noch Rauschen und spielt in der Praxis keine Rolle.

Am wichtigsten ist: Keine Liste zu ernst nehmen, die haben ALLE irgendwo ein konzeptionelles Problem (meine auch)! Erst wenn mehrere die selbe Richtung zeigen könnte man glauben das daran vielleicht etwas Wahres ist. Zeigt EINE Liste dann etwas anderes (und diesen Fall haben wir immer wieder) liegt es nahe das an dieser EINEN Liste etwas nicht stimmt.

Gruß
Ingo

By Kurt Utzinger Date 2014-09-07 20:39

Hallo Ingo

Danke für die ausführliche Antwort. Deine langjährigen Erfahrungen scheinen
Dir Recht zu geben. Als Nicht-mehr-Tester bzw. als nur noch "Analysierer"
mag ich natürlich Partien mit langen Bedenkzeit trotzdem besonders gerne.

Mfg
Kurt

By Ingo B. Date 2014-09-07 21:59

Kurt Utzinger schrieb:

... Als Nicht-mehr-Tester bzw. als nur noch "Analysierer" mag ich natürlich Partien mit langen Bedenkzeit trotzdem besonders gerne.
...

Wenn du menschliche Partien analysierst kann ich das verstehen, bei Computerpartien können zwei Carlens ohne Computer nicht das spielen was ein Komodo gegen einen Stockfish in 5 + 3 zustande bringen. Insofern könntest du dich auch für Blitz-Comp Partien interessieren.

Was ich verstehe ist, dass Schachspieler von Kindesbeinen antrainiert bekommen, dass lange Partien die Königsdisziplin sind. Das wird natürlich beibehalten, auch wenn es unter gewissen Bedinungen (s.o) keinen Sinn für den Menschen mehr macht.

Gruß
Ingo

By GS Date 2014-09-07 12:41 Upvotes 1

Bei uns (CEGT 5'+3" pb=on) liegt Komodo 8.0 x64 1CPU nach nun
900 Spielen auf Platz Nummer 1, so denn Ordo als Auswertungsprogramm
zur Anwendung kommt.

Siehe (ganz unten im Posting):
http://cegt.forumieren.com/t202-testing-komodo-80-x64

G.S.
(CEGT team)

By Ingo B. Date 2014-09-07 12:49

GS schrieb:

Bei uns (CEGT 5'+3" pb=on) liegt Komodo 8.0 x64 1CPU nach nun
900 Spielen auf Platz Nummer 1, so denn Ordo als Auswertungsprogramm
zur Anwendung kommt.

Siehe (ganz unten im Posting):
<a class='ura' href='http://cegt.forumieren.com/t202-testing-komodo-80-x64'>http://cegt.forumieren.com/t202-testing-komodo-80-x64</a>

G.S.
(CEGT team)

Ja, diese "Schätzung" (bei euch +22) mit der Eloformel gegen den Gegnerschnitt ist mit Ordowerten in der Eingangsformel perdue. Ich werde auch keine Elowerte mehr angeben in einem laufenden Turnier. Wer wissen will wo eine Engine steht muß sich die Prozentwerte im RR ansehen.

Gruß
Ingo

By GS Date 2014-09-07 13:01

Ingo B. schrieb:

Stimmt leider.

Ich werde künftig versuchen die Spiele meiner
Testkollegen schneller einzusammeln, um dann
immer mal wieder eine Rechnung via Ordo in
das Testsheet zu setzen.

Viele Grüsse,
G.S.

By Michael Scheidl Date 2014-09-07 13:07

Danke, interessant.

Selbst wenn ich mir geschätze +20 Punkte für Dev-SF. gegenüber SF5 hinzudenke, haben wir jetzt ein Spitzentrio innerhalb einer engen Bandbreite von etwa 20...30 Wertungspunkten. Houdini 4 mischt also zweifellos schon noch mit. Ich habe jetzt nicht vor Augen, ob und wie die Stärkeverhältnisse unter TCEC-Bedingungen prinzipiell abweichen. Vielleicht geht da noch was für H4. Fast jeder redet nur von einem erneuten Finale Komodo-Stockfish...

Ich habe spaßhalber für Gull als Finalteilnehmer gevotet

was natürlich deutlich unwahrscheinlicher aussieht. Aber wer weiß; wir kennen noch nicht die genauen Versionen. Vielleicht kommt ja Gull 3.5 oder -4 rechtzeitig und macht alles noch spannender.

By GS Date 2014-09-07 13:39

Wir haben erst 900 Spiele, deshalb bin ich noch zurückhaltend.
Lt. meinen Erfahrungen sind noch Schwankungen im Bereich von
+- 20 möglich. Nächste Woche Dienstag jedoch sollten wir
um die 1400 Spiele haben, dann wird alles deutlich genauer sein.
Z.Zt. "traue" ich den Resultaten der IPON mehr ...

G.S.
(CEGT team)

By Ingo B. Date 2014-09-05 12:47

Meine Gesamtliste würde im Moment, ohne K8 gg DF14, oben so aussehen:

   1 Komodo 8                     :    3.9   10.7   2504.5    3300   75.9%
   2 Stockfish 5s                 :    0.0    9.6   2944.5    3960   74.4%
   3 Houdini 4                    :  -11.7    7.4   5301.5    7070   75.0%
   4 Komodo 7a                    :  -37.1    9.3   2798.5    3960   70.7%

Also 41 Elo Plus für K8!

Das ist aber noch kein ordentliches RR, das dauert noch.

Gruß
Ingo

By Ralf Mueller Date 2014-09-05 21:41

Vielen Dank für die Klarstellung! Das "do not look at the rating" habe ich dahingehend interpretiert, dass die Ratings weder in menschlichen Begriffen, noch in dem System auf deiner Seite (Spitzenreiter hat 0 Punkte) Sinn machen, aber dennoch korrekt berechnet sind. Deine Erläuterung bringt da Klarheit rein.
Vielen Dank auch für die vorläufige Berechnung. Das sieht doch ganz ordentlich aus! Ich bin ehrlich überrascht, in welchem Tempo Komodo zur Zeit entwickelt wird. Täusche ich mich oder hat das zugenommen?
Bis wann hast du das Rundenturnier fertiggestellt? Was fehlt noch?

By Ingo B. Date 2014-09-05 22:05

K8 gegen DF14 fehlen jetzt noch ein paar Spiele. Die werden heute Nacht fertig, morgen vormittag kommt die Komplettliste.

Gruß
Ingo