Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / TEB-Liste wird zu NEBB-Listen
- - By Stefan Pohl Date 2011-12-25 08:29
Hallo zusammen,

Die Kritik an den sehr kurzen Bedenkzeiten und das damit einhergehende recht geringe Interesse an meiner TEB-Rangliste hat mich dazu animiert, selbige grundlegend zu überdenken und zu reformieren. Besonders zu denken gab mir der Einwand, daß bestimmte Engines (genannt wurde Komodo 3) mit sehr kurzen Bedenkzeiten nicht zurechtkommen und mit mehr Bedenkzeit deutlich und überproportional an Spielstärke zulegen würden. Ähnliches wurde schon zu früheren Zeitpunkten immer wieder von einzelnen Engines behauptet. Mir fiel nun auf, daß das bisher immer nur subjektive Einschätzungen ohne solide statistische Grundlage waren, da die allermeisten Ranglisten nur mit einer festen Bedenkzeitstufe erstellt wurden und werden. Für die CEGT-Liste gilt das zwar nicht, allerdings sind hier die Testbedingungen bzgl. Gegnerauswahl etc. nicht einheitlich, sodaß Vergleiche zwischen den verschiedenen CEGT-Listen mit ihren unterschiedlichen Bedenkzeiten problematisch sind.
Also habe ich mir überlegt, zwei Ranglisten zu erstellen, die sich nur in genau einem Punkt voneinander unterscheiden, nämlich in der Bedenkzeit. Eine Liste soll nach wie vor mit sehr kurzen Bedenkzeiten erstellt werden, schon damit ich auf diese Weise eine Datenbasis erhalte, um neue Compiles oder experimentelle Settings schnell beurteilen zu können. Eine zweite Liste soll genau identisch sein, was Engines, Vorgabestellungen etc. angeht, aber mit deutlich längerer Bedenkzeit. Hier tat sich nun das Problem auf, daß mit nur einem PC eine Rangliste mit längerer Bedenkzeit einfach zu viel Zeit in Anspruch nehmen würde, wenn ich die bisherigen Testbedingungen der TEB-Liste beibehalten würde (zwar nur 7-10 Topengines, aber je 300 Partien je Einzelvergleich). Würde man nun mit normalen Vorgabestellungen auf 100 Partien je Einzelvergleich reduzieren und kämen die Engines dann somit insgesamt nur auf 700-1000 Partien, wäre das Rating noch etwas wackelig. Diese Problematik, sowie die Tatsache, daß ich in der TEB-Liste komplett ohne Tablebases getestet habe, weil die Bases-Zugriffe bei solch extrem kurzen Bedenkzeiten selbst auf Flashmemory zu langsam wären, brachten mich auf die Idee meine Ultrakurz-Vorgabestellungen wieder auszugraben, die ich vor einigen Jahren erstellt hatte. Diese bestehen nur aus je einem einschrittigen Bauernzug pro Seite, also z.B. 1.a3 a6, 1.a3 b6, 1.a3 c6 usw. Dies ergibt maximal 64 Stellungen, die im Prinzip nur minimal-Variationen der Grundstellung sind. Somit wären dann die Engines nicht nur im Endspiel, sondern auch in der Eröffnung komplett auf sich gestellt. Dieses "Naked Engines"-Konzept hat den Vorteil, daß sich die Ergebnisse eines Enginevergleichs deutlich schneller auf einen Prozentwert einpendeln, als wenn man klassische Vorgabestellungen verwendet, die die Partien in bestimmte Eröffnungssysteme leiten. Warum das so ist, weiß ich selbst nicht so genau, aber in meinen früheren Experimenten mit diesen Kurzvorgaben war das eindeutig der Fall. Daher reichen mit diesen Kurzvorgaben 100 Partien pro Einzelvergleich und 700-1000 Partien pro Engine insgesamt für ein stabiles Ranking vollkommen aus. Allerdings ist es sinnvoll die Basiszeit im Verhältnis zum Fischerbonus auf mindestens 100:1 zu erhöhen, damit für die allerersten Züge und somit für den Eröffnungsaufbau genügend Rechenzeit zur Verfügung steht.
Aus diesen Überlegungen habe ich nun folgende Testbedingungen für die NEBB-Ranglisten (Naked Engine Bullet und Blitz) gefolgert:
50 Ultrakurzvorgabestellungen (1.a3 a6, 1.a3 b6 etc. (ohne Stellungen mit gezogenem f-Bauer, weil Engines das aufgrund der Königssicherheit als schlecht bewerten, außer der symmetrischen Stellung 1.f3 f6, weil ich sonst nur auf 49 Stellungen gekommen wäre). 256 MB Hash, 1 Core (Intel Q9550 2.83 GHz Quad) pro Engine, LittleBlitzerGUI (keine Partieaufgabe, Remis erst bei 200 Zügen), kein Pondern, keine Tablebases, nur die allerbesten Engines, wobei hier z.Zt. unterhalb von Stockfish eine große Spielstärkelücke besteht, was sich aber in der Zukunft natürlich ändern kann. Hier werde ich andere Ranglisten zur Orientierung heranziehen, sowie ggf. eigene Schnelltests.
Als Bedenkzeiten habe ich für die Bulletliste 1 Minute Basiszeit + 500 ms Fischerbonus gewählt. Die Blitzliste spielt unter identischen Bedingungen, aber mit der 4fachen Zeit, nämlich 4 Minuten Basis + 2 Sekunden Fischerbonus. Beide Ranglisten werden mit bayeselo erstellt und an der schwächsten Engine der Blitzliste gefixt (Stockfish 2.1.1), weil ja die möglichen Elo-Abweichungen in den zwei Listen natürlich auf den Spitzenplätzen besonders interssant sind. Der Fixpunkt wurde auf 3000 Elo gesetzt, einfach weil man damit unten in der Liste mit einer glatten 000er-Zahl beginnt, was besonders den Vergleich beider Listen vereinfacht. Entscheidend sind aber natürlich nicht die Absolutwerte, sondern die Differenzen...
Die beste Freeware-Engine wird als solche gekennzeichnet, außerdem werden alle Engines, die nicht Multi-Core fähig sind, gekennzeichnet, weil letzteres in der heutigen Zeit der Multicoreprozessoren m.E. einen schwerwiegenden Mangel darstellt.

Fire 2.2 wurde nicht berücksichtigt, weil Norman nach eigener Aussage die Arbeit an Fire zugunsten einer neuen Robbolito-Version (soll zum Jahreswechsel kommen) eingestellt hat und Fire auch nicht mehr downloadbar ist. Den experimentellen 111026-Stockfish habe ich ebenfalls weggelassen, obwohl er deutlich besser als die 2.1.1.-Version ist, weil ich den Testaufwand reduzieren und daher lieber auf das offizielle Update der Autoren warten will. Solche inoffiziellen Versionen werde ich in Zukunft auch nur noch inoffiziell unter meinen Bulletliste Bedingungen testen und nicht in beide Listen aufnehmen. Die Resultate dieser Schnelltests werden dann eben ggf. hier im Forum gepostet, aber eben nicht gelistet.

Hier nun die erste offizielle Ausgabe der NEBB-Listen:

Blitzliste (4'+2'')

Rank Name                       Elo    +    - games score oppo. draws
   1 Houdini 2.0c x64          3104   20   20   600   61%  3031   38%
   2 Houdini 1.5a x64          3102   20   20   600   61%  3031   41% (best freeware)
   3 Critter 1.2 64-bit        3061   18   18   700   52%  3047   46%
   4 Ivanhoe B46fa x64         3042   18   18   700   49%  3050   52%
   5 Komodo 3 x64              3033   18   18   700   47%  3051   46% (singlecore)
   6 Rybka 4.1 x64             3028   18   18   700   46%  3052   45%
   7 RobboLito 0.09 x64        3023   18   18   700   45%  3053   52% (singlecore)
   8 Stockfish 2.1.1 JA 64bit  3000   18   19   700   41%  3056   42%


Bulletliste (1'+500 ms)

Rank Name                       Elo    +    - games score oppo. draws
   1 Houdini 2.0c x64          3126   21   21   600   65%  3026   34%
   2 Houdini 1.5a x64          3096   20   20   600   61%  3026   37% (best freeware)
   3 Critter 1.2 64-bit        3067   18   18   700   54%  3044   44%
   4 Ivanhoe B46fa x64         3042   18   18   700   49%  3048   47%
   5 Komodo 3 x64              3022   19   19   700   46%  3051   37% (singlecore)
   6 Rybka 4.1 x64             3021   19   19   700   46%  3051   40%
   7 RobboLito 0.09 x64        3003   18   18   700   42%  3053   47% (singlecore)
   8 Stockfish 2.1.1 JA 64bit  3000   19   19   700   42%  3054   37%


Man sieht nun, daß Komodo 3 wirklich besser scort, wenn mehr Bedenkzeit zur Verfügung steht und Houdini 2 stark abbaut. Allerdings ist die Rangfolge in beiden Listen identisch und Houdini 1.5a scort in beiden etwa gleich gut, baut also mit längeren Bedenkzeiten nicht ab (!). Daß bei Komodo also so eine Art Elo-Wunder eintritt, nur weil die Bedenkzeiten länger oder die Hardware schneller wird, ist also - wie ich schon vermutet habe - reines Wunschdenken von Leuten, die Komodo mögen (dieses Wunschdenken gibt es für die eigene Lieblingsengine ja schon seit es Computerschach gibt...). Er legt zwar mit 4-facher Bedenkzeit zu, aber nur von 46% auf 47% bzw. um 11 Elo. Den größten Zuwachs mit mehr Bedenzeit erzielt ausgerechnet der böse, böse Robbolito, wo doch angeblich die Ippolits am meisten von kurzen Bedenkzeiten profitieren - schon wieder: reines Wunschdenken, nur diesmal in der anderen Richtung. Ivanhoe - der zweite Ippolit - ist dagegen ein Muster an Konstanz und scort genau gleich, was auch interessant ist, weil ja mit den Ivans angeblich  nur immer neue Compiles von Ippolit mit leicht veränderten Figurenwerten produziert wurden. Auch hier ist damit der Beweis erbracht, daß das einfach nicht stimmt, sonst müßte Ivanhoe hier ebenso wie Robbolito mit mehr Zeit auch zulegen.

Grüße an alle - Stefan
Parent - - By Ingo Bauer Date 2011-12-25 09:26 Edited 2011-12-25 09:34
Hallo

Ich  würde ein geringes Interesse nicht auf die kurze Zeitkontrolle schieben, sondern auf verschiedene andere Faktoren.

Zwei wichtige sind, das von 8 Engines, mindestens 5 auf der selben Basis beruhen. (Da sollte man sich auch nicht über vorhandene oder eben nicht vorhandene Veränderungen wundern) und das bei diese kurzen Zeitkontrolle extrem wenig Spiele gespielt werden. Enginetester/entwickler spielen damit so 10000 Partien PRO Engine und fangen dann vorsichtig an zu hoffen das sich etwas getan hat.

Was das 4 + 2 betrifft fürchte ich wirst du bei der Anzahl an Spielen auf noch weniger interesse stoßen. Alles von 40/4 CEGT/CCRL über IPON, SWCR, CEGT 40/20, CCRL 40/40 produziert praktisch die selbe Reihung. Da bist du dann einer von vielen - mit den weniger Spielen! Besser wäre gewesen deine Kurzliste etwas zu verlängern und etwas Interessantes daraus zu machen. 1 + 1 wäre interessant - für mich (allerdings müssten da mehr und vor allem verschiedene Engines rein).
(1 + 1 weil das bei durchschnittlicher Hardware meine Annahme ist bei der man heutzutage eine sinnvolle Rangliste produzieren kann)

Bye
Ingo
Parent - - By Kurt Utzinger Date 2011-12-25 10:50
[quote="Ingo Bauer"]
Hallo

Ich  würde ein geringes Interesse nicht auf die kurze Zeitkontrolle schieben, sondern auf verschiedene andere Faktoren.

Zwei wichtige sind, das von 8 Engines, mindestens 5 auf der selben Basis beruhen. (Da sollte man sich auch nicht über vorhandene oder eben nicht vorhandene Veränderungen wundern) und das bei diese kurzen Zeitkontrolle extrem wenig Spiele gespielt werden. Enginetester/entwickler spielen damit so 10000 Partien PRO Engine und fangen dann vorsichtig an zu hoffen das sich etwas getan hat.

[...]

Bye
Ingo
[/quote]

Diesem "Vorwurf" möchte ich mich anschliessen. Eine Rangliste von
nur 8 Enginen - davon 5, die auf der selben Basis beruhen - kann
mich nicht ansprechen/interessieren, da sie für mich schlicht und
einfach keine Aussagekraft besitzt. Als Gegner von ganz kurzen
Bedenkzeiten habe ich leider umdenken und konstatieren müssen,
dass die Reihenfolge einer Rangliste sich nicht oder nur ausnahmsweise
ändert bei höheren Bedenkzeiten. Und wenn nun Stefan mit ultra-kurzen
Bedenkzeiten arbeitet, verstehe ich überhaupt nicht, weshalb er nur
die besagten Engines in eine Liste aufnimmt.
Mfg Kurt
Parent - - By Peter Martan Date 2011-12-25 10:56
[quote="Kurt Utzinger"]
Und wenn nun Stefan mit ultra-kurzen
Bedenkzeiten arbeitet, verstehe ich überhaupt nicht, weshalb er nur
die besagten Engines in eine Liste aufnimmt.
[/quote]

Ich kann nicht für ihn sprechen, könnte mir aber vorstellen, weil das halt vielleicht gerade die engines sind, die ihn interessieren?

Nimmst du mehr auf, kann wieder sofort der nächste kommen und fragen, warum gerade so und so und nicht so viele und warum gerade die und nicht die und die und die....
Parent - By Stefan Pohl Date 2011-12-25 14:58
[quote="Peter Martan"]
[quote="Kurt Utzinger"]
Und wenn nun Stefan mit ultra-kurzen
Bedenkzeiten arbeitet, verstehe ich überhaupt nicht, weshalb er nur
die besagten Engines in eine Liste aufnimmt.
[/quote]

Ich kann nicht für ihn sprechen, könnte mir aber vorstellen, weil das halt vielleicht gerade die engines sind, die ihn interessieren?

Nimmst du mehr auf, kann wieder sofort der nächste kommen und fragen, warum gerade so und so und nicht so viele und warum gerade die und nicht die und die und die....

[/quote]

Hi,

es ist doch einfach so, daß es im Moment hinter Stockfish eine große Spielstärkelücke gibt und ich wollte mich mit voller Absicht auf die wiklich besten Engines beschränken, weil ich es einfach nicht so wirklich interessant und auch praxisfern finde, wenn man ausspielen läßt wie Houdini oder Critter einen Shredder oder Junior mit 80% oder so zusammenschieben, von Crafty und Konsorten gar nicht zu reden.
Sollten mehr Engines in den Dunstkreis der Spitze vordringen, so werden diese natürlich auch getestet. Es gibt kein festes Limit von 7 Engines o.ä.

Gruß - Stefan
Parent - By Kurt Utzinger Date 2011-12-25 16:19
[quote="Peter Martan"]
[quote="Kurt Utzinger"]
Und wenn nun Stefan mit ultra-kurzen
Bedenkzeiten arbeitet, verstehe ich überhaupt nicht, weshalb er nur
die besagten Engines in eine Liste aufnimmt.
[/quote]

Ich kann nicht für ihn sprechen, könnte mir aber vorstellen, weil das halt vielleicht gerade die engines sind, die ihn interessieren?

Nimmst du mehr auf, kann wieder sofort der nächste kommen und fragen, warum gerade so und so und nicht so viele und warum gerade die und nicht die und die und die....

[/quote]

Immerhin hat er nun aber einen echten Vergleich. Und
das ist schliesslich auch wichtig.
Mfg
Kurt
Parent - - By Frank Quisinsky Date 2011-12-25 11:24 Edited 2011-12-25 11:26
Hi Kurt,

ob nun 10 verschiedene oder 10 gleiche Engines in dieser Ratingliste spielen, macht im Grunde keinen Unterschied aus. Nehme einfach meine SWCR Datenbank und lösche bei Houdini 1.5 alle Partien gegen IvanHoe, Fire etc. Versionen. Das Ergebnis bleibt +-3 gleich. Egal wie Du vorgehst bzw. mit welcher Engines solche Experimente gemacht werden. Die oft beschriebenen "Angstgegner" oder "Lieblingsgegner" sind doch eher viel zu selten als das dies Listen mit so vielen Partien wirklich beeinflusst. Und Inzest haben wir bei allen Engines, denn alle Programmierer bauen Ihre Programme mit vorhandenem Wissen auf und ergänzen sicherlich nur selten mit neuem Wissen. Es ist eher die richtige Zusammenführung von bekannten Ideen.

Das beschriebene ist ein Märchen und kann sehr leicht anhand von bestehenden und offenliegenden Daten selbst überprüft werden. Es gibt viele Märchen im Computerschach die meist daher rühren das wir denken logisch zu vermuten aber es letztendlich Vermutungen bleiben. Was für uns nicht logisch ist verliert an Aussagekraft. Finde das ist der falsche Ansatzpunkt Themen näher zu untersuchen.

Heute muss auch niemand mehr selbst eine Ratingliste erzeugen um sich solche Fragen selbst zu beantworten. Wir haben die Daten, die Software und das Wissen das selbst festzustellen.

Was mir z. B. besonders aufgefallen ist, habe ich im Laufe der letzten zwei Jahren veruscht weiter zu geben. Die Anzahl der Gegner ist wichtiger als vermutet. Die Anzahl der Partien wird zu hoch bewertet. Stärken und Schwächen fallen beim Betrachten einer Ratinglisten nicht ins Auge (Spark spielt z. B. mit frühen Mittelspiel auf einem Level mit den stärksten Engines trotz 200-300 ELO Differenzen.

Eine Ratingliste gibt uns nicht das was wir uns alle wünschen. Der Hase liegt im Detail verborgen und das festzustellen ist für eine Person fast unmöglich aber dennoch ist das Fakt. Wir betrachten gerne Listen und möchten eine klare Aussage aber das ist beim Computerschach so nicht möglich.

Sind dann einfach in der Gesamtheit zu viele Betrachtungen die untergehen und Informationen eher verschlüsseln als entschlüsseln.

Nach 155.000 SWCR 40-Minuten Partien und 104.000 SWCR 10-Minuten Partien die mir auch noch vorliegen komme ich zu keinem anderen Ergebnis ohne mir selbst etwas vorzumachen ... ist eine nüchterne Betrachtungsweise von ermittelten Ergebnissen und Statistiken.

Ich persönlich konnte sehr viele Infos aus der SWCR ziehen und betrachte das ganze Theme Engines und Ratings nicht nur aus einer Perspektive. Fest steht, ein wundervolles Hobby haben wir aber wir erkennen mehr wenn wir uns vielschichtig orientieren und nicht alles über einen Kamm scheren.

Gruß
Frank
Parent - - By Frank Quisinsky Date 2011-12-25 11:38
Hi,

und wenn wir ehrlich sind wäre auch Critter eine IPP Engine.

Stockfish und Komodo spielen zwar komplett anders aber auch diese Engines haben die gleichen Stärken in den späten Partiephasen wie die IPP Familie. Es geht also schon lange nicht mehr darum zu sagen ... Fire und IvanHoe, Robbolito und Rybka dürfen oder dürfen nicht.

Das ist alles Käse von Gestern.

Es geht eher darum zu sagen, wo unterscheiden sich die ganzen neu-modernen Engines und gibt es Stärken und Schwächen bei den Unterscheidungen.

Das muss dann jeder für sich entscheiden und es wäre schön wenn auch mal herausgefunden wird als nur immer dieses nachgeplapperte Zeug. Finde das echt unwürdig für Computerschächler ... meine etwas zu verurteilen ohne selbst zumindest mal versucht zu haben etwas mit eigenen Mitteln herauszufinden. Das sind für mich keine echten Computerschächler die das tun.

Das ist nur billiges Fan-Gequatsche und mehr nicht!

Gruß
Frank
Parent - By Werner Mueller Date 2011-12-25 16:47
[quote="Frank Quisinsky"]
...
und wenn wir ehrlich sind wäre auch Critter eine IPP Engine.

...

Das muss dann jeder für sich entscheiden und es wäre schön wenn auch mal herausgefunden wird als nur immer dieses nachgeplapperte Zeug. Finde das echt unwürdig für Computerschächler ... meine etwas zu verurteilen ohne selbst zumindest mal versucht zu haben etwas mit eigenen Mitteln herauszufinden. Das sind für mich keine echten Computerschächler die das tun.
...
[/quote]
Und wir plappern auch nicht LK nach, nicht wahr?
Parent - By Stefan Pohl Date 2011-12-25 15:02
[quote="Frank Quisinsky"]

Eine Ratingliste gibt uns nicht das was wir uns alle wünschen. Der Hase liegt im Detail verborgen und das festzustellen ist für eine Person fast unmöglich aber dennoch ist das Fakt. Wir betrachten gerne Listen und möchten eine klare Aussage aber das ist beim Computerschach so nicht möglich.

Sind dann einfach in der Gesamtheit zu viele Betrachtungen die untergehen und Informationen eher verschlüsseln als entschlüsseln.

[/quote]

Hi Frank,

stimmt durchaus. Daher wollte ich mit meinen 2 Ranglisten mal ein neues Detail statistisch halbwegs absichern, nämlich wie Engines mit mehr Bedenkzeit zulegen bzw. abbauen, weil das prinzipiell interessant ist und ja auch etwas über die Zukunftstauglichkeit der Engines aussagt, da ja eine neue, schnellere Hardware einer verlängerten Bedenkzeit gleichkommt.

Gruß - Stefan
Parent - By Kurt Utzinger Date 2011-12-25 15:53
[quote="Frank Quisinsky"]
[...]

Was mir z. B. besonders aufgefallen ist, habe ich im Laufe der letzten zwei Jahren versucht weiter zu geben.
Die Anzahl der Gegner ist wichtiger als vermutet. Die Anzahl der Partien wird zu hoch bewertet.
[/quote]

Hallo Frank
Das glaube ich Dir gerne.
Mfg
Kurt
Parent - By Stefan Pohl Date 2011-12-25 15:13
[quote="Ingo Bauer"]
Hallo

Ich  würde ein geringes Interesse nicht auf die kurze Zeitkontrolle schieben, sondern auf verschiedene andere Faktoren.

Zwei wichtige sind, das von 8 Engines, mindestens 5 auf der selben Basis beruhen. (Da sollte man sich auch nicht über vorhandene oder eben nicht vorhandene Veränderungen wundern) und das bei diese kurzen Zeitkontrolle extrem wenig Spiele gespielt werden. Enginetester/entwickler spielen damit so 10000 Partien PRO Engine und fangen dann vorsichtig an zu hoffen das sich etwas getan hat.

Was das 4 + 2 betrifft fürchte ich wirst du bei der Anzahl an Spielen auf noch weniger interesse stoßen. Alles von 40/4 CEGT/CCRL über IPON, SWCR, CEGT 40/20, CCRL 40/40 produziert praktisch die selbe Reihung. Da bist du dann einer von vielen - mit den weniger Spielen! Besser wäre gewesen deine Kurzliste etwas zu verlängern und etwas Interessantes daraus zu machen. 1 + 1 wäre interessant - für mich (allerdings müssten da mehr und vor allem verschiedene Engines rein).
(1 + 1 weil das bei durchschnittlicher Hardware meine Annahme ist bei der man heutzutage eine sinnvolle Rangliste produzieren kann)

Bye
Ingo
[/quote]

Hi Ingo,

da hast du im Prinzip völlig Recht.Aus diesen Gründen (andere testen mit vergleichbaren Bedenkzeiten und ich habe weniger Partien absolviert) habe ich mich ja für das Naked Engine-Konzept entschieden. Das hat a) sonst keiner, und der selbsständige Eröffnungsaufbau fällt dort unter den Tisch und b) pendeln sich die Ergebnisse mit meinen Ultrakurzvorgaben schneller ein. Warum b) zutrifft verstehe ich wie schon erwähnt selber nicht so wirklich, es ist aber so: Nach nur 1/4 der gespielten Partien der Blitzliste war das Ergebnis praktisch schon genau so wie das Endergebnis, keine Engine schwankte danach um mehr als 1.5%. Das finde ich schon sehr erstaunlich.

Gruß - Stefan
Parent - - By Frank Quisinsky Date 2011-12-25 11:07
Hi Stefan,

und je höher es mit der Bedenkzeit geht, desto größer werden im Einzelfall die Unterschiede (z. B. bei Komodo). Vergleiche Deine Liste mit den 40 Minuten Partien bei der SWCR. Aber dennoch, die Unterschiede sind kleiner als ich vor dem Start der SWCR vermutet habe und wirklich nur wenige Engines fallen auf.

Junior ist ein schönes Beispiel wenn SWCR mit IPON verglichen wird. Wie schaut es aus, wenn Junior nun 10x mehr Bedenkzeit erhält als bei der SWCR. Geht die Kurve weiter stark nach oben (glaube ich wegen der Endspielschwäche von Junior nicht).

Letztendlich glaube ich nicht, das dies alles wirklich ausgetestet werden muss, wenn uns die Stärken und Schwächen der Engines bekannt sind. Wenn bekannt ist zu welchem Zeitpunkt die meisten Comp-Comp Partien entschieden werden.

Gibt ja auch noch ein paar weitere Beeinflussungsfaktoren die Du ja auch alle kennst. Die Anzahl der Gegner ist nach meinen letzten Erkenntnissen und Analysen wirklich wichtiger als die Anzahl der Partien. Anzahl der Gegner, Anzahl der Partien ... das sind zwei ganz wichtige Punkte. Je niedriger die Bedenkzeit desto mehr Partien werden notwendig, je höhere die Bedenkzeit desto weniger Partien für ein "gutes" Rating sind notwendig. Auch das wird aus den SWCR Daten bei genauer Betrachtungsweise ersichtlich (es gab ja auch mal eine SWCR Blitz-Ratingliste bzw. die gibt es noch ... ich führte die Liste im letzten Jahr weiter).

Für mich gibt es dahingehend auch keine neuen Erkenntnisse mehr. Alles was ich wissen wollte bzw. unklar war wurde ausgetestet. Komodo gehört unzweifelhaft zu den Engines die mit mehr Zeit zulegen, wie auch Junior. Hiarcs gehört zu den Engines die nach wie vor mit immer weniger Zeit stärker spielen (umgekehrter Fall). Zappa legt ein wenig zu, Rybka legt ein wenig zu, Houdini baut ein wenig ab. Aber das sind alles Feststellungen die nicht wirklich zu so riesigen Unterschieden führen wie vielleicht erwartet.

Und ganz ehrlich ...
Dafür brauchen wir auch keine Ratingliste um das zu erkennen.
Wenn wir z. B. auf einem Quad Komodo und Junior parallel analysieren lassen mit anderen Engines fällt es schon während der Analyse einer kompletten Partie auf. Junior und Komodo wechseln öfter die Varianten und tasten sich vor. Andere Engines finden sehr schnell etwas und überrechnen oft bzw. bleiben bei dem Zug der schon sehr schnell ermittelt wurde.

Wie dem auch ist, es sind aber die Experimente wie jetzt Deine die uns weitere Erkenntnisse geben und das Puzzle rund um die Engines zusammenführen. Insofern finde ich es gut was Du geschrieben hast, wie Du etwas ermittelst. Da stecken gute Ansätze drin und auch nachvollziebare Logik.

Hier noch einer ...

Junior 12.5.0.3 ist bei gleichen Bedingungen und 40 in 3 exakt 26 ELO schwächer (nach 1.400 Partien) als in der SWCR bei 40 in 10. Komodo ist nach 1.520 40 in 3 Partien genau 22 ELO schwächer als bei 40 in 10 in der SWCR. Ich spreche gezielt von Komodo und Junior weil ich sonst auch nichts wirklich gravierendes an Unterschieden sehe. Bei Zappa ist die Differenz ca. 15 ELO.

Dir weiterhin viel Spass beim Testen !!

Viele Grüße
Frank
Parent - By Stefan Pohl Date 2011-12-25 15:08
[quote="Frank Quisinsky"]

Für mich gibt es dahingehend auch keine neuen Erkenntnisse mehr. Alles was ich wissen wollte bzw. unklar war wurde ausgetestet. Komodo gehört unzweifelhaft zu den Engines die mit mehr Zeit zulegen, wie auch Junior. Hiarcs gehört zu den Engines die nach wie vor mit immer weniger Zeit stärker spielen (umgekehrter Fall). Zappa legt ein wenig zu, Rybka legt ein wenig zu, Houdini baut ein wenig ab. Aber das sind alles Feststellungen die nicht wirklich zu so riesigen Unterschieden führen wie vielleicht erwartet.

Und ganz ehrlich ...
Dafür brauchen wir auch keine Ratingliste um das zu erkennen.

[/quote]

Hi Frank,

Naja, das sehe ich doch etwas anders. Ich denke bisher war nicht klar (zumindest mir nicht), daß nur Houdini 2 mit mehr Zeit abbaut, Houdini 1.5a aber eben nicht. Und daß Robbolito so stark zulegt (mehr als Komodo) war mir ebenfalls neu.
Auch dient die Bulletliste in erster Linie dazu, mir eine Datenbasis für Schnellvergleichstests von neuen Versionen/Settings zu ermöglichen. Der Vergleich zur Blitzliste ist für mich eher ein interessanter Nebenaspekt.

Gruß - Stefan
Parent - - By Ludwig Bürgin Date 2011-12-25 17:25
Hallo Stefan

Wie kannst Du das feststellen, dass Houdini bei längeren Spielzeiten stark abbaut ?
Woran kann man das sehen?

Für eine Antwort wäre ich dankbar, da es mich interessiert.

Gruß Ludwig
Parent - - By Stefan Pohl Date 2011-12-25 17:51
[quote="Ludwig Bürgin"]
Hallo Stefan

Wie kannst Du das feststellen, dass Houdini bei längeren Spielzeiten stark abbaut ?
Woran kann man das sehen?

Für eine Antwort wäre ich dankbar, da es mich interessiert.

Gruß Ludwig
[/quote]

Weil Houdini 2.0c in der Blitzliste gegenüber der Bulletliste um 4% schlechter scort, was die größte Abweichung aller Engines in den Listen ist. Das bei 4-facher Bedenkzeit unter ansonsten identischen Bedingungen. Das bedeutet, daß Houdini 2.0c mit dem Plus an Bedenkzeit nicht so viel anfangen kann wie andere Engines. Bei Houdini 1.5a tritt dieser Effekt interessanterweise nicht auf (in beiden Listen gleiche Erfolgsqoute).
Solche Effekte zu erkennen ist ja auch der Sinn der zwei parallel geführten Ranglisten (Bullet und Blitz).

Gruß - Stefan
Parent - By Ludwig Bürgin Date 2011-12-25 19:06
Hallo Stefan

Danke für die schnelle Antwort.
Es ist interesseant,dass bei zwei verschiedenen Spiellängen solche Unterschiede sichtbar werden.Kann es aber auch sein,dass bei längeren Spielzeiten die langsameren Engine aufholen ?
4% schlechter.OK, aber was steht für 100 % ?

Habe noch nie mehrere Engine zusammen getestet, müsste mich da erst mal einarbeiten.

Wünsch Dir noch ein frohes Fest.

Gruß Ludwig
Up Topic Hauptforen / CSS-Forum / TEB-Liste wird zu NEBB-Listen

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill