Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / FGRL Rangliste - Hannibal 1.5
- - By Andreas Strangmüller Date 2015-02-27 20:03 Edited 2015-02-27 20:08
Die Ergebnisse von Hannibal 1.5 liegen nur für alle Bedenkzeiten vor.
Bei längeren Bedenkzeiten zeigt sich eine einheitliche Steigerung von etwa 50 Elo, beim Blitz sind es etwa "nur" die Hälfte.

                  Ha1.5  - Ha1.4b
--------------------------------------------------------
   60 + 0.6 Sek. : 3013  -  2988   +25  (20750 Partien)
  240 + 2.4 Sek. : 2963  -  2912   +51   (3000 Partien)
10 Min. + 6 Sek. : 2928  -  2878   +50   (3000 Partien)
30 Minuten       : 2952  -  2903   +49    (720 Partien)


Alle Infos dazu wie immer unter http://www.fastgm.de
Parent - - By Frank Qy. Date 2015-02-27 23:30
Hallo Andreas,

wenn ich mir so die Ergebnisse von diversen Engines in diversen Listen so anschaue sehe ich immer noch Unterschiede die sich im Bereich von bis zu 30 Elo bewegen. Trotz der guten und ausgearbeiteten Systeme die eingesetzt werden. Da viele Engines sehr nahe zusammen liegen ergeben sich andere Reihenfolgen. Wenn ich die 30 Minuten Ergebnisse mit CEGT Vergleiche bzw. die Abstände der Verbesserungen. Du schreibst bei kurzen Bedenkzeiten 25 und bei längeren 50 Elo. Wenn ich das richtig sehe testet CEGT mit längeren und hat 25 Elo. Genau umgekehrt der Fall.

Das Problem nach wie vor sind nicht die Testmethoden der Betreiber, oder ErrorBar Kram etc..
Nach wie vor bin ich davon überzeugt das die Auswahl der Engines bzw. Gegner für unterschiedliche Ergebnisse sorgen. Das wird ja schon an meinen 10.500 Partien Turnieren ersichtlich. Innerhalb der eigenen Liste könnte ich wenn ich wollte die Ergebnisse so gestalten, dass je nach Auswahl der Gegner Abweichungen von 30 Elo trotz ausreichender Partiezahl sehr leicht zu lenken wären. Nach wie vor denke ich das wenn bekannt ist wie der Spielstil einer Engine ist schon im Vorfeld durch Auswahl der Gegner das Ergebnis beeinflusst werden kann.

Wenn viele Engines in einer Liste sind, die absolut gleiche Stärken und Schwächen haben beeinflusst das die Ergebnisse mehr als durch Wahrscheinlichkeitsberechnungen hinsichtlich Anzahl der Partien.

Vor ca. 15 Jahren habe ich Ratinglisten anders ausgegeben.
Ich berechnete mit den Möglichkeiten die vorhanden waren und rundete auf in 25 Elo Schritten. Schon damals war eigentlich klar ... egal wie viele Partien ... die Gegner beeinflussen das Ergebnis viel drastischer. Und da ich früher nicht genug Partien hatte ... ich lag immer sehr gut wenn ich mit anderen Verglichen habe.

Das ist der Punkt ...
Es ist gar nicht wichtig ob nun 3.000 oder 3.025 Elo bzw. ob nach 500 oder 5.000 Partien erzielt. Wichtig eher das viele Gegner vorhanden sind die möglich so unterschiedlich wie auch immer geht spielen.

Schaue schon lange nicht mehr auf die eigenen Zahlen die ich so erziele (langweilt mich zu Tode). Interessanter eher ... gegen welche Engine hat A oder B Probleme. Warum ist es so. Können neue Erkenntnisse über Stärken und Schwächen geschlossen werden? Können die durch andere Matches bestätigt werden?

Nun, ich bin wegen Hannibal und meiner Scheiß Liste total im Zweispalt.
Unter 2.900+ Konditionen testen (sollte unter 2.900 bei mir landen, nach CEGT Ergebnissen) oder doch FCT1 Konditionen (unter 2.900 Elo).
Bringe ich alles von Hannibal zusammen, tendiere ich dazu das die Engine mit längeren Bedenkzeiten und vielen unterschiedlichen Gegnern ... niemals 50 Elo mit langen Bedenkzeiten zulegt.

Bei mir 1.4b ... 2.862 und ich bin mir schon jetzt sicher ... mehr als 2.895 wird es nicht gegen die 20 Gegner die ich in meinem FCT1 Turnier habe.
Ich wäre mir aber auch sicher ... teste ich gegen stärker als 2.900 Elo wird das Ergebnis von Hannibal über 2.910 gehen (wie bei Dir).

Es wird nie genau und da es nie genau wird und viele kleine Beeinflussungsfaktoren auch Auswirkungen haben geben uns sämtliche Ergebnisse nur Anhaltspunkte. Haben wir viele unterschiedliche Ergebnisse ... dann wird's genau. Und zwar viele unterschiedliche Ergebnisse mit verschiedenen Testmethoden, nicht viele unterschiedliche Zeit Einstellungen mit gleichen Testmethoden (ist ein Unterschied).

Von daher ...
Das eigene ist und bleibt auch nur ein Anhaltspunkt und langweilt eher.
Viel interessanter das andere ... bzw. wie erzielen die anderen Tester wie welche Ergebnisse.

Das war das Wort zum Samstag ...
Viel geschrieben und nichts bei rum gekommen weil das ja noch nicht mal selbst verstanden wird.



Gruß
Frank
Parent - - By Peter Martan Date 2015-02-28 08:40 Edited 2015-02-28 09:17
Frank Qy. schrieb:

Nach wie vor bin ich davon überzeugt das die Auswahl der Engines bzw. Gegner für unterschiedliche Ergebnisse sorgen.


Natürlich, Frank, wenn man an Celo überhaupt glaubt, wird dieser Glaube mehr und mehr erschüttert dadurch, dass auch diese magischen Zahlen davon abhängen, was für engines mitspielen, davon abgesehen ist es mittlerweile ja auch so, dass allein schon die Zahl der Teilnehmer eine nicht zu vernachlässigende Rolle spielt.

Nun ist es ja auch irgendwie vordergründig, dass eine engine, die nicht mitspielt, auch nicht gereiht wird, und sich die Plätze der anderen dadurch verschieben, () hintergründig zeigt sich bei den Elo dieses Phänomen halt auch mehr und mehr, was meinen Verdacht bestätigt, dass es eigentlich ausschließlich um Ranglistenplätze geht, und die für die engines errechneten Elo in der Tat doch wieder nur ein unnötig kompliziertes Maß für eine weitere schlichte Reihung ohne jede echte zusätzliche Aussage darstellen.
So viele engines mitspielen, so viele Plätze sind zu vergeben, und das bestimmt auch die Wertigkeit der einzelnen Plätze, egal in was für andere Zahlen du diese Wertigkeit umrechnest.

Nun müsste man also je nach Rangliste und erspielten Celo, wollte man die wirklich als übertragbares Maß ansehen, das durch die Zahl und die Celo der engines relativieren, die theoretisch auch noch hätten mitspielen können oder eigentlich müssen, dann wäre man den Celo als Maß der Dinge einen Schritt näher.

Leider ist das bei der Eloformel kein so einfaches Unterfangen, weil man ja die Zahlen von vielen engines und dedicateds (warum sollten die nicht mitspielen, waren sie doch lange das Maß der Dinge, Cray Blitz, Deep Blue, Hydra und diverse Cluster könnten auch heute noch ganz ordentlich Celo beitragen) nur mehr aus Zeiten kennt, in denen der Pool doch noch ein ziemlich anderer war und man gar keinen direkten Vergleich als Grundlage hat zu den jeztigen Spitzenreitern, auch weiß man nicht, inwieweit das etwas änderte, würde man tatsächlich alle irgendwie in Frage kommenden modernen Derivate auch mitrechnen.

Und dann müsste man aber die so bereinigte Zahl auch noch dahingehend in der Wertigkeit einschränken, dass man Bedenkzeit und Hardware und die Zahl und Art der Teststellungen dazu auswertete, was zwar jetzt vielleicht relativ zum Teilnehmerfeld wirklich nicht mehr den ganz großen Unterschied macht, hauptsächlich deshalb, weil die Auswahl der engines noch mehr zählt als das. In einem theoretisch beliebig großen Pool an engines würde es hingegen an der Reihung, um die's ja nach wie vor in erster Linie geht, doch auch wieder ausschlaggebend sein, zumindest zwischen den praktisch beliebig vielen "verschiedenen" Derivaten innerhalb der kompletten großen Rangliste.


Siehe auch:
Frank Qy. schrieb:


Das war das Wort zum Samstag ...
Viel geschrieben und nichts bei rum gekommen weil das ja noch nicht mal selbst verstanden wird.


Parent - By Frank Qy. Date 2015-02-28 09:17
Hallo Peter,

tja ...
Geht irgendwie immer so ein wenig am Ziel vorbei.
Und dann kommt noch hinzu das mit der Zeit trotz mehr Partien die Listen ungenauer werden. Wenn zu viele ältere mit modernen zusammentreffen (kann sich auf die älteren negativ oder positiv auswirken).

Test jetzt mal Sting SF. Einige Engines in meiner Liste bauten anfangs auf IPP auf (denke sicherlich auch GullChess, oder Equinox ... heute zu unterschiedlich nach SIM Auswertung). Auch ein wenig die älteren Critter Versionen. Insofern ganz nett eine Stockfish Derivate in der Liste zu haben, zumal ziemlich viele eigene Ideen offenbar eingearbeitet wurden.

Schwierig die Beeinflussungsfaktoren auszuschalten. Geht einfach nicht, aber zumindest kann versucht werden die in Grenzen zu halten durch die Auswahl der Engines. Hätte gerne Thinker und Sjeng in meiner Liste als Sparing für meine 2900+ Test Runs. Noch zwei völlig andere Spielstile. Sjeng verstößt gegen meine Regeln, auch Thinker (letzter Sjeng nicht mehr verfügbar und Thinker ist älter als 3 Jahre). Wenn ich Zeit habe, kein Test ansteht ... mal schauen, lasse ich diese mal ein paar Partien spielen, weiß noch nicht.

Für mich ist einfach viel zu tun, hänge mit dem testen ein wenig hinterher und bin nicht 100%ig aktuell. Aber was solls!

Ach ja und von den ca. 30 Elo Abweichungen bei diversen Engines zwischen den Listen:
Wollte eigentlich wirklich nur sagen, dass ja im Grunde die Listen bei so vielen unterschiedlichen Testmethoden sehr eng zusammen liegen und 30 Elo hier und da nicht viel ist bzw. denke ich das für diese Abweichungen mehr die Auswahl der Gegner verantwortlich sind als ErrorBar oder Wahrscheinlichkeiten. Bin nach wie vor davon überzeugt ... und das bestätigt einfach jede meiner Auswertungen ... das so viele Partien bei vielen unterschiedlichen Gegnern einfach nicht notwendig sind. Einige Listenbetreiber wollen aber sehr genau messen und lassen für 5 Elo +- mehr Genauigkeit zigtausend Partien mehr spielen. Das macht meines Erachtens einfach keinen Sinn. Aber egal, jeder hat so seine Vorstellungen.

Ferner glaube ich das wenn wir die Spielstile, Stärken und Schwächen der Engines besser kennen auch viele Ergebnisse logischer erscheinen. Wir auch die Engines besser für Analysen je nach Stellung besser einsetzen können. Das ist auch viel interessanter als nur auf Elo zu schauen.

Gruß
Frank
Parent - - By Frank Brenner Date 2015-02-28 16:42

> Wenn viele Engines in einer Liste sind, die absolut gleiche Stärken und Schwächen haben beeinflusst das die Ergebnisse mehr als durch Wahrscheinlichkeitsberechnungen hinsichtlich Anzahl der Partien.


Bereits ein Satz aus deinen geschreibsel ist völliger Unsinn.

Das schlimmste ist: Deine Beiträge bestehen aus einer Aneinanderreihung von hunderten solcher Sätze.
Parent - By Frank Qy. Date 2015-02-28 20:47
Hallo Frank,

na da haste ja wieder einen los gelassen

Solche Kommentare sind wirklich ganz besonders amüsant aber steigerst Du damit das Niveau vom Forum?
Was meinst Du?

Lade Dir doch mal eine Datenbank von einem Ranglistenbetreiber und experimentiere damit ein wenig.
Was da heute verfügbar ist, ist ein ElDorado um Wissen aufzubauen, einfach nur geil!

Aber wenn Du magst ...
Hast ja schon im Rybka Thread auf Dich aufmerksam gemacht!
Du kannst Dich gerne an meinen Beiträgen austoben und natürlich schreibe ich Dir auch ein bissel ... sonst macht es ja auch kein Spaß, gelle.

Jeder so wie er möchte, bin absoluter Befürworter das jeder das einbringen sollte was irgend möglich ist.

Also ...

Alles Unsinn!
+1 (ist wirklich etwas dran).

Viele Grüße
Frank
Parent - By Frank Qy. Date 2015-02-27 23:36
Hi,

übrigens, Hannibal legt im Endspiel zu. Engines die im Endspiel zulegen brauchen etwas mehr Zeit.
Extrem kurze Bedenkzeiten werden logischer Weise eine schlechtere Leistung hervorbringen.

Das hätte ich Dir vor dem Test schon erzählen können ohne die 20.000 gespielten Partien.

Aber Deine 50 Elo bei Bedenkzeiten drüber ...
Die sind im Grunde auch nachvollziebar ... ziemlich viele IPPs in der Liste und die mag Hannibal, spielt besser gegen stärkere Engines.
Gegen ein breitgefächerte Gegnerscharr ... mit vielen Engines um 100-200 Elo schlechter als Hannibal niemals 50 Elo.

Warum?
Na weil sehr viele Engines unter Hannibal die gleiche Stärke wie Hannibal haben.
Starkes Endspiel und da gibt die Engine mehr Punkte ab.

Je mehr schwächere bei einem Lauf hinzugekommen desto weiter weg von 50 Elo.

Das sind alles keine großen Geheimnisse mehr ...
Das ist Spielstilzauberei ... Hexerei die in Wirklichkeit keine ist.

Gruß
Frank
Parent - By Frank Qy. Date 2015-02-27 23:57
Gebe mal ein einfaches Beispiel:

Spark hat eine sehr krass ausprägte Stärke ... Vorpressing im frühem Mittelspiel ... erzeugt mehr Kurzpartien gegen gleichstarke Engines als andere (OK, Junior ein paar andere können das auch aber nicht so stark ausgeprägt).

Nun passiert folgendes:
Spark spielt in einer Ratingliste gegen Top-10 ... da sind dann die ganzen IPPs drin wie Houdini, Critter und was es nicht alles gibt. Alle diese TOP-10 haben auch eine sehr ausprägte Stärke ... Übergang Endspiel und genau da versagt Spark.

Was passiert wenn Spark nun in einer Ratingliste spielt gegen die TOP-10 oder in einer Ratingliste gegen 10 gleich starke Engines?
Zumal Spark eine sehr ausprägte Schwäche hat ... der Übergang zum Endspiel und das Endspiel.

Na ganz einfach ... habe doch über 10.000 Spark Partien ... dann simulieren wir mal und stellen fest ...
Ups, Spark spielt gegen die TOP-10 ja plötzlich 30 Elo schwächer ... und das hat nichts mit der Anzahl der Partien zu tun.

...

Andere Engines haben auch ihr Stärken und Schwächen und zu den sehr krassen Beispielen gehört Hannibal.
Die Engine ist überdurchschnittlich gut im Endspiel.

Wenn Hannibal nun in einer Ratingliste mit den TOP-Taktiker spielt, wie Stockfish, Spark, Junior, Hiarcs, Cheng, ICE, ExChess etc..
Dann schaue mal auf die Quote schnelle Gewinnpartien unter 50 und 60 Züge.

Ups, Engine erreicht ein gutes Ergebnis aber verliert bei 1.000 Partien vielleicht 15 und gewinnt 5.

Nun spielt Hannibal gegen gleich gesinnte Engine mit gleichen Stärken ...
Stärke Gegnerschaft und wir stellen fest ... ups, Hannibal verliert 5 und gewinnt 5 schnelle Partien.

Gleiches bei Remisen die gerettet werden etc..
Die Elo variiert, trotz tausender von Partien.

Klar wird Hannibal gegen Spark, Junior, Cheng etc. mehr Punkte holen aber die Gesamtleistung gegen diese Engines ist eher schlechter als gegen Stärkere. Und genau solche Dinge gehen aus jeder Spielstilstatistik hervor. Ich kann 10 ... 10.500 Partien Engine Turniere (21 Engines mit 1.000 Partien) spielen lassen aber diese Statistiken sind zu 95% immer die Gleichen.

Ein guter Mix an Engine Gegner oder einfach deutlich mehr Engine Gegner schränkt alles ein wenig ein aber die Differenzen die erzeugt werden innerhalb der vielen Listen sind nicht komplett raus zu bekommen. Daher ... es langweilt mich zu Tode wenn ich auf die Elo schaue und die Leistung beurteile. Es ist super interessant auf die Elo zu schauen und dann bei Abweichungen auf die Bedingungen zu schauen. Und der aller größte Beeinflussungsfaktor den wir haben sind die Engines selbst ... wie viele unterschiedliche hatte A oder B als Gegner. zu 95% ist jede Abweichung innerhalb der Listen für mich heute sehr simple erklärbar. Aber auch nur dann wenn wir die Stärken und Schwächen der Engines kennen. Es passt einfach in 95% der Fälle und genau das meine ich mit Hexerei. Es ist mehr als Hexerei ... es ist verblüffend und immer wieder wie ein kleines Weltwunder wenn ich mir eine Liste anschaue und bei einem Test dann schon vorher sagen kann ... das wird enden bei (wenn ich andere Ergebnisse kenne). Ich kenne die Ergebnisse von Hannibal von Dir, von CEGT und andere und bin mir sicher ... niemals 50 Elo in meiner Liste gegen die 20 Gegner die ich einsetze ... eher so 2.895 und mithin maximal 30-35 Elo Verbesserung. 20 ELO bei Hannibal sind wirklich die Auswahl der Gegner ...

So simple ...
Oftmals ist alles viel einfacher als wir denken wenn wir die Statistik Brille mal ablegen und logisch versuchen die Erklärung zu finden.

Gruß
Frank
Up Topic Hauptforen / CSS-Forum / FGRL Rangliste - Hannibal 1.5

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill