Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Vergleich der Rating-Listen
- - By Walter Eigenmann Date 2016-02-04 00:12
.

Weiter unten habe ich mal einen kleinen Vergleich einiger häufig zitierter Rating-Listen versprochen - hier ist er.
Es wurden 10-12 der vergleichbaren Top-Engine-Versionen gegenübergestellt, ausser Komodo 9.3 bei OWL.
Sicher gibt's noch eine Menge weiterer Listen - wer Lust hat recherchiert selber.

Code:
CEGT (PB off)                                  CCRL (PB off)

01 Komodo 9.2 x64 4CPU            3338         01 Stockfish 7 64-bit 4CPU         3341
02 Stockfish 7.0 x64 4CPU         3334         02 Komodo 9.2 64-bit 4CPU          3340
03 Houdini 4.0 x64 4CPU           3206         03 Houdini 4 64-bit 4CPU           3258
04 Gull 3.0 x64 4CPU              3193         04 Gull 3 64-bit 4CPU              3199
05 Equinox 3.20 x64 4CPU          3126         05 Equinox 3.20 64-bit 4CPU        3186
06 Fritz 15 x64 4CPU              3121         06 Critter 1.6a 64-bit 4CPU        3172
07 Critter 1.6 x64 4CPU           3110         07 NirvanaChess 2.2 64-bit 4CPU    3164
08 Protector 1.9.0 x64 4CPU       3088         08 Rybka 4 64-bit 4CPU             3161
09 Deep Rybka 4.1 x64 4CPU        3085         09 Fritz 15 64-bit 4CPU            3159
10 Nirvana Chess 2.2 x64 4CPU     3058         10 Protector 1.9.0 64-bit 4CPU     3154
11 Hannibal 1.5 x64 4CPU          3025         11 Hannibal 1.5 64-bit 4CPU        3117
12 Naum 4.6 x64 4CPU              3016         12 Naum 4.6 64-bit 4CPU            3106

IPON (Blitz)                                   OWL (Blitz)

01 Stockfish 7                    3239         01 Komodo 9.3 x64                  3242
02 Komodo 9.2                     3210         02 Stockfish 7 x64                 3241
03 Houdini 4                      3124         03 Houdini 4 Pro x64               3145
04 Gull 3                         3071         04 Gull 3 x64                      3063
05 Equinox 3.30                   3003         05 Critter 1.6a x64                3033
06 Fritz 15                       3002         06 Equinox 3.30 x64                3031
07 Critter 1.6a                   2993         07 Fritz 15 x64                    2987
08 Protector 1.9.0                2944         08 Protector 1.9.0 x64             2905
09 Nirvanachess 2.2               2926         09 Nirvana 2.2 x64                 2896
10 Naum 4.6                       2867         10 Naum 4.6 x64                    2868


Quellen (4. Febr. 2016):

CEGT: http://www.husvankempen.de/nunn/40_40%20Rating%20List/40_40%20MPVersion/rangliste.html
CCRL: http://www.computerchess.org.uk/ccrl/4040/
IPON: http://www.inwoba.de/
OWL:  http://chessowl2.blogspot.ch/


Angesichts der Tatsache, dass natürlich je unterschiedliche Hardware- und Turnier-Bedingungen
gegeben sind, ist das Gesamtbild gar nicht so heterogen wie befürchtet.

Trotzdem, da sind schon auch Ausreisser festzustellen. Und wenn man nicht nur die Rankings,
sondern auch die Ratings näher vergleicht, ergibt sich ein noch bunteres Bild.
Ausserdem sind jetzt das nur 10-12 Programme; würde man noch die Top-50 hernehmen -
gewisse Listen führen ja 150 Engine-Versionen und mehr! -, präsentierte sich der Vergleich
dann hyper-uneinheitlich...

Als Stellungstester kann ich mir also den Kommentar nicht verkneifen:
So ein schön buntes Ranglisten-Bild wie oben brächte ich mit 4 verschiedenen guten Stellungstests
allemal auch zuwege...

Zwischenfrage: Ist eigentlich zwingend notwendig, in all diesen Compi-Rating-Listen den
FIDE-definierten Begriff "ELO" zu verwenden?? Da muss sich ja Weltmeister Magnus Carlsen
wie ein Anfänger vorkommen, mit seinen mikrigen 2844 ELO's...

Gruss: Walter

.
Parent - - By Michael Scheidl Date 2016-02-04 01:31
Danke; insbesondere zweimal Hannibal 1.5 auf Rang 11 wird Ranglistenbetreiber interessieren, wo diese Engine(-version) noch fehlt. In TCEC/S8 zeigte Hannibal mehrfach sehr attraktives Schach, mit einem gewissen "menschlichen Gespür" für chancenreiche Opfer.

Zitat:
Zwischenfrage: Ist eigentlich zwingend notwendig, in all diesen Compi-Rating-Listen den FIDE-definierten Begriff "ELO" zu verwenden??

Elo ist ja im Prinzip nicht FIDE-definiert sondern ist in Grunde nur eine Berechnungsmethode bzw. Formel usw., die auch bei anderen Sportarten (ich glaube sogar Fußball) angewendet wird. Das wurde schon oft diskutiert und das Problem bleibt dasselbe: Wir haben keine Kalibrierung. Bei IPON wurde vorübergehend die radikale Vorgangsweise angewandt, die Top-Engine mit 0000 zu definieren und die anderen Engines je nach Spielstärke mit negativen Elos darzustellen, also der Leistungsabstand zur stärksten. Mir sehr sympathisch. Ingo hat das aber dann wieder aufgegeben, da offenbar nicht massentauglich

Des weiteren wird oftmals - bei IPON, und ich weiß nicht wo sonst noch - nicht die Elomethode, sondern verbesserte Systeme wie Bayes oder Ordo angewandt. Also bei maximaler Prinzipienreiterei könnte man fordern, daß eine Engine nicht mit z.B. 3247 Elo, sondern 3247 "Bay" aufgeführt wird...
Parent - - By Ingo B. Date 2016-02-04 08:37
Hallo

Michael Scheidl schrieb:

Danke; insbesondere zweimal Hannibal 1.5 auf Rang 11 wird Ranglistenbetreiber interessieren, wo diese Engine(-version) noch fehlt. In TCEC/S8 zeigte Hannibal mehrfach sehr attraktives Schach, mit einem gewissen "menschlichen Gespür" für chancenreiche Opfer.

Zitat:
Zwischenfrage: Ist eigentlich zwingend notwendig, in all diesen Compi-Rating-Listen den FIDE-definierten Begriff "ELO" zu verwenden??

Elo ist ja im Prinzip nicht FIDE-definiert sondern ist in Grunde nur eine Berechnungsmethode bzw. Formel usw., die auch bei anderen Sportarten (ich glaube sogar Fußball) angewendet wird. Das wurde schon oft diskutiert und das Problem bleibt dasselbe: Wir haben keine Kalibrierung. Bei IPON wurde vorübergehend die radikale Vorgangsweise angewandt, die Top-Engine mit 0000 zu definieren und die anderen Engines je nach Spielstärke mit negativen Elos darzustellen, also der Leistungsabstand zur stärksten. Mir sehr sympathisch. Ingo hat das aber dann wieder aufgegeben, da offenbar nicht massentauglich

Des weiteren wird oftmals - bei IPON, und ich weiß nicht wo sonst noch - nicht die Elomethode, sondern verbesserte Systeme wie Bayes oder Ordo angewandt. Also bei maximaler Prinzipienreiterei könnte man fordern, daß eine Engine nicht mit z.B. 3247 Elo, sondern 3247 "Bay" aufgeführt wird...


Das obere zeigt nur das der Ersteller keine Ahnung hat. Er stellt einfach die Listen nebeneinander macht nicht mal eine Angleichung wegen unterschiedlicher Ausgangsbasis*, wundert sich über unterschiedliche Rating ohne etwas von verschiedenen Statistischen Methoden zu ahnen und behauptet am Schluß die Fide hätte Elo definiert. Ich glaube er lebt in einer ganz eignenn Welt ... "Ignorance is bliss", ein bisschen kann man neidisch werden.
Ansonsten: Setzen, sechs.

*und das obwohl das vor ein paar Tagen in einem anderen Thread zu diesem Thema mal wieder hier beschrieben wurde ...

Zu dir
Hannibal hätte mich sehr interessiert, nur leider kann die Engine nicht richtig in einem Netzwerk in der Classic Pondern (Das Problem ist aber nicht das Netz).  Ich habe mehrere Protokollmitschnitte sowie ein komplettes UCI Spielprotokoll an die Autoren geschickt und nach ein paar hin und her Emails nichts mehr gehört. Ich wundere mich selbst, weil die 1.4 PERFEKT läuft .... !? Ich weiß das die Engine in Arena mit Ponder läuft, aber Arena hat ein paar "glitches" und die Classic ist UCI per Definition ...
Das fehlende "Massentauglich" der Basiszahl 0 war das Problem. Viel zu viele Anfragen ... und da es eigentlich egal ist ob 0, 2800 oder 5000 ...

Gruß
Ingo
Parent - - By Michael Scheidl Date 2016-02-04 18:11
Zitat:
Hannibal hätte mich sehr interessiert, nur leider kann die Engine nicht richtig in einem Netzwerk in der Classic Pondern

Oh, schade. Aus anderen Listen entnehme ich, Hannibal 1.5 ist in den Top-20 aber in der unteren Hälfte. Insofern bin ich gut informiert

Bezüglich Basiszahl 0 könnte man - wenn man ein ganz brutaler Hund ist - Anfragen auch einfach ignorieren, aber da sind mir sensiblere Persönlichkeiten natürlich lieber. Andererseits, wenn man schon so wie Du diese hervorragende Freiwilligenarbeit leistet, sollte das so geschehen wie es einem selbst am besten gefällt, und die schlurfenden Massen gelegentlich ignorieren...
Parent - By Ingo B. Date 2016-02-04 18:17
Michael Scheidl schrieb:

...
Bezüglich Basiszahl 0 könnte man - wenn man ein ganz brutaler Hund ist - Anfragen auch einfach ignorieren, aber da sind mir sensiblere Persönlichkeiten natürlich lieber. Andererseits, wenn man schon so wie Du diese hervorragende Freiwilligenarbeit leistet, sollte das so geschehen wie es einem selbst am besten gefällt, und die schlurfenden Massen gelegentlich ignorieren...


Es waren ja nicht hunderte von Anfragen, insofern war es noch zu "handeln"

Mein Problem war auch nicht die Paar die es gut oder schlecht Kommentierten aber "schlurfende Masse" trifft das Problem ganz gut. Die meisten wollten einfach nicht den zugehörigen Text lesen. Genauso wie ich anfragen zu meinen Testbedingungen erhalte. Warum weiß ich nicht, es steht alles auf der Seite. Mir scheint eine Email zu schreiben um dann die Antwort zu lesen ist einfacher als oben nach etwas zu suchen ...

Egal, seit ich keine Werbung mehr in den Foren mache, ist das alles deutlich weniger geworden

Gruß
Ingo
Parent - - By Walter Eigenmann Date 2016-02-04 18:14 Upvotes 1
Ingo B. schrieb:

Das obere zeigt nur das der Ersteller keine Ahnung hat. Er stellt einfach die Listen nebeneinander macht nicht mal eine Angleichung wegen unterschiedlicher Ausgangsbasis,


...obwohl er schon eingangs ausdrücklich die "je unterschiedliche Hardware- und
Turnier-Bedingungen" erwähnte und...

Ingo B. schrieb:

wundert sich über unterschiedliche Rating ohne etwas von verschiedenen Statistischen Methoden zu ahnen


...keineswegs eine Diskussion über Celo-Ratings führen wollte, sondern einfach im Sinne
einer vielleicht nützlichen Info auf die teils auffallend divergierenden Engine-Spreizungen
bei verschiedenen Listen aufmerksam machte.

Ingo B. schrieb:

und behauptet am Schluß die Fide hätte Elo definiert.


Du bist mangelhaft informiert: FIDE-Ehrenmitglied Elo war sehr wohl nicht nur
der Erfinder dieses Berechnungsystemes, sondern führte bis 1980 fast 10 Jahre lang
dezidiert im Auftrag der FIDE die ganzen Spieler-Berechnungen eigenhändig durch.
Das darf man schon "FIDE-definiert" nennen.

Ingo B. schrieb:

Das obere zeigt nur das der Ersteller keine Ahnung hat.


Warum so irrational und aggressiv??
Solche Vorwürfe fallen immer auf einen selbst zurück...

Gruss: Walter

.
Parent - By Frank Brenner Date 2016-02-04 22:19
Die Spielstärkeberechnung mit der Elo Formel ist kanonisch, d.h.  die Formel hätte selbst ich selber erfunden wenn es die nicht schon gäbe.
Aber nicht nur ich. Ich schätze dass mindestens  10.000 - 1 Mio Menschen in der Lage sind ohne entsprechende Literatur vorher gelesen zu haben die Formel herzuleiten, wenn sie vor das Problem gestellt werden Spielstärke von Schachspielprogrammen zu ermitteln.

Wenn wir eines tages eine fremde zivilisation finden, die auch so intelligent sind wie die Menschen, so gibt es dort die Zahl Pi, die Zahl e, es gibt etwas wie eine pq formel , quadratische Ergänzung, trigonometrie , logarithmen und es gibt eine Elo-Formel die identisch aussieht wie unsere, nur mit anderen konstanten, also vielleicht nicht 400 sondern 1 oder sonst eine andere zahl - was aber nur eine skalierung bedeutet.
Parent - - By Frank Qy. Date 2016-02-04 06:30
Hallo Walter,

die vielen Ergebnisse von Ratinglisten müssen auch richtig gedeutet werden.
Das ist eher eine kleine Kunst.

40 in 20 bei CEGT auf Pentium 2.0 GHz.
40 in 40 bei CCRL auf AMD 3500 Mhz.

Im Vergleich zu 40 in 10 bei mir auf aktueller 4GHz Intel i7 Hardware mit modernen Optionen wie AVX.
Also CEGT mit 4 Cores wäre in etwa das was ich habe mit einem Core.

AMD und Intel ...
Unterschiedliche Hardware
Eingrenzungen durch Stellungsvorgaben (meines Erachtens stark zweifelhaft wenn von ca. 30.000 möglichen Varianten 50 oder 100 für die Ermittlung einer Spielstärke dienen). Glaube keiner ist hier von der Spielstärke so gut die richtigen 50 herauszupicken. Ferner ist es Scheiß egal welche Variante auf dem Brett ist wenn die Partie ausgeglichen startet. Daher völlig unsinnig zu sagen, gleiche Variante muss mit schwarz und weiß gespielt werden. Testen auf mehreren Cores verwischt weil die Optimierung hierzu bei den Engines unterschiedlich ist. Eine Ratingliste sollte die pure Spielstärke vergleichen, alles was besser ist oder nicht kommt als Bonus hinzu. Wir sehen mit wenigen Teststellungen wie hoch der Mehrprozessor Faktor ist, dafür benötigen wir keine tausende von unnötigen Partien. Wichtig ist aber bei einer Ratingliste immer die pure Spielstärke vergleichbar dargestellt wird und das geht meines Erachtens nur mit einem Core. Auch bin ich der Meinung durch mehr Gegner benötigen wir weniger Partien um schneller aus aussagekräftiges Ergebnis zu erhalten. CEGT und CCRL haben oftmals wenige Gegner und wenige Partien (besonders CCRL bei der 40 in 40 die von der Zeit her die höchsten Voraussetzungen hat). Ok CEGT hat 40 in 120 aber ein Wahnsinn das wirklich durchzuziehen. Zu schnell sind die Ergebnisse bei 40 in 120 wieder zu alt und zu wenige Partien können erzeugt werden bzw. zu wenige Gegner etc.. Aber egal, wie Du ja siehst gehen die Meinungen stark auseinander und jeder ist überzeugt von seiner Arbeit. Daher greife ich auch nicht an, sondern stelle nur meine Eindrücke und Ideen mit der eigenen Arbeit dar. Denn ich teste natürlich so wie ich denke das es optimal ist, nichts anders machen die anderen Tester auch. Alles gut, ich bin dankbar für jede Aktivität in dieser Szene ob ich mich damit anfreunden kann oder nicht. Ehrlich, ich kann es weil ich diese Ergebnisse benötige um mehr zu erfahren und es mit eigenen Ergebnisse nicht schaffe.

Soweit so gut ...

Wenn wir jetzt einen guten Stellungstest hätten, z. B. 1.000 Stellungen (Du selbst spricht von 400) ... ist jetzt mal dahingestellt ob 400 oder 1.000 ...

Dann könnten wir ...

Diesen starten mit der Vorgabe das eine Engine 5 Sekunden pro Stellung hat und einen Core bekommt.
Oder 10 Sekunden und 1 Core oder eine Minute mit 4 Cores.
Ist doch wieder Scheiß egal ... jeder so wie er möchte.

Wir hätten x Tester, die zu unterschiedlichen Bedingungen testen würden und das Resultat wäre im Grunde vergleichbar mit einer Ratingliste ... wir hätten teils unterschiedliche Ergebnisse. Aber genau diese unterschiedlichen Ergebnisse sind es, die eine Engine verraten hinsichtlich da muss etwas sein ... Engine kann etwas besonders gut und macht etwas besonders schlecht. Es liegt ja nicht an den Testern das wir unterschiedliche Ergebnisse erhalten sondern an den Engines bzw. an den unterschiedlichen Bedingungen die wir einsetzen. Zu erwarten das alle Ergebnisse immer gleich sind oder zu erwarten das die eigenen Ergebnisse das absolut durchschnittlich beste Ergebnis ist, ist Unfug.

Ich bin zwar nach so vielen Jahren und so vielen Versuchen Ratinglisten zu erstellen immer selbst sehr überzeugt von den Verbesserungen bei neuen Listen die ich erstelle aber letztendlich weiß ich selbst das ich niemals das durchschnittlich wohl treffendste Ergebnis erreichen werden. So sehr ich mich auch bemühe aber besser als nichts zu tun ... und warum auch nicht wenn ich aus dem was ich erzeuge noch andere Dinge formen kann. Statistiken, Buchverbesserungen, durch die Partien vielleicht dann auch einen Test-Set ... mir ist wichtig alles immer mit eigenen Mitteln zu erstellen.

Also, bei einem wirklich guten Stellungstest würde durch unterschiedliche Bedingungen nichts anders passieren als bei den Ratinglisten. Schaue ich nun im Detail bei CEGT oder CCRL, bei Stefan Pohl, Andreas oder Ingo und auch bei so vielen anderen Testern sehe ich im Grunde schon, dass sich die Ergebnisse dennoch angleichen und Unterschiede sind meist recht einfach und logisch zu erklären. Hier und da gibt es natürlich Wiedersprüche aber nicht jedes Ergebnis sollte hinterfragt werden wenn es dann einfach keine Erklärungen mehr gibt. Das passiert recht selten wie ich finde.

Früher gab es so ein paar Personen da würde ich drauf wetten das selbst Listen manipuliert wurden um irgend etwas hervorzuheben was gerade für irgend eine Vermarktung wichtig war. Weil da passte einfach nichts zusammen. Den Eindruck hatte ich früher aber da hatten wir auch nicht so viele Möglichkeiten wie heute und deutlich weniger Partien. Ferner war Winboard und UCI im Aufbau und es funktionierte nicht immer alles so wie es funktionieren sollte. Als Entschuldigung für stark unterschiedliche Ergebnisse. Dennoch der Verdacht blieb oft im Raum.

Warum spielt SmarThink 1.8.0 AVX im laufenden Test-Run bei mir mit +90 und in anderen Ratinglisten hat SmarThink +50 erzielt.
Liegt es daran weil ich den Vorgänger ohne TBs (SmarThink hatte hier Probleme) getestet habe oder weil ich AVX einsetze oder weil ich mehr Gegner einsetze? Weil SmarThink auf moderner Hardware schneller ist? Weil SmarThink mehr Zeit benötigt (typisch wie Junior oder Zappa ... benötigt wirklich mehr Zeit). Weil die Engine vielleicht auch völlig anders Schach spielt als die komplette Konkurrenz aus Sicht von SmarThink. Dann müssten wir Quazar und Hiarcs hinterfragen ... die kommen mit so vielen völlig anderen Ideen daher die die Mehrzahl der Engines gar nicht auf den Schirm haben.

Also, wir brauchen kein Lagerdenken oder Angriffe gegen irgendwelche Arbeiten wie Ratinglisten.
Das unterschiedliche Meinungen beim Aufbau von Ratinglisten bestehen wird aus den Listen selbst ersichtlich.
Das es so ist ist gut für alle die verfolgen weil wir mehr erfahren wenn wir genauer hinsehen.

Bei einem Stellungstest umgehen wir das alles wenn der Test vorliegt.
Jeder kann mit seinen Bedingungen abtesten und hat als Ergebnis das was ihm wichtig ist.

Wenn für Person x 1 Core wichtig ist ... dann hat er das Resultat auf einem Core und seiner Hardware und Zeit die er einsetzen möchte.
Das hat niemand bei Ratinglisten weil er müsste diese selbst auf seinem System erstellen und das dauert zu lange.
Ferner kann jeder selbst schnell herausfinden wo ich eine Engine gut oder vielleicht eher schwach.

Ein Stellungstest kann nur willkommen sein ...
Aber er muss gut sein und wie schon beschrieben er muss logisch aufgebaut sein und das ist das Problem.
Es hapert an der Geduld hierfür denn bei dieser Community kann ich nicht gerade behaupten das diese mit Geduld gesegnet wurde.
Wir hätten am liebsten sofort einen Test damit wir loslegen könnten und schon gestern ein Resultate vorliegen würden zu allen Engines mit allen erdenklichen Voraussetzungen ohne möglich selbst Hand anzulegen.

Gruß
Frank
Parent - - By Ingo B. Date 2016-02-04 08:47
Frank Qy. schrieb:

...
Eingrenzungen durch Stellungsvorgaben (meines Erachtens stark zweifelhaft wenn von ca. 30.000 möglichen Varianten 50 oder 100 für die Ermittlung einer Spielstärke dienen). ... ...


Wie viele Spiele machst du Pro Engine? Das ist die maximale Anzahl an Eröffnungen die du Pro Engine testest.  Dazu kommt, das du keine zwei Engine hast die wirklich das selbe gespielt haben. (Also Engine A hat ander eEröffnungen gespielt als Engine B) Und du glaubst das deine Methode besser ist als immer die gleichen Stellungen zu testen? Mein Argument halte ich für besser als dein obiges. (Interessanterweise fühlst du das Problem selber(!) und versuchst ein Buch zu erstellen das möglichst alle Varianten statistisch gleich ausspielt! Da aber manchmal eine Engine eine Partie gewinnt und die selbe Variante mit einem normalen Zug weiter verliert ist das eine Sisyphos-Arbeit.)

Und natürlich habe ich das vor ein paar Jahren gestartet, weil ich glaube das alle anderen etwas falsch machen. Prinzipiel glaube ich das immer noch. Nur kann man das in der Praxis leider nicht sehen, wie die sich doch sehr gleichenden Ranglisten, sehr zu meinem wiederkehrenden Erstaunen, jeden Monat auf neue zeigen.

Gruß
Ingo
Parent - - By Frank Qy. Date 2016-02-04 10:37
Hallo Ingo,

ein paar Stats hierzu.
2050 Partien pro Engine bei einem Test-Run.

Nehme die 2050 Partien schneide alles weg nach Zugnummer 10 mit truncate (aus der Toolsammlung von Norm Pollock).
Kannst Du ja mal machen und die Fritz 15 Partien von mir herunterladen.

Dann das ganze Partiematerial auf Human setzen (Spielername für weiß und schwarz) nach ECO Code sortieren lassen.
Dann herausfischen was ist doppelt = ca. 50-80 durchschnittlich bis oben angesprochen Zugnummer 10. Bei dem Fritz Test-Run waren es glaube ich 80 bei dem Test-Run vor Fritz 60 und bei dem Test-Run davor 50. Durchschnittlich sind es wirklich ca. 50-80.

Die doppelten rausnehmen und das Ergebnis bzw. die PGN bis Zug Nummer 10 ins Buch einfügen. So werden Varianten die bis Zug Nummer 6 gehen (im Buch sind) durch Züge von Zug Nummer 6-10 ergänzt.
Während eines Test-Run die schlechte herausfischen und aus dem Buch raus mit F.

So gehe ich vor.
Sind pro Test-Run nur noch ca. 100-200 Züge die als neue Züge an Varianten angehangen werden. Das wird logischer Weise immer weniger nachdem ich eine riesige GM Datenbank bis Zug Nummer 6 ins Buch brachte und beabsichtigte das alles danach von den Engines selbst gegenseitig optimiert werden sollte bis Zugnummer 10.

Das ich jetzt eine z. B. bis Zugnummer 10 eine doppelte drin habe in einem Match zwischen Engine A und B passiert. Aber das ist sehr selten. Die später gespielte Partie fliegt raus und wird widerholt. Danach prüfe ich kurz vor Ende vom Test-Run die erspielte Datenbank. Also wenn ca. 2000 der 2050 Partien vorliegen schaue ich mir zu jedem Match an ob ich eine doppelte Variante bis dabei habe. Meist wenn bis Zugnummer 10 doppelt dann oft gar bis Zugnummer 30 doppelt. Irgendwann kommt mal eine Abweichung der Partie ... aber wie gesagt passiert selten.

Das ist in der Tat viel Arbeit aber so gehe ich vor seit Beginn und das Ergebnis ist ...
Ich ergänze etwas im Buch, wenn eine andere Engine das als schlecht bewertet was durch einen Test-Run hinzugefügt wurde fliegt die Variante mit F eh wieder raus. Mittlerweile habe ich 50-80 doppelte bei einem Test-Run von 2050 Partien Varianten. Da immer Züge ins Buch kommen habe ich mich verbessert von seit ich angefangen habe von 140 auf jetzt 50-80. Es verbleiben immer mehr spielbare ausgeglichene Varianten.

Ausgespielt wird ja das nach Prio was in der GM Praxis beliebt ist oder nicht. Spielt mein Buch Königsgambit selten aus bedeutet das eher das wenn es ausgespielt wird die Wahrscheinlichkeit auch heute noch da ist das eine schlechte Variante gefunden wurde, weil es selten ausgespielt wird. Der Nachteil an dem Verfahren die kompletten 500 ECO und alle erdenklich spielbaren Varianten einzusetzen wenn einige der ECO Codes selten sind und mithin auch bei mir selten aufs Brett kommen.

Also bei 50 Partien zwischen 2 Engines und dem Buch was ich habe kommt es bei den Prios die das Buch hat und einem Test-Run von 2050 Partien bei 41 Gegnern mit 50 Partien pro Match maximal 4x vor, das in einem Match eine Variante bis Zug Nummer 10 doppelt ist. Würde ich das Buch so einsetzen das 2 Engines 2000 Partien gegeneinander spielen würden, hätte ich wie oben beschrieben in 50-80 Fällen doppelt ausgespielte Varianten drin bis ca. Zugnummer 10 oder in ca. vielleicht 10 Fällen dann wirklich eine doppelte Variante bis zum Ende des Buches. Daher sind gerade von Zugnummer 10-12 sehr viele Abweichungen in meinem Buch. Struktur des Buches wurde also gut überdacht und das Buch macht das was ich will.

Das sind irre gute Zahlen wenn ich mir ansehe was andere Bücher produzieren die zu dem:

- nicht alle ECO Codes ausspielen, die dann zudem ausgeglichen verlassen
- X Varianten drin sind die bevorteilen
- Varianten verstärkt ausspielen die in der Praxis selten sind

Sprich, ich forme das was ich brauche und bin wie gesagt verdammt weit auch wenn die Arbeit zugegeben ein Wahnsinn ist. Aber jetzt aufzuhören macht keinen Sinn denn ich habe schon zu weit über 95% das erreicht  was ich erreichen will. Ausgeglichene Stellungen, alle 500 ECO Codes mit dem Prioritäten der Beliebtheit der Eröffnungssysteme.

Letztendlich kann ich es mir einfach machen und einfach ausgeglichene Stellungen heraussuchen, versuchen die so zu justieren das offene, halboffene, geschlossene Systeme sich die Waage halten aber dann habe ich nur einen Querschnitt von 50 aus 30.000 möglichen. Da ist mit Einsicht auf Dauer zu einseitig beim zusehen und ferner erzeuge ich nicht das Material was ich benötige für Statistiken auch zu Eröffnungen.

Das ist jetzt sehr grob dargestellt.
Ferdinand kreierte weitere Tools die ich einsetzte und noch andere Geschichten zu optimieren denn z. B. ...

Variante ist ausgeglichen aber die Stats sagen aus das zu viele Partien weiß gewinnt und schwarz trotzdem kaum Chancen hat.
Das sehe ich natürlich auch und setzte die Prios niedriger versuche herauszufinden warum und deaktiviere die Varianten gar.

Für das Messen einer Grundspielstärke ist es meines Erachtens egal ob ich so vorgehe wie Du es machst oder so wie ich es mache. Wenn eine Engine mit einer ausgeglichenen Position startet ist das Ziel erreicht eine Test-Basis für eine Ratingliste zu haben. Macht keinen Sinn das Varianten drin sind die direkt zu einem Gewinn durch das Buch sorgen.

Derzeit läuft SmarThink 1.8.0. Der Killer für mein System denn Smarthink bewertet 30-40% der Eröffnungen mit bis zu 1.00 Bauerneinheiten höher für sich als andere Engines. Schlechte Varianten herauszufinden wenn Engines wie SmarThink oder ICE laufen ist ein echtes Unterfangen. Gleiches bei Fizbo und auch leicht bei 0.30 Bauerneinheiten bei anderen Kandidaten. Wenn ich das aber weiß ist es dann wieder anders die Blick beim herausnehmen von Varianten zu schulen.

Verblüffend für mich ist bei den Ratinglisten folgender Umstand.
Es wird sehr oft gleiches festgestellt mit stark unterschiedlichen Methoden beim Testverfahren.
Ich glaube nicht, das das Buch oder die Stellungsvorgabe einen wirklich großen Einfluss hat wenn sichergestellt ist, dass die Engines gleich gut starten. Vielfalt benötigen wir hier im Grunde nur um doppeltes zu vermeiden.

Mir persönlich macht es mehr Spaß wenn alles was gut ist ausgespielt wird. Zusehen wird interessanter ... aber hinsichtlich der Ergebnisse wird es kaum Auswirkungen haben. Ich kenne z. B. Deine Vorgabestellungen nicht aber selbst wenn ich die kennen würde wäre ich mir auch nicht sicher ob die wirklich gut sind. Gehe aber davon aus das diese ausgeglichen sind und gut überdacht sind. Mir persönlich wäre das aber zu langweilig immer gleiches an Eröffnungen zu sehen ohne Dich jetzt angreifen zu wollen.

Gruß
Frank
Parent - - By Ingo B. Date 2016-02-04 12:02
Frank Qy. schrieb:

Hallo Ingo,

ein paar Stats hierzu.
2050 Partien pro Engine bei einem Test-Run.

Nehme die 2050 Partien schneide alles weg nach Zugnummer 10 mit truncate (aus der Toolsammlung von Norm Pollock).
Kannst Du ja mal machen und die Fritz 15 Partien von mir herunterladen.

Dann das ganze Partiematerial auf Human setzen (Spielername für weiß und schwarz) nach ECO Code sortieren lassen.
Dann herausfischen was ist doppelt = ca. 50-80 durchschnittlich bis oben angesprochen Zugnummer 10. Bei dem Fritz Test-Run waren es glaube ich 80 bei dem Test-Run vor Fritz 60 und bei dem Test-Run davor 50. Durchschnittlich sind es wirklich ca. 50-80.

Die doppelten rausnehmen und das Ergebnis bzw. die PGN bis Zug Nummer 10 ins Buch einfügen. So werden Varianten die bis Zug Nummer 6 gehen (im Buch sind) durch Züge von Zug Nummer 6-10 ergänzt.
Während eines Test-Run die schlechte herausfischen und aus dem Buch raus mit F.

So gehe ich vor.
Sind pro Test-Run nur noch ca. 100-200 Züge die als neue Züge an Varianten angehangen werden. Das wird logischer Weise immer weniger nachdem ich eine riesige GM Datenbank bis Zug Nummer 6 ins Buch brachte und beabsichtigte das alles danach von den Engines selbst gegenseitig optimiert werden sollte bis Zugnummer 10.

Das ich jetzt eine z. B. bis Zugnummer 10 eine doppelte drin habe in einem Match zwischen Engine A und B passiert. Aber das ist sehr selten. Die später gespielte Partie fliegt raus und wird widerholt. Danach prüfe ich kurz vor Ende vom Test-Run die erspielte Datenbank. Also wenn ca. 2000 der 2050 Partien vorliegen schaue ich mir zu jedem Match an ob ich eine doppelte Variante bis dabei habe. Meist wenn bis Zugnummer 10 doppelt dann oft gar bis Zugnummer 30 doppelt. Irgendwann kommt mal eine Abweichung der Partie ... aber wie gesagt passiert selten.

Das ist in der Tat viel Arbeit aber so gehe ich vor seit Beginn und das Ergebnis ist ...
Ich ergänze etwas im Buch, wenn eine andere Engine das als schlecht bewertet was durch einen Test-Run hinzugefügt wurde fliegt die Variante mit F eh wieder raus. Mittlerweile habe ich 50-80 doppelte bei einem Test-Run von 2050 Partien Varianten. Da immer Züge ins Buch kommen habe ich mich verbessert von seit ich angefangen habe von 140 auf jetzt 50-80. Es verbleiben immer mehr spielbare ausgeglichene Varianten.

Ausgespielt wird ja das nach Prio was in der GM Praxis beliebt ist oder nicht. Spielt mein Buch Königsgambit selten aus bedeutet das eher das wenn es ausgespielt wird die Wahrscheinlichkeit auch heute noch da ist das eine schlechte Variante gefunden wurde, weil es selten ausgespielt wird. Der Nachteil an dem Verfahren die kompletten 500 ECO und alle erdenklich spielbaren Varianten einzusetzen wenn einige der ECO Codes selten sind und mithin auch bei mir selten aufs Brett kommen.

Also bei 50 Partien zwischen 2 Engines und dem Buch was ich habe kommt es bei den Prios die das Buch hat und einem Test-Run von 2050 Partien bei 41 Gegnern mit 50 Partien pro Match maximal 4x vor, das in einem Match eine Variante bis Zug Nummer 10 doppelt ist. Würde ich das Buch so einsetzen das 2 Engines 2000 Partien gegeneinander spielen würden, hätte ich wie oben beschrieben in 50-80 Fällen doppelt ausgespielte Varianten drin bis ca. Zugnummer 10 oder in ca. vielleicht 10 Fällen dann wirklich eine doppelte Variante bis zum Ende des Buches. Daher sind gerade von Zugnummer 10-12 sehr viele Abweichungen in meinem Buch. Struktur des Buches wurde also gut überdacht und das Buch macht das was ich will.

Das sind irre gute Zahlen wenn ich mir ansehe was andere Bücher produzieren die zu dem:

- nicht alle ECO Codes ausspielen, die dann zudem ausgeglichen verlassen
- X Varianten drin sind die bevorteilen
- Varianten verstärkt ausspielen die in der Praxis selten sind

Sprich, ich forme das was ich brauche und bin wie gesagt verdammt weit auch wenn die Arbeit zugegeben ein Wahnsinn ist. Aber jetzt aufzuhören macht keinen Sinn denn ich habe schon zu weit über 95% das erreicht  was ich erreichen will. Ausgeglichene Stellungen, alle 500 ECO Codes mit dem Prioritäten der Beliebtheit der Eröffnungssysteme.

Letztendlich kann ich es mir einfach machen und einfach ausgeglichene Stellungen heraussuchen, versuchen die so zu justieren das offene, halboffene, geschlossene Systeme sich die Waage halten aber dann habe ich nur einen Querschnitt von 50 aus 30.000 möglichen. Da ist mit Einsicht auf Dauer zu einseitig beim zusehen und ferner erzeuge ich nicht das Material was ich benötige für Statistiken auch zu Eröffnungen.

Das ist jetzt sehr grob dargestellt.
Ferdinand kreierte weitere Tools die ich einsetzte und noch andere Geschichten zu optimieren denn z. B. ...

Variante ist ausgeglichen aber die Stats sagen aus das zu viele Partien weiß gewinnt und schwarz trotzdem kaum Chancen hat.
Das sehe ich natürlich auch und setzte die Prios niedriger versuche herauszufinden warum und deaktiviere die Varianten gar.

Für das Messen einer Grundspielstärke ist es meines Erachtens egal ob ich so vorgehe wie Du es machst oder so wie ich es mache. Wenn eine Engine mit einer ausgeglichenen Position startet ist das Ziel erreicht eine Test-Basis für eine Ratingliste zu haben. Macht keinen Sinn das Varianten drin sind die direkt zu einem Gewinn durch das Buch sorgen.

Derzeit läuft SmarThink 1.8.0. Der Killer für mein System denn Smarthink bewertet 30-40% der Eröffnungen mit bis zu 1.00 Bauerneinheiten höher für sich als andere Engines. Schlechte Varianten herauszufinden wenn Engines wie SmarThink oder ICE laufen ist ein echtes Unterfangen. Gleiches bei Fizbo und auch leicht bei 0.30 Bauerneinheiten bei anderen Kandidaten. Wenn ich das aber weiß ist es dann wieder anders die Blick beim herausnehmen von Varianten zu schulen.

Verblüffend für mich ist bei den Ratinglisten folgender Umstand.
Es wird sehr oft gleiches festgestellt mit stark unterschiedlichen Methoden beim Testverfahren.
Ich glaube nicht, das das Buch oder die Stellungsvorgabe einen wirklich großen Einfluss hat wenn sichergestellt ist, dass die Engines gleich gut starten. Vielfalt benötigen wir hier im Grunde nur um doppeltes zu vermeiden.

Mir persönlich macht es mehr Spaß wenn alles was gut ist ausgespielt wird. Zusehen wird interessanter ... aber hinsichtlich der Ergebnisse wird es kaum Auswirkungen haben. Ich kenne z. B. Deine Vorgabestellungen nicht aber selbst wenn ich die kennen würde wäre ich mir auch nicht sicher ob die wirklich gut sind. Gehe aber davon aus das diese ausgeglichen sind und gut überdacht sind. Mir persönlich wäre das aber zu langweilig immer gleiches an Eröffnungen zu sehen ohne Dich jetzt angreifen zu wollen.

Gruß
Frank


So viel Arbeit und doch kommt am Ende auchncihts anderes raus ...

Gruß
Ingo
Parent - - By Frank Qy. Date 2016-02-04 12:19
Doch ich habe mehr Vielfalt auf dem Brett, kann bessere Eröffnungsstatistiken erstellen und Partien werden hier und dort gar genutzt für diverse Zwecke.
Hinsichtlich der Ermittlung eines Ratings OK, wird nichts anders dabei herauskommen.



Kannst ja wirklich mal für Dich dieses Experiment machen.
Nehme mein Buch und wiederhole einen von Deinen Test-Runs ...

Wetten wir haben ein Ergebnis +-5.

Mit dem Unterschied das Partiematerial zum Thema Eröffnungen ist bei mir gewaltig höher und mithin interessanter.
Bietest ja Deine Partien nicht an, insofern nicht vergleichbar aber ich biete die Partien an und mithin ist mir auch das Partiematerial wichtig.

Download games by Players ... selection auf meiner Webseite.
Wird rege genutzt, wahrscheinlich von den Programmierern.

Gruß
Frank
Parent - - By Ingo B. Date 2016-02-04 13:05
Frank Qy. schrieb:

...
Hinsichtlich der Ermittlung eines Ratings OK, wird nichts anders dabei herauskommen.




Sag ich doch! Dafür kann ich meine Liste nahtlos zum Enginedevelopment nutzen weil ich definierte Eröffnungen benutze. JEDER Testlauf ist wirklich identisch

Frank Qy. schrieb:

Kannst ja wirklich mal für Dich dieses Experiment machen.
Nehme mein Buch und wiederhole einen von Deinen Test-Runs ...

Wetten wir haben ein Ergebnis +-5.


Falls du mit "+/- 5" Elo meinst ist das nicht dein Ernst, oder? Meine Liste hat eine "Auflösung" von rund 10 Elo (knapp drunter). Wenn ich meinen eignen Stellungen laufen lasse würde ich mich nicht über +/-5 Elo wundern. Wir sind heute in Berreichen die völlig irrelevant sind - deswegen lohnt auch der Aufwand nicht mehr. Niemand mit ein bisschen Ahnung wir dwohl ernsthaft behaupten wollen das eine Engine die nach X-tausend Spielen 5 Elo (meinetwegen 10) statistisch besser bewertet werd als eine andere auch wirklich sichtbar besser ist.
5 Elo, phhh. Dafür verschwende ich kein einziges Watt Strom!

Frank Qy. schrieb:

Mit dem Unterschied das Partiematerial zum Thema Eröffnungen ist bei mir gewaltig höher und mithin interessanter.
Bietest ja Deine Partien nicht an, insofern nicht vergleichbar aber ich biete die Partien an und mithin ist mir auch das Partiematerial wichtig.


1. "Gewaltig höher" (~2000) ist nichts im Vergleich zum tatsächlich möglichen und viel näher zu meinen 110 Eröffnungen als zum "tatsächlich möglichen". Ratio 2000/110 ist größer als "tatsächlich möglich"/2000! (Und du verlierst die Möglichkeit einer echten Wiederholung - was du auch nicht brauchst, aber ich)

2. "Interessanter" ist mir für meine Statistik ziemlich Wurst.

Immerhin schaue ich ab und zu noch mal meine Partien durch wenn ich einen Betatest habe. So gewinne ich einen "sehr laienhaften" Eindruck woran es evtl noch mangelt. (So Standards wie Königssicherheit, Freibauern, bestimmte Endspielstellungen die man noch implementieren könnte ... . Für all das  brauche ich keine weiten Eröffnungen (Wobei ich schon darauf achte das meine 110 Eröffnungen halbwegs über das ECO Feld verteilt sind) (und ich würde auch niemals versuchen meinen Eindruck als Wahrheit zu verkaufen, dann könnte ich ja auch versuchen "Spielstile" von 3000+ Elo Engines zu begreifen, völlig aussichtslos! Am schlimmsten daran wäre ja das es Unwissende gäbe die meine private und inhaltsleere Einschätzung als bare Münze nehmen würden. Ich möchte da eigentlich niemanden aufs Glatteis führen )

Gruß
Ingo
Parent - By Frank Qy. Date 2016-02-07 13:20
Hallo Ingo,

ehrlich gesagt mich interessieren +-5 Elo auch nicht sonderlich hinsichtlich Genauigkeit. Die Conditions bei mir sind mittlerweile ausgefeilt genug und entsprechen meinen Bedürfnissen zu weit über 90%. Wüsste nicht was ich wesentlich verbessern könnte, alles umgesetzt so wie ich es gerne hätte.

Die vielen Test-Runs die laufen, um dann 10 Elo festzustellen ...
Ja, die können wir uns sparen. Allerdings wissen wir ja auch nicht genau wie groß denn letztendlich ein Zugewinn unter den eigenen Conditions ist. Bin ganz froh mit der Entscheidung meine ToDo Liste anders zu sortieren (Tage die zwischen den Versionen liegen sind verantwortlich dafür was ich zuerst teste). Gerade dann wenn viele Updates kommen und derzeit hinke ich hinterher weil ich mehr Programme sehen will und Liga 3 aufbaue, also die Liste auf 63 Engines erweitere. Das ist natürlich ein echtes Unterfangen wenn dann während dieser Erweiterung auch noch Engines der Liga 3 oft upgedated werden.

Egal ...

Will ja auch niemanden aufs Glatteis führen aber zumindest werden die Aussagen zu den Spielstilen besser mit der Art und Weise wie ich etwas versuche herauszufinden. Alles ist sehr aufwendig und letztendlich bleibt es zunächst schier unmöglich wirklich etwas herauszufinden wenn es um die Spieleigenschaften in den wirklich entscheidenden Spielphasen (spätes Mittelspiel / Übergang Endspiel) geht. Da lässt meine Spielstilbeschreibung Wünsche offen. Wenn ich mich daran begeben würde könnte ich meinen Job aufgeben und wäre ein paar Jahre beschäftigt, würde letztendlich auch nur die Spielstile in dieser Partiephase zu vielleicht 60-70% treffen.

Was nicht geht geht nicht.
Außerdem will ich auch nicht nur am PC sitzen und Seiten aktualisieren. Was ich habe reicht bzw. ist schon zu viel.

Dir weiterhin viel Spaß beim Testen und auch beim Nachspielen der Partien.

Gruß
Frank

Wir müssten selbst mal anhand unserer Vorgehensweise beim Testen vergleichen, was wir alles verändert haben in den letzten Jahren bzw. wo wir anhand der Erfahrungswerte angesetzt haben das eine oder andere besser zu machen. So langsam ist, wenn ich hier für mich spreche, die Fahnenstange erreicht. Viele kleine Erkenntnisse sind hinzugekommen und etwas bessere Aussagen über Stärken und Schwächen werden ersichtlicher. Nach wie vor habe ich mit allen Engines Spaß wenn sie mich nicht gerade durch Fehler ärgern und Mehrarbeit erzeugen.
Parent - By ? Date 2016-02-04 11:14
Kannst ja mal folgendes tun ...
Wiederholte den Stockfish 7 Test-Run von Dir mit meinem Buch.
Wenn Du das machst denke an die Einstellungen zum Buch (siehe Grafikdateien im Download file).

Und eine Anmerkung noch zum vorherigen Posting:
Krass war Frenzee ... hat keine Lust mehr zu spielen wenn es nachteilig wird und aus -6 wird 3 Züge später ein Matt.
Verliert daher 250 der 2050 Partien unter 50 Züge. Das ist 3x höher als die schlechteste Engine in meiner Liste.

Also, die 250 Partien müssen natürlich raus bevor ich Truncate einsetze und auf 10 Züge abschneide und mittels neuer Partien mein Buch optimiere.

Gruß
Frank

Warum hat Frenzee dann dennoch über 2600 Elo wenn es so schlecht nach den Eröffnungszügen ist und so viel gegen sich mit vielen Figuren nicht sieht?
Ich weiß es ... und ohne den Fehler kann die Engine locker 2.725 erreichen, weiß ich auch.
Up Topic Hauptforen / CSS-Forum / Vergleich der Rating-Listen

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill