Stockfish 2.1 running for the IPON

By U. Haug Date 2011-05-05 10:21

Hallo Ingo,

vielen Dank für deinen tollen Service, sofort mit dem Test dieser Engine zu beginnen und den aktuellen Stand allen Interessierten live zur Verfügung zu stellen.
Ich habe soeben - nach ziemlich genau 100 gespielten Partien - ein Rating von ca. 2950 gesehen, was erstens eine spürbare Verbesserung gegenüber der Vorversion darstellen würde und zweitens sogar besser wäre als meine letzte käuflich erworbene Engine, Rybka 3. Nun sind 100 Partien wahrscheinlich nicht genug, um eine Prognose fürs Endergebnis deines Test zu stellen. Bei den anderen Engines deiner Tabelle hast du ja eine Genauigkeit von +- 10 nach ungefähr 4000 Partien. Bin sehr gespannt, ob dieses hohe Rating gehalten werden kann!

Grüße an alle,

Ulrich

By Ingo Bauer Date 2011-05-05 13:20

Hallo Ulrich,

100 Partien sind wirklich nicht aussagekräftig! Auch Stockfish 2.01 war schon besser als R3 und bis ich 4000 habe das wird noch dauern

Das angezeigte Rating ist mit Vorsicht zu genießen. Nach einer ordentlichen Auswertung der Spiele werden es da oben irgendwo zw. 7 und 10 Elo weniger sein. Das Rating während eines Turniers ist mehr so "über den Daumen" weil es eher ELostat und nicht Bayes basierend ist und weil die Gegner mit statischem Rating eingerechnet werden. Dieses kann sich natürlich um ein zwei Elo im laufenden Turnier ändern. 20 Gegener mit je 1 Elo ... kann schon etwas ausmachen für die geneuen Elos einer Engine.

Gruß
Ingo

By U. Haug Date 2011-05-05 14:08

Hallo Ingo,

[quote="Ingo Bauer"]
Hallo Ulrich,

100 Partien sind wirklich nicht aussagekräftig! Auch Stockfish 2.01 war schon besser als R3 und bis ich 4000 habe das wird noch dauern

Das angezeigte Rating ist mit Vorsicht zu genießen. (...)[/quote]

ja ja, klar, das genaue Rating interessiert mich eigentlich nicht mal so sehr. Aber man sieht nach inzwischen gut 300 gespielten Partien, dass Stockfish 2.1 gegen keine einzige andere Engine im direkten Vergleich zurück liegt. Das sagt für mich schon ein bisschen 'was aus: Starke Engine.

Freundliche Grüße und nochmal danke fürs Testen,

Ulrich

By Benno Hartwig Date 2011-05-05 18:21 Edited 2011-05-05 18:28

[quote="U. Haug"]ja ja, klar, das genaue Rating interessiert mich eigentlich nicht mal so sehr.[/quote]Aber ein gutes Stück genauer darf es aus meiner Sicht schon noch werden. Mich interessiert es.
Benno

By Ingo Bauer Date 2011-05-05 20:27

[quote="Benno Hartwig"]
[quote="U. Haug"]ja ja, klar, das genaue Rating interessiert mich eigentlich nicht mal so sehr.[/quote]Aber ein gutes Stück genauer darf es aus meiner Sicht schon noch werden. Mich interessiert es.
Benno
[/quote]

Keine Angst, mich interessiert ein genaueres Ergebniss auch

Gruß
Ingo

By Frank Quisinsky Date 2011-05-05 15:00

Hallo Ingo,

beim Test von Rybka 4.1 TD 79 v1 waren es beim Endergebnis zu dem Ausgabewert der Shredder Round Robin Tabelle +-0 ELO, also nicht die von Dir beschriebenen üblichen 7-10 ELO. Grund war die sehr geringe Remisquote. Je geringer die Remisquote desto mehr passt sich also das Endergebnis der Shredder Round Robin Tabelle der späteren Bayesian Kalkulation an.

Bei Stockfish 2.0.1 habe ich hier eine überdurchschnittlich hohe Remisquote von 38%. Sofern Stockfish 2.1.0 diese Remisquote auch hat wären es dann wieder in der Tat 7-10 ELO (unabhängig von der Partiezahl). Bayesian selbst kommt zwar nach Stichproben (Engines die am Tabellen-Ende und vorne liegen) zu logischeren Ausgaben als ELOstat aber leider wird ganz offenbar der Remisquote zu viel Aufmerksamkeit geschenkt während bei ELOstat die Remisquote nur sehr geringe Auswirkungen hat (wenn überhaupt mit einbezogen).

Insofern ...
Keines der beiden Programme ist meines Erachtens perfekt. Es fehlen zu viele Dinge die überhaupt gar nicht ins Gewicht fallen.

Spielen 2 Engines 5.000 Partien gibt Dir ELOstat und Bayesian ErrorBar von 10 aus. Das ist natürlich absoluter Käse, weil nur zwei Engines im Test waren. Die Anzahl der Gegner fehlt, etc, etc..

Bin mir sicher das irgend wann mal ein besseres Programm zur Verfügung steht.

So, schauen wir mal auf Dein Stockfish 2.1.0 Ergebnis. Bei den letzten drei Versionen regte sich bei x64 nichts und bei 32bit ging es zuletzt gar deutlich nach unten. Auch kommen ja beständig immer wieder Bugfixes wenn eine Stockfish Version raus ist. Einen professionellen Eindrück macht das nicht gerade, eigentlich eher ein Anzeichen für Programme die geklont sind (viele Versionen, keine Verbesserungen). Nun steht bei Stockfish aber auch eher der Lerncode im Vordergrund und daher trifft das nicht bei Stockfish zu.

Dennoch, 4 neue Versionen im Jahr nerven mehr anstatt Freude ausbricht.
Bleibt es jetzt bei 2.950 würde ja endlich mal eine messbare Verbesserung vorliegen.

Bin mal gespannt!

Gruß
Frank

By Rudolf Rohs Date 2011-05-05 15:35

Hallo Frank,

Stockfish braucht keinen professionellen Eindruck zu hinterlassen, den das Programm
ist kostenlos, also von Amateuren und nicht von Profis die sich bezahlen lassen.
Die Leistung des Programms ist trotzdem oder vielleicht auch deswegen sensationell.
Wie gesagt, wenn ich für was bezahle kann ich auch Ansprüche stellen. Für Stockfish
zahle ich aber nichts und kann deshalb auch keine Ansprüche stellen.

Wenn jemand seine Freizeit opfert um anderen eine Freude zu machen gebührt ihm dafür Respekt,
was immer er auch macht. (Wem es nicht passt kann ja die Engine ignorieren ohne irgendetwas
zu verlieren. Aufgedrängt wird sie einem ja auch nicht, kannst also gerne mal eine Version auslassen,
außer daß sie sich natürlich von der hohen Spielstärke her aufdrängt.)

Mir gefällt die Engine und ich ziehe sie immer wieder gerne zu Analysen heran. Deshalb
gebührt den Programmierern auch mein Respekt und Dank. (Genau wie Dir oder Ingo im
Testbereich).

Versionen die häufig nichts bringen sind natürlich ärgerlich, aber da brauchst Du ja auch nicht jede
zu testen. Aber dafür spielt man halt ein paar Partien an und entscheidet dann, ob man weitermacht
oder die Engine weglegt. Aber eine Engine die unter den Top 5 ist und eine 20-30 Elopunkte verbesserte
Version kostenlos rausbringt lohnt meiner Meinung nach immer angeschaut zu werden. (Bei einem Bezahl-
programm kann man drüber streiten, ob einem 20-30 Elopunkte die Ocken wert sind). Auch oder erst
recht, wenn es viele Updates gibt die jeweils eine Steigerung erreichen. Stockfish 2.1 hat jetzt annähernd
Rybka 4-Niveau und ist eine nette Alternative. Sollte es in 3 Monaten ein weiteres Update geben, welches
wieder 20 Elopunkte stärker wär, würde Rybka 4.1 erreicht werden.

Und wer möchte eine solche Gratisengine nicht?

Gruß

Rudolf

Gruß

Rudolf

By Frank Quisinsky Date 2011-05-06 00:12

Hallo Rudolf,

alles was Du zu Stockfish schreibst steht außer Frage und kann ich nur unterstreichen.
Allerdings muss dennoch nicht jede Stockfish Version getestet werden und schade ist es, dass das druckvolle Spiel zu Lasten von mehr Punkten aus Endspielschleifen so langsam verschwindet.

Aber wir haben ja die Version 1.7.1 und insofern ist es gar nicht wichtig wie sich die Engine weiter entwickelt bzw.in welche Richtung denn auch die 1.7.1 steht uns allen frei zur Verfügung. Viele Anwender denken, neue Version mehr ELO, wenn auch nur ein paar Pünktchen ... muss ich jetzt einsetzen. Ganz einfach, weil es schwierig ist zu erkennen ob sich der Einsatz lohnt. Wir alle sind keine SUPER GMs, selbst behelfe ich mir da mit sehr einfachen Analysen meiner eigenen schon sehr großen Datenbank.

Mir gefällt Stockfish auch und Stockfish gehört neben Spark und Hiarcs, Junior und Hannibal zu meinen derzeitigen Favoriten bei den derzeit aktuellen Engines. Auch Shredder gefällt mir sehr gut aber Shredder ist übergeordnet weil Shredder ist ja nicht nur eine Engine sondern viel mehr.

Wenn es denn 20-30 ELO sind. Stockfish ist arg am schwanken, gerade die w32 (siehe andere Beiträge im Thread).
Wahrscheinlich werde ich bei Stockfish ein downgrade durchführen. Wäre erstmalig bei der SWCR das zurückgedatet wird.

Gruß
Frank

By Frank Quisinsky Date 2011-05-05 19:28 Edited 2011-05-05 19:34

502.0 - 183.0 73.28% Perf=2941

beobachte ein wenig die ELO-Entwicklung beim Test von Ingo.
Nach 568 Partien waren es 2.936, nach 440 noch 2.952.

Also, aus der 10 ELO-LaOla wird jetzt so langsam eine 5 ELO-LaOla bis Partienummer 1.500 und dann noch 3-4 ELO-LaOla

Interessant ist nun wie hoch die Remisquote ist.
Bei ca. 38% (wie bei Stockfish 2.0.1) wären 2.941 - 11 = 2.830.

Ziehe ich jetzt noch die 13 ELO vom Eichungsproblem zwischen IPON / SWCR ab (Shredder 12 w32 / x64, wenn bei der SWCR bei allen Engines 13 darauf gerechnet werden würde, wäre der Vergleich IPON zu SWCR schon fast beängstigend), stehen wir bei 2.917 ELO, wäre ungefähr das SWCR Ergebnis. SF 2.0.1 steht bei 2.905 ... also eine Verbesserung von 12 ELO. Na prima! Wenn sich bei 32bit nichts geändert hat, bleibt die 1.9.1 weiterhin besser als dann die 2.1.0.

Was für ein Versions-Durcheinander.
Wahrscheinlich werde ich die 2.1.0 gar nicht testen weil die ganzen Stockfish Versionen ca. gleich sind. Muss mal überlegen bzw. mal meine beiden Testrechner anschmeißen um mal testen ob sich bei der 32bit Version was getan hat oder eher nicht.

Gruß
Frank

PS: Wenn die Remisquote allerdings wie bei Stockfish 1.9.1 und 1.8.0 bei ca. 33% liegt, vielleicht noch 4-5 Pünktchen hinzukommen (Shredder Ausgabewert ca. 2.945-2.950) hätten wir eine echte Verbesserung von ca. 25 ELO die auch gut messbar ist, zumindest bei der 64bit denn bei der 32bit geht es bei den neuen Stockfish Versionen minimal rauf oder runter, keine Beständigkeit festzustellen. Bin mal gespannt ...

By Ingo Bauer Date 2011-05-05 20:38

Hallo Frank

[quote="Frank Quisinsky"]
...
Ziehe ich jetzt noch die 13 ELO vom Eichungsproblem zwischen IPON / SWCR ab (Shredder 12 w32 / x64, wenn bei der SWCR bei allen Engines 13 darauf gerechnet werden würde ...

[/quote]

Die IPON und die SWCR haben eine durchschnittliche Abweichung von -0.14 Elo (praktisch 0). Wenn du nur, weil du meinst dein Shredder muß das selbe Rating haben wie mein Shredder, 13 Elo addierst ist das schlicht falsch.

Gruß
Ingo

PS: Tip: 'Errorbar' und 'stabiles Rating' sind zwei völlig verschiedene Dinge!

By Frank Quisinsky Date 2011-05-05 21:10 Edited 2011-05-05 21:12

Hi Ingo,

also wirklich Ingo!
Du hast absolut Recht

Bin gerade ein wenig am experimentieren mit den 3.400 Extra Shredder 12 x64 Partien die ich habe spielen lassen. Werde ich aber nicht in die SWCR Datenbank setzen. Dort steht Shredder 12 x64 bei 1.600 games. Also ich habe jetzt 5.600 Shredder 12 w32 games und etwas über 5.000 Shredder x64 games. Die Differenz vorher (also 5.600 Shredder 12 w32 zu 1.600 Shredder 12 x64 games) war 13 ELO. Die Differenz jetzt nach (5.600 Shredder 12 w32 und knapp über 5.000 Shredder 12 x64 games) ist 11 ELO.

Also Shredder w32 hat 2.800
Shredder x64 hat 2.789

Hat sich leider nichts geändert, bleibt dabei!
Wird mir immer ein Rätsel bleiben, denn wenn ich analysiere sind die Ausgaben gleich.
Wenn Du aber z. B. zwei Fenster öffnest, Shredder 12 w32 - Engine egal (ohne Buch) und Shredder 12 x64 - Engine gleich zu Fenster 1 (ohne Buch) gegeneinander spielen lässt, gibst als Zug 01. h4 ein, sind die Ausgaben nicht mehr gleich.

Also:
Analyse Mode und Engine-Engine Mode ... das ist ein Unterschied hinsichtlich reproduzieren ob beide wirklich gleich sind.

Denn es liegen nun über 5.000 Partien pro Shredder 12 w32 und Shredder 12 x64 vor und trotz Deiner heiß geliebten Error Bar von 8 (bei beiden) sind es 11 ELO Differenz.

Kleine Änderungen große Wirkungen.
Wahrscheinlich unterschieden sich die beiden Engine an irgend einer Stelle im Source-Code und produzieren daher diese unterschiedlichen Ergebnissen.

Aber Du hast Recht.
13 ELO draufrechnen ... war ein Denkfehler!

Schei... mit Shredder 12 w32 und Shredder 12 x64.
CEGT hat glaube ich auch 8 ELO Differenz und mit mehr Partien bei der w32 Version werden es sicherlich auch 11 wie bei mir.
Warum hast Du diesen Unterschied nicht, verstehe ich wirklich nicht!

Gruß
Frank

By Frank Quisinsky Date 2011-05-05 23:18 Edited 2011-05-05 23:25

Hallo zusammen,

zwischenzeitlich mal ein paar Analysen mit Stockfish 1.7.1, 1.8.0, 1.9.1 und 2.0.1 gemacht. Bis auf Version 1.8.0 wurde ja bekanntlich immer ein kleines Update nachgeschoben. Bei den Analysen habe ich die Partien der x64 als auch der w32 zusammen gezogen. Getestet wurden in der SWCR ja je die w32 und x64 Version. Bei den Analysen ging es nicht um ELO, sondern rein um die Länge der Partien ... also Analyse nach Beeindigung bis zu 30 Zügen, bis zu 40 Zügen, 50 Zügen und weiter nach oben.

Gewonnen, verloren, Remis

Ziel herauszufinden, welche der ganzen ca. gleich starken Versionen vielleicht interessanteres Schach spielt. Dabei kam überraschender Weise heraus, das es die Version 1.7.1 ist. Stockfish 1.7.1 spielt am druckvollsten, übersieht vielleicht mehr als die anderen Versionen aber dadurch auch die niedrigere Remisquote. Bei den vielen Endspielschlangen holen die neueren Versionen mehr Punkte.

Ohne jetzt die neue Version zu kennen, kenne die Remisquote nicht, kann die Partien von Ingo nicht herunterladen ist es zumindest eindeutig so, dass ich den Test von den Versionen 1.8.0, 1.9.1 und 2.0.1 hätte auslassen können.

Interessant ist auch der Umstand, dass sich bei schnelleren Partien und höhere Remisquoten, meist bedingt durch das Endspiel und einigen Remisen die gegen stärkere Gegnerschaft mehr eingefahren werden die Blitzspielstärke etwas steigert. Minimal aber zumindest etwas.

Vielleicht werde ich Stockfish 2.1.0 gar nicht testen und dann in die nächsten Turnieren wieder die Version 1.7.1 einsetzen. Finde das macht mehr Sinn als irgendwann 20 (10x w32 und 10x x64) Versionen in der Liste zu haben die alle gleich sind und bei 32bit starken schwanken.

Mal schauen wie jetzt bei Ipon ausschaut ...

689.5 - 263.5 72.35% Perf=2932

Waren gerade noch 2.941 ... alles im Bereich der 10 ELO LaOla.
Jetzt bis Partienummer 1.500 wirds dann eine 5 ELO LaOla

Also mehr als 2.940 wird es nicht mehr werden.
Je nachdem wie hoch die Remisquote ist ... dann -11 zu Bayesian und wir haben derzeit 2.921!
Mal schauen wo SF 2.0.1 bei Ingo steht ... bei 2.920!

Also die fünfte SF Version nach 1.7.1, 1.8.0, 1.9.1, 2.0.1 die wahrscheinlich alle nicht mehr (je nach 32bit oder 64bit) als wahrscheinlich 30 ELO auseinerliegen und wie gesagt das wenige mehr dann leider mit höherer Remisquote, weniger interessanten Partien.

Stockfish 1.7.1 spielt nach meinen Beobachtungen derzeit überhaupt das schönste Computerschach und am druckvollsten mit atemberaubenden Zügen.

Und was auch noch interessant ist:
Bei Stockfish 1.9.1 ging es los ... 27 Zeitüberschreitungen, Partien die ich wiederholen lassen musste.
Bei Stockfish 2.0.1 sind es derzeit 31 Zeitüberschreitungen (wie gesagt, jede Zeitüberschreitung lasse ich in der SWCR seit Partienummer 1 wiederholen).

Bei 1.8.0 waren es 4
Bei der 1.7.1 war es noch nicht mal eine!

Nach diesen Statistiken w32 stagniert, x64 wird etwas stärker bei schnellen Bedenkzeiten aufgrund mehr Remisen spielt die Engine immer weniger druckvoll. Schade, aber wir haben ja die 1.7.1

Gruß
Frank

By Werner Mueller Date 2011-05-05 20:27

Hallo Frank,

Wenn man schon einen Kommentar abgeben muss, dann fände ich ein Dankeschön in Richtung Tord angemessener als Herumgemeckere.

Noch eine Bemerkung zu Deiner Kritik an ELOstat und BayesElo: deren ErrorBars sind natürlich nicht absoluter Käse. Dafür zu sorgen das Deine Testumgebung kein totaler Käse ist, kann nur DEINE Aufgabe sein.

Btw.: die einzige Kritik die ich an diesen Rating-Berechnungs-Programmen anbringen würde ist, dass sie ihre User nicht ausdrücklich darauf hinweisen, dass die errechneten Rating-Werte (zunächst mal und in der Konsequenz nicht nur) mathematisch gesehen keine ELO-Zahlen sind.

By Frank Quisinsky Date 2011-05-06 00:21 Edited 2011-05-06 00:23

Hi,

ich meckere doch nicht sondern stelle schlicht und ergreifend fest.
Und mein Beitrag zum Thema Stockfish war ein Interview und ca. 10.000 40-Minuten Stockfish Partien die sich sehr gut für Analysezwecke eigenen.
z. B. konnte Version 1.9.1 nicht mit Dame gegen Turm gewinnen.

Also ich bin mir keiner Schuld bewusst

Natürlich sind die ErrorBar's absoluter Käse. Die Idee ist gut aber Käse ist was die Leute draus machen.
Totale Falschinterpretation!

Wenn 5.000x zwei Engines gegeneinander spielen hast Du keine +-8 sondern +-142, da nur ein Gegner.
Das sollte doch absolut logisch sein und kann jeder der will gerne mal selbst überprüfen, hatte dazu geschrieben.

Gemeint ist wahrscheinlich das zwischen den beiden Engines dann eine Err Bar von +-8 zu Stande kommt.
Allerdings was gemeint ist und was daraus gemacht wird sind zwei unterschiedliche Paar Schuhe denn ...

Hast Du z. B. ein Turnier gespielt von 4 Engines und Jede Engine hat dann 5.000 Partien zusammen gespielt wird wahrscheinlich niemand in dem Moment denken ... die ErrorBar kann ja nicht +-8 sein sondern bei nur 4 Engines ca. +-90, weil nur je 3 Gegner ... trotz 5.000 Partien pro Engine. Ist auch nicht einfach bis 2 zu zählen wenn immer nur eine 1 vorgegeben wird.

Und das hat nichts mit meiner Testumgebung zu tun, denn ich habe den errechneten Schwellenwert mit 25 Engines pro Test und 1.000 Partien erreicht. Das war das Ziel beim Start der SWCR und so langsam bin ich dahin gekommen. Also, kannst schreiben was Du willst ... musst mich schon anders überzeugen als nur mit Gerede. Mir bringt das leider nichts ob Dir es etwas bringt ... ja das musst Du für Dich entscheiden.

Gruß
Frank

By Werner Mueller Date 2011-05-06 08:15

[quote="Frank Quisinsky"]
Hi,

ich meckere doch nicht sondern stelle schlicht und ergreifend fest.
[/quote]
Sagt meine Frau auch immer...

[quote="Frank Quisinsky"]
Und mein Beitrag zum Thema Stockfish war ein Interview und ca. 10.000 40-Minuten Stockfish Partien die sich sehr gut für Analysezwecke eigenen.
z. B. konnte Version 1.9.1 nicht mit Dame gegen Turm gewinnen.

Also ich bin mir keiner Schuld bewusst

[/quote]
Die neue "Skill Level" UCI option ist sicher für viele eine interessante Sache und warum sollte sie kein Release wert sein.

[quote="Frank Quisinsky"]
Natürlich sind die ErrorBar's absoluter Käse. Die Idee ist gut aber Käse ist was die Leute draus machen.
Totale Falschinterpretation!
[/quote]
Nein, ErrorBars sind natürlich kein absoluter Käse. Es sind Größen der Mittelwertstatistik.
Totale Falschinterpretation - ja. Aber eben von DIR.

[quote="Frank Quisinsky"]
Wenn 5.000x zwei Engines gegeneinander spielen hast Du keine +-8 sondern +-142, da nur ein Gegner.
Das sollte doch absolut logisch sein und kann jeder der will gerne mal selbst überprüfen, hatte dazu geschrieben.
[/quote]
Das ist so offensichtlich ('logisch'), dass man es noch nicht mal nachprüfen muss.

[quote="Frank Quisinsky"]
Gemeint ist wahrscheinlich das zwischen den beiden Engines dann eine Err Bar von +-8 zu Stande kommt.
Allerdings was gemeint ist und was daraus gemacht wird sind zwei unterschiedliche Paar Schuhe denn ...
[/quote]
Wie schon geschrieben... was von DIR daraus gemacht wird.

[quote="Frank Quisinsky"]
Hast Du z. B. ein Turnier gespielt von 4 Engines und Jede Engine hat dann 5.000 Partien zusammen gespielt wird wahrscheinlich niemand in dem Moment denken ... die ErrorBar kann ja nicht +-8 sein sondern bei nur 4 Engines ca. +-90, weil nur je 3 Gegner ... trotz 5.000 Partien pro Engine. Ist auch nicht einfach bis 2 zu zählen wenn immer nur eine 1 vorgegeben wird.
[/quote]
DU denkst das jedenfalls und darin besteht Dein Denkfehler. Du willst nicht verstehen, dass die Mittelwertstatistik lediglich ein mathematisches Modell ist: Du sorgst für den Input und heraus kommt ein Output. Und wenn Dein Input Käse ist (z.B. eine Engine mit nur EINER anderen zu vergleichen) wird der Output (jedenfalls gemessen an Deinen Erwartungen) auch Käse sein.

[quote="Frank Quisinsky"]
Und das hat nichts mit meiner Testumgebung zu tun, denn ich habe den errechneten Schwellenwert mit 25 Engines pro Test und 1.000 Partien erreicht. Das war das Ziel beim Start der SWCR und so langsam bin ich dahin gekommen. Also, kannst schreiben was Du willst ... musst mich schon anders überzeugen als nur mit Gerede. Mir bringt das leider nichts ob Dir es etwas bringt ... ja das musst Du für Dich entscheiden.
[/quote]
Von DEINER Testumgebung war gar nicht die Rede. Aber die Auswahl der gegnerischen Engines gehört genauso zu einer Testumgebung wie Eröffnungsbuch, Vorgabestellungen, Bedenkzeit und und und.
Und wie geschrieben: dass die Testumgebung 'in Ordnung' ist, dafür bist DU und nicht das mathematische Modell verantwortlich.

[quote="Frank Quisinsky"]
Gruß
Frank
[/quote]
Grüße, Werner

By Frank Quisinsky Date 2011-05-06 18:49

Hi Werner,

Sagt meine Frau auch immer...

Recht hat Sie

Versuchte es zu beschreiben.
Die ErrorBars führen deswegen in die Irre weil:
1. Die Ausgaben sind nicht nachvollziehbar, stimme in der Regel zu ca. 15% nicht.
2. Die Ausgaben sind kaum vernünftig definiert. Im Laufe der Jahre sind mir ca. 20 Definitionen unter gekommen. Das ging schon beim Beta Testen bzw. der ersten Veröffentlichung los.

Sicherlich sind wir auch alle froh das uns Auswertungsprogramme zur Verfügung stehen und bekanntlich ist die ganze ELO-Formel schon in sich selbst fraglich. Es steckt ein wenig mehr dahinter als einfache Mittelwertstatistiken. Hierzu hat Frank Schubert mir vor vielen Jahren beim Beta Test eine sehr interessante mail gesendet. Wirklich schon sehr sehr lange her, müsste ich mal raussuchen.

Aber ich will mich jetzt nicht auf eine wer weiß was Diskussion einlassen, zumal ich selbst im Detail nachlesen müsste. Nachvollziehen kann ich viele Deiner Äußerungen nicht. Aber sei es drum ... genießen wir lieber das schöne Wetter.

Viele Grüße
Frank

By Ingo Bauer Date 2011-05-06 07:21

Moin Werner,

[quote="Werner Mueller"]
...
Btw.: die einzige Kritik die ich an diesen Rating-Berechnungs-Programmen anbringen würde ist, dass sie ihre User nicht ausdrücklich darauf hinweisen, dass die errechneten Rating-Werte (zunächst mal und in der Konsequenz nicht nur) mathematisch gesehen keine ELO-Zahlen sind.
[/quote]

Elostat hält sich sklavisch an die Eloformel http://de.wikipedia.org/wiki/Elo-Zahl und BayesElo hat Wahrscheinlichkeitsrechnung mit reingebracht. OK, Bayes ist in dem Sinne kein reines Elosystem wie es A.Elo erfunden hat, dafür besser (siehe: http://www.kaggle.com/c/chess/Leaderboard , Eloformel auf Rang 141, Bayes auf Rang 95 ... und es ginge noch besser!)

Also: Warum gibt EloStat mathematisch kein Elo-Zahl Rating aus?

Gruß
Ingo

By Werner Mueller Date 2011-05-06 09:00

Hallo Ingo,

zunächst - um Missverständnissen vorzubeugen: für den Test von Engines und das Erstellen der Ratinglisten ist die Mittelwertstatistik das Mittel der Wahl und wenn es sie nicht gäbe, müsste man sie für diesen Zweck erfinden.

Und kurz gesagt: das Modell der Mittelwertstatistik liefert keine ELO-Zahlen im eigentlichen Sinne, sondern betreibt Statistik mit ELO-Zahlen.

Zu dem Thema habe ich mir schon einen Wolf geschrieben, z.B.: http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=31535;

(in dem Thread spielt ein 'sicherheitsrelevantes Flugzeugteil' eine Rolle - wenn ich mal Zeit habe nehme ich noch einen Anlauf, denn mit diesem Beispiel müsste man es so darstellen können, dass es jedem wie Schuppen von den Augen fällt)

By Rudolf Rohs Date 2011-05-06 10:36

Hallo Ingo,

ich verfolge die verschiedenen Ratinglisten und Tests immer sehr genau.
Dabei habe ich festgestellt, daß Houdini 1.5 immer gegen die anderen Spitzen-
engines lange Zeit auf Augenhöhe spielt und plötzlich eine Siegesserie runter-
spult.

Deshalb eine Frage. Läßt Du den Engines die Eröffnungswahl oder stellst Du
ein Testcase mit verschiedenen Positionen ein, welches dann abgearbeitet wird?
(Könnte ja bedeuten, daß die Siegesserie dadurch hervorgerufen wird, daß
Houdini einige Stellungstypen genauer behandelt.)

Gruß

Rudolf

By Thomas Müller Date 2011-05-06 12:10

Hallo,

Ingo benutzt 50 vorgabestellungen jeweils mit s&w.

Gruß thomas

By Rudolf Rohs Date 2011-05-06 12:12

Danke Thomas

By Ingo Bauer Date 2011-05-06 12:19

Moin Rudolf,

[quote="Rudolf Rohs"]
...
ich verfolge die verschiedenen Ratinglisten und Tests immer sehr genau.
Dabei habe ich festgestellt, daß Houdini 1.5 immer gegen die anderen Spitzen-
engines lange Zeit auf Augenhöhe spielt und plötzlich eine Siegesserie runter-
spult.
[/quote]

Es ist eigentlich nicht zulässig eine Subserie zu betrachten, man könnte das so weit runterbrechen zu sagen "In diesem einen SPiel hat Engine X gewonnen, sozusagen 100% geholt, im Durchschnitt über alles ist der Schnitt aber niedriger. Was stimmt da nicht?" Ok, das ist übertrieben, aber Serien sind normal.

[quote="Rudolf Rohs"]
Deshalb eine Frage. Läßt Du den Engines die Eröffnungswahl oder stellst Du
ein Testcase mit verschiedenen Positionen ein, welches dann abgearbeitet wird?
(Könnte ja bedeuten, daß die Siegesserie dadurch hervorgerufen wird, daß
Houdini einige Stellungstypen genauer behandelt.)
...
[/quote]

Ich habe ein Set mit 50 Eröffnungen die der Reihe nach abgearbeitet werden. Es kann durch Zufall sein das die ersten Eröffnungen Houdini weniger liegen als die späteren. (Ich will mir immer mal den Spaß machen und eine Engine testen, alle gewonnenen raussuchen und die nach vorne sortieren. Dann den Test nochmal laufen lassen, ihn live stellen und mich freuen wenn Leute denken die neue Engine wäre der absolute Überflieger

) Da Houdini im Moment die beste Engine ist, fängt er auch immer mit der ersten Eröffnung an. Wenn H. irgendwann zweiter ist, läßt die GUI ihn mit einer anderen Eröffnung (der zweiten) starten und deine Reihe wäre gebrochen. Solange H, erster ist, sollte er immer "mies" anfangen ...

Aber nochmal, der Test läuft über 50 Positionen und eigentlich darf man erst nachsehen wenn alle Eröffnungen durch sind. Für die Gesammtengine (momentan Stockfish) sieht das anders aus weil sie gegen H. mit einer anderen Eröffnung spielt als gegen R, gegen C, gegen ... Da stimmt der Durchschnitt früher.

Gruß
Ingo

By Rudolf Rohs Date 2011-05-06 16:12

Moin Ingo,

danke für die Auskunft.

Ein paar Spiele oder eine Subserie alleine sind nicht aussagekräftig. Vollkommen einverstanden. Man kann diese Serien bei Houdini aber immer wieder
feststellen. Selbst Martin Thoresen hatte diese Serien bei seinen langen Bedenkzeiten. Ich schaue auch nicht alleine auf diese Subserien sondern versuche
immer die verschiedenen Testergebnisse zu verknüpfen.

Ich will dies mal erläutern.

Houdini lag ziemlich schnell bei Martin ein paar Punkte gegen Rybka zurück und dann kam eine lange Serie. Bei Frank dasgleiche und bei Dir lag Houdini auch
eine zeitlang im Test gegen Stockfish auf Augenhöhe. Dann ein langer Spurt und jetzt führt Houdini deutlich. Klar kann dies einfach eine Siegesserie sein, die
sich statistisch ergibt weil die stärkere Engine halt auf Dauer mehr gewinnt. Für mich als Fernschächer dagegen ist es weniger interessant ob A oder B 10
Elopunkte nach 1000 Partien mehr hat, aber sehr interessant wenn Engine C vielleicht 50 Punkte weniger hat als die Beiden, aber dafür im Spanier gegen Beide
90 % holt, aber im Damengambit vielleicht nur 20 %. Wenn ich dies weiss, habe ich einen deutlichen Vorteil gegenüber meinen Kontrahenden, denn dann strebe
ich bewust solche Varianten an und wähle zu meiner Unterstützung nicht die allgemein stärkste Engine, sondern die Engine, die diesen Stellungstypen m.E. am Besten
versteht.

Deshalb interessieren mich nicht nur die Elolisten sondern vor allem die Stellungen in denen diese Ergebnisse erzielt wurden. Es gab ja früher z.B. auch bei
CSS einen Schnelltest, wo die Ergebnisse pro Stellung ausgewertet wurden. Wie gesagt nach dem Test aller Stellungen hast Du die beste Engine. Für Fernschachs
wo Du die Eröffnung wählen kannst kann eine schwächere Engine die bessere sein, wenn man ihre Nachteile umgehen und die Vorteile ansteuern kann. Daher meine
Frage.

Gruß

Rudolf

By Timo Haupt Date 2011-05-06 17:50

Hallo Rudolf!

[quote="Rudolf Rohs"]
[...], aber sehr interessant wenn Engine C vielleicht 50 Punkte weniger hat als die Beiden, aber dafür im Spanier gegen Beide
90 % holt, aber im Damengambit vielleicht nur 20 %. Wenn ich dies weiss, habe ich einen deutlichen Vorteil gegenüber meinen Kontrahenden, denn dann strebe
ich bewust solche Varianten an und wähle zu meiner Unterstützung nicht die allgemein stärkste Engine, sondern die Engine, die diesen Stellungstypen m.E. am Besten
versteht.

Deshalb interessieren mich nicht nur die Elolisten sondern vor allem die Stellungen in denen diese Ergebnisse erzielt wurden. Es gab ja früher z.B. auch bei
CSS einen Schnelltest, wo die Ergebnisse pro Stellung ausgewertet wurden. Wie gesagt nach dem Test aller Stellungen hast Du die beste Engine. Für Fernschachs
wo Du die Eröffnung wählen kannst kann eine schwächere Engine die bessere sein, wenn man ihre Nachteile umgehen und die Vorteile ansteuern kann. Daher meine
Frage.
[/quote]

Genau diese Frage finde ich auch interessant, deshalb habe ich dazu mit Hilfe eines Fernschachspezialisten ein Set mit Vorgabestellungen quer durch die Eröffnungslandschaft kreiert. Die Tests laufen auf Hochtouren, aber da ich mit längeren Bedenkzeiten spielen lasse (85m+5s) und es 250 Stellungen sind, die jede Engine gegen jede andere einmal mit Weiß und einmal mit Schwarz spielen muss, wird es noch einige Monate dauern, bis Ergebnisse veröffentlicht werden können.

Viele Grüße
Timo

By Ingo Bauer Date 2011-05-06 18:01 Edited 2011-05-06 18:03

Hallo Rudolf,

Ok, ist ein anderes Interessengebiet und hat nichts mit meiner Liste zu tun. Da bist du definitiv falsch. Zu Martins Turnier und der Bemerkung Houdini lag zurück ... nach wieviel Partien? Statistisch hat Martin gerade mal angefangen ...

Aber falls dich meine Meinung interessiert:

Ich glauben nicht das eine ordentliche Auswertung welche Engine was besser versteht möglich ist. Ganz besonders nicht für die langen "Bedenkzeiten" beim Fernschach.

Eine klitzekleine Änderung im Sizilianer und plötzlich hat eine Engine aus internen Gründen den Durchblick die vorher überhaupt nicht verstand womit sie es zu tun hat. Man bräuchte alleine im gegebenen Bsp so dermaßen viele Stellungen und Gegner bei langen Bedenkzeiten um ein Bild zu gewinnen das bis dahin aller Wahrscheinlichkeit nach eine neue Version herrausgekommen ist und man von vorne Anfangen kann. Zusätzlich hat man dann EINE Engine getestet und weiß immer noch nicht ob eine andere besser oder schlechter ist.

Wenn ich Kommentare Lese das Engine A in dieser Eröffnung gut ist, oder Engine B eben nicht oder Engine X spielt wie GM "Hier einen GM-Namen einfügen" heißt das für mich nur, das der Glaube jemanden da Muster sehen läßt.

Und nochmal, weil das ist für mich ein wichtiger Punkt: Die kleinste Änderung in der Stellung, z.B. ein Bauer eins weiter vorn oder der König hat rochiert (oder eben noch nicht), und schon greifen in der Engine andere Routinen (oder Routinen greifen anders ...) die womöglich eine differenziertere Spielweise hervorschauen lassen.

Am Ende äuft alles darauf hinaus, dass wir Menschen, selbst die besten (und insbesondere ich, und meine bestimmt nicht mich mit 'den besten'

), die Top Engines nicht mehr verstehen können!

Zu Timos Vorhaben: Es ist hochinteressant, aber ich fürchte vergebens - ich nehme an wir werden darüber nächste Woche noch diskutieren können

Grüße und Daumen drücken für Thüringen
Ingo

By Timo Haupt Date 2011-05-06 18:52

Hi Ingo,

über das Thema werden wir sicherlich noch diskutieren in den nächsten Tagen.

Ob mein Test wirklich vergebens ist, werden wir in ein paar Monaten wissen. Ich werde dabei selbst mein ärgster Kritiker sein, denn wenn die Daten aufzeigen, dass man tatsächlich keine Eröffnungspräferenzen bei Engines ablesen kann, dann ist das eben so. Das wäre zwar konträr zu meinen jetzigen Erwartungen, aber immerhin dann auch eine Feststellung, die der Test zu Tage gefördert hat.

Wo ich ebenfalls anderer Meinung zu dir bin, ist, dass mit jeder neuen Engine-Version zwingend die Resultate keine Gültigkeit mehr haben. Wenn bsp. an der Bewerungsfunktion der Engine keinerlei Änderungen vorgenommen wurden, kann die Engine zwar durch Verbesserungen an der Suche stärker geworden sein, jedoch wird sich eine vorher festgestellte Eröffnungspräferenz (wenn es denn eine gibt!) nicht unbedingt geändert haben. In diesem Fall erwarte ich eher, dass die Engine in allen Eröffnungstypen leicht stärker agiert, die Verhältnisse der Scores in den Eröffnungen aber ungefähr gleich bleiben.

Aber man wird es sehen, denn auch für einen Versionsvergleich wird mein Test herhalten müssen - man kann ja direkt vergleichen, wie die Scores in den einzelnen Eröffnungen gegenüber der Vorversion ausfallen.

Wo ich dir zustimme, ist, dass schon minimale Änderungen an der Stellung große Auswirkungen auf den "Durchblick" der Engine haben können. Das ist auch der Grund, warum die Engines in unserem ECO-Test meistens schon sehr früh auf sich selbst gestellt sind. Dadurch haben sie noch alle Möglichkeiten, den weiteren Verlauf selbst zu gestalten. Natürlich kann man auch darüber wieder diskutieren - denn wann ist es wirklich "früh" für eine Engine, selbst rechnen zu müssen? Doch es hilft nichts, wenn man Grundlagenforschung betreiben will, muss man sich für bestimmte Vorgaben entscheiden - und dann irgendwann loslegen mit dem Test.

Viele Grüße
Timo

By Ingo Bauer Date 2011-05-06 20:31 Edited 2011-05-06 20:34

Hallo Timo,

[quote="Timo Klaustermeyer"]
... - man kann ja direkt vergleichen, wie die Scores in den einzelnen Eröffnungen gegenüber der Vorversion ausfallen
...
[/quote]

Genau da ist mein größtes Problem. Ich sage nicht, dass man das grundsätzlich nicht testen kann, sondern das ein guter Tet nicht zu einem Ergebniss kommen würde. Bis du zum Vorgänger vergleichen kannst, gibt es einen Nachfolger des Nachfolgers ... oder einen Nachfolger einer anderen Engine der vielleicth besser ist ... was aber erst wieder getestet werden muß.

"Und weiter sah ich den Sisyphos in gewaltigen Schmerzen: wie er mit beiden Armen einen Felsblock, einen ungeheuren, fortschaffen wollte. Ja, und mit Händen und Füßen stemmend, stieß er den Block hinauf auf einen Hügel. Doch wenn er ihn über die Kuppe werfen wollte, so drehte ihn das Übergewicht zurück: von neuem rollte dann der Block, der schamlose, ins Feld hinunter. Er aber stieß ihn immer wieder zurück, sich anspannend, und es rann der Schweiß ihm von den Gliedern, und der Staub erhob sich über sein Haupt hinaus."
- Homer: Odyssee 11. Gesang, 593-600. Übersetzung Wolfgang Schadewaldt

http://www.firsturl.de/nCV5xD1

Gruß
Ingo

By Timo Haupt Date 2011-05-07 00:37

Hallo Ingo

[quote="Ingo Bauer"]
Genau da ist mein größtes Problem. Ich sage nicht, dass man das grundsätzlich nicht testen kann, sondern das ein guter Tet nicht zu einem Ergebniss kommen würde. Bis du zum Vorgänger vergleichen kannst, gibt es einen Nachfolger des Nachfolgers ... oder einen Nachfolger einer anderen Engine der vielleicth besser ist ... was aber erst wieder getestet werden muß.
[/quote]

Ich glaube, da liegt genau die Differenz in unseren Denkweisen: Du betrachtest das alles aus der Perspektive eines Ranglistenbetreibers, der das Ziel hat, immer eine möglichst aktuelle Rangliste mit den neuesten Engineversionen erstellen zu können. Ich hingegen möchte das Eröffnungsverhalten einzelner Engines untersuchen, die Aktualität der getesteten Engines steht dabei nicht im Vordergrund (auch wenn sie natürlich wünschenswert wären, denn für 2 Jahre alte Versionen interessiert sich niemand mehr, sofern es einen Nachfolger gibt). Also sei nochmal klar gesagt: Mein Primärziel ist nicht, eine Rangliste mit den aktuellsten Versionen aller Engines zu erstellen, sondern Grundlagenforschung auf dem Gebiet der Eröffnungspräferenzen von Engines zu betreiben.

Alles weitere dazu am Sonntag...

Viele Grüße
Timo

By Peter Martan Date 2011-05-07 05:25

[quote="Timo Klaustermeyer"]
Mein Primärziel ist nicht, eine Rangliste mit den aktuellsten Versionen aller Engines zu erstellen, sondern Grundlagenforschung auf dem Gebiet der Eröffnungspräferenzen von Engines zu betreiben.
[/quote]

Hallo Timo!
Das klingt verdammt interessant für mich, was du so schreibst.
Lass hören und sehen!

By Peter Martan Date 2011-05-07 06:35 Edited 2011-05-07 06:38

Warum mich das so interessiert, dürfte Leuten, die meine krausen Vorstellungen von engine- Test schon etwas kennen, klar sein.
Meine eigenen Ansätze gehen in der letzten Zeit so: um die ewig unnötige Diskussion um Ei und Henne bei Teststellungen und Eröffnungsstellungen zu vermeiden und um sich einen Teil der längst völlig sinnlos gewordenen Endlossschleifen der Kurzpartien zum Weiterentwickeln von engines, die allesamt seit Jahrzehnten nur mehr in Hinblick auf die Ergebnisse in Kurzpartien mit den immer gleichen Eröffnungsstellungen entwickelt wurden (der einzig wahre Grund der Derivativ- Sackgasse, die Ippos mussten schon deshalb erfunden werden, damit die Inzucht in den Ranglisten so richtig durchschlägt: je mehr je ähnlicher spielende, desto größer deren Erfolg in Listen, in denen sie gegeneinander und gegen mehr oder weniger ähnliche andere spielen), gehe ich so vor:
Ich lasse die engine, die ich teste, eine bestimmte beliebige Eröffnungsstellung, von der zumindest eine gute Fortsetzung in der Literatur hinlänglich statistisch gesichert ist, gegen sich selbst oder eine zweite eine bestimmte Variantenlänge ausspielen in der Länge der Literaturvariante, die ich je nach ihrem Erfolg in der Turnierpraxis wähle.
Dann vergleiche ich den Analyse- output der engine(s) vor und nach der Variante, die sie selbst spielen (spielt) mit dem nach der Literatur- Variante, und mache das nocheinmal nach dem Zurückgehen auf sowohl der einen, wie der anderen Variante in einer bestimmten Zeit.
So habe ich eine statisch- dynamische eval und ein Ausspielverhalten über ein Partiefragment, von dem es völlig irrelevant ist, was es, bis zum bitteren Ende ausgespielt, für ein Punkteergebnis erbracht hätte, Elo sind in diesem Zusammenhang das Letzte, was ich brauche, könnte man natürlich auch wieder daraus basteln, ist aber in meinem Sinn nur kontraproduktiv, weil es die heilige Kuh der Ranglistenfans angreift, hab ich ausdrücklich nicht vor, Ingo, falls du noch mitliest.

Was aber welche engine mit welchen Eröffnungsstellungen kann (es können natürlich auch taktische best move Aufgaben oder positionelle oder Endspiele sein) auch in Hinblick auf ihre Hashbehandlung und ihre Fähigkeiten, mit dem Hash in der backward analysis umzugehen, sehe ich so sehr schnell und kann es sehr gut vergleichen.
Es kommt nämlich überhaupt nicht mehr auf die Teststellung an, die kann so blödsinnig gewählt sein, wie da wolle, wenn ich eine (ich betone eine, sie muss absolut nicht indiskutabel die einzig gute sein) schachlich überprüfbar gute Vergleichsvariante habe, die einfach nur nicht gegen die Varianten, die die engines selbst ausspielen, abstinken sollte.
Und selbst, wenn meine Testvariante auch Blödsinn ist, dann müssen gute engines das eben in ihrem output und ihrer eval am Anfang und am Ende und wieder am Anfang der Vergleichsvariante(n) möglichst klar zeigen, je besser (mag sein in die eine oder in die andere Richtung oder mag auch sein durch möglichst geringe Beeinflussung der Zahlenwerte), desto besser schneiden sie im Vergleich miteinander ab.
Klingt vielleicht alles wieder etwas kompliziert, ist es aber praktisch überhaupt nicht und zeige ich gern an einigen wenigen Beispielen, wenn wider Erwarten Interesse besteht, bin, wie ich gerade sehe, nur schon wieder etwas langatmig geworden, sorry.

P.S. nur noch zur prinzipiellen Sinnhaftigkeit von engine- Tests in Zeiten wie diesen:
Natürlich wird die Aussagekraft von der Variante, die ich als Vergleich heranziehe, abhängen und nur für die Frage, die ich an die Stellung habe, gelten. Dieses Prinzip hab ich aber bei Stellungstests ebenso wie beim beliebig langen Ausspielenlassen von Eröffnungsstellungen sowieso immer, darum kommt kein Test und keine Rangliste herum.
Wenn Ingo gerade wieder meint, die Menschen kämen mit dem , was die engines spielen, sowieso nicht mehr mit, dann würde ich sie einfach nur mehr gegen sich selbst spielen lassen, sie sich selbst ihre Elo ausrechnen und sich dann auch gleich selbstätig klonen lassen, je nach ihren Ergebnissen, irgendwann gibt's dann sicher auch eigene Maschinen, die sich das alles noch kaufen.

Um mich hier nicht mit fremden Ideen, die ich nur adaptiert (nicht kopiert, cave Plagiat!) habe, das ist eine Analogie zu Kishons (auch ein großer Schachschriftsteller übrigens) Maschine, die Kartoffeln anbaut, erntet, kocht, schält und aufisst.

By Ingo Bauer Date 2011-05-07 11:27

Hallo Peter,

[quote="Peter Martan"]
...
Wenn Ingo gerade wieder meint, die Menschen kämen mit dem , was die engines spielen, sowieso nicht mehr mit, ...
[/quote]

Jo, meine ich.

Nur des Arguments wegen mal angenommen du hättest Recht und Menschen kämen noch mit, kann ich ganz entspannt erwidern: "Time is on my side". Ich kann mich zurücklehenen und mein Statement jedes Jahr wiederholen, es wird mit Sicherheit immer richtiger, während deins immer schwächer wird.

Gruß
Ingo

By Rudolf Rohs Date 2011-05-07 08:18

Hallo Ingo,

ja, das ist ein anderes Thema.

Auch spielt Martin sehr wenige lange Partien. Trotzdem sind diese Partien fürs Fernschach interessant und erst recht zusätzlich zu euren Listen.

Es stimmt auch, daß Engines manchmal nicht den Durchblick haben, aber mit einer kleinen Hilfe die Stellung dann doch lösen.

M.E. braucht man so viele Stellungen nicht, denn es gibt nun mal Engines mit taktischen Vorteilen, oder Engines mit positionellen Vorteilen,
Engines die schnell in Suchtiefe gehen, Engines die den Suchbaum langsamer aber gründlicher durchackern, etc..

Bis Schach vollkommen durchgerechnet ist, wird keine Engine perfekt sein, aber wie gesagt haben Programmierer und damit auch die Engines
unterschiedliche Stärken und Schwächen. Wenn man einen Stellungstyp erkennt kann man sich das richtige Werkzeug suchen/nehmen, wenn man
genau weiss wo diese Stärken und Schwächen liegen. Mit Sicherheit hat man dann nicht das optimale Werkzeug, aber bestimmt ein besseres als
derjenige der Einfach wahllos zum besten Allrounder greift.

Ganz grob vereinfacht, ein "schneller Rechner" ist in offenen taktischen Stellungen zu bevorzugen, eine "langsame Engine mit viel Stellungswissen" in
positionellen Stellungen.

So macht es manchmal Sinn innerhalb einer Fernschachpartie mehrfach die Engine zu wechseln.

Danke für deine Gedanken und Dir und Timo viel Glück in Thüringen.

Gruß

Rudolf

By Ingo Bauer Date 2011-05-06 19:35

Stockfish 2.1 Test finished.

http://www.inwoba.de

Initial Elo increase of 7 Elo. I consider this mainly as an engine code cleaning/bug fix.

Bye
Ingo