LS-Rangliste: Houdini 3 tactical

By Stefan Pohl Date 2012-11-09 11:00

Hallo zusammen,

Hier nun das Endergebnis von Houdini 3 tactical (also mit dem Parameter Tactical Mode=true, sonst alles default). -31 Elo zu Houdini 3, also wieder genau das Ergebnis, das Robert Houdart prognostiziert hat. Da es sich gewissermaßen um ein Setting handelt, wird es nur in der Komplett-Liste (unten) geführt. Zum besseren Vergleich habe ich die Einzelergebnisse von Houdini 3 gegen die Gegner, gegen die Houdini 3 tactical gespielt hat, auch nochmal gepostet.

Testbedingungen: Notebook mit Intel i7-2630QM Prozessor (4 Kerne, 2GHz Takt, Windows 7 64bit Home Premium). Geschwindigkeit der Hardware: Houdini 2.0c auf einem Core etwa 2.2 Mio Kn/s, auf 4 Cores etwa 7.5 Mio Kn/s (bei vollem Brett), FritzMark=20.2. HyperThreading off.
Bedenkzeit: 45''+500ms Fischerbonus (ca. knapp 90 Sekunden pro Partie je Engine), keine Tablebases, 1 Core/Thread und 64 MB Hash pro Engine, kein Pondern, 500 Vorgabestellungen aus der Frank Q. Datenbank (von mir handverlesen, nur Hauptsysteme (kein Holländisch etc.)). Gespielt wird bis zum Matt oder bis zum Remis, die GUI gibt keine Partie auf und auch Remis erst bei 500 Zügen - also gar nicht). Benutzt wird die LittleBlitzerGUI. Dazu merke ich hier nochmal an: Alle Partien wurden/werden im Gauntlet-Modus gespielt, weil nur so die Vorgabestellungen auch alle sequentiell und mit vertauschten Farben korrekt abgespielt werden. Die Ranglisten werden mit bayeselo (mm 0 1) erstellt und die Ergebnisse an Robbolito 0.085g3 x64 mit 3000 Elo gefixt.

Hier nun zunächst die LS-Rangliste mit den besten Engineversionen (nur offizielle Releases, keine Entwicklungsversionen und auch keine Spezialsettings) (jeder gegen jeden, je 1000 Partien):


Rank Name                    Elo    +    - games score oppo. draws 
   1 Houdini 3 x64          3153    5    5 10000   67%  3028   42% 
   2 Critter 1.6a x64       3072    5    5 10000   55%  3036   53% 
   3 Strelka 5.5 x64        3069    5    5 10000   55%  3036   53% (singlecore)
   4 Komodo 5 x64           3059    5    5 10000   53%  3037   44% (singlecore)
   5 Robbolito 0.21Q x64s   3033    5    4 10000   49%  3040   57% 
   6 Ivanhoe 46h x64        3024    5    5 10000   48%  3040   56% (best open source)
   7 Bouquet 1.5 x64s       3019    5    5 10000   47%  3041   55% 
   8 Rybka 4.1 x64s         3012    5    5 10000   46%  3042   47% 
   9 Stockfish 2.3.1 x64s   3001    5    5 10000   44%  3043   46% 
  10 Robbolito 0.085g3 x64  3000    5    5 10000   44%  3043   54% (singlecore)(Ippolit 2009)
  11 Saros 3.0 x64          2987    5    5 10000   42%  3044   49%

Dazu die Einzelergebnisse des aktuellen Test-Gauntlets:


Houdini 3 tactical   - Critter 1.6a x64          588.0 - 412.0    +310/=556/-134    58.80%
Houdini 3 tactical   - Strelka 5.5 x64           555.0 - 445.0    +299/=512/-189    55.50%
Houdini 3 tactical   - Komodo 5 x64              568.5 - 431.5    +360/=417/-223    56.85%
Houdini 3 tactical   - Robbolito 0.21Q x64s      616.5 - 383.5    +393/=447/-160    61.65%
Houdini 3 tactical   - Ivanhoe 46h x64           649.0 - 351.0    +438/=422/-140    64.90%
Houdini 3 tactical   - Bouquet 1.5 x64s          647.5 - 352.5    +407/=481/-112    64.75%
Houdini 3 tactical   - Rybka 4.1 x64s            637.0 - 363.0    +431/=412/-157    63.70%
Houdini 3 tactical   - Stockfish 2.3.1 x64s      669.0 - 331.0    +474/=390/-136    66.90%
Houdini 3 tactical   - Robbolito 0.085g3 x64     665.5 - 334.5    +458/=415/-127    66.55%
Houdini 3 tactical   - Saros 3.0 x64             686.0 - 314.0    +495/=382/-123    68.60%

Zum Vergleich die Ergebnisse von Houdini 3 default gegen die gleichen Gegner:


Houdini 3 x64   - Critter 1.6a x64          619.0 - 381.0    +377/=484/-139    61.90%
Houdini 3 x64   - Strelka 5.5 x64           625.0 - 375.0    +375/=500/-125    62.50%
Houdini 3 x64   - Komodo 5 x64              612.5 - 387.5    +421/=383/-196    61.25%
Houdini 3 x64   - Robbolito 0.21Q x64s      674.5 - 325.5    +458/=433/-109    67.45%
Houdini 3 x64   - Ivanhoe 46h x64           695.0 - 305.0    +487/=416/-97    69.50%
Houdini 3 x64   - Bouquet 1.5 x64s          680.0 - 320.0    +460/=440/-100    68.00%
Houdini 3 x64   - Rybka 4.1 x64s            693.0 - 307.0    +508/=370/-122    69.30%
Houdini 3 x64   - Stockfish 2.3.1 x64s      679.0 - 321.0    +491/=376/-133    67.90%
Houdini 3 x64   - Robbolito 0.085g3 x64     715.5 - 284.5    +518/=395/-87    71.55%
Houdini 3 x64   - Saros 3.0 x64             736.0 - 264.0    +556/=360/-84    73.60%

Dann noch die komplette LS-Rangliste:


   1 Houdini 3 x64          3151    5    5 13000   69%  3016   41% 
   2 Houdini 3 tactical     3120    5    5 10000   63%  3027   44% 
   3 Houdini 2.0c x64       3104    5    5 11000   62%  3015   42% 
   4 Houdini 1.5a x64       3084    5    5 10000   59%  3017   44% (best freeware (multicore))
   5 Strelka 5.5 x64        3072    4    4 17000   55%  3035   52% (singlecore)
   6 Critter 1.6a x64       3070    4    4 17000   55%  3035   53% 
   7 Komodo 5 x64           3061    4    4 17000   54%  3035   43% (singlecore)
   8 Robbolito 0.21Q x64s   3033    5    5 11000   48%  3046   56% 
   9 Ivanhoe 46h x64        3021    4    4 17000   48%  3038   54% (best open source)
  10 Robbolito 0.10 x64s    3019    4    4 15000   48%  3033   55% 
  11 Bouquet 1.5 x64s       3018    5    5 13000   47%  3041   56% 
  12 Rybka 4.1 x64s         3012    4    4 17000   46%  3038   46% 
  13 Robbolito 0.085g3 x64  3000    4    4 17000   44%  3039   53% (singlecore)(Ippolit 2009)
  14 Stockfish 2.3.1 x64s   3000    4    4 15000   45%  3039   45% 
  15 Stockfish 2.2.2 x64s   2995    5    5 11000   45%  3033   44% 
  16 Saros 3.0 x64          2988    4    4 17000   43%  3040   47% 
  17 Gull 2 beta2 x64       2985    5    5 11000   42%  3037   53% 
  18 Bouquet 1.4 x64s       2929    5    5 13000   34%  3044   42%

(x64=64bit version, x64s=64bit SSE42-version)

Gelöschte Betas, Entwicklungsversionen, Settings: keine
Abgebrochene Test-Gauntlets (wegen zu schwachen Ergebnisses): Saros 3.1aDistro (-130 Elo to Saros 3.0 (2500 games))

Wer die Partien der LS-Rangliste haben will, kann mir seine eMail-Adresse per PM hier oder auf talkchess mitteilen, ich schicke dann in Kürze die Partien als PGN-File. Dieses Angebot erfolgt, damit Transparenz und Glaubwürdigkeit der Rangliste gewährleistet ist.

Grüße an alle - Stefan

By anogamer Date 2012-11-09 14:56

Super, Vielen Dank!

(Das zeigt auch wie gut die Liste jetzt schon ist bezüglich ErrorBar).

By Stefan Pohl Date 2012-11-11 09:11

[quote="anogamer"]

(Das zeigt auch wie gut die Liste jetzt schon ist bezüglich ErrorBar).
[/quote]

Das will ich auch hoffen, bei der Menge an Partien, die ich absolvieren lasse!!!

Stefan

By Peter Krug Date 2012-11-09 16:47

ich habe nur die houdini 1.5

Aber bemerkenswert, dass Houdini derzeit die einzige Engine ist, die sich von den anderen Engines deutlich abhebt!
Fragt sich für den möglichen Käufer nur, ob das sich auszahlt, ob die Analysen mit der neuen Dreier um so viel bésser sind.

Peter

By Michael Scheidl Date 2012-11-10 07:30

Danke, sehr interessant! Somit nehme ich an, daß der Tactical Mode eine wertvolle Alternative für Analysen ist, in Abhängigkeit vom Charakter der Stellung. Ambitionierte Fernschachspieler werden sich das anschauen und dann wissen, was sie zu tun haben. (Und es geheimhalten; Fernschachler sind keine Plaudertaschen

)

By Peter Krug Date 2012-11-10 11:05

Ja. Fernschachspieler sollten solche Geheimnisse ja nicht ausplaudern, bestimmen die heutigen Spitzenprogramme 90 Prozent und vielleicht mehr über die Partie selbst.
Die wenigen Prozente die dann noch als Eigenleistung gelten kann wird im Verhältnis zur Steigerung der verwendeteten Programme immer kleiner und kleiner und geht gegen Null.

Peter

By anogamer Date 2012-11-10 12:09

Als aktiver, uns sehr erfolgreicher Fernschachspieler (BdF 78% Punktausbeute) kann ich da nur mit dem Kopf schütteln.

Ich erlaube mir kein Urteil über das Erstellen von Studien ... könnte ja sonst so aussehen: Man nehme Tablebases, probiere ein bischen rum und schon ist die Studie fertig.

Es gibt sehr sehr viele Stellungen in denen z.B. Houdini 3 keinen Plan hat. Die findet man (wie macht man das wohl?), steuert sie an und gewinnt dann die Partie. Der Gegner wundert sich wieso ein Score von 0.00 über 5 Züge plötzlich verliert.
Fernschach ist zu Mehrdimensional. Einfach mal ausprobieren.

By Anton Stadlhofer Date 2012-11-10 14:56

Hallo

Beispiele gefällig...........

lg Anton

By Peter Martan Date 2012-11-10 19:35 Edited 2012-11-10 19:37

Hallo Anton!

Da gibt's schon immer wieder welche, sie lassen sich nur nicht so leicht wie die taktischen best moves beweisen anhand von Varianten, weil die meistens auf langfristigen Plänen beruhen und die Evalverläufe über so viele Halbzüge ohne sonderliche taktische Spitzen keine so großen Sprünge aufweisen, dass sich die dann im backward solving im hash in entsprechend signifikanten Veränderungen mit zurück nehmen lassen.
Es sind flache Verlaufskurven, die Anstiegssteilheit ist geringer, mehr Halbzüge mit weniger Fortschritt, bis dann zum Schluss endllich erst die taktischen Verwicklungen kommen.
Drum bringe ich sowas auch nie, es gäbe nur Streitereien mit denen, die den evals allein vertrauen und alles, was sich nicht leicht aus denen ablesen lässte, der Statistik anheim stellen.
Ich bin ein go between, ich glaube an die evals, weil sie alles sind, was wir von den engines mit den Varianten gemeinsam bekommen, aber Positionsspiel anhand von Stellungen und Varianten zu beurteilen ohne große Partienzahlen ausgespielt, das ist Sache menschlicher schachlicher Urteilskraft, der kannst du vertrauen oder nicht. Die mit dem, was die engines anbieten, zu koordinieren, ist die Spezialdisziplin Fernschach.
Fernschachsspieler haben da ihre eigenen Methoden, und dass sie die nicht gern in aller Öffentlichkeit ausbreiten, ist auch klar. Ich breite meine Methoden immer wieder in aller Öffenltichkeit aus, es interssiert nur außer mir niemanden.

Stimmt nicht ganz, ein paar Fernschachspieler, Studienkomponisten und auch ein paar engine- Entwickler geben schon was drauf, haben aber auch kein Interesse, das in den Foren breitzutreten,

By Michael Scheidl Date 2012-11-10 19:53

Die Frage ging an "anogamer" nach konkreten Stellungsbeispielen, wo zutrifft:

Zitat:

Der Gegner wundert sich wieso ein Score von 0.00 über 5 Züge plötzlich verliert.

By Peter Martan Date 2012-11-10 20:03

Ich hatte schon verstanden, Michael, danke.

By Michael Scheidl Date 2012-11-10 19:10

Zitat:

Es gibt sehr sehr viele Stellungen in denen z.B. Houdini 3 keinen Plan hat.

Engines haben in keiner Stellung einen Plan und benötigen auch keinen. Die ticken anders...

By Stefan Pohl Date 2012-11-11 08:58

[quote="Michael Scheidl"]

Zitat:

Es gibt sehr sehr viele Stellungen in denen z.B. Houdini 3 keinen Plan hat.

Engines haben in keiner Stellung einen Plan und benötigen auch keinen. Die ticken anders...

Sehr schön gesagt. Ich spinne das mal weiter und sage: Die Engines haben keinen Plan, die sieben Züge aus. Und das faszinierende ist, daß das Sieb/Netz im Laufe der Zeit immer feinmaschiger geworden ist... Siehe Match von Shredder 7 gegen Houdini...

Gruß - STefan

By U. Haug Date 2012-11-10 15:04

[quote="Peter Krug"]
Ja. Fernschachspieler sollten solche Geheimnisse ja nicht ausplaudern, bestimmen die heutigen Spitzenprogramme 90 Prozent und vielleicht mehr über die Partie selbst.
Die wenigen Prozente die dann noch als Eigenleistung gelten kann wird im Verhältnis zur Steigerung der verwendeteten Programme immer kleiner und kleiner und geht gegen Null.

Peter
[/quote]

Hallo Peter,

spielst du selbst eigentlich auch Fernschach? Dann hast du zwei Dinge bestimmt auch wahrgenommen:
(1) Dank vorzüglicher Engines ist es immer leichter möglich, eine Fernpartie gegen einen starken Gegner remis zu halten.
(2) Um ein Fernschachturnier zu gewinnen, bedarf es noch größerer Eigenleistung als vor ein paar Jahren! Schließlich haben fast alle Gegner auch Engineunterstützung, und gerade deshalb musst du mehr bieten, wenn du gewinnen willst. Das Gerede, heutzutage gewinne man Fernschachturniere durch massiven Engineeinsatz, gewinnt durch ständige Wiederholung nicht an Wahrheitsgehalt.

Gruß,

Ulrich

Teilnehmer am IECG WM-Finale 2004
Teilnehmer am IECG/LSS WM-Finale 2010
Teilnehmer am IECG/LSS WM-Finale 2011