Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / LS-Rangliste: Houdini 4
- - By Stefan Pohl Date 2013-11-28 04:16
The result of Houdini 4 is now online.

http://ls-ratinglist.beepworld.de

Stefan

(Perhaps you have to clear your browsercache or reload the website)
Parent - - By Stefan Pohl Date 2013-11-28 04:31 Edited 2013-11-28 04:37
Nun ist das Ergebnis da und es ist durchaus gut, allerdings hat R.Houdart sich zum ersten Mal etwas überschätzt, denn von +45 Elo (ohne Syzygy-Bases) ist das Ergebnis doch deutlich entfernt. Dennoch ist ein Ein-Jahres-Update auf diesem absoluten Top-Level mit +33 Elo durchaus in Ordnung, nennenswert mehr war es zu Fritz und Shredder-Zeiten oft auch nicht. Und der Vorsprung vor Stockfish und Komodo ist nun wieder auf mehr als 60 Elo bzw 80 Elo angewachsen. Das ist ein Klassenunterschied, zumindest unter LS-Bedingungen. Die Konkurrenz sollte sich mal ernsthaft die Frage stellen, warum sie es nicht schafft, bei kurzen Bedenkzeiten (bzw. auf langsamerer Hardware) besser zurechtzukommen. Zumal zumindest Stockfish ja auch auf Mobil-Geräten erhältlich ist (warum eigentlich Komodo und Houdini nicht?), die ja viel langsamer als ein PC sind...

Auch habe ich mir nun die zwei 64bit-Compiles (A und B) mal näher angesehen, bzw. unter der LittleBlitzerGUI auf meiner Testhardware ausgemessen. Der von mir getestete 64B-Compile ist schneller, aber nur minimal (+1.5%, das ist (wenn überhaupt) 1 Elo Differenz). Laut R.Houdart soll es ja Hardware geben, wo es bis zu 5% sind, davon kann aber bei mir keine Rede sein. Und da die LittleBlitzerGUI ja die Knotenzahlen über alle gespielten Züge aus allen gespielten Partien mittelt, ist meine Messung sehr, sehr genau.

Stefan

P.S: Wenn man sich die alte und die neue Kreuztabelle auf meiner Website ansieht, stellt man fest, daß es gegen die Hauptkonkurrenz, nämlich Stockfish und Komodo besonders (überdurchschnittlich) gut lief (ca. +6% bzw. sogar +7% (also ca. +42 bzw. +49 Elo) und gerade Komodo von Houdini 4 regelrecht untergepflügt wurde (nur 38.2% Erfolgsscore für Komodo 6).
Vielleicht hat R.Houdart sich deswegen auch ein bißchen verschätzt, was den Elozuwachs angeht, denn er wird ja primär gegen diese 2 Gegner getestet haben.
Parent - - By Stefan Pohl Date 2013-11-28 04:47 Edited 2013-11-28 04:55
Stefan Pohl schrieb:


P.S: Wenn man sich die alte und die neue Kreuztabelle auf meiner Website ansieht, stellt man fest, daß es gegen die Hauptkonkurrenz, nämlich Stockfish und Komodo besonders (überdurchschnittlich) gut lief (ca. +6% bzw. sogar +7% (also ca. +42 bzw. +49 Elo)


Interessant ist übrigens in dem Zusammenhang, daß Houdini 4 seinen Score (im Vergleich zu Houdini 3) gegen Amitis (den ja angeblich so super-ähnlichen Stockfish-"Clon") nur um +2.1% steigern konnte, statt um mehr als +6.1% gegen das vermeintliche Original Stockfish...Vielleicht sind die Unterschiede zwischen Amitis und Stockfish doch größer als die Clon-Scheuklappenträger so wahrhaben wollen.

Bemerkenswert auch, daß Houdini 4 gegen den Ur-Ippolit von 2009 (Robbolito 0.085g3), aus dem Houdini ja ursprünglich mal hervorging, nun mehr als 75% der Punkte geholt hat. Erstaunliche Leistung!

Stefan
Parent - By Bernhard Traven Date 2013-11-28 06:18
einwandfrei-danke für die infos!!
Parent - - By Benno Hartwig Date 2013-11-28 07:48 Edited 2013-11-28 07:51

> Interessant ist übrigens in dem Zusammenhang, daß Houdini 4 seinen Score (im Vergleich zu Houdini 3) gegen Amitis (den ja angeblich so super-ähnlichen Stockfish-"Clon") nur um +2.1% steigern konnte, statt um mehr als +6.1% gegen das vermeintliche Original Stockfish


1000 Partien spielte Houdini gegen die beiden, richtig?
Welche jeweiligen(!) Fehlermargen müssen denn da beachtet werden? Reicht das, um diese 4%-Differenz wirklich beurteilen zu können?
Benno
Parent - - By Stefan Pohl Date 2013-11-28 08:10
Benno Hartwig schrieb:

1000 Partien spielte Houdini gegen die beiden, richtig?
Welche jeweiligen(!) Fehlermargen müssen denn da beachtet werden? Reicht das, um diese 4%-Differenz wirklich beurteilen zu können?
Benno


Die Errorbars bei solchen Vergleichen addieren sich ja und bei zwei mal 1000 Partien ist es schon so, daß diese Abweichung von 4% innerhalb dieser Gesamterrorbar liegt. Allerdings ist es nicht sehr wahrscheinlich, daß ein Ergebnis so relativ weit am Rand dieser Gesamterrorbar liegt. Möglich ist es aber schon. Wahrscheinlicher ist es aber, daß es für Houdini 4 gegen Amitis einfach schlechter gelaufen ist als gegen Stockfish (in Relation betrachtet zu Houdini 3).

Stefan
Parent - By Benno Hartwig Date 2013-11-28 12:51
Eigentlich sind es sogar 4 Einzelwerte, die jeweils fehlerbehaftet sind, oder?
H3-SF
H3-A
H4-SF
H4-A
Die Differenzen haben schon jeweils diesen größeren Fehler.
Und on diese Differenzen signifikant auseinanderliegen, muss anhand der beiden Differenz-Abweichungen geklärt werden

Benno
Parent - - By Dirk Triebel Date 2013-11-28 11:01
Servus,

Danke für die Liste.

Erstaunlich, dass er bei Dir so gut gg. Stocki punkten konnte. Bei mir war es erheblich knapper. Vorallen in den Endspielen sah Houd gg. Stocki oft nicht so gut aus. Ebenso ist der Leistungszuwachs zu Houd 3 erheblich mehr mit 10% weniger Remis als bei Dir.  Aber bei mir haut es auch nicht sooo rein, wenn er mal gg. eine engine mehr Probleme hat, da ich gg. mehrere spiele u dafür weniger Partien. Bei Dir sind ja die Remis sogar angestiegen von 41 auf 43%!?. Würde mich mal interessieren gegen welche engines es soviele Remis gab. Das überrascht mich schon sehr.

Erstaunlich was unterschiedliche Zeiten und Testbedingungen doch ausmachen.

http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?tid=6353;pg=2

1 Houdini 4 Pro x64                : 3234  1950 (+1093,=619,-238), 71.9 %
5 Houdini 3 Pro x64                : 3167  1950 (+841,=787,-322), 63.3 %
2 Stockfish 191113 64 SSE4.2 : 3189  1950 (+908,=765,-277), 66.2 %

Gruß,
Dirk
Parent - By Stefan Pohl Date 2013-11-29 08:56
Dirk Triebel schrieb:

Servus,

Danke für die Liste.

Erstaunlich, dass er bei Dir so gut gg. Stocki punkten konnte. Bei mir war es erheblich knapper. Vorallen in den Endspielen sah Houd gg. Stocki oft nicht so gut aus. Ebenso ist der Leistungszuwachs zu Houd 3 erheblich mehr mit 10% weniger Remis als bei Dir.  Aber bei mir haut es auch nicht sooo rein, wenn er mal gg. eine engine mehr Probleme hat, da ich gg. mehrere spiele u dafür weniger Partien. Bei Dir sind ja die Remis sogar angestiegen von 41 auf 43%!?. Würde mich mal interessieren gegen welche engines es soviele Remis gab. Das überrascht mich schon sehr.

Erstaunlich was unterschiedliche Zeiten und Testbedingungen doch ausmachen.

<a class='ura' href='http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?tid=6353;pg=2'>http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?tid=6353;pg=2</a>

1 Houdini 4 Pro x64                : 3234  1950 (+1093,=619,-238), 71.9 %
5 Houdini 3 Pro x64                : 3167  1950 (+841,=787,-322), 63.3 %
2 Stockfish 191113 64 SSE4.2 : 3189  1950 (+908,=765,-277), 66.2 %

Gruß,
Dirk


Zu den Remisquoten: Da mußt du bedenken, daß Houdini 3 in der LS-Rangliste insgesamt nicht nur weit mehr Partien gespielt hat, sondern vor allem, daß der Elodurchschnitt der Gegner insgesamt niedriger war (siehe LS-Liste: Opponents von Houdini 3: 3030 Elo und Opponents von Houdini 4: 3063 Elo), da das LS-top10-tournament, welches ja die jeweiligen Gegner im LS-testrun einer Engine enthält, früher im Durchschnitt schwächer besetzt war (als Houdini 3 rauskam). Da der Eloschnitt der Gegner bei Houdini 3 also niedriger ist, ist es logisch, daß die Remisquote es auch ist, da Houdini stärker als alle anderen Engines ist und daher gegen schwächere Gegner weniger Remisen hinnehmen muß als gegen stärkere Gegner.

Solltest du das Bedürfnis haben, das näher zu untersuchen, so sende ich dir gerne alle Partien von Houdini 3 und 4 zu...Ich habe das Bedürfnis ehrlich gesagt nicht unbedingt...

Stefan
Parent - - By Benno Hartwig Date 2013-11-28 08:03 Edited 2013-11-28 08:12
Thanx für deine Tests und deinen Bericht!! Auch zum Geschwindigkeitsvergleich der Houdini4-Versionen.

> Die Konkurrenz sollte sich mal ernsthaft die Frage stellen, warum sie es nicht schafft, bei kurzen Bedenkzeiten (bzw. auf langsamerer Hardware) besser zurechtzukommen.


Meiner persönlichen Meinung nach:
Wie diese kurzen Zeiten nicht wirklich interessieren, tun sie es nicht!
Im Rahmen deiner Liste finde ich sie angemessen, da du so zu sehr verlässlichen Schätzungen kommst.
Was mich persönlich aber wirklich, eigentlich und tatsächlich interessiert, sind die längeren Zeiten.
Ich nehme die Ergebnisse der kurzen Zeiten, 'überarbeite' sie gedanklich kurz mit dem 'Ziehharmonikaeffekt', und nehme das Ergebnis dann frech als Schätzwert für lange Zeiten. 
Und ich bin überzeugt, dass der Fehler dann geringer ist als bei 50, 100 oder auch 200 Langzeitpartien.

Mein persönlicher Eindruck:
5min/Partie-Ergebnisse sind in dieser Weise sehr gut auf Turnierpartien übertragbar. Auch wenn mancher noch lange gegen an wetterte.
Zeiten darunter konnten aber damals Ippolit und jetzt ggf. allem, was daraus erwuchs, besonders stark nützen.
Die können ggf. schon kritisch sein.

Andererseits: Deine Ergebnisse stehen nicht im Widerspruch zu den CCRL und CEGT-Listen, die bei deutlich längeren Zeiten gewonnen wurden.
Ein Hinweis für: Auch deine sehr kurzen Zeiten sind für Tests aussagefähig und OK!

Also:
Andere Engine-Herstelle tunen nicht auf 1sec/Zug, weil kaum Interesse an superstarken 1sec/Zug-Engines vermutet wird.
Vielleicht auch: weil tatsächlich kaum Interesse daran besteht.
Meine Meinung. Andere?

Benno
Parent - By Stefan Pohl Date 2013-11-28 08:15
Benno Hartwig schrieb:

Thanx für deine Tests und deinen Bericht!! Auch zum Geschwindigkeitsvergleich der Houdini4-Versionen.

Ich nehme die Ergebnisse der kurzen Zeiten, 'überarbeite' sie gedanklich kurz mit dem 'Ziehharmonikaeffekt', und nehme das Ergebnis dann frech als Schätzwert für lange Zeiten. 
Und ich bin überzeugt, dass der Fehler dann geringer ist als bei 50, 100 oder auch 200 Langzeitpartien.


Durchaus plausible Methode, meine ich.

Und was den Geschwindigkeitsvergleich angeht: Das gilt alles nur auf meiner Hardware. Jeder sollte das auf seinen PCs selber checken. Also welcher Compile schneller ist und um wieviel Prozent.
Aber in Elo dürften die beiden Compiles (A und B) sich kaum unterscheiden, zumindest nicht auf Intel-Prozessoren.

Stefan
Parent - - By Stefan Pohl Date 2013-11-28 08:24
Benno Hartwig schrieb:

Andere Engine-Herstelle tunen nicht auf 1sec/Zug, weil kaum Interesse an superstarken 1sec/Zug-Engines vermutet wird.
Vielleicht auch: weil tatsächlich kaum Interesse daran besteht.


Naja, wie schon des öfteren erwähnt, geht es ja auch um die Mobilgeräte, auf denen ja auch Engines laufen. Houdini war ja auch mal für Android-Smartphones angekündigt...Und diese Geräte sind mal deutlich langsamer, da entspricht eine Sekunde auf dem PC schon 10-30 Sekunden auf der Mobilhardware...

Davon abgesehen bezweifle ich (und übrigens auch Larry Kaufman, der sich den Ippocode diesbzgl. wohl mal angesehen hat, um herauszufinden warum die Ippoderivate im Kurzzeitbereich so stark sind), daß dieser Code auf kurze Bedenkzeiten hin getunt ist. Larry hat da zumindest nichts entdecken können, laut seiner Aussage. Und wie sollte das auch gehen? Wie tuned man einen Schachalgorithmus darauf, gute Züge schneller als andere zu finden? Das ist für mich kein Tuning, sonder ein Qualitätsmerkmal!
Für,mich es eben gerade deswegen das 1s pro Zug Computerschach (so lange ist unter LS-Bedingungen die durchschnittliche Bedenkzeit, im Mittelspiel sind es aber eher 2-3 Sekunden) die wahre Königsdisziplin, wo sich Spreu vom Weizen trennt. Das sehen zwar viele Leute anders, aber ich finde gerade das besonders beeindruckend!

Stefan
Parent - - By Benno Hartwig Date 2013-11-28 13:07
Stefan Pohl schrieb:
Und wie sollte das auch gehen? Wie tuned man einen Schachalgorithmus darauf, gute Züge schneller als andere zu finden? Das ist für mich kein Tuning, sonder ein Qualitätsmerkmal!
Ich spekuliere mal:
Wenn eine Positionsbewertung z.B. doppelt so lange dauert (weil sie qualitativ besser ist), dann wird die Engine ca. 1 ply weniger tiefe erreichen.
Dieser 1 ply wird sich bei kurzen Zeiten, bei relativ wenigen plys, stärker auswirken als bei langen Zeiten und damit vielen plys.
Die Positionsbewertungsqualität wird aber bei kurzen und langen Zeiten gleich sein.

=> (aus meinem Bauch spontan heraus)
bei kurzen Zeiten lieber eine rudimentäre, fixe Bewertung, bei langen Zeiten eine qualitativ hochwertige, langsame Bewertung nehmen

==> Solche Logik sollte vielleicht in allen Engines stecken, damit sie je nach Zeitnotsituation selbst entscheiden kann, ob sie lieber rudimentär oder ausführlich bewertet.

Benno
Parent - By Stefan Pohl Date 2013-11-28 15:15
Benno Hartwig schrieb:

Stefan Pohl schrieb:
Und wie sollte das auch gehen? Wie tuned man einen Schachalgorithmus darauf, gute Züge schneller als andere zu finden? Das ist für mich kein Tuning, sonder ein Qualitätsmerkmal!
Ich spekuliere mal:
Wenn eine Positionsbewertung z.B. doppelt so lange dauert (weil sie qualitativ besser ist), dann wird die Engine ca. 1 ply weniger tiefe erreichen.
Dieser 1 ply wird sich bei kurzen Zeiten, bei relativ wenigen plys, stärker auswirken als bei langen Zeiten und damit vielen plys.
Die Positionsbewertungsqualität wird aber bei kurzen und langen Zeiten gleich sein.

=> (aus meinem Bauch spontan heraus)
bei kurzen Zeiten lieber eine rudimentäre, fixe Bewertung, bei langen Zeiten eine qualitativ hochwertige, langsame Bewertung nehmen

==> Solche Logik sollte vielleicht in allen Engines stecken, damit sie je nach Zeitnotsituation selbst entscheiden kann, ob sie lieber rudimentär oder ausführlich bewertet.

Benno


Ich glaube nicht, daß das viel mit der schachlichen Bewertung zu tun hat. Dafür sind sich die Knotenleistungen der Top-Engines zu ähnlich. Da die schachliche Bewertung einer Stellung zigmillionenfach in der Suche wiederholt wird, haben schon kleine Erweiterungen derselben deutlich Reduktionen in der Knotenleistung zur Folge, die man aber bei den Top-Engines nicht beobachtet. Ich denke vielmehr, der Knackpunkt ist, besser zu selektieren, was man im Variantenbaum vertieft und was man abschneidet. Die Suche ist bei Houdini einfach effizienter, daher findet er mit weniger Zeit bessere Züge im Variantenbaum, als die Konkurrenz, die entweder zu viel abschneidet (Stockfish) oder zu wenig und sich festrechnet (Komodo).
Daher auch meine Bewunderung für starke Leistungen bei wenig Rechenzeit.

Stefan
Parent - By Benno Hartwig Date 2013-11-29 09:04

> ==> Solche Logik sollte vielleicht in allen Engines stecken, damit sie je nach Zeitnotsituation selbst entscheiden kann, ob sie lieber rudimentär oder ausführlich bewertet.


Ergänzung:
Als Ipollit damals plötzlich da war und gefragt wurde, warum dieser vermutete Rybka-Abkömmling bei sehr kurzen Zeiten so dominierend stark ist, meinte Vas sowas wie "Ach, die haben nur ein paar zeitaufwändige Routinen entfernt. Keine Leistung!"
Ich hatte mich da sehr gewundert, warum Vas dies nicht mit etwas Intelligenz für Rybka nutzt. Abhängig von der verfügbaren Zeit sollte dann auch seine Rybka diese zeitaufwändigen Routinen nicht mehr nutzen. Vorteilhaft bei kürzesten Zeiten und vermutlich auch bei anderen Zeitnotsituationen, insbesondere bei Blitz- und Schnellschach ohne Fischer-Modus. Ist dann aber nie gemacht worden, soweit ich weiß.

Benno
Parent - - By Frank Quisinsky Date 2013-11-28 08:20 Edited 2013-11-28 08:31
Hi Stefan,

bei 25 Minuten Partien auf i7 4.3 GHz liegt Houdini 3 x64 ca. 25 ELO vor Stockfish vom 03.11.2013 bei mir. Kommen jetzt ca. 30 ELO dazu sind es 55 ELO abzüglich der letzten Verbesserungen bei Stockfish die bei rund 10-15 ELO liegen. Beträgt der Vorsprung also ca. bei längeren Partien 40 ELO. Werde mir die neue Version auch zulegen und dann im Dezember austesten. Warte aber auf die nächste offzielle Stockfish Version.

Partien derzeit in der SWCR-2 ... ca. 920 pro Engine. Baue das auf 1.000 Partie derzeit aus.
Vielleicht werde ich die Liste nochmal veröffentlichen im Januar, weiß noch nicht. Sehe nicht so den Nutzen für mich, kann ja auch jeder selbst mit einem Rechner feststellen.

Was mir in der SWCR-2 aber auffällt ist, das nach ca. 700-920 Partien mal wieder kaum Veränderungen zu sehen sind. Es geht um 5 ELO runter oder mal hoch und das war es. Derzeit habe ich gar keine Engine dabei die stark ausbricht in der Statistik, dass war in der SWCR-1 bei ca. 1-2 Engines anders.

Finde das erstellen einer Ratingliste auf dem höheren Niveau auch nicht mehr so prickelnd. Schrieb ja schon warum ... immer mehr Remispartien, immer langweiligere Partien zum zusehen. Partiedurchschnitt ging um 2.5 zur SWCR-1 nach oben.

Überlege mir daher die SWCR-2 noch 1-2 Monate spielen zu lassen und dann direkt wieder abzubrechen, vielleicht dann zu veröffentlichen.

Eine komplett andere Ratingliste aufzubauen ...

Maßgabe:
Engines von 2.600 - 2850 ELO ... alles über Rybka raus.
Engines die mehr als 3 Jahre nicht upgedatet wurden raus (also ohne Spike, Sjeng, Zappa etc..).
Dann lieber mit aktuellen Entwicklungen wie Texel, Smarthink ... etc..

Denke das macht für mich mehr Sinn, beobachten wird interessanter oder auch festzustellen ob bei den Engines die langsam höher kommen etwas drin ist was besonders gut gemacht wird.

zu Houdini:
Für Analysen sind ja die TOP Engines natürlich vorzuziehen bzw. hier die Kombination aus guten Engines.
Houdini und Stockfish haben zwar gleiche taktische Stärken und sind im Endspiel kaum zu bezwingen, agieren dennoch unterschiedlich. Aber die Kombiantion macht es und hier ist Komodo bei längeren Zeiten immer interessant. Die Kombiantion die TOP-4 (GullChess noch hinzu) je einen Core zu geben auf einen Quad und eine Stellung analysieren zu lassen ist richtig geil und bringt fantastische Ergebnisse. Da werden die Fernschachspieler sicherlich jubeln.

Critter, Rybka haben hier eher ausgedient ... Critter weil ich keinen Vorteil an Stärken mehr zu Stockfish oder Houdini sehe und Rybka weil die Endspielstärke bzw. der gute Übergang zum Endspiel von anderen Engines besser gemacht wird.

Spark im Mittelspiel oder Smarthink im Mittelspiel ist immer interessant wenn es offene Stellungen gibt aber auch hier sind dann Houdini oder Stockfish auch schon so stark das die Stärken der Angreifer Spark und Smarthink auch legalisiert werden ... gibt fast keine gute Angriffsidee die Spark und Smarthink haben die dann von Houdini und Stockfish nicht gesehen werden. Das macht dann 300 ELO Unterschied einfach weg. Echt schade mit Spark ... meine das die Engine nicht weiterentwickelt wurde bzw. gehe ich mal davon aus.

Engine welche mich begeistern sind derzeit:
Jonny ... macht einiges gegen die TOPs besonders gut, holt da mehr Punkte als andere Engines auf dem Niveau von 2.850 oder Quazar im Endspiel (muss ich mal näher untersuchen). Chrion hat eine extrem niedrige Remisquote im Vergleich zu den anderen auf ca. 2.850 Niveau und spielt ein sehr ausgeglichenes Mittelspiel, hat eine extrem gute Königssicherheit und versteht es die Leichtfiguren richtig gut in Szene zu setzen vergleichbar zu Komodo im Mittelspiel.

Und zu Amitis ...
Das riecht förmlich nach Gabriele Müller ... ist die Dame wahrscheinlich auch mal wieder aufgetaucht und hat sich einen neuen Rechner gekauft
Sind meist die gleichen Leute die in der Cloner Szene auftauchen und hier und da etwas verändern.
Meist bzw. 99% kommt aber nichts dabei rum ... die Kopien bleiben schlechter als die Originale es sei denn eine Idee von irgendwo bringt was und wird erfolgreich eingebaut. Dann gibt es auch mal einen kleinen Sprung.

Wenn Rybka von Fruit geklont war oder jetzt Houdini von Robbolito ... das sind dann eher die Ausnahmen.
Und wie das dann kommerziell ausgeschlachtet wird ist bekannt.

Dennoch, die Programmierer von Rybka und Houdini haben letztendlich bewiesen, dass eigene Ideen erfolgreich umgesetzt wurden. Nur schade das diese dann nicht wieder zur Verfügung gestellt wurden, dass ist der Sinn wenn auf Programmen aufgesetzt wird.

Für einen einzelnen wie jetzt bei Houdini finde ich 30 ELO auf diesem hohen Niveau aber eine sehr gute Leistung. Nur Stockfish wird bei dem Tempo und nunmehr ca. 40 ELO auch wieder recht schnell dran sein.

Gruß
Frank
Parent - - By Stefan Pohl Date 2013-11-28 08:36
Nur kurz zur Partienzahl: Houdini 4 lag bei 2800 Partien bei +26 Elo und am Ende (nach 10000 Partien) bei +33. Das ist schon ein erheblicher Unterschied. Und wenn du nur bis ca. 1000-1500 Partien testest, ist klar, daß dir solche Langzeitschwankungen nicht unterkommen. Aber nur, weil du zuwenige Partien spielst, als daß solche Schwankungen überhaupt auftreten könnten. Das heißt nicht, daß es sie nicht gibt!
Und der aktuelle Houdini-Testlauf ist diesbzgl. noch gar nichts: Bei Stockfish hatte ich schon Einbrüche von mehr als 20 Elo jenseits der 3000er Marke. Und mehr als 10 Elo jenseits der 5000er Marke. Komodo kletterte mal jenseits der 3000er Marke um mehr als 10 Elo nach oben...(glaube es waren sogar fast 15 Elo). Natürlich ist das nicht die Regel, aber auch keinesfalls die ganz seltene Ausnahme.
Ich hätte das auch nicht für,möglich gehalten, bevor ich nicht damit anfing, 10000 Partien pro Testrun zu machen. Eigentlich hatte ich gedacht, jenseits der 3000er Marke passiert kaum noch was. Da wurde ich dann aber schnell eines Besseren belehrt. Kann nur jedem raten, selber mal ein paar wirklich lange Testruns zu machen und zu staunen, was da passiert (bzw. passieren kann).

Stefan
Parent - By Frank Quisinsky Date 2013-11-28 08:45
Hallo Stefan,

spiele ich schneller als das was ich spiele springen die ELOs mehr.
Bedenke ich spiele mit vielen Gegner und einem in der SWCR-1 gewachsenem Buch. In der SWCR-1 hatte ich teilweise bis 8.000 Partien und wenn es Schwankungen gab dann eher im Bereich 600 - 800 Partien (bei 14 von 210 getesteten Engines). Schwankungen bei 800-1.200 Partien bei 5 von 210 Engines ... aber diese Schwankungen waren dann nicht mehr größer als 15 ELO. Und es waren 38 Engines die ca. 3.000 Partien gespielt haben.

Das Du solche Ausreißer hast ist so selten ...
Darüber lohnt es sich statistisch noch nicht mal zu reden.

Gruß
Frank
Parent - - By Willem Date 2013-11-28 11:59
Jenseits 3000 Partien  sind Schwenkungen von mehr als 15 ELO statistisch gesehen gar nicht möglich !
Vermutlich sind deine lächerliche ultrakurtze Spieltempos verantwortlich für diese abnormale Schwenkungen.
Du sollte deine Testmethode (Testgeräte) noch mal gründlich überprüfen.
Übrigens vielen Dank für deinen einwandfreie Service.

Willem,
Parent - - By Benno Hartwig Date 2013-11-28 13:09
Willem schrieb:
Jenseits 3000 Partien  sind Schwenkungen von mehr als 15 ELO statistisch gesehen gar nicht möglich !
Wie unterscheidest du eigentlich 'statistisch gesehen gar nicht möglich'  von 'tatsächlich unmöglich' und 'ziemlich unwahrscheinlich' ?
Benno
Parent - - By Chess Player Date 2013-11-28 13:18
kann es sein dass die elo-bewertungen durchaus oszillieren können? was kann alles
als ursache angesehen werden? ich denke an den versuchsaufbau...nicht nur an single-mp engines...
Parent - By Dirk Triebel Date 2013-11-28 14:06
Servus,

ist schon eine Interessante Frage was die Ursache sein kann für solche Schwankungen oberhalb der 1000er.

Ich kann nur sagen bei meinen Test runs (1min+1s+Ponder) pegelt es sich nach der hälfte etwa ein sprich bei ca.1000 Partien (so war es bei Stocki, Komodo u auch bei Houd 4).

Sollte eigentlich auch so sein, wenn die Programme (engines + Testoberfläche) keinen Software Fehler haben und die Hardware konstant arbeitet.  Allerdings ist die Statistische Betrachtung auch nur Theorie und die Praxis sieht dann doch oft anders aus. Wäre aber mal interessant des zu ergründen - bei welchen Gegnern gab es denn diese "extremen Schwankungen" und bei welchen wars konstant - macht sich ja dann bei dir stark bemerkbar da Du ja soviele Partien gegen weniger Gegner machst. Bei mir bei 50 Partien gg. jeden mit 40 Gegnern würde das ja gar nicht auffallen.

Gruß,
Dirk
Parent - - By Benno Hartwig Date 2013-11-28 13:44 Edited 2013-11-28 13:48

> Vermutlich sind deine lächerliche ultrakurtze Spieltempos verantwortlich für diese abnormale Schwenkungen.


Wie sollen sie das denn machen??
Bei noch so kurzen Zeiten wie bei längsten Zeiten gibt es bei Begegnungen zweier Engines 3 Werte
p_A-gewinnt, p_remis und p_B-gewinnt
die die Wahrscheinlichkeiten für Sieg, Remis und Niederlage von A beschreiben.

Diese Wahrscheinlichkeiten mögen sich unterscheiden bei verschiedenen Zeiten. OK.
Und man darf gern die speziellen Wahrscheinlichkeiten bei sehr kurzen Zeiten überaus uninteressant finden. Natürlich auch klar.
Das Oszillieren wird bei längsten Zeiten aber sicher nicht kleiner sein als bei kürzesten Zeiten.
(oder genauer: es wird doch geringfügig kleiner sein, einfach nur weil die Remisen dann häufiger werden. OK)
Aber ansonsten haben Engines auch bei längsten Zeiten keine Neigung, der Stochastik ein Schnippchen zu schlagen.
Und auch bei kurzen Zeiten raunen sich die Engines nicht zu, dass jetzt erstmal mehrmals die eine und dann erst mehrmals die andere gewinnen soll.

Aber:
Bei längeren Zeiten hat man vermutlich seltener längere Versuchsreihen gesehen und daher manches nie beobachtet!

Benno
Parent - By Stefan Pohl Date 2013-11-28 14:55
Benno Hartwig schrieb:

Wie sollen sie das denn machen??
Bei noch so kurzen Zeiten wie bei längsten Zeiten gibt es bei Begegnungen zweier Engines 3 Werte
p_A-gewinnt, p_remis und p_B-gewinnt
die die Wahrscheinlichkeiten für Sieg, Remis und Niederlage von A beschreiben.

Diese Wahrscheinlichkeiten mögen sich unterscheiden bei verschiedenen Zeiten. OK.
Und man darf gern die speziellen Wahrscheinlichkeiten bei sehr kurzen Zeiten überaus uninteressant finden. Natürlich auch klar.
Das Oszillieren wird bei längsten Zeiten aber sicher nicht kleiner sein als bei kürzesten Zeiten.
(oder genauer: es wird doch geringfügig kleiner sein, einfach nur weil die Remisen dann häufiger werden. OK)
Aber ansonsten haben Engines auch bei längsten Zeiten keine Neigung, der Stochastik ein Schnippchen zu schlagen.
Und auch bei kurzen Zeiten raunen sich die Engines nicht zu, dass jetzt erstmal mehrmals die eine und dann erst mehrmals die andere gewinnen soll.

Aber:
Bei längeren Zeiten hat man vermutlich seltener längere Versuchsreihen gesehen und daher manches nie beobachtet!

Benno


Treffend und sachlich erläutert. Danke. So brauch ich es nicht (schon wieder mal) zu machen. Ist auch besser so, ich rege mich sonst wieder nur unnötig auf...und hatte ja den Kernsatz im wesentlichen auch schon selber hier gepostet: Wer keine langen Versuchsreihen macht, kann natürlich auch keine nennenswerten Schwankungen über lange Versuchsreihen beobachten. Daraus dann zu folgern, daß es sowas ja gar nicht geben könne - bei so einer Logik kriege ich Haarausfall (vom Raufen derselben)...Unfaßbar, was man hier so liest.
Ich werde das in Zukunft hier auch nicht mehr diskutieren oder erörtern. Zumindest nicht mit Leuten, die nicht selber ein paar lange Versuchsreihen (mindestens 5000 Partien pro Engine) gemacht haben. Das ist sonst nämlich wie mit Blinden über Farben zu diskutieren. Das kann zu nichts sinnvollem führen!
Du solltest auch darüber nachdenken, ob du dir das antun willst, Benno!

die allerbesten Grüße - Stefan
Parent - - By Frank Quisinsky Date 2013-11-28 23:05 Edited 2013-11-28 23:07
Hi Benno,

eines darf beim Test einer so starken Engine wie Houdini nicht vergessen werden.

Liegt Houdini in einer Ratingliste auf Platz 1 oder auf Platz 20 (wenn 20 Gegner) ist der ermittelte Wert nie genau. Da kannste 1.000.000 Partien spielen lassen. Lediglich der ELO Wert einer Engine die in er Mitte einer Ratingliste liegt ist absolut konstant und das schon nach recht wenigen Partien.

Wenn bei Stefan also mal 35 dann wieder 25 und dann bei 30 ELO bei Houdini mit mehr Partien ermittelt werden, ist das typisch für eine Engine die ganz oben liegt. Solche Schwankungen haben wir mal vor ca. 15 Jahren in einer Winboard Ratingliste untersucht.

ratingliste mit 16 Engines war es. Es ging um die Nummer 16 ...
Nummer 1 weg und 17 stärkste eingefügt ... Nummer 2 weg und 18 stärkste hinzugenommen ... bis die Nummer 16 die Nummer 1 war ...
Und siehe da die ELO war bei gleicher Partieanzahl (waren seinerzeit 600 Partien) 120 ELO höher ... sprich plötzlich hatte die Nummer 20 120 ELO mehr als 20 unter ihr standen.

Es gibt so viele Dinge bei diesen Statistiken wie ELO-Listen und die Ursachenforschung ist oftmals simple, oftmals schwierig.

Fest steht aber es ist Irrsinnig mehr als 1.400 Partien zu haben. Und das ist schon die absolute Obergrenze von dem was sinnvoll ist. Liegen Schwankungen von mehr als 10 ELO bei mehr als 1.400 Partien vor muss es Gründe geben. Wie gesagt, diese sind meist simple ... selten schwierig auszumachen.

Gruß
Frank

PS:
Geht es los und wir stellen die Statistik in Frage sind wir auch dem Weg zu ergründen um neues festzustellen ...
Die Sache wird jetzt erst richtig interessant!!
Parent - - By Benno Hartwig Date 2013-11-29 08:50

> Liegt Houdini in einer Ratingliste auf Platz 1 oder auf Platz 20 (wenn 20 Gegner) ist der ermittelte Wert nie genau. Da kannste 1.000.000 Partien spielen lassen. Lediglich der ELO Wert einer Engine die in er Mitte einer Ratingliste liegt ist absolut konstant und das schon nach recht wenigen Partien.


Interessant. So hast du es beobachtet?
Hast du eine Vorstellung, kannst du skizzieren, warum das so ist?
Warum das Kommen und Gehen von starken und schwachen Engines dazu führen soll, verstehe ich erstmal noch nicht.

Benno
Parent - By Frank Quisinsky Date 2013-11-30 01:36
Hallo Benno und Dirk,

ich kann nicht jede Frage mit Fakten beantworten. Und die besagten 120 ELO vor ca. 15 Jahren, das war ein nicht so guter Test weil auch Learning, 5-Steiner etc. alles rein geworfen wurde und auch die Testbedingungen andere waren.

Aber in wirklich jeder Ratingliste die ich die ganzen Jahre erstellte oder auch bei der Beobachtung in andere Listen fällt es immer wieder auf, dass die Ratings der besten und schlechtesten Engines in einer Liste stärker variieren. Ist im Grunde schön zu beobachten nach 100, 200, 300, 400, 500 etc. Partien. Starke Engines starten immer recht gut und fallen dann mit mehr Partien leicht ab. Bei der SWCR-1 war das auch schön zu beobachten bei Engines mit niedrigen Remisquoten die ganz oben standen.

Hätte Houdini mehr starke Gegner auf gleichem Level wird das Rating fallen. Die Frage ist bei dem Niveau von heute um welchen Wert. Ich schätze mal nach meinen Beobachtungen um ca. bis zu 20-30 ELO.

Das ist z. B. ein Vorteil der Liste von Stefan Pohl. Er setzt zwar viele Engines ein die gleich spielen aber alle haben ein sehr hohes Level. Insofern vermute ich eher, dass ein Rating einer Engine bei Stefan gar realistischer ist als ein Rating in einer Liste mit mehr schwächeren Engines. Gerade auch wegen der niedrigen Remisquote bei Houdini.

Bei Stockfish schaut es anders aus. Gibt deutlich mehr Remispartien gegen schwächere Gegnerschaft ab und insofern wird das nicht so krass auffällig sein als bei Houdini.

Das wir nun ein Ergebnis haben ...
Bei Stefan ca. 30 ELO und bei CEGT ca. 50 ELO wundert mich aufgrund der niedrigen Remisquote und der ausgezeichneten Resultate der Houdini's gegen schwächere Gegnerschaft nicht wirklich. Finde die Ergebnisse daher plausibel.

Gruß
Frank
Parent - By Dirk Triebel Date 2013-11-29 11:11
Hi,

Das klingt logisch und die Elo list ist ja auch immer eine Momentaufnahme (abhängig von den in der list vorhandenen Engines). Wenn Du die stärksten rausnimmst, verliert die Engine die von 16 an 1 gerückt ist ja erheblich weniger und somit muss sie ja mehr Elos bekommen. Aber du hast schon recht, das es natürlich auch von den Gegenern abhängt.

Allerdings verstehe ich nicht, warum die 1. dieversen Schwankungen ausgesetzt sein sollte.

Die Berechnungen und das Elosystem könnten auch nicht ganz "sauber" sein. Die Elo Berechnung in erster Linie auf die Gewinnwahrscheinlichkeit beruht mit der mathematischer Normalverteilung.

see link Wiki "Probleme von Rating-Systemen":

http://de.wikipedia.org/wiki/Elo-Zahl

Gruß,
Dirk
Parent - - By Patrick Götz (Mod.) Date 2013-11-28 08:40
Vielen Dank mal wieder für deinen super Service Stefan!
Ich bin schon gespannt, ob S. oder K. es schaffen H4 in den nächsten Monaten zu überholen, zumindest bei Stockfish stockt es im Moment ja ein wenig...
Parent - - By Stefan Pohl Date 2013-11-28 15:08
Patrick Götz schrieb:

Vielen Dank mal wieder für deinen super Service Stefan!
Ich bin schon gespannt, ob S. oder K. es schaffen H4 in den nächsten Monaten zu überholen, zumindest bei Stockfish stockt es im Moment ja ein wenig...


Immer gerne!

Ich habe auch den Eindruck, daß es bei Stockfish im Moment ziemlich hakt. Diverse Patches wurden zurückgenommen und die Test-Pipeline ist praktisch nur noch rot gefärbt. Klar ist, daß es immer schwieriger wird, weiter zu verbessern, je höher das Ausgangsniveau ist/wird. Und ich vermute, daß die Methode der kleinen Schritte/Optimierungen allein wohl höchstwahrscheinlich auf Dauer nicht reichen wird, um Stockfish bis auf den Level von Houdini zu hieven (immer auf die LS-Bedingungen bezogen, wo Stockfi z.Zt. noch satte 62 Elo hinter Houdini liegt). Was man wohl bräuchte, wäre eine neue, geniale Idee/größerer Patch, den man dann hinterher mit der Methode der kleinen Schritte weiter optimieren könnte. Aber woher nehmen?!?
Was Komodo angeht, so ist ja Larry notorisch optimistisch und hat ja wohl auch schon wieder beträchtliche Fortschritte seit Komodo 6 erzielt (behauptet er zumindest). Aber wenn man sieht, wie Houdini 4 gerade Komodo 6 im LS-Testrun plattgemacht hat, so habe ich große Zweifel, daß Komodo in nächster Zeit zu Houdini wird aufschließen können.

Dazu sollte man auch mal das Entwicklungstempo von Houdini betrachten, der seit Version 1.5 in der LS-Rangliste satte +102 Punkte zulegen konnte und sich vom Ausgangspunkt (dem Ur-Ippolitcode) mittlerweile um unglaubliche +183 Elo entfernt hat. Sicher hat Stockfish +100 Elo alleine im letzten knappen Jahr geschafft, aber letzlich wird wohl eher das Entwicklungstempo den Ausschlag geben, daß man auf Dauer aufrechterhalten kann. Und ob Stockfish da mit Houdini wirklich wird mithalten können? Und zum Einholen oder gar Überholen müßte er es ja sogar übertreffen.
Fraglich. Sehr fraglich. Aber auch hochspannend!

Stefan
Parent - - By Benno Hartwig Date 2013-11-28 15:25

> Und ob Stockfish da mit Houdini wirklich wird mithalten können?


So richtig continuierlich verläuft die Houdini-Entwicklung aber auch nicht, oder?
1.5 -> 2 war da mager, und 3 -> 4 versetzt auch nicht direkt in Staunen.
Da schaue ich mir mal an, ob bei Stockfish nicht was passiert.

Mich würde nicht überraschen, wenn SF-Leute die Vorgänge zum Schluss der Partie 17 des TCEC-Finales analysieren und einen Bug entfernen. Vielleicht bewirkt das ja Wunder !
Ich habe den Verdacht, dass man hier eine gut funktionierende SF4-Engine dauerhaft verwirren kann, wenn man mal mit der ANzahl der Threads spielt, insbesondere wenn man die Anzahl zwischendurch mal größer als setzt als die Anzahl der realen Cores.
Danach wird in der Schlussstellung dieser Partie gemurkst, auch wenn man Threads wieder auf 1 zurück setzt, wenn ma den Hash leert, wenn man die Engine neu startet...
Wie der Murks dann, sobald er mal auftrat, wieder beendet, habe ich noch nicht erkannt. Ich konnte ihn nur erzeugen.

Benno
Parent - - By Stefan Pohl Date 2013-11-29 07:06
Benno Hartwig schrieb:

So richtig continuierlich verläuft die Houdini-Entwicklung aber auch nicht, oder?
1.5 -> 2 war da mager, und 3 -> 4 versetzt auch nicht direkt in Staunen.
Da schaue ich mir mal an, ob bei Stockfish nicht was passiert.



Nein, kontinuierlich sicher nicht, das ist auf diesem Top-Level wohl auch praktisch unmöglich. Aber es geht über die Jahre doch immer weiter aufwärts, sicherlich allerdings mit wechselndem Tempo. Zudem vergessen viele, daß ja Houdini 1.5 nicht die erste Version war, sondern Houdini 1.0 irgendwas (1.03 oder so), welche ein sehr naher Verwandter des Original Ippolit war und daher so bei ca. 3000 LS-Elo anzusiedeln ist. Insofern war ja schon Houdini 1.5 ein sehr großer Elosprung nach oben (ca. +80 Elo).
Und ob das offene Stockfish Test- und Entwicklungsenvironment eine solche deutlich meßbare Weiterentwicklung über einen längeren Zeitraum zustande bringen wird, das muß man eben erst mal abwarten. Da es sowas bisher noch nie gegeben hat, ist es schwer, eine Prognose abzugeben. Den enormen Spielstärkezuwachs von Stockfish in den letzten ca. 10 Monaten hätte ich zumindest nicht vorhergesehen, zumindest nicht in diesem Ausmaß.

Stefan
Parent - - By Guest Date 2013-11-29 08:21
Stefan Pohl schrieb:

... Houdini 1.0 irgendwas (1.03 oder so), welche ein sehr naher Verwandter des Original Ippolit war und daher so bei ca. 3000 LS-Elo anzusiedeln ist. Insofern war ja schon Houdini 1.5 ein sehr großer Elosprung nach oben (ca. +80 Elo). ...


Bei 5+3 besteht zw. H1.03a und R0.085g3 ein Unterschied von 36 Elo, H1.03a liegt also durchaus auf dem Level der besten Littos heute.
(Inwiefern das Testen der Littos on der Zwischenzeit sinnvoll war ist ein anderes Thema)

Ingo
Parent - - By Stefan Pohl Date 2013-11-29 13:33
Guest schrieb:

Stefan Pohl schrieb:

... Houdini 1.0 irgendwas (1.03 oder so), welche ein sehr naher Verwandter des Original Ippolit war und daher so bei ca. 3000 LS-Elo anzusiedeln ist. Insofern war ja schon Houdini 1.5 ein sehr großer Elosprung nach oben (ca. +80 Elo). ...


Bei 5+3 besteht zw. H1.03a und R0.085g3 ein Unterschied von 36 Elo, H1.03a liegt also durchaus auf dem Level der besten Littos heute.


Aha, danke, das war mir nicht bewußt (lange her!). Dann war der Elosprung von H1.03a auf H1.5 also kleiner als von mir gepostet (ca. 45 Elo), was aber auch noch sehr ordentlich ist. Ich hatte damals noch keine Rangliste und habe daher H1.03 nie selber getestet.
Hättste mal deine IPON nicht vom Netz genommen, dann hätte ich da mal nachschlagen können...

Gruß - Stefan
Parent - By Ingo B. Date 2013-11-29 13:40
Interessanter ist das H1.03 eben nicht ein so nah Verwandter zum Ippo Original ist wie du oben schriebst - im Gegensatz zu den allermeisten deiner getesteten Derivate. (Obendrein schneidet er vielleicht noch besser ab bei superkurzen Bedenkzeiten, wenn das jemand interessiert)

Ansonsten hättest du diese Info (R0.085) nie in der offiziellen IPON gefunden. Ich legte da Wert auf Seriosität und bot keine Plattform.

Ingo
Parent - - By Robert Houdart Date 2013-11-29 16:54
Stefan Pohl schrieb:

Guest schrieb:

Stefan Pohl schrieb:

... Houdini 1.0 irgendwas (1.03 oder so), welche ein sehr naher Verwandter des Original Ippolit war und daher so bei ca. 3000 LS-Elo anzusiedeln ist. Insofern war ja schon Houdini 1.5 ein sehr großer Elosprung nach oben (ca. +80 Elo). ...


Bei 5+3 besteht zw. H1.03a und R0.085g3 ein Unterschied von 36 Elo, H1.03a liegt also durchaus auf dem Level der besten Littos heute.


Aha, danke, das war mir nicht bewußt (lange her!). Dann war der Elosprung von H1.03a auf H1.5 also kleiner als von mir gepostet (ca. 45 Elo), was aber auch noch sehr ordentlich ist. Ich hatte damals noch keine Rangliste und habe daher H1.03 nie selber getestet.
Hättste mal deine IPON nicht vom Netz genommen, dann hätte ich da mal nachschlagen können...

Gruß - Stefan

I've recently posted the following table on TalkChess. It gives the evolution of Houdini on my testing platform from version 1.03a to 4, at the 2 time controls I use in my testing framework. Houdini 1.03 is set at a conventional 3000 points:

> 10"+0.1":


Houdini 1.03a: 3000
Houdini 1.5: 3045
Houdini 2.0: 3070
Houdini 3: 3120
Houdini 4: 3165

> 120"+1.2"


Houdini 1.03a: 3000
Houdini 1.5: 3050
Houdini 2.0: 3080
Houdini 3: 3140
Houdini 4: 3185

This table is the basis for my Elo announcements at release.
Parent - By Benno Hartwig Date 2013-11-29 17:31
Thanx!
First Houdini-4-results at CEGT show an impressing ELO-improvement of 58 points at 5+3 PB=on!
http://www.husvankempen.de/nunn/5Plus3Rating/5Plus3AllVersion/rangliste.html
We surely will get several results and I'll read them very interested.
Benno
Parent - - By Tom Paul Date 2013-11-28 17:32
Die Ideen gibt es ja und wo Schwächen sind und wie genau diese Behandelt werden sollen wurde den Entwicklern schon oft mitgeteilt.
Stattdessen sieht man nur Mobility (Midgame)=105 oder andere Tuningtests.
Aber wenn die Entwickler, warum auch immer, diese jetzt noch nicht verbessern wollen->selber schuld Stockfish wird nur 2ter.
Parent - By Benno Hartwig Date 2013-11-29 08:47
Tom Paul schrieb:
Aber wenn die Entwickler, warum auch immer, diese jetzt noch nicht verbessern wollen...
Ist es vielleicht auch gar nicht so einfach??
Benno
Parent - By Sikoky H Date 2013-11-28 17:58
Stefan Pohl schrieb:

Patrick Götz schrieb:

Vielen Dank mal wieder für deinen super Service Stefan!
Ich bin schon gespannt, ob S. oder K. es schaffen H4 in den nächsten Monaten zu überholen, zumindest bei Stockfish stockt es im Moment ja ein wenig...


Immer gerne!

Ich habe auch den Eindruck, daß es bei Stockfish im Moment ziemlich hakt. Diverse Patches wurden zurückgenommen und die Test-Pipeline ist praktisch nur noch rot gefärbt. Klar ist, daß es immer schwieriger wird, weiter zu verbessern, je höher das Ausgangsniveau ist/wird. Und ich vermute, daß die Methode der kleinen Schritte/Optimierungen allein wohl höchstwahrscheinlich auf Dauer nicht reichen wird, um Stockfish bis auf den Level von Houdini zu hieven (immer auf die LS-Bedingungen bezogen, wo Stockfi z.Zt. noch satte 62 Elo hinter Houdini liegt). Was man wohl bräuchte, wäre eine neue, geniale Idee/größerer Patch, den man dann hinterher mit der Methode der kleinen Schritte weiter optimieren könnte. Aber woher nehmen?!?
Was Komodo angeht, so ist ja Larry notorisch optimistisch und hat ja wohl auch schon wieder beträchtliche Fortschritte seit Komodo 6 erzielt (behauptet er zumindest). Aber wenn man sieht, wie Houdini 4 gerade Komodo 6 im LS-Testrun plattgemacht hat, so habe ich große Zweifel, daß Komodo in nächster Zeit zu Houdini wird aufschließen können.

Dazu sollte man auch mal das Entwicklungstempo von Houdini betrachten, der seit Version 1.5 in der LS-Rangliste satte +102 Punkte zulegen konnte und sich vom Ausgangspunkt (dem Ur-Ippolitcode) mittlerweile um unglaubliche +183 Elo entfernt hat. Sicher hat Stockfish +100 Elo alleine im letzten knappen Jahr geschafft, aber letzlich wird wohl eher das Entwicklungstempo den Ausschlag geben, daß man auf Dauer aufrechterhalten kann. Und ob Stockfish da mit Houdini wirklich wird mithalten können? Und zum Einholen oder gar Überholen müßte er es ja sogar übertreffen.
Fraglich. Sehr fraglich. Aber auch hochspannend!

Stefan

da habe ich eher um houdini angst.
Horst
Parent - - By Benno Hartwig Date 2013-11-28 13:32
Haben wir eigentlich eine Vorstellung davon, wie dieser neue Houdini-4 zu der Version Houdini-9601 steht, die als letztes in Stage 4 des TCEC-Turniers eingesetzt wurde?

Benno
Parent - - By Stefan Pohl Date 2013-11-28 14:56
Benno Hartwig schrieb:

Haben wir eigentlich eine Vorstellung davon, wie dieser neue Houdini-4 zu der Version Houdini-9601 steht, die als letztes in Stage 4 des TCEC-Turniers eingesetzt wurde?

Benno


Tja, das würde ich auch gerne wissen. Sehr weit weg kann aber Houdini 4 von der Version 9601 kaum sein, denn Houdart wird nichts auf den Markt bringen, was er nicht ausführlich durchgetestet hat und so viel Zeit ist ja seit der Houdini-9601 nicht vergangen.

Stefan
Parent - By Tom Paul Date 2013-11-30 00:08
Hat schon jemand Houdini 4 unter langen Bedenkzeiten gegen Komodo und Stockfish getestet?
Up Topic Hauptforen / CSS-Forum / LS-Rangliste: Houdini 4

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill