SWCR: Fire 1.5 xTreme, 1.200 Partien im Live-Mode!

By Frank Quisinsky Date 2011-06-03 06:35

geändert:

Fire 1.5 xTreme x64: 12 / 16 cores (210 Partien pro Tag)
BugChess2 1.9 x64: 04 / 16 cores (70 Partien pro Tag)

sofern es keine GUI Abstürze gibt.
Damit sollten dann am Montag Abend zunächst beide Engines auf ca. 800 von 1.200 gespielten Partien landen.
Danach wechsel ich wieder auf 08 / 16 Cores für die restlichen 400 Partien pro Engine.
Am Donnerstag kommender Woche sollten die beiden 1.200er Spießroutenläufe bei 40 Minuten SWCR Partien abgeschlossen sein

Also mehr Fire 1.5 xTreme x64 Partien über das Wochenende!

By Thorsten Czub Date 2011-06-03 10:11 Edited 2011-06-03 12:05

ich kuerz mal ab:

http://schachcomputerwelt.foren-city.de/topic,344,15,-kleine-turniere-intel-t7600-2x-2-33-ghz.html

By Simon Gros Date 2011-06-03 20:13

Knapp über 100 Spiele auf Level 40/5? Weshalb sollte man dies nun abkürzen können oder dürfen oder sollen?
Simon_G

By Thorsten Czub Date 2011-06-04 08:45

knapp 150 partien sind ausreichend um die Programme ordentlich zu sortieren.

Dieser fire1.5 ist knapp unter houdini.

allerdings trennen die programme auf 150 partien noch 6,5 Punkte. das ist schon eine hausnummer.

By Frank Quisinsky Date 2011-06-04 09:18

SWCR Statistik nach 150 Partien ...
(getestet wurden 144 Engines).

Differenzen von 150 Partien auf 1.000 Partien:

40 Engines = +- 5
31 Engines = +- 10
20 Engines = +- 20
15 Engines = +- 30
15 Engines = +- 40
09 Engines = +- 50
14 Engines = größer als +-50

Wenn 150 für Dich ausreichen ist Dein Anspruch an eine genaue ELO sehr gering.
Was aber OK ist, sicherlich fällt dieser Anspruch sehr unterschiedlich aus.

By thorsten czub Date 2011-06-04 18:35

ich denke man kann auch mit weniger partien aussagen machen.
fire 1.5 scheint staerker als stockfish und rybka 4.

By Frank Quisinsky Date 2011-06-04 19:34

Als Rybka 4 ... denke ca. das gleiche Level.
Rybka 4.1 ist ca. 15 ELO stärker.
Stärker als Stockfish, denke das ist klar!

Mit den Aussage:
Kommt immer auf die eigene Sichtweise an.
Ein Prof. Hyatt will es genau wissen, glaube er schrieb mir mal 10.000 Partien um die ErrorBar so klein wie möglich zu halten.
Ist OK!

Es kommt auch immer auf die eigenen Möglichkeiten an.
Ein Tester mit 10 Rechnern ... 4.000 Partien.
Ein Tester mit 4 sagt 1.000 Partien
Ein Tester mit 2 sagt 500 Partien

Immer das gleiche Spielchen.

Eigene Aussage ist:
Rating sollte schon ca. auf 10 ELO genau sein. Kommt es dann in 1 von 20 Fällen mal zu 15 ELO oder in 1 von 50 Fällen mal zu 20 ELO ist das OK. Insofern bei vielen Gegnern reichen mir 800 Partien aus.

By Thorsten Czub Date 2011-06-05 14:32 Edited 2011-06-10 17:54

so ich habe jetzt mal die ueberfluessigen Fire-Varianten aus dem Turnier geschnitten, wenn dir das besser gefällt:

http://schachcomputerwelt.foren-city.de/topic,344,15,-kleine-turniere-intel-t7600-2x-2-33-ghz.html#2035

By Frank Quisinsky Date 2011-06-06 18:05

Hi Thorsten,

OK, aber es sind einfach zu wenige Partien um die Unterschiede wirklich deutlich werden zu lassen.
Selbst meine 1.200 reichen nicht aus um auf 5-10 ELO genau zu messen.
Deine 136 dann ganz sicher auch nicht, hatten wir schon.

Nach derzeit ca. 750 Partien schaut es danach aus das Fire 1.5 xTreme x64 ca. auf einem Level mit Rybka 4.0 x64 ist. Rybka 4.1 x64 und IvanHoe B47cB x64 sind wahrscheinlich 15-20 vor.

Auch spielst Du 40 in 5 und ohne Ponder. Im Blitz sind die Ipps etwas stärker im Vergleich zu den anderen Engines.

Zu sagen ...
Fire 1.5 xTreme x64 ist besser als Rybka 4 oder IvanHoe ist eh völliger Unfug, dafür liegen die alle zu sehr beieinander!

Fest steht, Fire 1.5 xTreme x64 wird sich zu Fire 1.3.1 x64 um ein gutes Stück verbessert haben.

Gruß
Frank

By Thorsten Czub Date 2011-06-06 21:48

wie du meinst Frank. Mach ich also völligen unsinn.

By Benno Hartwig Date 2011-06-04 13:51

[quote="Thorsten Czub"]knapp 150 partien sind ausreichend um die Programme ordentlich zu sortieren.[/quote]Mein Standard für einen ersten Test umfasst 296 Partien. Und mehr als ein sehr grobes Einsortieren ist damit nicht möglich.
"Na, ob der Parameter ein bisschen was bringt?" oder "Ob die Version etwas stärker geworden ist?" wird uns so sicher nicht beantwortet. Und mit 150 Partien noch weniger.
Ein wie großer Fehler in ELO erscheint dir denn für ein "ordentlich zu sortieren" akzeptabel?

Benno

PS:
Ich verorte Fire 1.5 bestenfalls ganz knapp vor Stockfish 2.1.1, also in Rybka4-Nähe, und nach wie vor ein gutes Stück von Houdini 1.5a entfernt.

By Frank Quisinsky Date 2011-06-04 13:59 Edited 2011-06-04 14:06

HI Benno,

Stockfish 1.8.0, 1.9.1, 2.0.1, 2.1.1 ist ca. 40-45 ELO hinter Rybka und mehr Zeit wird der Unterschied minimal größer!
Denke Du vergleicht eher im Blitz, da sind es 30-35 ELO.

Fire 1.5 xTreme ELO steigt kontinuierlich in meinem Test.
Jetzt nach 320 Partien könnte gar ein Ergebnis vor IvanHoe B47cB herauskommen. Zu Rybka 4.1 wären es dann noch ca. 10 ELO und zu den starken Exp. Settings ca. 25 ELO. Wenn Fire 1.5 xTreme jetzt aber so weiter steigt dann wäre gar ein Ergebnis vor Rybka 4.1 x64 denkbar. Das wiederrum wäre dann ca. 50 ELO Verbesserung und ca. 50 ELO for Stockfish. Die ganzen Stockfish Versionen liegen zur Zeit auf dem Level von Fire 1.3.1.

Für die ungläubigen kann ich aber einen offiziellen Stockfish 2.1.1 laufen lassen. Wer unbedingt in der Liste die 1-4 ELO Differenz (wenn überhaupt) sehen möchte ...

Gruß
Frank

Bei 150 Partien wäre die richtige Antwort 55 ELO nach den SWCR Statistiken. Durchschnittliche Abweichung wäre 28, 1 von 20 Fall ist erreicht ab 70 ELO und wenn er sich sagt ... OK, wenn in jedem 10 Fall die ELO um 55 abweicht grundsätzlich die ELO um 28 ungegenau ist ... reicht mir das aus, wäre seine Aussage verständlich. Wichtiger ja auch noch die Anzahl der Gegner. Thorsten sieht gerne Übergänge zum Endspiel, sonst würde er kaum mit so vielen IPPs spielen. Das Mittelspiel oder Königsangriffe sind ihm nicht so wichtig, sonst würde er z. B. mehr Versionen von Junior, Hannibal, Spark, Hiarcs, frühe Stockfish Versionen, auch Thinker einsetzen.

Zu Deiner Frage an Thorsten.

By Benno Hartwig Date 2011-06-04 14:06

[quote="Frank Quisinsky"]Für die ungläubigen kann ich aber einen offiziellen Stockfish 2.1.1 laufen lassen. Wer unbedingt in der Liste die 1-4 ELO Differenz (wenn überhaupt) sehen möchte ...[/quote]Thanx für die Info.
Und: Ja, ich testete bei sehr kurzen Zeiten.
Und: Ja, ich würde auch sehr gern den neuesten Stockfish in der Liste finden.

Benno

By Frank Quisinsky Date 2011-06-04 14:09

Hi Benno,

OK, starte dann noch einen Spießroutenlauf vor dem Oldie-Mix.
Sind auch noch ein paar meiner Besucher die mich hierzu immer wieder befragen.

Auch wenn ich keinen Sinn darin sehe und absolut keine Lust darauf habe, komme eh nicht zum Zusehen oder umstellen. Vielleicht spiele ich dann wieder zwei Spießroutenläufe:

IvanHoe B47cC x64
Stockfish 2.1.1 JA x64

Günther muss sich dann noch ein paar Tage gedulden aber die nächsten 2-3 Monate gehören dann den Oldies und dem 32-Bit Update Turnier

Gruß
Frank

By Benno Hartwig Date 2011-06-04 19:46

By Matthias Gemuh Date 2011-06-05 08:48

das "A" ist cool.

Danke.

By Frank Quisinsky Date 2011-06-05 18:24

Hallo Benno,

kein Problem!
Ziehe dann Stockfish 2.1.1 JA x64 noch anschließend durch.
Bei IvanHoe warte ich aber noch ein wenig.
Benötige mehr Partien der 47cB und wollte diese ja auch noch in der SWCR-32 aufnehmen.
Die Unterschiede zur 47cC sind sehr gering.

Schöne Grafik

Gruß
Frank

By Benno Hartwig Date 2011-06-07 13:52

[quote="Frank Quisinsky"]Ziehe dann Stockfish 2.1.1 JA x64 noch anschließend durch.[/quote]Bei CCRL beginnt man sich auch um SF211 zu kümmern.

Die allerersten Ergebnisse auf http://computerchess.org.uk/ccrl/4040/rating_list_all.html beziffern 17 bzw 41 ELO Zuwachs von SF201 zu SF211 bei einem Kern
Die ersten 50 Spiele der 64bit-4-Kern-Version ergaben aber ein Schwächerwerden(!!!) um 49 ELO. Aber 50 Spiele und alle gegen Rybka41 sind nur wenig besser als Würfeln. Mal abwarten.

http://computerchess.org.uk/ccrl/404/rating_list_all.html vermeldet bei 4 64bit-Kernen ein Plus von immerhin 33 ELO.

Ich bin auf deine Ergebnisse gespannt.
(Und es macht schon Spaß, immer mal wieder kurz draufzugucken, was die interessierenden Engines bei dir aktuell so treiben.

)

Benno

By Werner Mueller Date 2011-06-07 15:56

[quote="Matthias Gemuh"]
das "A" ist cool.

Danke.
[/quote]
Nach dem Gesichtsausdruck des Herrn zu urteilen, scheint das 'K' die meiste Freude zu bereiten.

By Stefan Pohl Date 2011-06-06 06:33

[quote="Frank Quisinsky"]
Hi Benno,

OK, starte dann noch einen Spießroutenlauf vor dem Oldie-Mix.
Sind auch noch ein paar meiner Besucher die mich hierzu immer wieder befragen.

Auch wenn ich keinen Sinn darin sehe und absolut keine Lust darauf habe, komme eh nicht zum Zusehen oder umstellen. Vielleicht spiele ich dann wieder zwei Spießroutenläufe:

IvanHoe B47cC x64
Stockfish 2.1.1 JA x64

Günther muss sich dann noch ein paar Tage gedulden aber die nächsten 2-3 Monate gehören dann den Oldies und dem 32-Bit Update Turnier

Gruß
Frank
[/quote]

Hi Frank,

von beidem würde ich abraten - Zeitverschwendung. Die cC-Version von Ivanhoe hat nur Änderungen im Bereich der 6-Steiner Bases, so wie ich das verstanden habe. Da Du diese beim Testen (vernünftigerweise) sowieso nicht nutzt, kannst Du Dir diesen Test m.E. schenken.
Und bei Stocki wäre m.E. ein Test mit dem Parameter Aggressivität auf 150, wie von mir getestet, sehr viel interessanter, als ein Test der default-Version.

Beste Grüße - Stefan

P.S: So wie es bei Deinem Fire 1.5 Test bisher aussieht, liege ich mit meiner Prognose (2920 +/- 10 Elo) ganz gut, denke ich. Fire wird Ivanhoe B47cB m.E. auf keinen Fall in deiner Liste erreichen oder gar überflügeln können. Fire beschneidet in der Suche die Varianten zu radikal und übersieht dadurch einfach zu oft etwas. Dafür kann er aber natürlich durch die so eingesparten Teile des Variantenbaums anderweitig tiefer rechnen als andere Engines und hin und wieder Kombinationen früher sehen als andere. Das erklärt m.E. auch die geringe Remisquote. Aber gegen den sehr solide spielenden Ivanhoe B47cB kann man so in einem so langen Test mit so vielen Partien wie bei Dir nicht mithalten.

By Frank Quisinsky Date 2011-06-06 17:46

Hallo Stefan,

ich könnte den neuen Tester fragen ob er den Stockfish Parameter testet.
Den IvanHoe lasse ich wirklich weg, bringt echt nicht viel.

Und zu Fire.
Ein kleiner Einbruch kam über Nacht. Fire verlor ca. 5-7 ELO und liegt jetzt bei 2.937, gerade die Auswertung hochgeladen.
Die Remisquote ist auch deutlich gestiegen aber immer noch 3% unter der von Fire 1.3.1 x64.

Deine Prognose scheint gut gewesen zu sein.
Selbst dachte ich am Samstag noch das das Rating eher noch ein bissel hoch geht anstatt fällt.

Es gab auch nur 2 Partien die auf Zeit verloren gingen.
1x verlor ChessTiger auf Zeit und 1x Komodo.
Beide Partien sind schon nachgespielt.

Ansonsten spielte Fire selbst bislang alle Partien ohne GUI Hänger.

Mal auf die Statistiken zu den kurzen Gewinnpartien schauen:

17x gewonnen unter 56 Zügen bis zum Matt = 2,2517%
03x verloren unter 56 Zügen bis zum Matt = 0,3974%

OK, die fast 6% von Spark werden nicht erreicht, typische Statistik für die IPP Engines.
Ragt jetzt nicht deutlich heraus, selbst Junior hat weit über 5%.

Aber wie alle anderen IPPs sehr stark im Übergang zum Endspiel, absolut typische IPP Ergebnisse!
Dennoch eine Verbesserung von ca. 30-35 ELO.

Mal schauen wie es weiter geht.

Gruß
Frank

By Benno Hartwig Date 2011-06-04 22:47

[quote="Frank Quisinsky"]Stockfish 1.8.0, 1.9.1, 2.0.1, 2.1.1 ist ca. 40-45 ELO hinter Rybka und mehr Zeit wird der Unterschied minimal größer![/quote]Andere geben kleinere Abstände an:
CEGT 40/20 nennt 17 ELO zwischen Stockfish 2.1.1 und Rybka 4.
Dieser Wert ist hier übrigens auch die Differenz zwischen den Versionen 2.0.1 und 2.1.1.
CCRL 40/40 nennt 20 ELO als Differenz zwischen SF 2.0.1 und Rybka 4 (SF 2.1.1 ist leider nicht in der Liste.)

SF ist heute vielleicht doch weniger hinter R4 zurück, als du meinst.
Und ich glaube (OK: kurze eigene Testreihen und CEGT und Glaube und Hoffnung), dass SF 2.1.1 gegenüber den Vorgängern und auch ggü. 2.0.1 doch ein kleines, feines Stück zulegen konnte.
Aber da wirst du uns ja bald Konkreteres sagen können.

Benno

By Frank Quisinsky Date 2011-06-05 18:33

Hi Benno,

17 ELO bei CEGT kommt hin.
Rybka 4 hat bei mir 2.940 - 17 = 2.923
Stockfish bei mir 2.907 und schwankte zwischen + 9 und + 1 in den Testpartien.
Allerdings spielte ich diese mit dem ersten x64 Compile von Jim.

Differenz bei mir ist derzeit 31 zu Rybka 4 (Version 2.0.1 x64). Rybka 4.1 ist ca. 15 ELO stärker.
CCRL hat meist deutlich weniger Partien und deutlich weniger Gegner, testet nicht gegen IvanHoe und Fire.
Die Differenzen von SWCR zu IPON und CEGT sind sehr gut auch wenn CEGT bei den 1Cores der letzten zwei Jahre auch deutlich weniger Partien hat als ich.

Und dennoch, dass sind alles so geringe Unterschiede und selbst wenn wir alle 2.000 Partien hätten wären diese Unterschiede noch erklärbar. Es würde mich also nicht wundern, wenn Stockfish 2.1.1 JA x64 sich in der SWCR auch bei 2.910 einsortiert.

Meine Testpartien spielte ich ohne Ponder ... um mehr Partien auf meinen beiden SWCR Test Maschinen auch Q9550 produzieren zu können.

Gruß
Frank

By Benno Hartwig Date 2011-06-05 21:44

[quote="Frank Quisinsky"]Meine Testpartien spielte ich ohne Ponder ... um mehr Partien auf meinen beiden SWCR Test Maschinen auch Q9550 produzieren zu können.[/quote]
Finde ich richtig. Die relativen Spielstärken wird dies (vermute ich mal ganz frech) kaum beeinflussen.

Für deine aktuellen Kandidaten Fire und BugChess präsentierst du auf deiner Site Tabellen die sagen, wie die Engines gegen einzelne andere Engines punkten konnten.
Finde ich irgendwo eine Datei, wo du solch eine Aufdröselung für alle bislang durchexerzierten Paarungen anbietest?
Ich würde halt gern ein wenig gucken, wie tendenziell die Punktausbeute aussieht, wenn es gegen gleichstarke, viel stärkere oder viel schwächere Gegner geht.
Und dein Material ist so umfangreich, dass Statistik da schon Spaß machen könnte.

Thanx und viele Grüße
Benno

By Frank Quisinsky Date 2011-06-06 17:51

Hallo Benno,

die ELOstat Files liegen als gesonderte Datei im Download Bereich (Statistik File).

Wie gesagt, wenn die beiden Spießroutenläufe durch sind werde ich die Datenbank updaten und natürlich auch dieses Statistik File.
Meine privaten Statistiken verändern sich natürlich laufend aufgrund der vielen Partien die täglich hinzu kommen.

Habe auch wenig Zeit meine 44 Excel Statistiken ständig zu aktualisieren.
Aber ich werde das mit mehr Zeit mal wieder machen und dann auch mal hochladen, hatte ich eh vor.

Ja, mit der Datenbank sind wirklich ohne Ende statistische Auswertungen möglich.
Das macht wirklich Spaß (Fantasie freien Lauf lassen) ist aber sehr zeitaufwendig.

Viel Spaß mit den Daten!

Gruß
Frank

By Thorsten Czub Date 2011-06-05 19:49

[quote="Frank Quisinsky"]
Thorsten sieht gerne Übergänge zum Endspiel, sonst würde er kaum mit so vielen IPPs spielen. Das Mittelspiel oder Königsangriffe sind ihm nicht so wichtig, sonst würde er z. B. mehr Versionen von Junior, Hannibal, Spark, Hiarcs, frühe Stockfish Versionen, auch Thinker einsetzen.

Zu Deiner Frage an Thorsten.
[/quote]

ich nehme an du meinst das ironisch, Frank.
junior ist mir zu schwach. und hiarcs hat auch schon mal mehr weniger abstand zur spitze gehabt.
shredder weigert sich nach der gewonnenen wm auf den markt zu kommen, mir völlig unverständlich sowas.

By Frank Quisinsky Date 2011-06-06 17:53

Hallo Thorsten,

wo würde Junior stehen wenn es die Fruit Sourcen nicht gegeben hätte.
Vermutlich unter den TOP-5 ... von über 600 verfügbaren Engines!

Zu schwach bei 2.760 ELO ist sicherlich ein wenig ironisch von Dir gemeint

Stefan arbeitet bekanntlich immer an mehreren Dingen gleichzeitig.
Er wird Gründe haben warum es noch nicht zu einem Release gekommen ist und ganz sicher ist der Hauptgrund nicht die Spielstärke von seinem Shredder.

Gruß
Frank

By Thorsten Czub Date 2011-06-07 00:15

[quote="Frank Quisinsky"]
Hallo Thorsten,

wo würde Junior stehen wenn es die Fruit Sourcen nicht gegeben hätte.
Vermutlich unter den TOP-5 ... von über 600 verfügbaren Engines!

keine ahnung. ein wenig philosophisch diese Frage.
es gibt die sourcen. Seit JAHREN.

Zitat:

Zu schwach bei 2.760 ELO ist sicherlich ein wenig ironisch von Dir gemeint

ja - war ein wenig trollend. gebe ich zu.

Zitat:

jedenfalls sehr obskur. wenn ich ne WM gewinnen wuerde, wuerde ich das programm danach vermarkten.

By Ingo Bauer Date 2011-06-04 14:44

Hallo Benno

[quote="Benno Hartwig"]

PS:
Ich verorte Fire 1.5 bestenfalls ganz knapp vor Stockfish 2.1.1, also in Rybka4-Nähe, und nach wie vor ein gutes Stück von Houdini 1.5a entfernt.
[/quote]

Wenn ich Robbolito 0.9 offiziell in meine Liste nehmen würde, würde das so aussehen:

RobboLito 0.9            2928   17   16  1400   73%  2757   35% 
Stockfish 2.1.1 JA       2928   13   13  2400   73%  2763   35%

Wenn du Recht haben solltest ist seit rund einem Jahr praktisch nichts passiert - ausser bei einem! Das veröffentlichen von Versionen in denen die Tabulatoren im Sourcecode von 4 auf 3 verkleinert wurden dient nur dazu Aufmerksamkeit zu erregen um dem eigenen Ego zu schmeicheln!
Warum man dem so viel Aufmerksamkeit widmet verstehe ich nicht und für mich wars das dann auch. Den besten Litto habe ich drin, warum sollte ich noch einen betrachten!

Gruß
Ingo

PS: Die hier veröffentlichte 150 Spiele-Liste ist im statistischen Sinne lustig. Unter den ersten 10 Engines sind 7 Littos (und ein halber) und 2 Stockfische, fertig:

01: Houdini_15_x64
02: Fire 1.5 xTreme x64
03: Fire_14_xTreme_beta_x64_PP
04: DeepSaros23c4-win32
05: Crab-x64_PGO
06: Stockfish-21-64-ja
07: Deep Rybka 4.1 x64
08: Critter_1.0_64bit
09: Fire_131_x64_KLO
10: Rybka 3_64

Statistische Inzucht plus eine nicht ausreichende Zahl an Spielen ... konzepttionel ist das eher "zweifelhaft".
http://en.wikipedia.org/wiki/Garbage_In,_Garbage_Out

By Frank Quisinsky Date 2011-06-04 14:52

Hi Ingo,

Robbolito habe ich auch getestet.
Bei mir waren es 2.902 nach 1.160 Partien. Hatte ja vor ca. 6 Monaten 5 dieser Engine Versionen wieder herausgenommen.
Insofern liegt der aktuelle IvanHoe B47cB 43 ELO über Robbolito, dass ist die messbare Realität, alles andere ist das was vielleicht einem am besten passt

Fire 1.31 und Robbolito sind im Grunde fast gleich.
Der von Dir aufgeführte war der letzte dieser Serie, danach kam Firebird und dann Fire aber hier wurden nur Optionen hinzugefügt. Es gab daher auch keinen Unterschied bei der Remisquote zwischen den Versionen und auch kaum bei den Einzelergebnissen.

Im Blitz sind die Versionen ca. 5-10 ELO besser.

Viele Grüße
Frank

By Michael Scheidl Date 2011-06-04 16:03

Zitat:

Den besten Litto habe ich drin, warum sollte ich noch einen betrachten!

Beim Kibitzen mit einer Engine habe ich im späten Endspiel gerne Fire genommen, wegen der TripleBases. Fire benutzt diese (Bitbases) sehr ausgiebig. Houdini hingegen greift erst sehr spät bzw. erst bei ganz wenigen Steinen auf die Gaviotas zu, obwohl ich die betr.Parameter justiert habe. D.h. für Analysen wo man das Gefühl hat, Endspieltables könnten einen bedeutenden Einfluß haben, finde ich Fire & Co fallweise eine gute Alternative zu Houdini.

Außerdem habe ich mitunter mit Fire gekibitzt wenn Houdini spielte, aber das nur weil ich ungern mit derselben Engine kibitze die spielt.

Hier ein Turmendspiel von TCEC mit Mehr-/Freibauer auf Seiten Houdinis. Beim 58. Zug bewerteten die Engines -1,85 bzw. 1,12 zu Gunsten von Schwarz, aber Ivanhoe führte die Partie zum Remis. Allerdings muß man auch feststellen, daß Houdinis Bewertung viel früher auf 0,01 kam als Ivanhoes...

Event:

Ort:

Datum:

Weiss:

Schwarz:

Ergebnis

Board

[Event "TCEC - Division I - S1"]
[Site "http://www.tcec-chess.org"]
[Date "2011.01.19"]
[Round "13.4"]
[White "Ivanhoe B47cB"]
[Black "Houdini 1.5"]
[Result "1/2-1/2"]
[ECO "A00"]
[PlyCount "210"]
[EventDate "2011.??.??"]

1. g3 e5 2. d3 d5 3. Nf3 Nc6 4. Bg2 Nf6 5. O-O Be7 6. Nbd2 O-O 7. e4 Re8 8. c3
dxe4 9. dxe4 a5 10. Qe2 b6 11. Nc4 Bc5 12. Bd2 Qe7 13. b3 Ba6 14. Nh4 b5 15.
Nf5 Qe6 16. Nce3 b4 17. c4 Nd4 18. Qd3 Rad8 19. Nxd4 Bxd4 20. Rad1 Ng4 21. Bc1
Qc8 22. Qe2 Nxe3 23. Bxe3 Bb7 24. f4 f6 25. fxe5 Bxe3+ 26. Qxe3 Rxe5 27. Qa7
Rde8 28. Rf4 Bc6 29. Rd2 h6 30. h4 R8e7 31. Kh2 Qe8 32. Qa6 Kh7 33. Qa7 Rd7 34.
Rxd7 Qxd7 35. Qf2 Qd3 36. Qa7 Qd2 37. Rf2 Qd6 38. Qe3 Qe6 39. Qa7 Qe7 40. Qa6
Qc5 41. Rf4 Bd7 42. Rf1 Be6 43. Qb7 Qd6 44. Rf2 Qd4 45. Rf1 Kg6 46. Qxc7 Qd2
47. Qb8 Qxa2 48. Rf3 Bg4 49. Rf4 h5 50. Qd8 Be6 51. Rf3 a4 52. Qe8+ Bf7 53.
Qxa4 Qxa4 54. bxa4 Bxc4 55. Bf1 Bxf1 56. Rxf1 Ra5 57. Rf5 Rxa4 58. Rb5 Ra2+ 59.
Kh3 Rb2 60. e5 fxe5 61. Rxe5 Rb1 62. Kh2 b3 63. Rg5+ Kh6 64. g4 hxg4 65. Rxg4
g6 66. Rb4 Kg7 67. Kg3 b2 68. Rb7+ Kf6 69. Kg2 Ke6 70. Rb6+ Kf5 71. Rb5+ Ke4
72. Rb8 Kd3 73. Rd8+ Kc3 74. Rc8+ Kb3 75. Rb8+ Kc4 76. Rc8+ Kd5 77. Rd8+ Ke5
78. Rb8 Kd4 79. Rb3 Kc4 80. Rb8 Kc5 81. Rc8+ Kd4 82. Rd8+ Ke3 83. Rb8 Ke4 84.
Rb6 Kd5 85. Rb4 Kd6 86. Rb5 Kc6 87. Rb3 Kc7 88. Rc3+ Kb6 89. Rb3+ Kc6 90. Rb8
Kd7 91. Rb6 Kc7 92. Rb5 Kd6 93. Rb6+ Kd7 94. Rb7+ Kd8 95. Rb8+ Ke7 96. Rb6 Kf7
97. Rb4 g5 98. Rb7+ Kg6 99. hxg5 Ra1 100. Rxb2 Kxg5 101. Rc2 Ra3 102. Rc1 Rb3
103. Ra1 Rd3 104. Rb1 Rc3 105. Ra1 Kf4 1/2-1/2

By thorsten czub Date 2011-06-04 18:44

aber es sortiert sich richtig. nachdem klar ist
das 1.5 staerker als 1.4 und dieser staerker
1.32,kann man die doppelten ja wieder herausnehmen.
geht ja mit arena ganz einfach.
auch die komodos sortieren sich richtig.
ihr mit eurem mathematischen anspruch
verlasst euch zu sehr auf zahlen.

By Frank Quisinsky Date 2011-06-04 20:24 Edited 2011-06-04 20:28

Hi Thorsten,

wenn Du eine durchschnittliche Differenz von ca. 30 bei 150 Partien hast, kann sich da nichts richtig einsortieren. Dafür liegen viele zu eng beieinander. Wenn Du zum Testen immer die gleichen Engines, beruhend auf den gleichen Sourcen einsetzt genauso.

Spielst Du ...
4000x Rybka - IvanHoe hast Du eine ELO Abweichung von ca. 60.
Nicht wie Dir die ErrorBar vorgibt von ca. 10

Spielst Du nun mit 15 Engines und davon beruhen 12 auf gleiche Sourcen, kannst Du 150 Partien spielen ... ja oder 4.000 Partien spielen ... auch ja!
Kommt auf das gleiche raus.

Würfeln macht mehr Spaß !!

Eine Ratingliste sollte genaue Werte ausgeben bzw. es sollte versucht werden das genaue Werte ausgegeben werden, sonst macht eine Ratingliste keinen Sinn. Ob diese überhaupt Sinn macht ... OK, auch so eine Frage

Du hast mal vor ca. 10 Jahren geschrieben ...
Du benötigst nur eine Partie mit längeren Bedenkzeiten um eine Engine beurteilen zu können.

Da ist schon etwas dran ...
Vielleicht nicht eine aber 10 oder 20.
Allerdings musst Du dafür heute schon ein SUPER GM sein, früher war das in der Tag sehr viel einfacher möglich. Fehler sind schneller aufgefallen.

Heute fallen uns beim Zusehen Fehler meist nur dann auf wenn der Gegner, also die andere Engines diesen eiskalt ausnutzt. Wäre es anders hätten wir alle 2.500 ELO oder mehr. Würde es keine Stellungsbewertung geben ... HILFE

Kein Wunder das niemand Thinker mag

Gruß
Frank

By Thorsten Czub Date 2011-06-04 21:47

[quote="Frank Quisinsky"]
Hi Thorsten,

wenn Du eine durchschnittliche Differenz von ca. 30 bei 150 Partien hast, kann sich da nichts richtig einsortieren. Dafür liegen viele zu eng beieinander.

[/quote]

Tut es aber. Schau dir die Tabelle doch an.

By Benno Hartwig Date 2011-06-04 18:48 Edited 2011-06-04 18:51

[quote="Ingo Bauer"]Das veröffentlichen von Versionen in denen die Tabulatoren im Sourcecode von 4 auf 3 verkleinert wurden dient nur dazu Aufmerksamkeit zu erregen um dem eigenen Ego zu schmeicheln![/quote]Tatsächlich aber werden die Sourcen aufgeräumt. Gerade bei 2.1 musste man sich erst ein wenig wieder zurecht finden. Meine Entwicklungsumgebung läuft noch unter XP, da war dann manuelles Eingreifen sowieso notwendig (bei älteren Versionen nicht). Das hängt zusammen mit nun in Stockfish standardmäßig genutzten Betriebssystemfeatures, die erst ab Vista zur Verfügung stehen.

Jeder, der über Jahre eine Source entwickelte, wird wissen, wie die Sourcen hinsichtlich ihrer Wartbarkeit permanent schlechter werden, und er wird wissen, dass Phasen der Konsolidierung immer mal wieder notwendig sind. Und das passsiert bei Stockfish (zugegeben: seit einigen Versionen) gegenwärtig, und es ist auch wichtig (und hat weniger mit Ego-Schmeicheln als mit Professionalität zu tun.)
Falls du fragen möchtest "Warum werden diese nur aufgeräumten Sourcen denn veröffentlicht?" dann lass dir sagen, dass z.B. ich gern gerade diese aufgeräumten Sourcen haben möchte.
Allerdings würde ich jetzt auch gern mal wieder einen Spielstärkesprung dieser Engine erleben.
Aber man darf andererseits keinem Sportler (oder Entwickler) auf Top-Niveau böse sein, dass er nicht noch besser ist!

[quote="Ingo Bauer"]Warum man dem so viel Aufmerksamkeit widmet verstehe ich nicht...[/quote]
Aufmerksamkeit? Wo wird den letzten oder gerade der letzten Version denn tatsächlich besondere Aufmerksamkeit gewidmet? Hier? in anderen Foren? Ratinglisten?
Die Ratinglistenbetreiber haben eigentlich nur sehr gebremstes Interesse. Dein nicht-Verstehen verstehe ich nicht.

Benno

By Ingo Bauer Date 2011-06-04 19:02

Hallo Benno

Da hast du mich komplett missverstanden!

Mit den geänderten Tabs meinte ich nicht Stockfish. Bei denen ist das alles rechtschaffend und die wollen auch keine Lorbeeren einheimsen die sie nicht verdienen. Ich meinte ausschließlich diejenigen, die seit rund einem Jahr die Littosourcen durchkauen ohne wirklich etwas zu verbessern! Falls das missverständlich war: Sorry!

Und mit "Aufmerksamkeit" meinte ich auch die obigen "Neucompiler" bei denen ich Zweifel habe das sie wirklich verstanden haben was sie tun.

Nochmal: Stockfish ist bei meinem genannten Bsp keinesfalls gemeint gewesen! Was jemand mit siene EIGENEN Sourcen macht sei ihm unbenommen!!!
Wenn jemand aber fremde Sourcen von links nach rechts kopiert ohne das sich wirklich etwas ändert, verstehe ich den "Hype" nicht mehr. Nach einem Jahr sollte die Gemeinde doch etwas gelernt haben ... !?

Gruß
Ingo

By Thomas Mayer (Quark) Date 2011-06-04 19:28

Aber Ingo,

wie kann Dich das denn nicht begeistern ? Fire hat jetzt die Änderungen der neuesten Ivanhoes drin, und - spielt jetzt auch genauso stark. Das ist doch wunderbar - ein Wunder gar !

Gruß, Thomas

By Frank Quisinsky Date 2011-06-04 20:30

Hi Thomas,

so ganz kann das nicht sein!
10% Unterschied in der Remisquote ist schon viel Holz.
Fire scheint von den ganzen IPPs die taktisch stärkste zu sein.
Insofern gar interessanter als IvanHoe aber warten wir mal die ganzen SWCR Partien ab, dann können mehr Analysen gemacht werden und die Sache wird offenkundiger.

Von der Spielstärke ist was dran an Deiner Aussage, nicht vom Spielstil.

Gruß
Frank

By Ingo Bauer Date 2011-06-04 21:34 Edited 2011-06-04 21:40

Hallo Thomas,

Ich sehe die Ironie in deinem Posting will aber trotzdem Ernst antworten.

Dise verwunderlich, wunderbaren Änderungen der Ivans, Feuers und Samose sind doch ein Witz! Da sitzen seit über einem Jahr die "Fans" da und schauen wie die Schlange auf die Flöte nach jeder neuen Version - sorry neuem Compile. Getan hat sich de fakto nichts, was ausserhalb des statistischen Rauschens liegt!

Der Einzige der offensichtlich etwas geschafft hat ist Houdart. Sehend wie die anderen (wie schon gesagt) Tab-Breiten im Sourcecode ändern (Sprich. die Bewertungen für vorgerückte Bauern (o.ä) um ein paar Hunderstel rauf oder runtersetzen), scheint mir die Tatsache das RH seinen Code geschlossen hat (legal!, wenngleich mit Geschmäckle) spätestens jetzt ein Segen! Es spart mir x-faches testen.

Ansonsten: Ich hoffe das die Computerschächer, auch die Nichtprogrammierer, irgendwann etwas lernen - muß aber sagen das ich skeptisch bin, deswegen auch meine Zurückhaltung in letzter Zeit!

Kurz: Es k.... mich an im Moment!

Gruß
Ingo

By Frank Quisinsky Date 2011-06-04 21:41

Ingo,

wir werden uns daran gewöhnen müssen das Programmierer auf die freien Sourcen zurückgreifen, dies und jenes ändern, hinzufügen. Mal mit weniger oder mehr Erfolg. Es macht keinen Sinn sich darüber Gedanken zu machen. Seinerzeit war es Crafty und heute sind es andere Sourcen. Sind wir ehrlich, nur die Lust müssen wir uns deshalb nicht nehmen lassen. Wenn viele Engines getestet werden gibt es genug Abwechslung und politische Gründe aufzuziehen warum Engine A oder B nicht macht auch keinen Sinn. Macht mehr Sinn zu sagen ... entweder ich test die alle oder lasse es sein oder mache das was ich für richtig halte. Egal!

Für mich gilt:
Ich teste einfach alles, gehe jetzt mehr auf die Wünsche der Beobachter ein und lasse eigene Sichtweisen außen vor, denn ich habe eh genug Spass weil ich versuche alles zu testen und meine Favoriten mithin enthalten sind.

Gegen welche Engine dann ein Hannibal, Junior, Shredder oder Spark spielt ist mir im Grunde beim Zusehen auch egal.

Gruß
Frank

By Benno Hartwig Date 2011-06-05 14:14

[quote="Frank Quisinsky"]wir werden uns daran gewöhnen müssen das Programmierer auf die freien Sourcen zurückgreifen, dies und jenes ändern, hinzufügen.[/quote]Ich finde es aber durchaus begrüßenswert, dass manch Bastler, Möchtegern- oder auch tatsächliches Genie mit den Sourcen herumprobiert. Ich finde das Super.
Allerdings braucht dann nicht alles veröffentlicht zu werden.
Das "und was teste ich nun?"-Problem haben dann andere zu lösen.

Benno

By Frank Quisinsky Date 2011-06-04 19:38

Ingo,

alles was an IPP kam (so auch Houdini) wurde von den Sourcen von Norman erstellt. Das heißt alle benutzen seine Vorarbeit nach den technisch schwachen Igorit Sourcen. Das sollte nicht in Vergessenheit geraten. Ob man Norman mag oder nicht hat mit seinem Handlen nichts zu tun. Und je weiter Du zürückgehst desto schneller landest Du bei Fruit. Wäre Fruit nicht könntest Du wahrscheinlich die kompletten TOP-6 aus Deiner Liste streichen. Shredder wäre nach wie vor die Nummer 1.

Gruß
Frank

By Ingo Bauer Date 2011-06-04 21:38

Ja Frank,

Ich tue es nicht gerne, aber wahrscheinlich hast du Recht!

Was in der Rückblende natürlich die Frage aufwirft ob Open-Source wirklich so ein Segen ist?!
Nicht weil Shredder dann noch erster wäre (Das ist pure Spekulation), sondern weil Open-Source, zumindest im Schach, offensichtlich 'Gleichmacherei' befördert! Ich sehne mich nach den Zeiten zurück in denen sich Engines noch wirklich unterschieden!

Gruß
Ingo

By Frank Quisinsky Date 2011-06-05 20:45

Hallo Ingo,

also ich versuchte zumindest bei Frank's Chess Page ein wenig zu manipolieren. Nicht zu viele Updates oder herausfinden was offensichtlich kopiert ist. Mir war es klar, dass Winboard explodieren wird, das weitere Protokolle folgen werden. MCS war ja nicht wirklich gut aber ein erster guter Versuch. Heute haben wir mehr als 600 Engines und das nicht immer 600x das Rad neu erfunden wurde sollte auch klar sein. Insofern heute eine schwierige Situation. Die TOPs sind derartig stark, dass wir deren Stärken und Schwächen kaum ausmachen können. Gelingt uns vielleicht hier und dort wenn wir Statistiken aufgrund der Masse an Partien erstellen. Dann gezielter suchen. Hier steckt noch irgendwo ein Reiz. Besondere Stärken und auch Schwächen und die Engine hat ein Gesicht. Dann werden auch die Massen angezogen, eine Engine wird bekannter und bekannter ... ist der Durchbruch mal erreicht.

Aus meiner Sichtweise hat Open Source mehr Nachteile als Vorteile. Seinerzeit mehr Vorteile, denn die Anzahl an Engine Programmierer nahm rapide zu und das alles führte zum Durchbruch der Kompatibilitäten. Den Kommerziellen war das natürlich gar nicht Recht denn langfristig sorgt das für Einbußen beim Gewinn. Sicherlich aus diesem Grund wurde das auch alles sehr lange blockiert. Meine Aktivitäten seinerzeit wurden gar sehr massiv gestört. Aber lassen wird das, ist alles Geschichte.

Heute ein Überangebot und viel mehr Aktivitäten als früher. Computerschach splittet sich auf, nicht zuletzt wegen den Server oder auch Fernschach. Durch Computerschach wird das fast tote Fernschach wieder belebt. Ja, ja ...

Ich schrieb es Dir ja mal per eMail. Seinerzeit testete ich die TOP-20 und 8 der TOP-20 wären aus meiner Liste gestrichen wurden, sofern ich rein privat ohne Veröffentlichung testen würde. Muss dann keine 4 Programme haben, die im Grunde die gleichen Stärken und Schwächen haben.

Was solls!
Mittlerweile ziehe ich die Liste einfach nur noch durch. Wäre schade das alles einzustellen, zumal ich sehr weit bin und einen Stand mit einer eigenen Ratingliste erreicht habe den ich vorher noch nie hatte. Überlegt habe ich auch schon die SWCR einzustellen aber ich schiebe das immer weiter auf und hoffe, dass vielleicht irgendwann die SWCR dann mal von anderen weitergeführt wird. Wäre schade wenn das alles eingestampft werden würde. Sicherlich lasse ich nicht 10 Jahre lang an dieser Liste spielen. Der Reiz wird weniger und vor allem ... ich kann nicht mehr so lange intensiv etwas am PC machen oder stundenlang zusehen. Wir werden heit älter ...

Gruß
Frank

By Jörg Oster Date 2011-06-05 21:32

[quote="Frank Quisinsky"]
Ingo,

alles was an IPP kam (so auch Houdini) wurde von den Sourcen von Norman erstellt. Das heißt alle benutzen seine Vorarbeit nach den technisch schwachen Igorit Sourcen.
[/quote]

Hallo Frank,

woher hast Du das denn? Kann man das irgendwo nachlesen?

Im Ernst, das wäre völlig neu für mich und nach allem, was ich von und über 'kranium' in verschiedenen Foren gelesen habe, kaum zu glauben.
Ich lasse mich aber gerne eines Besseren belehren.

Gruß,
Jörg

By Frank Quisinsky Date 2011-06-06 17:57

Hallo Jörg,

Du musste einfach ein wenig nachlesen.
Sehr interessant ist zum Beispiel der Horror Thread zu Fabien in Talkchess.

Auch in diesem Forum wirst du viele Informationen hierzu finden.

Robbolite / Robbolito / Firebird / Fire / Ivanhoe
Sind alles Sourcen die von Norman kommen bzw. von Ihm versucht wurden umzuschreiben.

Houdini beruht auf eine ältere IvanHoe Version.

Die vier Personen die IvanHoe lange Zeit kompiliert haben nutzen auch die Sourcen von Norman.
Weiß jetzt ehrlich gesagt nicht, welche Informationen Du hast aber vielleicht möchtest Du mich ja mit Deinen Erkenntnissen beglücken.
Wobei mich das ehrlich gesagt heute nicht mehr so sehr interessiert.

Viele Grüße
Frank

By Benno Hartwig Date 2011-06-04 22:36

[quote="Ingo Bauer"]Da hast du mich komplett missverstanden![/quote]Sorry, ja ich hatte dich falsch verstanden.
Benno

By Stefan Pohl Date 2011-06-06 06:49

[quote="Ingo Bauer"]
Ich meinte ausschließlich diejenigen, die seit rund einem Jahr die Littosourcen durchkauen ohne wirklich etwas zu verbessern!
[/quote]

Also wirklich Ingo, diese Behauptung ist absolut realitätsfremd. Wie immer man zu der gesamten Fruit, Rybka, Robbollito, Ippolit-Problematik stehen mag ist eine Sache. Aber daß Ivanhoe B47cB deutlich stärker ist als fühe Ivans, frühe Fires oder gar der Ur-Robbolito, ist eine Tatsache. Von Laufstabilität und Zeitmanagement gar nicht zu reden.
Ich habe viele Ivans getestet (seit den ersten Versionen) und kann das beurteilen. Ganz davon abgesehen soll doch bei Ivanhoe und Co alles mit einem illegalem Rybka3-Cloning begonnen haben. Ob das stimmt, kann und will ich nicht beurteilen (es spricht m.E. aber einiges dafür). Aber nehmen wir doch mal an es stimmt und schauen in die SWCR-Liste:
Rybka 3 hat dort 2904 Elo und Ivanhoe B47cB 2945. Das sind +41 Elo.
Wenn das keine Verbesserung ist, dann leben wir in verschiedenen Computerschach-Welten.

Gruß - Stefan

By Ingo Bauer Date 2011-06-06 09:19

Hallo Stefan,

Nein ich will dir wiedersprechen, wir haben keinen Fortschritt.

Die Fires, Samose oder Ivans liegen - sagen wir mal 20 Elo - vor dem letzten Robo 0.9. Jedes neue Release bewegt sich mal ein bischen rauf und dann wieder runter, und das seit einem Jahr. De fakto passiert nichts weil diese Versionen genau da sind wo sie auch vor einem Jahr waren. Das an sich ist nichts schlimmes, das man für diesen Nullfortschritt aber im Wochentakt Versionen veröffentlichen muß ...?

Auch ich teste ab und zu mal eine dieser Versionen und bin bis jetzt immer bestätigt worden!

Gruß
Ingo