Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Neue Mini-Blitzrangliste
- - By Stefan Pohl Date 2011-12-03 09:21
Hallo zusammen,

ich plane, eine eigene Mini-Rangliste zu erstellen, die nur die absoluten Top-Engines beinhalten soll, da ich leider nicht die Ressourcen zur Verfügung habe, alle - auch schwächere - Engines zu berücksichtigen und mir das auch zuviel Arbeit ist, weil dann ja ständig irgendeine neue Version zu testen ist. Darüberhinaus finde ich es auch nur mäßig interessant, ob Houdini einen Junior, Shredder oder Hiarcs nun mit 80%,85% oder 90% unterpflügt. Um dennoch eine große Partieanzahl gegen relativ wenige Gegner durchführen zu können, werden pro Einzelbegegnung 300 Partien absolviert, indem 150 von mir handverlesene Stellungen aus der ausgezeichneten Frank Q. Datenbank als Vorgabe zum Einsatz kommen. Und zwar nur praxisnahe Eröffnungen, die Engine-Bücher auch wirklich spielen würden. Also kein Fränzösisch, Holländisch, CaroKann, Aljechin etc. etc.
Gespielt wird in schnellem Blitztempo (30 Sekunden Basiszeit und 400ms FischerBonus) mit je einem Core (ohne Pondern und ohne Tablebases - letzteres ist bei diesem schnellen Spieltempo ggf. ergebnisverzerrend, da die Zugriffe selbst auf Flash-Memory nicht schnell genug sind) unter der sehr gut und stabil laufenden LittleBlitzer-GUI mit je 128MB Hash. Gespielt wird bis zum Matt, Remis wird von der GUI erst nach 200 Zügen gegeben.
Diese Zeiteinteilung (s.o.) bedeutet in der Praxis, daß die Engines pro Partie ca. 1 Minute Rechenzeit verbrauchen, ergo dauert eine Partie ca. 2 Minuten, sodaß bei 4 parallel laufenden Partien (Quadcore PC) im Schnitt alle 30 Sekunden eine Partie beendet wird. Dadurch schafft mein einsamer PC 120 Partien pro Stunde.
Die Hardware ist ein 2.83GHz Intel-QuadCore (mit Vista 64bit), wie er auch in der SWCR zum Einsatz kommt. Houdini schafft auf einem Core auf dieser Hardware gut 2 Mio Knoten/s.
Allerdings plane ich 2012 wahrscheinlich eine neue Hardware anzuschaffen, dann würde die Rangliste mit den dann besten Versionen der besten Engines neu aufgebaut werden, ohne ältere Versionen erneut einzubauen. Denn auch veraltete Engineversionen finde ich nur mäßig interessant.

Hier nun die allererste Version der TopEngineBlitz-Liste (TEB-Liste) (erstellt mit bayeselo):


Rank Name                       Elo    +    - games score oppo. draws
   1 Houdini 2.0c x64          3000   11   11  2100   67%  2890   37%
   2 Critter 1.2 64-bit        2919   11   11  2100   53%  2902   45%
   3 Ivanhoe B46fa x64         2919   11   11  2100   53%  2902   48%
   4 Fire 2.2+ xTreme GH x64   2907   11   11  2100   51%  2904   49%
   5 Rybka 4.1                 2889   11   11  2100   47%  2906   42%
   6 Komodo64 3                2877   11   11  2100   45%  2908   41%
   7 Stockfish 111026 64bit    2876   12   12  1800   43%  2919   42%
   8 Stockfish 2.1.1 JA 64bit  2844   12   12  1800   39%  2919   40%



Da verschiedene Versionen der gleichen Engine nicht gegeneinander spielen sollen, haben beide Stockfische je 300 Partien weniger absolviert. Gefixt wurden die Elozahlen an Houdini 2.0c x64, der auf 3000 Elo gesetzt wurde. Wie in jeder Rangliste sind aber natürlich die Elo-Abstände und nicht die absoluten Werte interessant.

Houdini blitzt in einer eigenen Liga. Ivanhoe hat mittlerweile Critter 1.2-Niveau erreicht und Rybka 4.1 um 30 Punkte überholt - nicht schlecht für eine Engine, die ja angeblich seit Jahren stagniert - nicht wahr Ingo?!? Die inoffizielle Stockfishversion von PeterPan ist auch hier signifikant stärker als die offizielle Version: +32 Elo sind nicht von schlechten Eltern.

Grüße an alle - Stefan
Parent - - By Ingo Bauer Date 2011-12-03 09:50 Edited 2011-12-03 09:55
Moin,

[quote="Stefan Pohl"]
... für eine Engine, die ja angeblich seit Jahren stagniert - nicht wahr Ingo?!? ...
[/quote]

Ja, das tun sie! Schau mal kurz bei Frank rein wie viele Elo die Neucompilierer in 2 Jahren geschaft haben. 23 (Wie viele Elo pro Monat und ist das evtl zu einem gut Teil die bessere Beherschung der Compileroptionen?)!
Nur weil du unter Bedinungen testest die schon so kurz sind das keine echte Rangliste mehr zustande kommt (wenngleich man so natürlich testen kann ob EINE Engine sich verbessert hat, für Entwickler ist das eine valide Methode - man beachte den Unterschied) und dann auch noch Bedinungen gewählt hast die den Littos besonders zu gute kommen heißt das nicht das sie deswegen wirklich besser geworden sind, zumal dir zusätzlich auch noch die Referenzengine (R0.9) für deine "Robooptimierten" Bedinungen (die andere Engines schlechter da stehen läßt) fehlt. Bedinungen, bei denen die Robos womöglich eine größere Spreitzung zeigen als bei normalem Schach.
Mehr gibts zu dem Konzept eigentlich nicht zu sagen.

Ansonsten. Was ich gesagt habe gilt für die Vergangenheit und heißt nicht das nicht irgendwann jemand mal einen Sprung machen kann (siehe Houdini!). In den letzten zwei Jahren jedenfalls haben sie nichts Erwähnenswertes geleistet (Wobei sie uneinholbar in Guiness Buch gehören für die größte Menge an produzierter heißer Luft - aka Aufregung bei einigen Computerschachfreaks).

Gruß
Ingo
Parent - - By Stefan Pohl Date 2011-12-03 10:31
[quote="Ingo Bauer"]
Moin,

[quote="Stefan Pohl"]
... für eine Engine, die ja angeblich seit Jahren stagniert - nicht wahr Ingo?!? ...
[/quote]

Ja, das tun sie! Schau mal kurz bei Frank rein
[/quote]

Eine gute Idee. Damit sollten wir dann aber mal warten, bis die aktuelle Version B46fa dort auch auftaucht. Die letzte Version, die dort erscheint ist B47cB, welche schon recht alt ist und auf Fire 2.2-Niveau liegt. Die neue Version sollte nach meinen Resultaten ca. 15-20 Elo besser sein und ich bin der einzige, der sie bisher ernsthaft getestet hat. Und der von dir so gerne zitierte Referenz-Robbolito 0.09 liegt in der SWCR z.Zt. 22 Elo hinter dem alten Ivan B47cB und Fire 2.2 und würde dann ca. 40 Elo hinten liegen. Natürlich sind das auf die Länge der Zeit gerechnet keine großen Zuwächse, aber eben auch keine Stagnation.
Und auch dein ständiges Über-einen-Kamm scheren von Ivan, Fire, Houdini und Robbo als Littos ist einfach unangebracht, weil überholt, und zeigt nur, daß du dich mit den aktuellen Fire und Ivanhoe-Versionen noch nie wirklich beschäftigt hast. Da schauen wir doch am besten mal gleich in die SWCR und lesen was Frank dazu zu sagen hat, der sich mit diesen Engines nämlich wirklich ernsthaft auseinandergesetzt hat (Aktueller Eintrag 339):
"Leider testen die anderen Ratinglistenbetreiber weder IvanHoe noch Fire was ich sehr schade finde. Die beiden Programme gehen vom Spielstil seit geraumer Zeit auseinander. IvanHoe spielt positioneller, mehr auf Remis und ist sehr schwierig zu bezwingen. Fire spielt taktischer ein wenig wendiger. Beide Programme liegen bei den zuletzt getesteten Versionen auf einem Level. IvanHoe spielt in der Königssicherheit ausgesprochen erfolgreich, steht dort in meinen Statistiken ganz weit oben, glaube gar auf Platz 2." Zitatende.
Meine Meinung ist dazu folgende: Fire sucht völlig anders (viel selektiver und taktisch orientierter) als Ivanhoe und produziert somit völlig andere Hauptvarianten und auch eine ganz andere Spielweise als Ivanhoe. Und Houdini spielt wieder anders (und stärker) - nämlich sehr stark im späten Mittelspiel/frühen Endspiel, was wiederum eine klare Schwäche von Ivanhoe ist, besonders ohne TripleBase-Zugriff.
Und daß ich die Littos bevorteile stimmt nun doppelt nicht: 1. Weil es - wie eben oben ausgeführt - die Littos gar nicht mehr gibt und 2. Fire und Ivanhoe ohne ihren superschnellen TripleBasezugriff getestet wurden, der ja schneller und besser ist als der klassische TB-Zugriff über das Flashmemory, den Rybka und Houdini und Critter praktizieren (die TripleBases liegen komplett im RAM). Und gerade dieser TripleBase-Zugriff mildert eine klare Ivanhoe-Schwäche ab (s.o.). Ivanhoe zumindest wurde also bei meiner Testmethodik eher benach- als bevorteilt!

Gruß - Stefan
Parent - - By Ingo Bauer Date 2011-12-03 11:24 Edited 2011-12-03 11:28
[quote="Stefan Pohl"]
...zeigt nur, daß du dich mit den aktuellen Fire und Ivanhoe-Versionen noch nie wirklich beschäftigt hast.
[/quote]

Da irrst du und hast du recht zugleich. Du irrst, weil der letzte mit dem ich mich beschäftigte Fire 2.2 war, der bei deinem Erscheinen in den Foren von den Robo-Fanboys (Kleines Wortspiel ) als der neue Überflieger gefeiert wurde und doch nichts gebracht hat (und das ist kein halbes Jahr her); du hast Recht weil ich danach zugegebenermaßen, also ca seit einem halben Jahr, die Beschäftigung mit diesen 'SettingCompilierern" als irrelevant erachte - bis sich irgendwo tatsächlich etwas tut.
(Ich wollte gerade das exakte Releasedatum nachsehen und sehe das Fire nicht mehr zum Download bereit steht, es scheint der Compiler eingesehen das er mit  Settings compilieren nicht wirklich weiter kommt)

[quote="Stefan Pohl"]
... (die TripleBases liegen komplett im RAM). Und gerade dieser TripleBase-Zugriff mildert eine klare Ivanhoe-Schwäche ab ...
[/quote]

Ich meinte mehr die ultrakurze Bedenkzeit die klar einen gewissen Enginetypus bevorzugt. Das mit den Bases ist aber eine interesante Sache. Lass doch deine beste Engine mit 4 Steiner Bases einfließen. Bei mir, hat sich mit 4 Steinern Tbs/Sbases wenn ich die aus Versehen mal nicht eingebunden hatte und danach die Runde mit den Bases wiederholt habe keinerlei Unterschied gezeigt (Houdini 2.0 z.B) und das obwohl selbst die 4 Steiner TBs bei 64MB Cache nach wenigen Zugriffen komplett im Cache (RAM) liegen, die Tbs also praktisch wie Bitbases funktionieren, die Engine demnach, wie auch in deinem Fall mit Bitbases, also keineswegs behindert wird. Bei deinen ultrakurzen Zeiten solltest du das aber wirklich nur mit Bases versuchen. Das Laden der wenigen 4 Steiner Tbs würde tatsächlich schon einen erkläglichen Teil deiner Bedenkzeit fressen.

Gruß
Ingo
Parent - By Michael Scheidl Date 2011-12-03 12:50
Frühere Robbos (etc.) hatten ja diese "Move on Ponderhit"-Option. Bei einigen, allerdings unsystematischen praktischen Versuchen im Maschinenraum hatte ich davon einen guten Eindruck gewonnen, zumindest gegen Rybka und mit der Einstellung "sometimes". Robbo erarbeitete sich typischerweise in 3m+0s einen Zeitvorteil, weil er öfter Sofortantworten auf Pondertreffer ausspuckte. - In der Version ...946f finde ich diese Option nicht mehr, dafür zahlreiche andere, etwas kryptische Optionen die in ihrer Gesamtheit bei mir wieder einmal nicht auf den Bildschirm passen.

Langer Rede kurzer Sinn, falls die Robbos/Ivans diese Eigenschaft noch haben, wäre ponder off für sie m.E. tendenziell ungünstiger.

Die Triplebases gefallen mir auch, obwohl ich mich mit den 3+4-Steinern begnüge, wie bei den Shredderbases.

Betreffs Tablebases wie z.B. Nalimovs muß man nicht unbedingt die Entscheidung zwischen 3+4ern oder allen 3+4+5ern treffen. Ich vermeide seit jeher den großen Datenballast der kompletten Fünfer, habe aber folgende in sich komplette, besonders wichtige Fünfer-Konstellationen in Gebrauch:

KR#-KR, KQ#-KQ und spaßhalber noch KNN-K#.

"#" = PNBRQ

Das sind 3 x 10 Dateien mit ca. 660 MB.

Übrigens, wer Fire 2.2 hat und gern benutzt, sollte sich die Engine gut aufheben: Sie ist nicht mehr downloadbar (zumindest nicht von der Chesslogik-Seite).
Parent - - By Stefan Pohl Date 2011-12-03 13:14
[quote="Ingo Bauer"]

Ich meinte mehr die ultrakurze Bedenkzeit die klar einen gewissen Enginetypus bevorzugt.
[/quote]

Hallo Ingo,

so kurz ist das gar nicht. Houdart und andere Autoren testen noch mit teils erheblich (!) kürzeren Bedenkzeiten. Und was den Enginetypus angeht: An der Spitze ist heute m.E. jeder mit jedem irgendwie verwandt. Ich denke daher nicht, daß kurze Bedenkzeiten irgendeine Engine bevorteilen.

Gruß - Stefan
Parent - - By Ingo Bauer Date 2011-12-03 13:17
[quote="Stefan Pohl"]
...so kurz ist das gar nicht. Houdart und andere Autoren testen noch mit teils erheblich (!) kürzeren Bedenkzeiten. ...
[/quote]

Wie ich obenschon schrieb, eine Entwicklung, also das Festellen von Unterschieden von einer Version zur anderen, ist etwas komplett anderes als eine valide Rangliste!

Gruß
Ingo
Parent - By Stefan Pohl Date 2011-12-03 13:56
[quote="Ingo Bauer"]
[quote="Stefan Pohl"]
...so kurz ist das gar nicht. Houdart und andere Autoren testen noch mit teils erheblich (!) kürzeren Bedenkzeiten. ...
[/quote]

Wie ich obenschon schrieb, eine Entwicklung, also das Festellen von Unterschieden von einer Version zur anderen, ist etwas komplett anderes als eine valide Rangliste!

Gruß
Ingo
[/quote]

Ja, das hast du geschrieben, aber deswegen muß es ja noch lange nicht stimmen. Eine Rangliste ist eben nichts komplett anderes als das Feststellen von Unterschieden von einer Engine-Version zur anderen. Warum auch. Im Gegenteil: Eigentlich ist das ziemlich dasselbe, nur mit mehr Versionen. Besonders heutzutage in der Spitzengruppe, wo alle aus dem gleichen Gen/Ideen/Code-pool entsprungen sind.

Gruß - Stefan
Parent - By Frank Quisinsky Date 2011-12-03 13:42 Edited 2011-12-03 13:45
Es gibt ja auch die Houdini Fan Boys, Shredder Fan Boys
Die All Inclusive Fan Boys

Fire 1.31 startete mit ca. 2.900 ELO.
Dann gab es ca. ein Jahr keine neue Version.
Fire xTreme aktuell liegt be ca. 2.940 ELO.

Und immer wieder, ohne die Leistung von Norman Schmidt wären die IPP Codes nicht lesbar gewesen.
Es würde also heute gar kein Houdini geben. Würde es doch ... dann heit starten mit den Stockfish Sourcen!
Bei der Energie die hier an den Tag gelegt wird, wäre das auch nicht verwunderlich gewesen.

Und von daher ist es sehr wichtig, immer die Ausgangsengine in einer Liste zu haben.
Ansonsten schaut es merkwürdig aus, wenn dann andere die auf diesen Arbeiten beruhen alleine in einer Liste sind.

Hätte in der Tat etwas von FanBoys aber das will ich nicht unterstellen.

Dagegen spricht aber auch ...
Zu viele dieser Engines sind nicht gut.
Wobei ich auch sehe das alle, ob nun Houdini, Fire oder IvanHoe die gleiche entscheidende Stärke im späten Mittelspiel, frühen Endspiel haben, die mit Einsicht zu den hohen Ratings führen. Die haben aber auch Komodo, Stockfish, Critter und Rybka.

Und wenn wir jetzt mal ganz genau in die Ratinglisten schauen sehen wir folgendes:
So viele Angstgegner gibt es nicht für die ganzen TOP-40.

Hier und da mal eine Leistung von 20-30 ELO weniger als normal aber das hat dann bei mir eher was mit den "Nur" 40-Partien zu tun. Das gleichst sich dann mit mehreren Gegnern wieder aus.

Insofern, fast egal wie viele Stockfishe, Houdinis etc. spielen.
Es schaut nur nicht sehr schön für den Betrachter aus.

Zumindest rein von den Ergebnisse. Rein vom Partiematerial habe ich eine ganz andere Ansicht. Engine die unterschiedlich spielen bereichern die SWCR und sorgen für Genauigkeit in Detail. z. B. die krassen Einzelgänger hinsichtlich Spielstil wie Thinker, SmarThink, Junior, Hiarcs etc..

Gruß
Frank
Parent - - By Frank Quisinsky Date 2011-12-03 10:08 Edited 2011-12-03 10:16
Hallo Stefan,

viel Spass mit Deiner Ratingliste. Wahrscheinlich reicht auch diese Bedenkzeit aus um Unterschiede zwischen den Versionen festzustellen. Das ist z. B. auch ein beliebtes Testverfahren welches Programmierer gerne nutzen. Kürzlich schrieb ja erst Richard Vida dazu.

Hier noch eine kleine Information:
IvanHoe ist jetzt ca. 2 Jahre alt, die letzte von mir getestete Version ist ein Jahr alt. Wie ich es hier schon geschrieben habe, habe ich Izak (PeterPan) angeschrieben und bat um Kompilierung einer Version für einen Test den ich in 2 Wochen durchführe. Er möchte das tun und antwortete mir auch. Hier mal ein interressanter Kommentar aus seiner eMail:

Code:
Well i didn't create Ivanhoe,i just compile it and tweak it a little sometimes.So i cannot take the credit for that,just for the compiling.


Also, nach Chiron 1.1 w32 und Fritz 13 für die SWCR-64 spielt IvanHoe sowohl für die SWCR-32, also auch für die SWCR-64. Das hat Prio, egal ob ein Critter, Komodo oder Stockfish kommt, denn wie gesagt ... IvanHoe wurde schon länger von mir nicht mehr getestet.

Die von Dir getestete IvanHoe habe ich ich mit 400 Partien auf meinen Testsystemen getestet. ELO = 28 höher als IvanHoe B47cB x64. IvanHoe könnte also in der Tat Komodo, Critter und Rybka von den Plätzen vertreiben und hinter Houdini 2.0c x64 landen. Das wäre auch nicht so schwierig, denn die liegen alle sehr Nahe zusammen.

Für mich wäre interessant IvanHoe von diesem King... noch irgend etwas zu sehen (OpenChess Forum). Könntest Du diese IvanHoe Version auch mal testen? Vielleicht ist diese gar stärker als die von PeterPan. Ich bleibe aber bei den Comiles von PeterPan.

Viele Grüße
und wie gesagt ...
Viel Spass

Frank

Übrigens: Macht auch Sinn bei den TOP-7 zu bleiben oder auszubauen auf eine Gruppe darunter. Diese würde dann ca. bis Hannibal gehen, also ca. von Naum (2.835 ELO) bis Hannibal (ca. 2750 ELO).

Dann würden dazu kommen:
01. Naum
02. Chiron
03. Fritz
04. Shredder
05. GullChess
06. Sjeng
07. Spike
08. Protector
09. Junior
10. Spark
11. Hiarcs
12. Hannibal

Die Verfolger der TOP-7!

Problematisch ist der größere ELO-Abstand der Verfolger.
Interessant das hier die Programme drin sind die fantastisches Schach spielen, wie z. B. Spark, Hiarcs, Junior, Hannibal und Chiron. Anders Schach als die TOP-7.
Parent - - By Stefan Pohl Date 2011-12-03 10:41
[quote="Frank Quisinsky"]

IvanHoe ist jetzt ca. 2 Jahre alt, die letzte von mir getestete Version ist ein Jahr alt. Wie ich es hier schon geschrieben habe, habe ich Izak (PeterPan) angeschrieben und bat um Kompilierung einer Version für einen Test den ich in 2 Wochen durchführe. Er möchte das tun und antwortete mir auch. Hier mal ein interressanter Kommentar aus seiner eMail:

Code:
Well i didn't create Ivanhoe,i just compile it and tweak it a little sometimes.So i cannot take the credit for that,just for the compiling.


Also, nach Chiron 1.1 w32 und Fritz 13 für die SWCR-64 spielt IvanHoe sowohl für die SWCR-32, also auch für die SWCR-64. Das hat Prio, egal ob ein Critter, Komodo oder Stockfish kommt, denn wie gesagt ... IvanHoe wurde schon länger von mir nicht mehr getestet.

Die von Dir getestete IvanHoe habe ich ich mit 400 Partien auf meinen Testsystemen getestet. ELO = 28 höher als IvanHoe B47cB x64. IvanHoe könnte also in der Tat Komodo, Critter und Rybka von den Plätzen vertreiben und hinter Houdini 2.0c x64 landen.

[/quote]

Hi Frank,

ich würde dir - auch ausgehend von deinem Schnelltest - auf jeden Fall dringend raten, die Version B46fA auch für den Volltest zu nutzen, da wissen wir dank dir und mir, daß sie auf jeden Fall stark ist. Und sie läuft auch schön stabil.

Ein noch neueres, ungetestetes Compilat könnte auch wieder etwas schwächer sein (wie Stocki 111030 im Vergleich zur 111026).

Bin sehr gespannt auf dein Resultat dieser Ivanversion. Wenn der Zuwachs bei dir wirklich über 25 Elo bleibt, wäre das ja deutlich mehr als bei meinen Tests, die ja die Littos bevorteilen, wie Ingo meint.
Da bin ich schon sehr gespannt, wie weit sich Ivanhoe noch nach oben stagnieren kann...

Gruß - Stefan

P.S: Mein Houdini-Setting brauchst Du m.E. nicht zu testen. Ich hab es mal gegen ein paar schwächere Gegner laufen lassen - da war das Resultat nicht so berauschend,  wie ich schon geahnt hatte. Ich denke nicht, daß es in der SWCR auf Default-Houdini Niveau liegen würde.
Da gibt es z.Zt. wirklich wichtigeres zu testen!!!
Parent - - By Frank Quisinsky Date 2011-12-03 13:25
Hi Stefan,

die compiles werden von PeterPan getestet auf Stabilität. Wenn der Test einer neueren Version nach 600 Partien nicht so läuft wie erwartet kann ich immer noch abbrechen un die 46er Version nutzen. PeterPan arbeitet jetzt an der Version für die SWCR Test. Er hat ja 2 Wochen oder länger Zeit. Er meinte aber das er in 2 Wochen dann eine Version hat die ich testen kann.

OK, Houdini Test lasse ich weg.
Wäre dann auch zu viele Houdini Versionen. Die ganzen Rybka Settings machen meine SWCR auch nicht gerade klarer, sind und waren aber interessant.

Viele Grüße
Frank
Parent - - By Stefan Pohl Date 2011-12-03 13:52
[quote="Frank Quisinsky"]
PeterPan arbeitet jetzt an der Version für die SWCR Test. Er hat ja 2 Wochen oder länger Zeit. Er meinte aber das er in 2 Wochen dann eine Version hat die ich testen kann.

[/quote]

Kannst Du mir die Version dann bitte mailen (nur 64bit reicht), die würde ich dann auch gerne bei mir laufen lassen !

Thanx - Stefan
Parent - By Frank Quisinsky Date 2011-12-03 13:57
Hallo Stefan,

ja, kein Problem.
Hatte Izak auch geschrieben, dass eine neue Version aber auch wieder frei zur Verfügung stehen sollte, sonst teste ich etwas was kein anderer hat und das wäre auch nicht gut. Wollte er dann auch tun.

Aber ich maile Dir die Version sobald ich diese habe.

Viele Grüße
Frank
Parent - - By Stefan Pohl Date 2011-12-03 10:50
[quote="Frank Quisinsky"]
Hallo Stefan,

viel Spass mit Deiner Ratingliste. Wahrscheinlich reicht auch diese Bedenkzeit aus um Unterschiede zwischen den Versionen festzustellen. Das ist z. B. auch ein beliebtes Testverfahren welches Programmierer gerne nutzen. Kürzlich schrieb ja erst Richard Vida dazu.

Frank

Übrigens: Macht auch Sinn bei den TOP-7 zu bleiben oder auszubauen auf eine Gruppe darunter. Diese würde dann ca. bis Hannibal gehen, also ca. von Naum (2.835 ELO) bis Hannibal (ca. 2750 ELO).

Problematisch ist der größere ELO-Abstand der Verfolger.

[/quote]

hi Frank,

ich habe mir keine feste Zahl von zu testenden Engines gesetzt, sondern ich orientiere mich an den anderen Ranglisten und schaue, wo in der Spitze eine größere Lücke zu den folgenden Engines liegt. Und z.Zt. ist das hinter Stockfish 2.1.1. default. Ich möchte eben vermeiden, daß Engines gegeneinader spielen, die einen sehr großen Elo-Abstand haben (s.o.). Sollten also mehr Engines in die Spitze vorstoßen, wird die Rangliste eben größer...
Naum ist mir aus diesem Grund schon zu schwach.
Und zum Thema Bedenkzeit: Ich habe mir diese Zeit sehr gründlich überlegt: Durch den 400ms FischerBonus ist immer genug Zeit für einen geordneten Rechenprozeß. Im Schnitt rechnet jede Engine ca. 0.7 Sekunden pro Zug (LittleBlitzerGUI zeigt das dankenswerter Weise an). Das reicht bei einem schnellen Core m.E. auf jeden Fall aus. Houdini kommt auf durschnittliche Suchtiefen von 16 Halbzügen, Rybka von 14. Nur den TB-Zugriff sollte man - und habe ich - weglassen, da selbst ein Zugriff auf Flashmemory und ggf. noch Suchen im TB-Cache einfach zu viel Zeit schluckt, wenn die Bedenkzeit so kurz ist.

Gruß - Stefan

Gruß - Stefan
Parent - By Frank Quisinsky Date 2011-12-03 13:20
Hallo,

das sind auch so Überlegungen die ich oft angestellt habe.

TOP-7 in einer Gruppe.
Dann in Gruppe 2 alles nach Naum, Gruppe 3 beginnt mit Thinker und Gruppe 4 beginnt mit unter 2.500 wie jetzt bei dem Oldie-Mix.

Nachteil:
zu wenige Gegner für die jeweiligen Gruppen und meine 40 Partien Matches reichen für ein gutes Rating nicht mehr aus. Mehr Gegner bessere Resultate, dass hatte ich im letzten Jahr mit Datenbank-Simulationen berechnet. Unerheblich hierbei wie stark die Gegner sind, wenn nicht gerade 40:0 Resultate erzeugt werden.

OK, jetzt aber für Deinen Zweck nicht so wichtig, geht ja mehr um die Unterschiede der TOP-7 untereinander, was auch nicht uninteressant ist. Die TBs würde ich selbst bei kleiner als 40 in 3 auch weglassen, ja sogar ganz weglassen wenn ich die SWCR heute mit 40 in 10 neu starten würde. So wären interessantere Endspielanalysen und Vergleiche möglich.

Viele Grüße
Frank
Parent - - By Stefan Pohl Date 2011-12-03 10:58
[quote="Frank Quisinsky"]

Für mich wäre interessant IvanHoe von diesem King... noch irgend etwas zu sehen (OpenChess Forum). Könntest Du diese IvanHoe Version auch mal testen? Vielleicht ist diese gar stärker als die von PeterPan. Ich bleibe aber bei den Comiles von PeterPan.

[/quote]

Hi Frank,

Weiß leider nicht genau, welche Version du meinst - die Vielfalt ist leider auch sehr verwirrend. Ich würde daher auch immer die PeterPan-Compiles bevorzugen. Aber wenn du mir die Version, die dich interessiert, zumailst, dann lass ich sie unter meinen Ranglisten-Bedingungen durchlaufen (ohne sie in die Rangliste einzutragen). Das geht ja dank des hohen Blitztempos schnell: 2100 Partien=17.5 Stunden Rechenzeit...

Gruß - Stefan
Parent - - By Frank Quisinsky Date 2011-12-03 13:05 Edited 2011-12-03 13:09
Hallo Stefan,

also ich meine die KLO Versionen.
Interessant wäre es hier auch mal die letzte zu testen.

Also ich habe:

PeterPan
IvanHoe B46fa vom 20.11.2011 (541.696 bytes x64 oder 568.320 bytes w32).
Das ist die Version von der ich sprach (400 Testpartien).

Dann ...

IvanHoe 999946f vom 14.11.2011 (541.184 bytes x64 oder 492.544 bytes w32).
Denke das ist die KLO Version, blicke da aber auch nicht so ganz durch.

Bin nicht an meinem PC, hatte ein Compile, ca. 2 Monate alt von kingliveson (OpenChess Forum). Müsste jetzt dort suchen gehen. Glaube die Version spielt auch recht stark und wurde von Dir mal erwähnt. Glaube irgend etwas mit GH ... kann mich jetzt nur schwach erinnern.

Wie dem auch ist, ich konzentriere mich auf die PeterPan Versionen. Sofern er in den nächsten 2 Wochen nichts mehr ändert werde ich mit der B46fa spielen. Aber so wie ich es verstanden habe ist da noch etwas in der Mache und es könnte dann noch ein neuer Compile kommen. Diese Version startet dann in die SWCR-32 und SWCR-64.

2. Interessant wäre auch das Rybka 4.0 x64 Exp. 42 Setting. Das steht bei mir recht weit oben. Meine jetzt für Deine Ratingliste.

Und noch eine Bitte:

Kannst Du dir mal von Norm Pollock die PGN-Tools herunterladen:
http://www.hoflink.com/~npollock/chess.html

und dann das Tool Summary über Deine Datenbank laufen lassen.
Mich interessiert der Zügedurchschnitt, da Du ja ohne Aufgabefaktor spielst.

Je geringer die Bedenkezeit desto geringer der Zügedurchschnitt.
Bei mir 171,55 bei den 150.247 SWCR Partien.
Ich vermute bei Dir um 162 - 164 Halbzüge durchschnittlich.

Das wäre Klasse, bin da richtig neugierig drauf!

Viele Grüße
Frank

summary ... name vom PGN file im Textmode
Also
summary test.pgn

Könntest Du die Summary Ausgabe (textfile) hier mal posten?

Du kannst auch ...
Erst mit Bayesian die Ratingliste berechnen lassen.
Dann die Ausgabedatei von Bayesian in bayes.dat umbenennen.

In das Verzeichnis von Norm kopieren mit Deiner Datenbank PGN
Dann zunächst embayes darüber laufen ...

Nehmen wir an Deine PGN schimpft sich test.pgn

also

1. embayes bayes.dat test.pgn
2. Ausgabe PGN wieder umbenennen in test.pgn
3. summary test.pgn

Dann wäre es perfekt.
Parent - By Frank Quisinsky Date 2011-12-03 13:15
summary ist auch so eine Art Datenbank Checker.
Kannst ja vorher noch tagclean nutzen um die tags aus dem PGN zu cleanen.

Summary zeigt Dir die ECO Verteilung an, den Zügedurschnitt, richtige weiß / schwarz Verteilung etc.
Klicke auf meiner Webseite im Menü System bei SWCR-all auf stat S auf das "S" für ein Beispiel.

Gerade gesehen, dass ich zuletzt vergaß embayes drüber laufen zu lassen. So fehlen hier die ELO-Ausgaben
Muss ich am Montag mal nachholen.

Gruß
Frank
Parent - - By Stefan Pohl Date 2011-12-03 13:43
Zitat:

und dann das Tool Summary über Deine Datenbank laufen lassen.
Mich interessiert der Zügedurchschnitt, da Du ja ohne Aufgabefaktor spielst.

Je geringer die Bedenkezeit desto geringer der Zügedurchschnitt.
Bei mir 171,55 bei den 150.247 SWCR Partien.
Ich vermute bei Dir um 162 - 164 Halbzüge durchschnittlich.

Das wäre Klasse, bin da richtig neugierig drauf!

Viele Grüße
Frank

summary ... name vom PGN file im Textmode
Also
summary test.pgn



Hi Frank, 
also zunächst: Spezialsettings von Engines wollte ich eigentlich nicht in meine Rangliste aufnehmen. Dann zu Ivanhoe: Diese B46fA-Version hab ich auch. Da die Klo-Version älter ist und die PeterPan-Compiles m.E. mittlerweile sehr gut sind, schenk ich mir da einen Test...

Hier nun die gewünschte Ausgabe des summary-Tools:

Number of games in AllePartien.pgn = 8100  (without a result = 0)
Number of players = 8
Number of player clusters = 1
Number of: White Elos = 0  Black Elos = 0  Both = 0
Number of White wins = 2618 ( 32.32 % )
Number of draws =      3490 ( 43.09 % )
Number of Black wins = 1992 ( 24.59 % )
White score = 53.86 %
Black score = 46.14 %
Number of ECOs = 0
Number of PlyCounts = 8100  range: 16-401  average = 165.15

Hierzu muß ich aber anmerken: Die LittleBlitzerGUI zählt merkwürdigerweise mit Zug 1 erst los, ab der PGN-Vorgabestellung, wo die Engines losrechnen, welche bei dir ja immer 8 Vollzüge lang ist. Ergo sind alle diese Längenanzeigen der letzten Ausgabezeile 16 Halbzüge zu niedrig, weil die 8 Vorgabezüge der Vorgabestellungen nicht mitgezählt werden. Mit korrekten Zugzählerwerten wäre es demnach:

range: 32-417  average = 181.15

Also dauern die Partien bei mir im Schnitt sogar länger als in der SWCR, was mich aber auch nicht überrascht, denn bei mir spielen ja nur die allerstärksten gegeneinander und es gibt daher sicher weniger kurzzügige Verlustpartien als bei dir, wo ja Wehrlose gegen Monster antreten müssen...Und daß die von mir bevorzugte kurze Zugzeit nennenswerten Einfluß auf die Qualität der Partien hat, ist ein nicht mehr zeitgemäßes Vorurteil. Deine Annahme "Je geringer die Bedenkezeit desto geringer der Zügedurchschnitt." (s.o.) ist m.E. heutzutage kaum noch haltbar, bzw. ist der Effekt so gering, daß er kaum noch meßbar ist, eben weil auch bei kurzen Bedenkzeiten so viele Knoten durchgerechnet werden.
Auf einem schnellen Prozessor ist 30''+400ms nicht wirklich kurz. Nur, wenn man nach menschlichen Maßstäben mißt. Ein Houdini rechnet auch bei durchschnittlich 0.7 Sekunden Bedenkzeit/Zug immer noch fast 1500000 Stellungen durch. Dafür haben die PCs noch vor nicht allzulanger Zeit sehr, sehr viel länger gebraucht. Wichtig ist nur der Fischerbonus, damit die Bedenkzeit nie unter einen gewissen Grenzwert fällt, nur dann könnte das schachliche Niveau wirklich ins Bodenlose fallen.

Gruß - Stefan
Parent - By Frank Quisinsky Date 2011-12-03 13:53
Hallo Stefan,

stimmt, spielen ja die TOP-7 ...
Dann ist natürlich auch wieder der Zügedurchschnitt höher.
Hatte ich jetzt gar nicht daran gedacht.

Aber ich werde mal meine Datenbank nach den TOP-7 selektieren und dann mit Deiner Zügedurchschnittsausgabe vergleichen. Kann ich erst am Montag machen.

Also, nach meinen Experimenten ist das immer gleich.
Je höher die Bedenkzeit desto höher der Zügedurchschnitt bei Aufgabefaktor = Aus.

Weniger Fehler, mehr Partien enden mit Remis und die Remispartien sorgen für einen höheren Durchschnitt.
Hatte ja auch mal eine Blitzratingliste und verglichen, zuletzt nach der langweiligen SWCR Champions-League bei 40 Züge in 150 Minuten.
Ob ich das nochmal spielen werde, keine Partie konnte aufgrund der Dauer LIVE verfolgt werden. Es gab zwar auch schöne Schachpartien aber deutlich weniger als in der SWCR bei 40 in 10. Und ob sich das Niveau dann anhebt bei 15x mehr Zeit ... ja hebt sich natürlich an aber ich kann das nicht mehr erkennen. Nur durch Analysen, nicht beim Zusehen. Insofern generiere ich mir natürlich das was mehr Spass macht.

Gruß
Frank
Up Topic Hauptforen / CSS-Forum / Neue Mini-Blitzrangliste

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill