Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / SWCR nach 14.520 Partien ...
- - By Frank Quisinsky Date 2010-03-11 13:57
Hallo zusammen,

um mal wieder einen Muchs von mir zu geben. Sonst heißt es noch ich würde in meiner Bude sitzen und schmollen.
Zugegeben in der Bude sitze ich gerade ...

Hier die Ratingliste aller SWCR Partien ...

2.8GHz Maschinen, 40 in 10 (gespielt wird bis zum Matt), Partie dauert ca. 40 Minuten, Ponder = On, ausschließlich 32-Bit Versionen mit 1 Core.
Thema: Vergleichbarkeit, Veröffentlichung in einer Schachzeitschrift.

Code:
Rank Name                      Elo    +    - games score oppo. draws
   1 Rybka 3                  2856   18   18  1160   75%  2680   31%
   2 Stockfish 1.6.3          2823   21   20   800   72%  2674   36%
   3 Naum 4.1                 2808   20   20   840   68%  2681   35%
   4 Shredder 12              2800   17   17  1160   67%  2682   36%
   - Stockfish 1.6.0          2798   18   18   960   68%  2683   39%
   - Naum 4                   2781   18   18   960   65%  2678   38%
   5 Fritz 12                 2743   16   16  1160   59%  2684   44%
   - Stockfish 1.5.1          2727   21   21   680   57%  2682   43%
   6 Komodo 1.0               2711   19   19   840   54%  2685   40%
   7 Thinker 5.4d Inert       2710   16   16  1160   54%  2685   43%
   - Doch 1.3.4               2686   19   19   840   51%  2682   44%
   - Cyclone xTreme Wrath     2672   17   17  1080   47%  2694   41%
   - Doch 1.2                 2664   20   20   720   47%  2686   40%
   8 Protector 1.3.2          2664   17   17  1000   47%  2688   42%
   - Protector 1.3.1b         2664   19   19   840   47%  2687   42%
   8 Hiarcs 12.1              2664   18   18   880   47%  2686   41%
  10 Junior 2010              2663   16   16  1160   47%  2687   36%
   - Hiarcs 12.1 Sharpen PV   2661   18   18   920   45%  2692   41%
  11 Zappa Mexico II          2654   16   16  1160   45%  2687   44%
   - Doch 09.980              2653   21   21   680   45%  2686   43%
  12 Sjeng WC-2008            2652   16   16  1160   45%  2687   37%
  13 Spark 0.3a               2648   18   18   920   44%  2692   41%
   - Spark 0.3                2639   18   19   880   43%  2687   42%
  14 Onno 1.1.1               2629   16   16  1160   41%  2688   43%
  15 Loop 13.6                2617   16   16  1160   39%  2688   41%
  16 Fruit 05/11/03           2615   17   17  1080   39%  2688   42%
  17 Critter 0.52b            2611   21   21   720   38%  2690   39%
   - Glaurung 2.2             2606   17   17  1080   37%  2696   36%
  18 SmarThink 1.20           2594   16   17  1160   36%  2689   38%
  19 Twisted Logic 20100131x  2570   21   22   720   33%  2692   32%


Von dieser Liste halte ich aber nichts
Maximal um unterschiedliche Versionen zu vergleichen.
Übrigens spielten keine gleichen Engines bei unterschiedlichen Versionsnummern gegeneinander.

Zu viele doppelte Versionen ...
Ich ziehe die Liste: Jeder gegen Jeden, 40 Partien vor.
Zumal die ELOs trotz weniger Partien einfach genauer sind.

Das wäre dann die offizielle SWCR Ratingliste:

Code:
  1 Rybka 3                  2848   22   22   720   75%  2671   30%
   2 Stockfish 1.6.3          2820   21   21   720   71%  2672   35%
   3 Shredder 12              2800   21   21   720   68%  2673   34%
   4 Naum 4.1                 2798   21   21   720   68%  2673   35%
   5 Fritz 12                 2735   20   20   720   59%  2677   46%
   6 Thinker 5.4d Inert       2702   20   20   720   53%  2679   41%
   7 Komodo 1.0               2701   20   20   720   54%  2679   41%
   8 Protector 1.3.2          2661   20   20   720   47%  2681   43%
   9 Junior 2010              2660   20   20   720   47%  2681   37%
  10 Hiarcs 12.1 Sharpen PV   2653   20   20   720   46%  2682   40%
  11 Zappa Mexico II          2651   20   20   720   45%  2682   43%
  12 Sjeng WC-2008            2650   20   20   720   46%  2682   38%
  13 Spark 0.3a               2648   20   20   720   45%  2682   43%
  14 Onno 1.1.1               2621   20   20   720   41%  2683   42%
  15 Fruit 05/11/03           2616   20   20   720   40%  2684   42%
  16 Loop 13.6                2609   20   20   720   39%  2684   40%
  17 Critter 0.52b            2606   20   20   720   38%  2684   39%
  18 SmarThink 1.20           2577   21   21   720   34%  2686   38%
  19 Twisted Logic 20100131x  2564   21   21   720   33%  2686   32%


1.
Glaurung 2.2 ist also draußen (macht ja auch kein Sinn, weil Stockfish in der Liste ist).

2.
Cyclone habe ich gekillt.
Zum Zeitpunkt der Aufnahme gab es von diesem Programmierer noch keine ... lassen wir das.
Ferner will ich eine Clone freie Liste erzeugen.

Ersetzt wurden Glaurung 2.2 und Cyclone xTreme Wrath durch Critter 0.52b und Twisted Logic 20100131x.
Aufgrund dessen habe ich mit beiden Programmierern Blitz-Interviews gemacht

3.
Programm 20 wird Ktulu 9.0x werden. Allerdings ist der Fehler, der für Abstürze mit Windows Error Messages verantwortlich ist, immer noch drin.
Rahman arbeitet daran, Material für die Fehlersuche hat er reichlich.

4.
Was fällt auf ...
Stockfish 1.6.3 ist ca. 25 ELO stärker als Stockfish 1.6x.
Gleiches Bild in der 32-Bit Blitzratingliste.

5.
Naum 4.1 setzt sich immer mehr von Naum 4.0 ab.
Nun schon 27 ELO !!

6.
Critter 0.52b spielt vergleichbar stark im Blitz wie Hiarcs 12.1. Im Blitz ca. 35-40 ELO besser.

7.
Junior 2010 hält sein hohes Rating.
Bei Junior 2010 habe ich folgendes herausgefunden.
Die 32Bit Version ist offenbar stärker als die 64Bit Version. Das liegt offenbar an Fehler im Umgang mit den Endspieldatenbanken, die ja nun bei Junior 11.1 behoben sein sollen. Habe ich mir noch nicht angesehen. Bestellt aber ich warte noch auf den Registierungsschlüssel.

Ich teste z. B. den 64-Bit Zuwachs auf einem Q6600 mit Windows XP Professional x64 Edition.
Interessant ist, dass auch Naum 4.1 mit w32 minimal besser spielt als die x64 Version.
Allerdings sind das nur Pünktchen und ich habe zu wenige Partien und absolut sicher zu sein.

Ansonsten sehe ich keine Auffälligkeiten in der SWCR Ratingliste.
Die letzten Protector Versionen sind gleich stark. Spark 0.3a scheint ca. 10 ELO besser als Spark 0.3 zu sein.

Probleme mit Engines:

1. Twisted Logic verlor 8 Partien auf Zeit. Immer beim letzten Zug der dreifachen Stellungswiederholung. Die Ergebnisse wurden korrigiert.
2. Critter stürzte 3x mit Windows Error Message ab und verlor 8x auf Zeit. 6x in klaren Remisstellungen, 2x musste ich die Partie dann abschätzen.
Die Partien wurden korrigiert.
3. Junior 2010 konnte in 42 Partien nicht Matt setzen, trotz Mattanzeige und die Partien endeten mit Remis nach 3facher Stellungswiederholung oder der 50-Züge Regel.
Die Partien wurden korrigiert, 21 Punkte mehr für Junior ... machte 8 ELO in der Ratingliste aus.
4. 1x überzog Hiarcs 12.1 Sharpen PV die Zeit
5. 2x überzog Loop 13.6 die Zeit

Wenig für so viele Partien !!
Die Engines laufen also stabil unter der Shredder 12 und Fritz 12 GUI.
Fritz 12 GUI nutze ich für Junior 2010 und Fritz 12 bzw. jetzt gerade laufend für Deep Fritz 12.

Ach ja Hiarcs:
Der Parameter Sharpen PV scheint keine Verbesserung zu bringen. Lasse die Engine Hiarcs 12.1 aber jetzt mit diesem Parameter in der SWCR weiterspielen bis Hiarcs 13 kommt.

Soweit der Stand der SWCR!
Aus dem "Schmollfreien" Trier.

Gruß
Frank
Parent - - By Werner Schüle Date 2010-03-11 19:02
Hallo Frank,
ich habe mir mal die Mühe gemacht etwa 150 Partien von Deep Junior 2010 x64 1CPU anzuschauen, die remis ausgingen. Bei keinem einzigen Spiel war eine fehlerhafte Endspielbehandlung von Junior dabei. Schon komisch - habe nämlich im Netz auch so was gelesen: Deep Junior 2010 kann nicht richtig mattsetzen. War aber der Fall, wenn keine tbs eingesetzt wurden. Ich habe mit den 5Steinern gespielt. Vielleicht daher?

Gruß
Werner
Parent - - By Frank Quisinsky Date 2010-03-12 00:12
Hallo Werner,

die Partien müssten dann in sehr aufwendiger Arbeit analysiert werden. Also das traue ich mir auch nicht zu bzw. die Zeit fehlt ja völlig. Außerdem sind wir ja keine Beta Tester. Aber es wäre doch einfach die 32-Bit Version zum Vergleich in die Liste zu bringen.

Die CEGT spielt sicherlich nicht bis zum Matt. Der von mir beschriebene Fehler tritt auf, wenn die Partien wirklich bis zum Matt gespielt werden. In der Regel wird ja mit Aufgabefaktor gespielt. Als ich die SWCR startete, wählte ich für Matt-Statistiken bzw. diversen Sammlungen von Matt-Stellungen diese Einstellung. Birgt mehr Nachteile als Vorteile, denn die Partien dauern lange, sind teilweise sehr langweilig und es ergeben sich wahnsinnig viele Partien die in klarer Remisstellung irgendwann mit der 50-Züge Remis enden. Ein Horror ...

Also wenn die CEGT nicht bis zum Matt spielen lässt kannst Du den Fehler gar nicht sehen.

Die CEGT müsste eigentlich vergleichbare Ergebnisse zu meinen haben. Die CEGT Bedingungen 40 in 20 bei der Berechnungsformel der Hardware entsprechen 40 in 10 mit der Hardware die ich verwende. OK, spiele dann mit Ponder. Junior benötigt mehr Zeit um in Schwung zu kommen als andere. Insofern ist auch der Ponder-Vorteil ein Vorteil für Junior.

Bin mir eigentlich sicher das Junior mehr Zeit benötigt und das die 64-Bit Version nicht besser (eher gar schlechter) als die 32-Bit Version ist.

Ingo hat jetzt z. B. ca. 2.630 für Junior 11.1 festgestellt. Das war in etwa auch sein Ergebnis bei Junior 2010. Insofern gehe ich davon aus, dass sich an den 2.660 bei mir auch nichts ändern wird. Interessant für mich ist ob der Fehler mit dem "Nicht Matt-Setzen" raus ist.

Was auch noch sein könnte ...
Amir optimiert für Fritz GUI. Das kann schon aufgrund vom Analyseverhalten von Junior 2010 erkannt werden. Unter Shredder GUI geht gar nichts, unter Fritz funktioniert das. Daher lasse ich Junior auch  unter der Fritz GUI in der SWCR spielen. Aber ob irgend ein Engine-Verhalten aufgrund der Verwendung einer anderen GUI 30 ELO ausmacht glaube ich nicht.

Vermutlich sieht es so aus ...
10-15 ELO mehr für die längere Zeit (Unterschied CEGT - wegen Ponder = off oder IPON - geringere Zeit - minimal langsamere Hardware - zur SWCR)
10-15 ELO weil die 32-Bit bessere Resultate erzeugt.

Was Harald zu Junior schreibt, da ist in der Tat etwas dran.
Im Spiel ist oft zu beobachten, dass Junior gerne nach 20-30 Zügen den Zug noch ändert. Zumindest auf meiner Hardware.

Viele Grüße
Frank

PS: Egal ... ob nun 2.630 oder 2.660 ... was spielt das groß für eine Rolle. Solche Dinge sind nur beim Testen bei Ratinglisten auffällig. Beim Spiel wirds noch nicht mal ein Großmeister wirklich auffallen.
Parent - - By Karl-Heinz Milaster Date 2010-03-12 12:22 Edited 2010-03-12 12:27
[quote="Frank Quisinsky"]die Partien müssten dann in sehr aufwendiger Arbeit analysiert werden.[/quote]
Hallo Frank,

ich kann dafür eine relativ simples Programm schreiben, dass die Partien (PGN-Format) auf 5- oder 6-Steiner-Stellungen untersucht und beim Auftreten einer solchen Position diese als EPD oder FEN in einer Datei speichern. Ich habe bei SMK angefragt, ob die Analyse aus einer solchen Datei unter Shredder Classic möglich ist.
Vielleicht gibt es ja eine andere GUI, die das (auch) kann.
Wenn es also eine solche GUI gibt, bin ich bereit, ein solches Programm zu schreiben und als Freeware zu veröffentlichen - wenn es hier Interessenten > 3 gibt.
Wenn mir jemand eine Delphi-Quellcode für den Zugriff auf Nalimov-Tablebases zur Verfügung stellt, brauche ich keine GUI.

Gruss,
khm
Parent - - By Frank Quisinsky Date 2010-03-13 11:22
Hallo Karl-Heinz,

ich weiß jetzt nicht was Du genau meinst!
Was soll dieses Tool genau untersuchen?

Es geht ja bei Junior oder egal jetzt welche Engines darum, ob es ein "Negativ-Verhalten" beim Zugriff auf die TBs gibt.

Ich könnte mir daher folgendes vorstellen:
GUI protokolliert im PGN file die Anzahl der TB-Zugriffe.

Beispiel:
Engine-Engine Match zwischen Naum und Stockfish
Stockfish greift erstmals im Zug 48 mit 2 TB Treffern, steigert die Zugriffe dann logischer Weise bis zum Ende der Partie.
Naum greift erstmals im Zug 54 mit 8 Treffern zu.
Shredder GUI protokolliert im PGN file die Anzahl der Zugriffe.

Nun erstellt ein gesondertes Tool eine Tabelle.
In dieser Tabelle wird das Engine-Engine Match mit der Anzahl der TB Zugriffe gegenübergestellt.
in einer zweiten Spalte die Zugzeit in einer dritten die Stellungsbewertung.

Könnte so aussehen:

Code:
Engine 1                                                             Engine 2
48.   2 Zugriffe    0.24 Zeit      0.32 Bewertung                 - Zugriffe    0.00 Ponder        0.21 Bewertung
49. 28 Zugriffe   und so weiter


Aus solchen Tabellen könnten dann weitere Statistiken generiert werden, die Aufschluss darüber geben könnten ob durch TB Zugriffe ein "Merkwürdiges" Verhalten abzulesen ist.

Das Programm könnte dann durch eine eigene Engine (die Du ja programmieren möchtest) kontrollieren, es könnte für die Kontrolle aber auch irgend eine Engine eingesetzt werden, z. B. Stockfish (vielleicht derzeit das stärkste Endspielprogramm). So könnten die TB-Zugriffe in einer weiteren Spalte eingetragen werden.

Für solche Statistiken müsste Stefan einfach nur eine kleine Option in Shredder programmieren. Speichere die Anzahl der TB Zugriffe in das PGN File. Das wäre einfach.

So ein Tool könnte ich mir vorstellen und dieses Tool könnte dann die Sache immer weiter spinnen hinsichtlich weiteren Statistiken.

z. B. könnte herausgearbeitet werden:
Ob durch TB Treffer plötzlich eine Wendung erkannt wurde (abzulesen an vorherigen Stellungsbewertungen) bzw. bei einer späteren Analyse könnte untersucht werden ob die Engine diesen Zug auch ohne TBs gefunden hätte. Also Sieg durch TB-Zugriff. Werden gleichzeitig von dem Tool 1000 Partien untersucht könnten alle zu analsysierenden Partien herausgefiltert werden.

Etc. etc.
So ein Tool wäre Klasse.

Aber vielleicht beschreibst Du mal genau woran Du denkst. Kann das nach Deinen Zeilen noch nicht nachvollziehen.

Gruß
Frank
Parent - - By Karl-Heinz Milaster Date 2010-03-14 10:37
[quote="Frank Quisinsky"]ich weiß jetzt nicht was Du genau meinst!
Was soll dieses Tool genau untersuchen?


Hallo Frank,

mir schwebt ein Tool vor, dass generell PGN-Partien auf Tablebase-Positionen untersucht. Alle Tablebase Positionen werden in einer EPD-Datei abgelegt und dann in Shredder Classic mit einer entsprechenden Engine abgearbeitet.
Das ist aber eher was für Schachspieler als für Statistiker.
Zitat:
Beispiel:
Engine-Engine Match zwischen Naum und Stockfish
Stockfish greift erstmals im Zug 48 mit 2 TB Treffern, steigert die Zugriffe dann logischer Weise bis zum Ende der Partie.
Naum greift erstmals im Zug 54 mit 8 Treffern zu.

Hier meinst Du wohl "...erstmals im Suchbaum zu Zug 48...".
Da es keinerlei Informationen über den Suchbaum gibt, kann man auch keine Aussagen darüber machen, ob Naum oder Stockfish die Tablebases besser nutzt.

Gruss,
khm
Parent - - By Ingo Bauer Date 2010-03-14 11:27
Hallo

[quote="Karl-Heinz Milaster"]
...
mir schwebt ein Tool vor, dass generell PGN-Partien auf Tablebase-Positionen untersucht. Alle Tablebase Positionen werden in einer EPD-Datei abgelegt und dann in Shredder Classic mit einer entsprechenden Engine abgearbeitet.
...
[/quote]

Verstanden habe ich das, aber wozu ist es gut? Es gibt doch schon eine Datenbank mit ALLEN Tablebase-Positionen - die Tablebases selber.

Ich habe eine Datenbank mit 70000 Spielen und generiere alle 6, 5, 4, 3 Steiner als EPD die vorgekommen sind. Jetzt gebe ich das an eine Engine und lasse in den Tbs nach der Bewertung danach suchen.
Meine Frage ist also: Wozu?

Wenn ich einen guten Grund dafür sehe bin ich natürlich an einem solchen Tool interessiert, aber im Moment ...

Gruß
Ingo
Parent - - By Karl-Heinz Milaster Date 2010-03-14 13:32
[quote="Ingo Bauer"]Verstanden habe ich das, aber wozu ist es gut? Es gibt doch schon eine Datenbank mit ALLEN Tablebase-Positionen - die Tablebases selber.
Ich habe eine Datenbank mit 70000 Spielen und generiere alle 6, 5, 4, 3 Steiner als EPD die vorgekommen sind. Jetzt gebe ich das an eine Engine und lasse in den Tbs nach der Bewertung danach suchen.
Meine Frage ist also: Wozu?[/quote]
Hallo Ingo,

da habe ich mich wohl missverständlich ausgedrückt.
Das Tool extrahiert zunächst aus allen Partien einer PGN-Datei die Positionen, die in allen Tablebases vorkommen können, beispielsweise KQPKRP.
Diese Information wird mit der Partie-Nr. innerhalb der PGN-Datei und dem EPD-String in einer Datei gespeichert  (Protokoll-Datei).
Zusätzlich werden nur die EPD-Strings in einer Datei gespeichert (Analyse-Datei).
Frank bekommt die Partien des Turniers XYZ.
Nach dem Erstellen der Protokoll-/Analyse-Datei kann er dann alle Partien anhand der Analyse-Datei auf die Endspiel-Behandlung hin automatisch untersuchen und gegebenenfalls entsprechend kommentieren.
Das geht mit Sicherheit schneller, als alle Partien per Schachprogramm einzeln analysieren.
Anmerkung: Von Menschen gespielte Partien sind für mich immer noch der Normalfall, von Computern gespielte Partien die Ausnahme.

Gruss,
khm    
Parent - By Ingo Bauer Date 2010-03-14 14:10
[quote="Karl-Heinz Milaster"]
....
Nach dem Erstellen der Protokoll-/Analyse-Datei kann er dann alle Partien anhand der Analyse-Datei auf die Endspiel-Behandlung hin automatisch untersuchen und gegebenenfalls entsprechend kommentieren.
Das geht mit Sicherheit schneller, als alle Partien per Schachprogramm einzeln analysieren.
Anmerkung: Von Menschen gespielte Partien sind für mich immer noch der Normalfall, von Computern gespielte Partien die Ausnahme.
...
[/quote]

Ok, jetzt habe ich verstanden was es soll. Er kann schneller die Partien mit den fraglichen Positionen finden. Ob und wie er das Verhalten der Gegner "automatisch" untersuchen lassen kann sei noch mal dahingestellt.

Danke für die Klarstellung
Ingo
Parent - By Lukas Weber Date 2010-03-14 11:38
[quote="Karl-Heinz Milaster"]mir schwebt ein Tool vor, dass generell PGN-Partien auf Tablebase-Positionen untersucht. Alle Tablebase Positionen werden in einer EPD-Datei abgelegt[/quote]

tönt ja interessant, - wenn das tool als option auch 7 & 8 steiner finden würde?

lukas
Parent - By Jörg Oster Date 2010-03-14 16:37
[quote="Frank Quisinsky"]
Beispiel:
Engine-Engine Match zwischen Naum und Stockfish
Stockfish greift erstmals im Zug 48 mit 2 TB Treffern, steigert die Zugriffe dann logischer Weise bis zum Ende der Partie.
Naum greift erstmals im Zug 54 mit 8 Treffern zu.
Shredder GUI protokolliert im PGN file die Anzahl der Zugriffe.
[/quote]

Seit wann kann Stockfish auf Tablebases zugreifen?
Da kann was nicht stimmen!

Gruß,
Jörg.
Up Topic Hauptforen / CSS-Forum / SWCR nach 14.520 Partien ...

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill