Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Naum 4.2, nun auf Platz 2 ...
- - By Frank Quisinsky Date 2010-03-31 09:30
Hi,

es läuft die spannende Phase einer Engine ...

Bis Partie Nummer 380 schwankt es noch teils um 20 ELO.
Ab Partie Nummer 460 um 15 ELO
Ab Partie Nummer 560 um 10 ELO

Zumindest bei den ganzen Engines bzw. den 40 Versionen die ich aufgenommen habe.
Bzw. bei anderen Ratinglisten die ich erspielt habe, dennoch gab es immer mal eine Engine die aus dieser Statistik rausgerutscht ist.
Bei der ATL-4 war es Glaurung (im negativen Sinne).

Naum 4.2 verlor 8 Punkte in den letzten 50 Partien.
Meine Prognose war, muss im SW News-Ticker schauen ...
15-20 ELO hinter Rybka 3 nach 760 Partien ...

Nach den gesehen Partien bzw. wie sich die Statistik entwickelt glaube ich meiner Prognose aber nicht mehr.
Denke nach wie vor, Naum 4.2 könnte Platz 1 machen.

Seit der Erstellung der unten aufgeführten Liste hat Naum auch schon wieder 3 Partien gewonnen, steht sicherlich wieder vor Rybka

Ab heute Mittag laufen alle 4 Rechner mit Naum 4.2, dann geht es etwas schneller.
Junior spielt gerade seine letzten knappen 20 Partien ...

Hier die aktuelle Liste ...
Rybka 3 liegt nun 1 ELO vor.

Code:
Rank Name                      Elo    +    - games score oppo. draws
   1 Rybka 3                  2849   22   22   731   75%  2665   29%
   2 Naum 4.2                 2848   33   32   326   75%  2672   33%
   3 Stockfish 1.6.3 JA       2814   21   21   732   71%  2667   35%
   4 Shredder 12              2800   21   21   732   69%  2667   34%
   5 Deep Fritz 12            2771   20   20   760   64%  2675   41%
   6 Komodo 1.0 JA            2704   20   20   733   55%  2673   41%
   7 Thinker 5.4d Inert       2703   20   20   731   55%  2672   39%
   8 Protector 1.3.2          2670   20   20   732   49%  2674   42%
   9 Hiarcs 12.1 Sharpen PV   2658   20   20   733   48%  2675   38%
  10 Sjeng WC-2008            2654   20   20   732   47%  2675   38%
  11 Spark 0.3a               2651   20   20   732   46%  2675   42%
  12 Zappa Mexico II          2650   20   20   731   46%  2675   44%
  13 Junior 11.1a             2645   20   20   743   45%  2682   38%
  14 Onno 1.1.1               2624   20   20   732   42%  2677   41%
  15 Critter 0.52b            2610   20   20   728   40%  2678   38%
  16 Fruit 05/11/03           2608   20   20   733   40%  2678   41%
  17 Ktulu 9.03               2603   21   21   760   39%  2684   30%
  18 Loop 13.6                2596   20   20   733   38%  2678   39%
  19 SmarThink 1.20           2579   20   21   732   35%  2679   39%
  20 Twisted Logic 20100131x  2565   21   21   732   34%  2680   32%


Critter hat zu wenige Partien richtig.
Critter hat 5x die Zeit gegen Junior 11.1a überzogen.
Die Partien spiele ich nach.

Zu Junior:
Es gab 2 Zeitüberschreitungen, 1x 3 Züge vor dem Matt, 1x 5 Züge vor dem Matt.
Jeweils setze die andere Seite Matt, also zwei Verluste für Junior.
Die Partien waren klar, wiederhole ich natürlich nicht.

Ansonsten schaue ich mir heute mal die Junior 11.1a Partien an.
Sind bis auf die Zeitüberschreitungen noch nicht kontrolliert.

Vielleicht auch für die Leser spannend.
Meine eine Ratingliste bzw. hier jetzt die Resultate von Naum 4.2 zu verfolgen.

Gruß
Frank
Parent - - By Frank Quisinsky Date 2010-03-31 10:17
Hi,

habe mir auch viele Naum 4.2 Partien schon angesehen.
Auffällig nach der Statistik waren die Ergebnisse gegen Smarthink 1.20

Dort steht es derzeit "nur" 9.0 : 4.0 immerhin 275 ELO dazwischen.
Smarthink macht die Punkte bei verschiedenen Endspielen.

Müsste mal näher untersucht werden bzw. die Endspieltypen.
Dann mal mittels ChessBase wühlen.

Könnte sein, dass Naum 4.2 bei verschiedenen Endspielen Probleme hat.
Vielleicht noch Verbesserungspotential bei Naum 4.2.

Auch Onno liegt "nur" 9.0 : 4.0 zurück. Protector 1.3.2 "nur" 9.5 : 3.5.

Ansonsten führt Naum 4.2 gegen Rybka 3 mit 7:6, gegen Stockfish 1.6.3 mit 7:6, gegen Shredder mit 7.5 : 5.5.
Nach wie vor gegen alle Engines positiv.

Alle anderen Ergebnisse sind nach 13 Partien schon deutlich zweistellig.

Gruß
Frank
Parent - - By Frank Quisinsky Date 2010-03-31 17:49 Edited 2010-03-31 17:53
Hi,

Junior 11.1a ist durch.
15 ELO weniger als Junior 2010.
Die groben und in den letzten Monaten beschrieben Fehler sind raus.
Auffällig ist die 3% höhere Remisquote, auch deutlich weniger kurze Gewinnpartien.
Müsste genauer untersucht werden.

Naum 4.2 fällt weiter ab ...
Jetzt 10 ELO hinter Rybka 3!
Naum spielt nun auf allen SWCR Rechnern.
Pro Tag werden ca. 135 Partien gespielt.
Es wird also noch ca. 3 Tage dauern bis Naum die 760 Partien gespielt hat.

Die aktuelle SWCR:

Code:
Rank Name                      Elo    +    - games score oppo. draws
   1 Rybka 3                  2852   23   22   735   75%  2666   29%
   2 Naum 4.2                 2842   31   30   352   74%  2673   33%
   3 Stockfish 1.6.3 JA       2815   21   21   734   71%  2668   35%
   4 Shredder 12              2800   21   21   735   69%  2669   34%
   5 Deep Fritz 12            2772   20   20   760   64%  2676   41%
   6 Komodo 1.0 JA            2705   20   20   735   55%  2674   41%
   7 Thinker 5.4d Inert       2703   20   20   734   54%  2674   39%
   8 Protector 1.3.2          2671   20   20   735   49%  2676   41%
   9 Hiarcs 12.1 Sharpen PV   2660   20   20   735   48%  2677   38%
  10 Sjeng WC-2008            2656   20   20   734   47%  2677   38%
  11 Spark 0.3a               2653   20   20   734   46%  2677   42%
  12 Zappa Mexico II          2650   20   20   734   46%  2677   43%
  13 Junior 11.1a             2647   20   20   760   45%  2683   38%
  14 Onno 1.1.1               2625   20   20   735   42%  2679   41%
  15 Critter 0.52b            2611   20   20   735   40%  2679   38%
  16 Fruit 05/11/03           2609   20   20   735   40%  2679   41%
  17 Ktulu 9.03               2604   21   21   760   39%  2685   30%
  18 Loop 13.6                2598   20   20   734   38%  2680   39%
  19 SmarThink 1.20           2580   20   21   734   35%  2681   39%
  20 Twisted Logic 20100131x  2566   21   21   734   34%  2682   32%


So langsam wird das Rating sicher.
Mal schauen ... geht meine Prognose doch auf 10-15 hinter Rybka 3.
Naum verlor ein paar Partien hintereinander.

Hier die Liste aller nunmehr 16.720 gespielten Partien.
Naum 4.2 wird erst eingefügt wenn die 760 Partien gespielt sind.

Code:
Rank Name                      Elo    +    - games score oppo. draws
   1 Rybka 3                  2858   17   17  1280   75%  2682   31%
   2 Stockfish 1.6.3 JA       2821   19   19   920   71%  2677   36%
   3 Naum 4.1                 2809   19   19   920   68%  2683   35%
   4 Shredder 12              2800   16   16  1280   67%  2683   36%
   - Stockfish 1.6.0 JA       2800   18   18   960   68%  2685   39%
   - Naum 4.0                 2783   18   18   960   65%  2680   38%
   5 Deep Fritz 12            2779   20   20   800   65%  2679   40%
   - Fritz 12                 2743   16   16  1160   59%  2686   44%
   - Stockfish 1.5.1 JA       2729   21   21   680   57%  2684   43%
   6 Komodo 1.0 JA            2713   18   18   960   54%  2686   40%
   7 Thinker 5.4d Inert       2710   15   15  1280   54%  2686   43%
   - Doch 1.3.4 JA            2688   19   19   840   51%  2684   44%
   - Cyclone xTreme Wrath     2673   17   17  1080   47%  2695   41%
   8 Protector 1.3.2          2671   16   16  1120   47%  2689   41%
   9 Junior 2010              2667   16   16  1240   47%  2689   36%
   - Doch 1.2 JA              2666   20   20   720   47%  2688   40%
  10 Hiarcs 12.1              2665   18   19   880   47%  2687   41%
   - Protector 1.3.1b         2665   19   19   840   47%  2688   42%
   - Hiarcs 12.1 Sharpen PV   2664   17   17  1040   46%  2692   40%
  11 Zappa Mexico II          2657   15   15  1280   45%  2688   44%
  12 Sjeng WC-2008            2655   16   16  1280   45%  2688   37%
   - Doch 09.980 JA           2654   21   21   680   45%  2688   43%
  13 Spark 0.3a               2654   17   17  1040   44%  2692   41%
   - Junior 11.1a             2652   21   21   720   46%  2679   39%
   - Spark 0.3                2641   18   19   880   43%  2688   42%
  14 Onno 1.1.1               2629   15   16  1280   41%  2689   43%
  15 Fruit 05/11/03           2615   16   16  1200   39%  2689   41%
  16 Loop 13.6                2614   16   16  1280   39%  2689   40%
  17 Critter 0.52b            2613   19   20   840   39%  2690   37%
  18 Ktulu 9.03               2608   20   20   800   39%  2687   30%
   - Glaurung 2.2 JA          2608   17   17  1080   37%  2698   36%
  19 SmarThink 1.20           2596   16   16  1280   36%  2690   38%
  20 Twisted Logic 20100131x  2571   20   20   840   33%  2692   32%


Weitere Infos (Spielbedinungen etc.):

SCHACHWELT
http://www.schach-welt.de/spezial/computerschach-/swcr-engines-top-20-.html

Gruß
Frank
Parent - - By Ingo Bauer Date 2010-03-31 19:06
Hallo Frank

Weil du mich gestrn mehrmal eindringlich gebeten hast und ich "dann ja sehen werde" habe ich mal ein kleines Zwischenturnier mit halber Kraft gestartet. Spielbedinungen wie immer, also auch das zufällige Ausspielen der Eröffnungen gegen alle Gegner.

Einsortieren werde ich das nicht, aber im Moment hat der 25% langsamere Naum 4.2 32bit rund 35 Elo weniger als die 64bit Version die 30 Elo hinter Rybka 3 32bit liegt. Nach meiner gestrigen "über den Daumen" Schätzung ist das zu viel. 15-20 Elo mehr sollten es bis zum Schluß schon werden, aber MEHR als Naum 4.2 64bit glaube ich jetzt wirklich nicht mehr.

Im Prinzip ist aber alles im Rahmen meiner Erwartungen.

Shredder

N42_32











Naum 4.2 32b - Rybka 3 mp (2906)8.5-24.525.76%Perf=2723
Naum 4.2 32b - Stockfish 1.6.x JA (2832)15.0-17.046.88%Perf=2811
Naum 4.2 32b - Deep Shredder 12 (2800)15.0-17.046.88%Perf=2779
Naum 4.2 32b - Komodo64 1.0 JA (2781)15.0-17.046.88%Perf=2760
Naum 4.2 32b - Zappa Mexico II (2708)20.0-12.062.50%Perf=2796
Naum 4.2 32b - Protector 1.3.2 JA (2699)22.0-10.068.75%Perf=2835
Naum 4.2 32b - Onno-1-1-1 (2682)21.5-10.567.19%Perf=2806
117.0-108.052.00%Perf=2786





225 out of 700 games played



Gruß
Ingo

Parent - - By Frank Quisinsky Date 2010-03-31 20:08
Hallo Ingo,

zunächst, vielen DANK für die Partien.
Offensichtlich sind die Unterschiede zwischen w32 und x64 da.
Das würde mal einen Tatbestand erklären, den ich ja angezweifelt habe.
Auch in CEGT zu sehen, habe ich gerade in einem anderen Beitrag im Forum geschrieben (langer Thread, Deine Antwort auf Karl-Heinz).

Verlasse mich da offensichtlich zu sehr auf die "nur" 400 Partien die ich mit Naum 4.1 x64 gespielt hatte (8 ELO schlechter als Naum 4.1 w32).
Aber das hat bei Naum 4.0 auch schon die CEGT festgestellt ... siehe weiter unten!

OK!

Aber es gibt ja noch den anderen Tatbestand.
Jetzt mal ganz übersichtlich:

Programmierer sagt 50 ELO mehr!

Code:
IPON:
Naum 4.2 x64 1T = 2.818
Naum 4.1 x64 1T = 2.783
Naum 4.0 x64 1T = 2.773

So kommst Du auf eine Steigerung von 4.0 auf 4.2 von 45 ELO

SWCR:
Naum 4.2 w32 1T = 2.843 (derzeit nach 352 Partien)
Naum 4.1 w32 1T = 2.804
Naum 4.0 w32 1T = 2.778

Bleibt es bei dem hohen Naum 4.2 Rating komme ich auf eine Steigerung von 4.0 auf 4.2 von 65 ELO.
Nach meiner Prognose geht es noch um 5 ELO runter (Sagte ca. 15 ELO hinter Rybka 3)

CEGT:
Naum 4.2 x64 1T = 3.032
Naum 4.1 x64 1T = 3.003
Naum 4.0 x64 1T = 2.972

CEGT kommt auf eine Steigerung zwischen Naum 4.0 und 4.2 von 60 ELO

CEGT:
Naum 4.2 w32 1T = nicht getestet
Naum 4.1 w32 1T = 2.984
Naum 4.0 w32 1T = 2.977 ... ups die w32 ist besser als die x64

Was fällt uns zunächst auf:
SWCR und CEGT kommen auf ca. 60 ELO
IPON kommt auf ca. 45 ELO

Zeitfaktor, mit mehr Zeit legt Naum zu!

Was fällt uns noch auf ...
Jetzt kommt der springende Punkt.

Deep Shredder wird in CEGT mit 2.982 bewertet. Wir eichen auf 2.800.
Ziehen wir mal die 182 ab ... von den CEGT x64 1T Werten und vergleichen mit Deinen IPON Werten.

Code:
CEGT:
Naum 4.2 x64 1T = 2.850
Naum 4.1 x64 1T = 2.821
Naum 4.0 x64 1T = 2.790

IPON:
Naum 4.2 x64 1T = 2.818
Naum 4.1 x64 1T = 2.783
Naum 4.0 x64 1T = 2.773


Merkst Du was?
Deine Werte sind allgemein für Naum viel zu niedrig.
Machen wir das gleiche mit CEGT und SWCR

Code:
CEGT:
Naum 4.2 w32 1T = nicht getestet
Naum 4.1 w32 1T = 2.802
Naum 4.0 w32 1T = 2.795

SWCR
Naum 4.2 w32 1T = 2.843 (derzeit nach 352 Partien)
Naum 4.1 w32 1T = 2.804
Naum 4.0 w32 1T = 2.778


Vergleichbar!

Die unterschiedlichen Meinungen beruhen auch aufgrund Deiner Basiswerte für Naum. Die sind egal ob Naum 4.0, 4.1 oder 4.2 zu niedrig.
Daher kannst Du Dir wahrscheinlich auch nicht erklären weil in der SWCR Naum so hohe Werte hat.

Ferner kommst Du von 4.0 auf 4.2 zu 45 ELO
SWCR und CEGT kommen auf 60-65 ELO.

Auch das erklärt den Zeitfaktor.
Zumindest habe ich keine andere Erklärung.

Du wolltest ja von mir das ich das rechtfertige aber ich sehe nur in Deiner IPON die Abweichungen !!

Gruß
Frank
Parent - - By Ingo Bauer Date 2010-03-31 20:17 Edited 2010-03-31 20:21
[quote="Frank Quisinsky"]
...
Deep Shredder wird in CEGT mit 2.982 bewertet. Wir eichen auf 2.800.
Ziehen wir mal die 182 ab ... von den CEGT x64 1T Werten und vergleichen mit Deinen IPON Werten.
...

Merkst Du was?
Deine Werte sind allgemein für Naum viel zu niedrig.
Machen wir das gleiche mit CEGT und SWCR
...
[/quote]

Hi Frank,

Es scheint du willst von den eigenen Problemen ablenken und einen "Nebenkriegsschauplatz" eröffnen!?

Aber ich weiche da durchaus nicht aus: Siehe hier: http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=23034

Nur soviel, genau das "subtrahieren" der Differenz EINER Enigne zw. zwei Listen zum Vergleich der ganzen Liste ist unzureichend. Ich habe es im obigen Link ausgeführt! Wobei, ja, Naum und Shredder sind die "Knackpunkte" zw. CEGT 40/20 und IPON. Dazu auch mehr am obigen Link.

Gruß
Ingo
Parent - - By Frank Quisinsky Date 2010-03-31 20:35
Hi,

Nicht das dies noch in weitere Threads ausartet

Ja, habe das gelesen (Listen vergleichen).
Kann ich auch nachvollziehen.

Nun gut:
Hat IPON Unterschiede zur CEGT bei Naum und Shredder und zur SWCR bei Naum und Junior.

Bei mir ist das Problem eher Junior.
So hoch ist Junior 2010 glaube ich nirgends bewertet als bei mir.

So wie sich das bei Junior 11.1a etwas augeglichen hat, ist es bei Dir offenbar mit Naum 4.2

Aber das meinte ich auch als im Dezember geschrieben hatte.
Auch bei der ATL-4 nach 20.000 Partien gab es so einen Fall.
Glaurung war bei mir deutlich schwächer als in allen anderen Listen und ich konnte das einfach nicht erklären.

Gruß
Frank
Parent - - By Michael Waesch Date 2010-04-01 01:59
Mit Verlaub, aber laß einfach mal stecken. Ihr werdet euch nicht einigen, sondern lediglich alle anderen hier in den Wahnsinn treiben. Man kann sich auch darauf einigen, unterschiedliche Meinungen zu haben.

Mike
Parent - By Frank Quisinsky Date 2010-04-01 04:58
Hi Michael,

solche Diskussionen fördern neue Erkenntnisse.
Das ist Computerschach !!

Natürlich vielleicht langweilig für Personen die sich dafür nicht interessieren, aber die müssen die Threads nicht lesen.
Es gibt ja auch Threads zu anderen Themen.

Sehe da kein Problem!
Und natürlich könnte das auch per E-Mail diskutiert werden, aber warum nicht öffentlich?
Personen die sich dafür interessieren können mitlesen, glaube von den Ratinglistenerstellern hat niemand zu diesen Themen Geheimnisse.

Siehe neuer Thread:
Experiment mit x64 Engines!

Gruß
Frank
Parent - By Udo Kaiser Date 2010-03-31 23:48
Zitat:
Pro Tag werden ca. 135 Partien gespielt.
Es wird also noch ca. 3 Tage dauern bis Naum die 760 Partien gespielt hat.



cool. das liest sich fast so als ginge es um die Wahrheit und man bräuchte nur
zählen (lassen) und schon wüßte man was

wahrlich wahrlich ich sage euch...
Up Topic Hauptforen / CSS-Forum / Naum 4.2, nun auf Platz 2 ...

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill