Naum 4.2 marschiert einfach ... weiterhin auf Platz 1!

By Frank Quisinsky Date 2010-03-30 23:46

Hallo Timo,

das wäre in der Tat eine Erklärung warum mehr als 50 ELO zustande kommen.
Im Grunde sind es eigentlich eher unter 50 ELO. Fraglich ist ob das dann wieder 15 ELO ausmacht ... um auf die 65 von Ingo zu kommen.
Könnte aber sein, Erklärung ist für mich zunächst logisch.

In Anbetracht der anderen Umstände bei Naum ... teste ja auch teilweise mit x64 wird das wahrscheinlich aber nicht zutreffen.
Glaube eher an die anderen Faktoren.

Du schreibst die x64 hätte einen Bug.
Das könnte sein, wäre gar überwiegend wahrscheinlich aber muss auch nicht sein ... keine Ahnung.
Naum 4.2 x64 habe ich noch gar nicht angeworfen, hat Ingo ja gemacht.
Werde ich aber ...

Zumindest scheint Alex überhaupt mit x64 eher ein Problem zu haben.
Bei Naum 4.1 schrieb er noch ... es kommt Naum 4.2 mit 64-Bit Optimierungen.

Dann kaum Naum 4.2 aber nun schaut es wieder nach besseren Ergebnissen bei w32 aus.
Überhaupt profitierte Naum noch nie nennenswert von x64.
Sind alles so Dinge.

Fest steht aber das die w32 perfekt läuft.
Keine Zeitüberschreitung und riesige Leistung.

Lese mal was Wolfgang geschrieben hat.
Er kann das besser beurteilen, hat schon mehr Partien gesehen.

Bin mal gespannt wie das Thema ausgeht.
Meine ob Naum 4.2 dieses hohe Rating wirklich halten kann, schaut aber wirklich alles danach aus.
Spricht gar nichts dagegen ... Remisquote ... Verhältnis der Verlustpartien im Vergleich zur Rybka 3.

Die Gesamtheit aller Ergebnisse auch wenn nur 300 Partien, Einstiegsposting.

Profitiert mehr von mehr Zeit ...
Kann ja anhand von den bestehenden Listen bei Naum 4.1 gesehen werden.

Also ich bin mir da eigentlich sehr sicher.
Nur meine Hand für eine Engine würde ich auch nichts ins Feuer legen.
Auch ich lag schon oft völlig daneben.

Gruß
Frank

By Ingo Bauer Date 2010-03-31 00:07

[quote="Timo Klaustermeyer"]
...

es ist schon köstlich euren Disput mitzuverfolgen ...
[/quote]

Finde ich auch, ist besser als jedes Fernsehprogramm, deswegen bin ich ja noch hier

[quote="Timo Klaustermeyer"]
Ich hätte da eine Idee, wie die überdurchschnittlich hohe Spielstärkesteigerung von einem auf zwei Threads bei Naum noch zustande kommen könnte. Sicherlich ein großer Teil gute Parallelisierung (Speedup-Faktor 1.8 ist durchaus möglich, wenn man gut optimiert - habe ich bei Spike selbst "miterlebt"), doch etwas habt ihr noch nicht mit eingerechnet: Eine MP-Version berechnet normalerweise mehr Knoten als eine SP-Version in dem Sinne, dass bestimmte Abschneidungen, die bei der SP-Version zum Tragen kommen, möglicherweise bei der MP-Version nicht stattfinden. Normalerweise würde man denken: Mmmh, diese Extra-Knoten können eigentlich nur Schrott sein, denn die SP-Version würde sie sonst nicht abschneiden. Aber was wäre, wenn bei dem ganzen Schrott doch mal die eine oder andere gute Variante dabei ist, die dann eben nur die MP-Version findet (auch nicht zwingend, da nicht-deterministisch, aber zumindest im Bereich des Möglichen)? Sollte das also bei Naum öfter mal vorkommen, könnte das ein paar weitere Elo bringen. Hier liegt also möglicherweise die Erklärung für die enorme Steigerung von ~60 Elo: Max. 50 Elo aus der reinen Geschwindigkeitssteigerung, Rest wird eventuell durch den oben beschriebenen Effekt hervorgerufen. Eine andere Erklärung wäre, dass Naum tatsächlich mehr als andere Engines von zusätzlicher Bedenkzeit profitiert. Aber das könnte man nur herausfinden, wenn man weitere Tests anstellt (mehr Bedenkzeit, ansonsten völlig identische Bedingungen und dann Ratings vergleichen)...
[/quote]

Schon klar, deswegen soll man ja auch eigentlich keine Knotenlesitung, sondern "time to depth" betrachten. Aber egal, ICH habe keine Probleme mit 65 Elo!

[quote="Timo Klaustermeyer"]
Die Differenz zwischen 32- und 64-bit Version können damit allerdings nicht erklärt werden. Falls Frank Recht hat, müsste die 64-bit Version einen Bug haben.
...
[/quote]

"Falls" und "müßte" sind die Schlüsselworte. Da es nach PV und Anzahl der Knoten bis Tiefe aber nach identischem Source aussieht, würde, wenn es denn ein Problem gäbe, es wohl am ehesten im 64bit Compilierungsvorgang liegen - und dagen spricht das die 64bit Version eben 25% schneller ist. Kurz: zum gegenwärtigen Zeitpunkt halte ich einen Bug für eher unwahrscheinlich (Obwohl natürlich immer gilt: Pferde, Apotheke ...)

Gruß
Ingo

By Timo Haupt Date 2010-03-31 12:19 Edited 2010-03-31 12:22

[quote="Ingo Bauer"]
Schon klar, deswegen soll man ja auch eigentlich keine Knotenlesitung, sondern "time to depth" betrachten. Aber egal, ICH habe keine Probleme mit 65 Elo!
[/quote]
Das Problem ist hierbei, dass sogar "time to depth" in die Irre führen kann, wenn es um den beschriebenen Effekt geht. Denn letztlich findet in dem Beispiel die MP-Version eine Variante, die die SP abgeschnitten hätte. Bei welcher Tiefe ist egal, diese kann sogar geringer sein. Es kommt also hierbei lediglich auf die Qualität des gefundenen Zuges an und die ist leider nur in praktischen Partien messbar (in der Gestalt, dass bessere Züge hin und wieder zu besseren Ergebnissen führen sollten). D.h. wir müssten sehr aufwendig testen, wie sich die Elo-Steigerung von 1 auf 2 threads genau zusammen setzt.

In etwa so, man nehme:
1) Einen ausführlichen Speedup-Test der Engine (Time-to-depth, mind. 100 verschiedene Stellungen, jede Stellung mind. 10mal testen und Mittelwerte errechnen). Hierbei wird Faktor t ermittelt, welcher den Speedup von 1 auf 2 Threads darstellt.
2) Einen ausführlichen praktischen Test der Engine (viele verschiedene Gegner, viele Partien und stets die gleichen Vorgabestellungen) mit 1 core bei x GHz Takt, danach den gleichen Test dieser Engine bei t*x GHz Takt (schwierig, da 2 unterschiedliche Rechner verwendet werden müssten - die Gegner müssen schließlich beim gleichen Takt x GHz weiterspielen). Dann weiß man genau, wieviel Elo der reine Zeitgewinn durch den Speedup bringt.
3) Einen ausführlichen praktischen Test der Engine mit 2 cores bei x GHz Takt (sonst absolut gleiche Bedingungen wie bei 2).

Wenn man nun das in Test 3 ermittelte Rating nimmt und das in Test 2 ermittelte "t*x - Rating" davon subtrahiert, müsste das die Elo-Differenz ergeben, die sich durch "sonstige" Einflüsse einstellt (also alles außer reinem Geschwindigkeitszuwachs).

Wer hat die Zeit und die Ressourcen, so etwas mal zu testen...?

Viele Grüße
Timo

By Ingo Bauer Date 2010-03-31 18:44

Hi

Ich glaube, trotz deiner polemischen Bemerkungen und Franks ignorieren meiner Argumente, dass Frank die Sache überzeugt und mit bestem Wissen betreibt. Daran das er absichtlich oder auch unabsichtlich etwas zurechtschiebt glaube ich nicht.

Gruß
Ingo

By Karl-Heinz Milaster Date 2010-03-31 18:59

Hallo Ingo,
[quote="Ingo Bauer"]... dass Frank die Sache überzeugt und mit bestem Wissen betreibt...[/quote]
das glaube ich auch, aber es ist ein Merkmal für "die Schere im Kopf", dass man sich unbewusst eine eigene, an einem Ergebnis orientierte Pseudo-Realität (er)schafft.
Dagegen zu argumentieren ist völlig aussichtslos.

Gruss,
khm

By Frank Quisinsky Date 2010-03-31 19:11

Hallo Karl-Heinz,

also ich zähle mich nicht zu den Leuten die nur an eigenes glauben. Viel wichtiger ist es doch zu sammeln und dann zu beurteilen. Anders ist das gar nicht möglich weil es einfach zu viele möglichen Beeinflussungsfaktoren, Spielbedingungen gibt.

Anders:
Frank hat Ergebnis A
Ingo hat ein anderes Ergebnis B

Dann ist das so. Die Sache wird spannend.
Was hat Christian, Thomas ... andere, oder die größeren Listen wie CEGT und CCRL.

Nur weil Frank Ergebnis A hat ... muss das nicht das Optimum sein.
Nur weil Ingo Ergebnis B hat ... muss das nicht das Optimum sein.

Denn nach wie vor ist das Ergebnis eines Einzelnen auch nur ein Ergebnis eines Einzelnen.
In der Regel sind die Ergebnisse ja wirklich gleich.

Kommt es zu Abweichungen wird es spannend.
Erklärungen fördern neue Erkenntnisse!

Ich finde auch das ist Computerschach!

Gruß
Frank

By Frank Quisinsky Date 2010-03-31 19:22

Hi Ingo,

ich habe auch das Gefühl, dass Du meine Bemerkungen ignorierst.

Wir können ja einen neuen Versuch starten.

Du sagst mit anderen Worten:
Ich bin im Erklärungsnotstand wegen den Naum Ergebnissen.
Weil in anderen Listen ...

Ich habe die anderen Listen mit SWCR verglichen, sehe aber nichts.

Vergleiche ich IPON mit CEGT sind es bei Naum 4.1 x64 trotz tausender von Partien 38 ELO Unterschied (bei Dir zu niedrig).
Im Grunde sind alle Deine Naum Werte zu niedrig wenn ich mich CEGT Vergleiche, wenn ich mit SWCR Vergleiche auch.
Wie gesagt CEGT und SWCR tun sich da überhaupt gar nichts.

Und nach wie vor ...
Ich denke es liegt an der kürzeren Bedenkzeit bei Dir.
Weil ... die Unterschiede sind beständig ... ob Naum 4.1 oder Naum 4.2 zu beiden anderen Listen.

Glaube nicht das es Deine Vorgabe-Eröffnungen sind.

Zu Deinem Argument:
Ich habe mir den x64 Zuwachs angesehen. Auch in anderen Listen.
Das schwankt bei Naum zwischen +5 - +20
In meinem x64 Kurztest waren es -8 also 32-Bit besser.

Hatte aber nur 400 Partien und das kann dann wirklich ein Zufall sein, bzw. zu wenige Partien.

Bei CEGT ist das klar ...
Naum legt bei x64 minimal zu.

Zu dem Ergebnis 1 Core / 2 Cores von IPON.
Auch das ist zur CEGT identisch.
Deine 65 ELO, CEGT stellt nichts anderes fest.

Werde mal die 1-4 Core Steigerungen heraussuchen, CEGT, IPON, CCRL und schauen ob meine Berechnung überhaupt noch stimmt.

Meine Berechnung war im Januar:
1 Core auf 2 Cores = 50 ELO
1 Core auf 4 Cores = 90 ELO (Durchschnittswerte).

Insofern kann ich das jetzt auch besser nachvollziehen was Du geschrieben hast.
Aber fest steht dennoch, dass Deine Naum Ergebnisse von SWCR und CEGT deutlich abweichen, es sind nicht meine Ergebnisse die abweichen.
Wäre auch eigentlich nicht zu erklären weil die Zeitbedingungen zwischen CEGT und SWCR fast gleich sind.

Gruß
Frank

By Ingo Bauer Date 2010-03-31 20:03

Moin

[quote="Frank Quisinsky"]

Du sagst mit anderen Worten:
Ich bin im Erklärungsnotstand wegen den Naum Ergebnissen. ...

[/quote]

Hast du das so aufgefasst - nicht das ich widersprechen will - aber ich sage gar nichts mehr, ich präsentiere von dir geforderte Daten.

[quote="Frank Quisinsky"]
...
Vergleiche ich IPON mit CEGT sind es bei Naum 4.1 x64 trotz tausender von Partien 38 ELO Unterschied (bei Dir zu niedrig).
Im Grunde sind alle Deine Naum Werte zu niedrig wenn ich mich CEGT Vergleiche, wenn ich mit SWCR Vergleiche auch.
Wie gesagt CEGT und SWCR tun sich da überhaupt gar nichts.

[/quote]

Zunachst mal ist dein Eindruck nur halb richtig und zu extrem. Du nimmst die CEGT und "schiebst" das Rating im ganzen rauf oder runter bis S12 2800 Elo erreicht. Den selben Fehler habe ich vor ein paar Wochen hier auch gemacht und mußte mich zu Recht belehren lassen!

Du mußt die Gesamtliste mit allen identischen Engines auf die DURCHSCHNITTLICH minimalste Abweichung schieben nur dann ist ein Vergleich mathematisch korrekt und halbwegs zulässig. Daraufhin habe ich meine, dir bekannten, OPENOFFICE CALC (nicht Excel!) Listen erstellt.
Wenn man IPON und CEGT mathematisch korrekt angleicht fällt auf, das Naum bei der CEGT zu hoch und Shredder 12 zu niedrig liegt (oder umgekehrt) allerdings ist der Abstand nicht mehr 38 sondern kleiner - und auch wenn diese zwei Engines die Extreme bilden, haben beide ihre 95% Error bar nie (OK, einmal für 2,3 Tage bis zum nächsten Update) verlassen - leider (wäre mir ja ein Fest darauf herumzureiten)! Genau über diesen Fakt halte ich zwei CEGT Leute auch ständig informiert (ob sie wollen oder nicht!

)
Das gilt übrigens nur bis Naum 4.1. Naum 4.2 scheint mir jetzt besser zu liegen, aber das kann ich im Moment nicht überprüfen da ich leider nur an einem Netbook sitze und meinen Hauptrechner nicht von diesem Gucklochscreen aus fernwarten will. Nach Ostern liefere ich aber gerne mal wieder eine aktuelle korrekte Vergleichstatistik wenn gewünscht.

[quote="Frank Quisinsky"]
Ich denke es liegt an der kürzeren Bedenkzeit bei Dir
...
Wäre auch eigentlich nicht zu erklären weil die Zeitbedingungen zwischen CEGT und SWCR fast gleich sind.
[/quote]

Da irrst du ein wenig. Meine Bedenkzeit, bezogen auf meine Hardware und die duchschnittliche Länge einer Partie ist gerade mal 20% unter der der 40/20 CEGT, wenn man dann noch Anhänger der "Ponder ON ist Bedenkzeitverlängerung"-Theorie ist ist meine Liste mit mehr Bedenkzeit erspielt als die 40/20 CEGT. (Gemessen mit dem CEGT eigenen Crafty-Bench!) Wenn man die vollen Kriterien der CEGT anlegen würde, also ein zum Teil relaxter Umgang mit der Hardwareanpassung und von meinem Fischer absehen könnte um sich auf die durchschnitliche Partielänge zu konzentrieren, würden meine Spiele praktisch perfekt in die 40/20 CEGT passen! Das ist auch der Grund warum die CEGT 40/20 für mich die "Hauptvergleichstabelle" ist und die von dir genannten "Ungleichheiten" von mir permanent gemonitort werden - natürlich vergleiche ich auch die 40/40 CCRL sowie YAPO und deine SWCR. Auf diese Art und Weise fallen mir Ungereimtheiten und auch Sprünge von einem Listen-Release einer Engine zum nächsten durchaus auf.
Nach allem was mir bekannt ist bin ich derjenige der alle halbwegs bekannten Listen am genauesten beobachtet und gerne nach "Fehlern" sucht - ich nehme an das können dir Werner oder Gerhard gerne bestätigen

Bye
Ingo

By Frank Quisinsky Date 2010-03-31 20:29

Hi Ingo,

danke für die Ausführungen.

Weiß ja das Du die Listen beobachtest.
Das macht auch die Sache für die Ersteller selbst spannender. Mache ich auch. Würde es IPON nicht geben wäre es komplizierter. von CCRL halte ich ehrlich gesagt nicht so viel, finde die Listen von Thomas Müller und Christian Koch noch sehr gut.

Das stimmt natürlich was Du schreibst:
IPON zu CEGT 38 ELO ... so einfach ist das nicht aber sollte auch nur ein grober Hinweis sein. Lasse es bei einer genauen Berechnung dann vielleicht 30 ELO sein. Habe glaube ich auch die Tabelle per E-Mail erhalten die Du gerfertig hast. Muss ich mir nochmal ansehen.

Bedenkzeit:
Du hast mal geschrieben, dass eine Partie bei Dir ca. 16-18 Minuten dauert.
CEGT spielt auch nicht bis zum Matt und gibt 40 in 20 an (glaube Pentium IV 2.0 GHz).
Wäre dann ca. 40 in 10 auf einer aktuellen 3.0GHz Intel Maschine.

Kann Dir nur sagen:
40 in 10 bis zum Matt = Partiedurchschnitt von 16.000 Partien ist 86 Züge bedeutet 40 Minuten pro Partie.
- 8 Minuten wenn ich nicht bis zum Matt spielen würde.

Das wäre ja dann die doppelte Zeit:
SWCR zu IPON (wir spielen beide mit Ponder).
Glaube Du hast Deine Q6600 Rechner übertacktet und die laufen mit 3.0 GHz.
Das wäre identisch mit meinen Rechnern.

Zwischen SWCR und IPON ist es also demnach die doppelte Zeit.
Und das ist auch der Grund warum ich denke das Naum bei Dir etwas schlechter abschneidet.

Das mit x64 zu w32 ist ja jetzt besser ersichtlich (auch aufgrund der CEGT Ergebnisse).

Auch hat Naum 4.2 seit den letzten Partien bei mir verloren. Lag immer so 8-12 ELO vor Rybka 3 und nun 10 ELO zurück.

Der folgende Umstand schaut merkwürdig aus:

IPON: Naum 4.2 x64 1T = 2.818
SWCR: Naum 4.2 w32 1T = 2.835 (wird wohl darauf hinauslaufen)

Schaut merkwürdig aus aber das liegt daran das:

1. Naum 4.0 auf 4.2 bei Dir "nur" um 45 ELO zulegte, in CEGT und SWCR um 60-65 ELO
2. Generell Naum bei Dir niedriger liegt als in SWCR und CEGT.

Wie gesagt, natürlich glaube ich diese von Dir ermittelten Werte und als Grund sehe ich jetzt nur noch ... die Zeitkomponente!

Gruß
Frank

By Ingo Bauer Date 2010-03-31 20:07

Hallo Frank,

Ich bekomme erst jetzt mit auf welches meiner Postings du mir gerade geantwortet hast.

Ich werfe mich für dich in die Bresche und du kommst mir so ...?

Entwas irritert schüttel ich den Kopf und Grüße
Ingo

By Frank Quisinsky Date 2010-03-31 20:16

Hi Ingo,

habe Dich in keiner Weise angegriffen, warum sollte ich.
Quatsch, vielleicht hast Du etwas falsch verstanden oder ich habe mich blöd ausgedrückt.
Werde jetzt Dein anderes Posting weiter oben lesen, sehr interessant !!

Habe Dir gerade in den Thread Naum 4.2 jetzt auf Platz 2 geanwortet.
Schaue Dir das mal an.

Gruß
Frank

Naum 4.2 32b - Rybka 3 mp (2906)	31.5	-	68.5	31.50%	Perf=2772
Naum 4.2 32b - Stockfish 1.6.x JA (2832)	48.5	-	51.5	48.50%	Perf=2822
Naum 4.2 32b - Deep Shredder 12 (2800)	50.0	-	50.0	50.00%	Perf=2800
Naum 4.2 32b - Komodo64 1.0 JA (2781)	47.0	-	53.0	47.00%	Perf=2761
Naum 4.2 32b - Zappa Mexico II (2708)	63.0	-	37.0	63.00%	Perf=2800
Naum 4.2 32b - Protector 1.3.2 JA (2699)	67.5	-	32.5	67.50%	Perf=2825
Naum 4.2 32b - Onno-1-1-1 (2682)	74.0	-	26.0	74.00%	Perf=2863
	381.5	-	318.5	54.50%	Perf=2803