Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / *QBRL - Test mit Hiarcs 13.1 - Zwischenstand
- - By Gerhard Sonnabend Date 2010-09-07 19:26
Hi to all !

Sämtliche Ausführungsbedingungen, Einzelresultate und mehr wie immer unter:
http://www.pcschach.de/Punkt3.htm

Bisher konnte Hiarcs 13.1 4CPU folgende Resultate erzielen:
Code:

vs Bright 0.4a 4CPU               [2623] 55.0-45.0 perf=2658
vs Bright 0.3d 4CPU               [2604] 67.0-33.0 perf=2727
vs Deep Junior 2010 x64 4CPU      [2630] 66.0-34.0 perf=2745
vs Deep Onno 1.2.70 x64 4CPU      [2673] 58.0-42.0 perf=2729
vs Deep Shredder 12 x64 4CPU      [2753] 45.5-54.5 perf=2722
vs Deep Sjeng 3.0 x64 4CPU        [2654] 68.5-31.5 perf=2789
vs Fruit 2.4 Beta A x64 4CPU      [2647] 56.5-43.5 perf=2692
vs Loop M1 4CPU                   [2593] 69.5-30.5 perf=2736
vs Naum 4.0 x64 4CPU              [2777] 51.5-48.5 perf=2787
vs Rybka 3.0 x64 4CPU             [2886] 28.5-71.5 perf=2726
vs Shredder WM Edition Bonn 4CPU  [2661] 60.0-40.0 perf=2731
vs Spike 1.3x6 4CPU               [2591] 70.0-30.0 perf=2738
vs Stockfish 1.6.3 x64 4CPU       [2812] 38.0-62.0 perf=2727
vs Thinker 5.4A x64 4CPU Inert    [2644] 56.5-43.5 perf=2689
vs Thinker 5.4D x64 4CPU Inert    [2673] 60.5-39.5 perf=2747
vs Zappa Mexico II x64 4CPU       [2689] 47.5-52.5 perf=2672

Performance ELO 2725 nach 1600 Spielen, also + 57 im Vergleich zur Version 12.1.

Viele Grüsse,
G.S.
Parent - - By Günther Höhne Date 2010-09-07 19:55
[quote="Gerhard Sonnabend"]
Performance ELO 2725 nach 1600 Spielen, also + 57 im Vergleich zur Version 12.1.
[/quote]

Hallo Gerhard,

vielen Dank für den Test! Der gemessene Zwischenstand von + 57 entspricht dann genau dem, was auch bei CEGT 40/20 gemessen wurde.
Ein im Vergleich recht interessantes Ergebniss trotz der verschiedenen Level (*QBRL 40Z./3min. + 40/3 +... )

CEGT 40/20  Hiarcs 13.1 MP 4CPU ELO 3027
CEGT 40/20  Hiarcs 12.1 MP 4CPU ELO 2970

Gruß
Günther
Parent - - By Gerhard Sonnabend Date 2010-09-08 11:04
Hallo Günther !

Gut beobachtet.

Hier mal eine Aufstellung der jeweiligen Differenzen verschiedener
Versionen einer Engine, so denn genügend Vergleichsdaten vorhanden sind.

Code:

Engine                           CEGT 40/20+... Diff.   QBRL 40/3+... Diff.
Rybka 4.0 x64 4CPU                  3224        +41       2916        +30
Rybka 3.0 x64 4CPU                  3183                  2886

Stockfish 1.7.1 x64 4CPU            3163        +44       2868        +56
Stockfish 1.6.(3) x64 4CPU          3119                  2812

Naum 4.2 x64 4CPU                   3134        +41       2818        +41
Naum 4.0 x64 4CPU                   3093                  2777

Deep Shredder 12 x64 4CPU           3066        +61       2753        +92
Shredder WM Edition Bonn 4CPU       3005                  2661

Hiarcs 13.1 4CPU                    3027        +57       2725        +57
Hiarcs 12.1 4CPU                    2970                  2668

Bright 0.4a 4CPU                    2918        + 7       2623        +19
Bright 0.3d 4CPU                    2911                  2604


Bisher also 2 "Punktlandungen".
3 Vergleiche weisen nur marginale Unterschiede auf,
lediglich Shredder tanzt (mal wieder) aus der Reihe.

Viele Grüsse,
G.S.
Parent - - By Ingo Bauer Date 2010-09-08 11:16
Hi

[quote="Gerhard Sonnabend"]
...
Bisher also 2 "Punktlandungen".
3 Vergleiche weisen nur marginale Unterschiede auf,
lediglich Shredder tanzt (mal wieder) aus der Reihe.

[/quote]

Man kann es auch so sehen, das alle Engines bei der kürzeren Bedenkzeit "besser" abschneiden, nur nicht Rybka, der tantz mal wieder aus der Reihe
(wobei es natürlich unmöglich ist das ALLE besser abschneiden, die Hälfte muß ja schlechter abschneiden um ie andere Hälfte besser dastehen zu lassen)

Im Ernst: Alles was das zeigt ist, dass was ich neulich in mehreren Threads gesagt habe und mit Zappa auch eine kleines Experiment habe laufen lassen  - mehr Zeit ändert das Ranking einer Engine nicht wesentlich. Für eine Rangliste ist lange Bedenkzeiten völlig unnötig!

Gruß
Ingo
Parent - - By Gerhard Sonnabend Date 2010-09-08 12:45
Hi Ingo !

[quote="Ingo Bauer"]
[...snip...]
Im Ernst: Alles was das zeigt ist, dass was ich neulich in mehreren Threads
gesagt habe und mit Zappa auch eine kleines Experiment habe laufen lassen  -
mehr Zeit ändert das Ranking einer Engine nicht wesentlich. Für eine Rangliste
ist lange Bedenkzeiten völlig unnötig!
[/quote]

Ich hoffe, dass jetzt keiner auf die Idee kommt und Deine Aussage uminterpretiert und schreibt:
"Wenn schon kaum Unterschiede zwischen 40/20+... und 40/3+... messbar sind, dann sollte doch
bereits 40/1+... ausreichen, um die Spielstärke der einzelnen Engines zu messen.
Zwischen 40/1+... und 40/3+... werden sicherlich ebenso wenig Unterschiede messbar sein."



Viele Grüsse,
G.S.
Parent - - By Frank Quisinsky Date 2010-09-08 13:00 Edited 2010-09-08 13:06
Hi Gerhard,

oder wir testen einfach mit 40 / 0.
In die Tabellen setzen wird dann die Wunsch ELO

So könnten auch Millionen von Partien erzeugt werden und das schöne dabei wäre, niemand muss sich dafür eine Hardware kaufen bzw. Geld für Programme ausgeben.

Mal im Ernst:
Ich denke die Wahrheit liegt irgendwo in der Mitte verborgen. Glaube daran das Engines mal etwas stärker oder schwächer durch die vielen Zeitfaktoren spielen. Allerdings hält sich das in Grenzen. Interessant ist hier eigentlich die Frage, um welche Programme es sich handelt? Vermutlich sind es die Programme mit weniger Schachwissen, die sich dann durch die Rechenpower bzw. den Zeitfaktoren verhältnismäßig mehr bessere Züge errechnen.

Interessant ist Dein Hiarcs 13.1 Test!
Bei Hiarcs 12 war es noch so, dass die Engine im Blitz deutlich besser war als bei längeren Bedenkzeiten. Offenbar ist das bei Hiarcs 13.1 nicht mehr der Fall. Auch hier wieder interessant zu wissen, warum ist das so ... wäre eine Interview Frage für Mark Uniacke.

Vielen DANK für diesen Test ... wirklich sehr interessant gerade bei der gewählten Engine Hiarcs !!

Gruß
Frank

Ist Dir eigentlich auch aufgefallen, dass Junior z. B. sehr viele Punkte gegen vermeidlich schlechtere Programme abgibt und dennoch Standardpunktzahlen gegen stärkere Engines erreicht. In dieser Engine steckt sehr viel Genialität. Wird Junior nun bei veränderten Zeitfaktoren die Fehler nur langsamer ausspielen oder wirklich die besseren Züge errechnen. Es steckt auch ein gewisser Reiz am Testen wenn nicht jede Frage beantwortet werden kann, auch wenn Ingo das nicht so gerne hört
Parent - By Frank Quisinsky Date 2010-09-08 13:11
Hallo Gerhard,

nochmals zu Junior ...
Das macht ca. 20 ELO aus.

Wird Junior nicht gegen Programme getestet, die ca. 200 ELO und mehr spielschwächer sind, wird diese Engine in einer Ratingliste ca. 20 ELO besser abschneiden.
Hatte mich gestern ein wenig mit Junior beschäftigt und kam zu diesem sonderbaren Ergebnis.

Das sind alles solche Kleinigkeiten, die dann für unterschiedliche Ergebnisse verantwortlich sind ... und die Pünktchen summieren sich.

Gruß
Frank
Parent - - By Gerhard Sonnabend Date 2010-09-08 13:16
[quote="Frank Quisinsky"]
[...snip...]
Ist Dir eigentlich auch aufgefallen, dass Junior z. B. sehr viele Punkte gegen
vermeidlich schlechtere Programme abgibt und dennoch Standardpunktzahlen gegen
stärkere Engines erreicht. In dieser Engine steckt sehr viel Genialität. Wird
Junior nun bei veränderten Zeitfaktoren die Fehler nur langsamer ausspielen oder
wirklich die besseren Züge errechnen. Es steckt auch ein gewisser Reiz am Testen
wenn nicht jede Frage beantwortet werden kann, auch wenn Ingo das nicht so gerne hört.
[/quote]

Kann ich, zumindest fürs Blitz 40/3+..., nicht festellen.
Sieh Dir mal diese Auflistung an:
http://www.husvankempen.de/nunn/40_4_Ratinglist/40_4_single/254.html
Einmal scored Junior besser als er dürfte gegen "schwächere" Engines, ein anderes
Mal wieder schlechter als erwartet. Gegen die "stärkeren" Engines das selbe Bild,
völlig unregelmässig also.

Viele Grüsse,
G.S.
Parent - - By Frank Quisinsky Date 2010-09-08 13:24
Hallo Gerhard,

OK, schaue ich mir an.
Werde heute Abend auch noch mal ein paar gezieltere Analysen anfertigen.

Viele Grüße
Frank
Parent - - By Ingo Bauer Date 2010-09-08 14:33
Hallo Frank,

Auch bei mir (Ergebnisse einsehbar) ist gegen die obere Hälfte der Gegner kein prozentual besseres Abschneiden als gegen die untere Hälfte feststellbar. Insofern muß auch ich sagen: Ist mir noch nichts dahingegend aufgefallen.

Überhaupt sind ALLE Engines unauffällig (die ich geprüft habe / die Top 10 'talked about Engines' ... ) was gute oder schlechte Gegner betrifft. Sofern genug Gegner zusammenkommen ist der Durchschnitt ziemlich gleich. Natürlich gibt es bei Einzelgegnern "Angstgegner", aber selbst das ist womöglich auf die, zumindest bei mir, geringe Anzahl an Spielen pro Gegner zurückzuführen.

Gruß
Ingo
Parent - By Frank Quisinsky Date 2010-09-08 16:21
Hallo Ingo,

also, ich erstelle heute Abend noch ein paar Statistiken.
Das Thema reizt mich jetzt, vermutlich wirds dann aber nichts bringen wenn schon Gerhard und Ingo zusammen diese Meinung vertreten.
Gestern habe ich nur Stichproben gemacht, weil ich einfach den Eindruck beim Zusehen gewonnen hatte.

Wenn Hiarcs, Junior, Spark, Stockfish spielen ... schaue ich meist gebannt zu
Natürlich auch bei den anderen Engines aber besonders beobachte ich derzeit die genannten 4.

Gruß
Frank
Up Topic Hauptforen / CSS-Forum / *QBRL - Test mit Hiarcs 13.1 - Zwischenstand

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill