Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Fritz 12 im Blitz (f.d. CEGT-Blitz-Rating-Liste)
1 2 Previous Next  
- - By Gerhard Sonnabend Date 2009-09-30 18:31
Hi to all !

Nach den ersten 1000 Spielen sieht es wie folgt aus:
Code:

Fritz 11            ELO 2914 out of 8606 games
Fritz 11.1          ELO 2922 out of 3920 games
Deep Fritz 11 1CPU  ELO 2927 out of 2450 games
Fritz 12            ELO 2945 out of 1000 games


Link zu den Tests / Einzelresultaten:
http://cegt.foren-city.de/topic,301,-testing-fritz-12.html

Link zur CEGT-Blitz-Rating-Liste:
http://www.husvankempen.de/nunn/blitz.htm

Viele Grüsse,
G.S.
Parent - - By Klaus S. Date 2009-09-30 19:33
Oh, oh,
ca. 30 Punkte mehr als Fr11, das versinkt fast im statistischen Rauschen.

Für eine fast 2-jährige Entwicklungszeit (Fr11: 06.11.2007) scheint es mir doch ziemlich wenig Steigerung zu sein.
Na ja, noch mal abwarten, vielleicht gibt's noch geringe Steigerungen.

MfG
Wilfried
Parent - - By Gerhard Sonnabend Date 2009-09-30 21:10
[quote="Wilfried Lübkemann"]
Oh, oh,
ca. 30 Punkte mehr als Fr11, das versinkt fast im statistischen Rauschen.

Für eine fast 2-jährige Entwicklungszeit (Fr11: 06.11.2007) scheint es mir doch ziemlich wenig Steigerung zu sein.
Na ja, noch mal abwarten, vielleicht gibt's noch geringe Steigerungen.
[/quote]

Warten wir besser noch ein wenig ab. Z.Zt. kommen fast stündlich
neue Ergebnisse der CEGT-Tester rein. Mal sehen wie es nach
2000 Games aussieht.

Ich persönlich vermute jedoch, dass sich nicht mehr allzu viel ändern wird.

Viele Grüsse,
G.S.
Parent - - By Jan Petersen Date 2009-10-01 00:02
Lieber Kurt,

wann wirst Du endlich begreifen, dass Deine Partien von früher .. gespielt auf super alter Hardware .. ungefähr den heutigen Blitzpartien entsprechen.
Parent - - By Ingo Bauer Date 2009-10-01 17:17 Edited 2009-10-01 17:19
Lieber Jan

[quote="Jan Petersen"]
Lieber Kurt,

wann wirst Du endlich begreifen, dass Deine Partien von früher .. gespielt auf super alter Hardware .. ungefähr den heutigen Blitzpartien entsprechen.
[/quote]

... und wann werden die Leute, und auch du, aufhören das zu behaupten?

Gruß
Ingo

PS: Und nein, ich erkläre nicht schon wieder warum 5 Minuten auf schneller Hardware X NICHT das selbe sind wie 60 Minuten auf X/12 Hardware!
Parent - - By Michael Scheidl Date 2009-10-02 14:29
Gehe ich recht in der Annahme, daß Du das Bedenkzeitverhalten bzw. die Zeiteinteilung meinst? Hat das wirklich so viel Einfluß daß man von einem signifikanten Unterschied sprechen kann?

Ein Physiker würde sagen, Arbeit = Leistung x Zeit. 2 x 180 = 30 x 12.

Das Bedenkzeitverhalten ist in der Analyse bedeutungslos, ebenso das Pondern. Ich nehme an daß der Hauptzweck von Engine-Ratings ist (oder sein sollte), den Anwendern Hinweise zu geben welche Engine sie am besten für Analysen benutzen sollen. Die 0,1% Leute die Engines für den Playchess-Maschinenraum kaufen, sind mir wurscht.
Parent - By Tobias Lagemann Date 2009-10-02 15:01
Hallo Michael,

da ein Engine-Rating m.E. nichts über das Spielverhalten (sprich Verhalten in bestimmten Situationen) einer Engine sagt, glaube ich kaum, dass sich aus Engine-Ratings ableiten lässt, welche Engine sich am besten für Analysen nutzen lässt. Okay, Rybka ist eine sehr kompakte Engine, aber es gibt Stellungen, in denen Rybka vor die Wand läuft, während andere in Nullkomanix die Lösung parat haben.

Wer Engines für Analysen nutzen möchte, sollte sich gespielte Partien runterladen und sich gründlich anschauen. Es gibt so manches recht typische Verhalten, das sich da entdecken lässt, z.B. Turmbehandlung, starker Läufer gegen schwachen Läufer, Damenbehandlung, Königssicherheit, Kompensation ...

Gerade für "Fernschachspieler" ist eine Übersicht über die Stärken und Schwächen von Engines eine große Zeitersparnis, weil sie dann nicht Rybka (als Engine mit dem höchsten Rating) 5h rechnen lassen müssen, sondern mit Engine X nach 5min Rechnerei und vielleicht noch 20min vertiefender Analyse zum richtigen Ergebnis kommen.

Viele Grüße
Tobias
Parent - - By Ingo Bauer Date 2009-10-02 15:42 Edited 2009-10-02 15:45
Hallo Michael

[quote="Michael Scheidl"]
Gehe ich recht in der Annahme, daß Du das Bedenkzeitverhalten bzw. die Zeiteinteilung meinst? Hat das wirklich so viel Einfluß daß man von einem signifikanten Unterschied sprechen kann?

Ein Physiker würde sagen, Arbeit = Leistung x Zeit. 2 x 180 = 30 x 12.

Das Bedenkzeitverhalten ist in der Analyse bedeutungslos, ebenso das Pondern. Ich nehme an daß der Hauptzweck von Engine-Ratings ist (oder sein sollte), den Anwendern Hinweise zu geben welche Engine sie am besten für Analysen benutzen sollen. Die 0,1% Leute die Engines für den Playchess-Maschinenraum kaufen, sind mir wurscht.
[/quote]

OK, nochmal.

1. Wir sprechen von einem Spiel, also dem was die Grundlage einer Rangliste darstellt. (Analyse ist ein anderes Thema)
2. Nehmen wir an eine Engine hat für den Rest der Partie noch 5 Minuten auf aktueller Hardware, ohne zu wissen wie viele Züge das noch sind.
3. Ich kenne inzwischen zwei Engines (dritte im Verdacht), die Ihre Bedenkzeit (unter anderem) nach einer absoluten Tabelle richten. Sprich bei 1 Minuten Panik bekommen und sicherheitshalber schneller ziehen als wenn sie, egal welche Hardware, noch das 10 oder 20fache an Zeit übrig haben.
4. Demanch ist das Verhalten dieser Engines auf auf alter Hardware mit viel Bedenkzeit eben nicht identisch zu schneller Hardware mit wenig Bedenkzeit.

Gruß
Ingo
Parent - By Benno Hartwig Date 2009-10-02 16:35
[quote="Ingo Bauer"]2. Nehmen wir an eine Engine hat für den Rest der Partie noch 5 Minuten auf aktueller Hardware, ohne zu wissen wie viele Züge das noch sind.[/quote]Sie wissen nicht, wie viele Züge noch. Aber sie wissen, wieviele schon waren.
Und insofern kann und sollte vermutlich der Autor die nun für den einzelnen Zug genutzt Zeit schon anders einteilen.
Vielleicht 1/60 der noch-da-Zeit am Anfang, aber durchaus 1/40 der noch-da-Zeit am Ende. ("Etwas länger denken, da meist nicht mehr soo lange gespielt weden muss" Kann natürlich auch in die Hose gehen)

[quote="Ingo Bauer"]3. Ich kenne inzwischen zwei Engines (dritte im Verdacht), die Ihre Bedenkzeit (unter anderem) nach einer absoluten Tabelle richten. Sprich bei 1 Minuten Panik bekommen und sicherheitshalber schneller ziehen als wenn sie, egal welche Hardware, noch das 10 oder 20fache an Zeit übrig haben.[/quote]Da ich das nicht erwartet hatte und es mich überrascht: wodurch konkret kamst du zu diesem Wissen?
Ich hätte schon vermutet, dass auch bei 2 oder 4 Minuten eine analoge und dann eben mildere Panik einbrechen könnte, die dazu führt, dass ein 10min-Spiel auf alter Hardware sehr ähnlich verlaufen könnte wie ein 5min-Spiel auf doppelt so schneller Hardware.
Wodurch erkanntest du so bestimmt, dass das tatsächlich nicht so ist? (das Bauchgefühl täuscht oft.)

Benno
Parent - - By Michael Scheidl Date 2009-10-02 20:50
Mag sein, aber im Analysemodus ist das doch alles wurscht. Also wen soll der Quatsch interessieren? In der Analyse gibt es keine "Restzeit" und derartige Sachen...
Parent - By Michael Scheidl Date 2009-10-03 14:13
Nachdem ich inzwischen ausgeschlafen habe wird mir allerdings klar, daß das schon ein wichtiger Einwand ist, falls einige Engines das tatsächlich so machen. D.h. die Aussagekraft von Blitz-Listen relativ zur puren "Schachstärke" (ohne Zeitdruck) wird dadurch möglicherweise etwas getrübt. Mir stellt sich nur die Frage wie groß der Effekt ist... Viele Unterschiede zu Ratings auf langer Bedenkzeit fallen ja nicht auf, und wo sie auffallen sind sie meist vom Branching-Faktor her interpretierbar.

Ich persönlich ziehe zum Testen Zeitkontrollen mit nicht zu kleinem Inkrement vor, wie 5m+3s zum Beispiel, sodaß es eigentlich zu gar keiner echten Zeitnot kommen kann.

("Endlosen" Partien kann man mit dann Begrenzung der Zügezahl vorbeugen. Die Beinträchtigung der Verläßlichkeit ist m.E. mikroskopisch.)

Daß man Engines f.d. Analyse möglichst nach spezifischen Stärken und Schwächen auswählen soll, ist auch klar.
Parent - By Wolfram Bernhardt Date 2009-10-03 00:42
[quote="Ingo Bauer"]
PS: Und nein, ich erkläre nicht schon wieder warum 5 Minuten auf schneller Hardware X NICHT das selbe sind wie 60 Minuten auf X/12 Hardware!
[/quote]

Aus ehrlichem Interesse gefragt: Wo hast Du das denn schonmal erklärt (Link reicht)?

Spontan würde ich das nmäich auch denken. Solange kein Zufallsfaktor und nur ein Thread beteiligt ist (Multithreading muss man wohl als eine Art Zufallsfaktor bezeichnen), sollten Schachprogramme deterministisch rechnen und also immer dasselbe herausbekommen. Wenn das x mal schneller geht, sollte man meinen, es ist trotzdem dasselbe Ergebnis.

Viele Grüße,
     Wolfram
Parent - - By Kurt Utzinger Date 2009-09-30 22:48
Hallo Wilfried
Das sind alles Resultate aufgrund von Blitz-Partien. Vielleicht ist ja Fritz 12
darauf ausgelegt, bei "normalen" Bedenkzeiten stärker zuzulegen als andere
Programme. Bis wir das jedoch aufgrund einer genügenden Anzahl von Partien
wissen, wird noch einige Zeit vergehen.
Mfg
Kurt
Parent - - By Ingo Bauer Date 2009-09-30 23:17
Hallo Kurt,

[quote="Kurt Utzinger"]
Hallo Wilfried
Das sind alles Resultate aufgrund von Blitz-Partien. Vielleicht ist ja Fritz 12
darauf ausgelegt, bei "normalen" Bedenkzeiten stärker zuzulegen als andere
Programme. Bis wir das jedoch aufgrund einer genügenden Anzahl von Partien
wissen, wird noch einige Zeit vergehen.
Mfg
Kurt
[/quote]

Auch ich halte nichts von superkurzem Blitzen und ich weigere mich sowas auf irgendeinem Server spielen zu lassen, aber wenn das Blitz halbwegs vernünftig ist sehe ich keine Engine (mehr) deren Rating sich bei Blitz und lang Partien Grundlegend anders verhält.
Sicher mag die ein oder andere mal die Plätze tauschen und auch die Partiequalität ist nicht sonderlich hoch, aber ich sehe keinen Anschein (mehr) das die Engineperfomance nicht im ganzen zu jeder vernünftigen Bedenkzeit, paralell läuft. Wenn du eine Engine kennst die massiv davon abweicht, bin ich gerne berei bei Gelegenheit ein paar Tests zu machen!
Man muß unterscheiden können zw. Qualität der Partien und Qualität des daraus errechneten Rating. Ich spreche nicht von der Partiequalität, da gehen wir konform, aber beim Rating sehe ich das anders (Siehe CEGT, CCRL, in vernünftigem Rahmen bekommen die beiden die selben Engines nach vorne wie die SSDF)

Gruß
Ingo

PS: Wobei ich in letzter Zeit doch wieder zu "Ponder on" tendiere, da sehe ich Unterschiede (wenn gleich ich die vielleicht auch sehen will )!
Parent - - By Roland Rösler Date 2009-10-01 00:31
[quote="Ingo Bauer"]Auch ich halte nichts von superkurzem Blitzen und ich weigere mich sowas auf irgendeinem Server spielen zu lassen, aber wenn das Blitz halbwegs vernünftig ist sehe ich keine Engine (mehr) deren Rating sich bei Blitz und lang Partien Grundlegend anders verhält. [/quote]
Naja, Stockfish verhält sich bei 40/20 schon ziemlich enttäuschend. Während er hier 37 Elopunkte zu 40/4 verliert, gewinnt DF11 1 CPU 1 Elopunkt! Noch gravierender ist es bei Zappa Mexico II x64 1 CPU; der gewinnt sogar +24 Elopunkte; d. h. er ist 45 Elopunkte schlechter bei 40/4 als Stockfish, bei 40/20 aber 16 Elopunkte besser. Das sind zusammen 61 Elopunkte Unterschied!

[quote="Ingo Bauer"]PS: Wobei ich in letzter Zeit doch wieder zu "Ponder on" tendiere, ...[/quote]
Das einzig Wahre! Okay, zu Zeiten der single core Maschinen hatte ich ja noch ein gewisses Verständnis für Ponder=off, aber diese Zeiten haben wir längst hinter uns gelassen. Dennoch wird weiterhin mit ponder=off getestet!  Möglicherweise um auch diese "unsinnigen" 4 CPU Ergebnisse präsentieren zu können und man keine 8 core Maschinen hat. Sollte mal ein Programmierer eine genialere Ponderstrategie als die bisherigen entwickeln, CEGT und CCRL würden es nicht merken!
Schach ist nun mal ein Spiel, wo der Gegner nicht sein Gehirn abschaltet, nur weil er gerade nicht am Zug ist!
Parent - - By Ingo Bauer Date 2009-10-01 09:39
Moin

[quote="Roland Rösler"]
...
Naja, Stockfish verhält sich bei 40/20 schon ziemlich enttäuschend. Während er hier 37 Elopunkte zu 40/4 verliert, gewinnt DF11 1 CPU 1 Elopunkt! Noch gravierender ist es bei Zappa Mexico II x64 1 CPU; der gewinnt sogar +24 Elopunkte; d. h. er ist 45 Elopunkte schlechter bei 40/4 als Stockfish, bei 40/20 aber 16 Elopunkte besser. Das sind zusammen 61 Elopunkte Unterschied!
...
[/quote]

Na ja, deine Methodik zweifle ich an, du kannst doch nicht absolute Elos der zwei Listen vergleichen und schon gar nicht zwei Engines die du beide anzweifelst untereinander!

Was hälst du von der (richtigen) Rechnung:

Der Duchschnitt der drei besten Engines R3 x64, Naum 4 x64 und DF11, jeweils 4 Threads ist für die 40/4=3144 Elo und für die 40/20 3108 Elo

ZM2 x64 Single in 40/4 2910 ELo, Abstand zum Durchschnitt = 234 Elo
ZM2 x64 Single in 40/20 2887 Elo, Abstand zum Durchschnitt = 221 Elo

und siehe da, dein Unterschied ist fast weg

Oder Stockfish:

S1.4x64 1T in 40/4 2831 Elo, Abstand zum Durchschnitt = 213 Elo
S1.4x64 1T in 40/30 2894 Elo, Abstand zum Duchschnitt = 214 Elo

Hier kann man glaube ich wirklich von gleich sprechen!

Allerdings, wer lange genug sucht wird vielleicht doch die ein oder andere Engine finden die rausfällt, man soll dann aber auch die Gesamtzahl der getesteten Engines sehen, einige hundert!

Allerdings wäre es schon schön zu wissen auf was die CEGT ihre verschiedenen Listen eicht. Als Bsp wäre es schön wenn sie per Definition die beste Engine, egal welche es ist und auf welcher Hardware sie läuft, z.B auf 2999 legen würden ...

Gruß
Ingo

PS: Hoffentlich habe ich mich nicht verrechnet!
Parent - - By Werner Schüle Date 2009-10-01 10:07
[quote="Ingo Bauer"]
Allerdings wäre es schon schön zu wissen auf was die CEGT ihre verschiedenen Listen eicht. Als Bsp wäre es schön wenn sie per Definition die beste Engine, egal welche es ist und auf welcher Hardware sie läuft, z.B auf 2999 legen würden ...
PS: Hoffentlich habe ich mich nicht verrechnet![/quote]

Hallo Ingo,
unsere Listen sind auf
254 Shredder 9.1 2750 6 6 9444
geeicht.
Die Start-Elo wird so gesetzt, dass Shredder auf 2750 kommt.
Gruß
Werner
Parent - - By Benno Hartwig Date 2009-10-01 10:53
[quote="Werner Schüle"]unsere Listen sind auf254 Shredder 9.1 2750 6 6 9444 geeicht.
Die Start-Elo wird so gesetzt, dass Shredder auf 2750 kommt.[/quote]
Sicher ein vielduskutiertes Thema.
"Und was ist, wenn gerade jener Shredder unglücklich spielte?" (Gemeint ist, wenn er unglücklicherweise ein Ergebnis erspielte, was nicht dem Erwartungswert eines solchen Ergebnisses entspricht?) Dann wäre die gesamte Tabelle verschoben.

Wäre es nicht besser, einen Index (ähnlich DAX) zugrunde zu legen?
Sowas wie:
eine Gruppe von vielleicht 6 aktuellen Engines sorgen für Eichung. Vielleicht:
Jede dieser Engines macht einen Eichungsvorschlag, Nach Verlässlichkeit gewichtet erfolgt dann die Eichung:
Wobei: warum eigentlich nur 'aktuelle Engines'. Vielleicht wäre eine Mischung von aktuellen und etwas älteren noch besser.

Gerade der Blick auf die Spitzengruppen der 40/4 und 40/20 von CEGT verrät,
- Rybka3 hat beim Blitz ca 40 ELO-Punkte mehr
- Bei Rybka2.3 sind es knapp 30
- Bei DeepFritz1 aber mehr als 40
- Bei Zappa stimmen die Werte in etwa überein, OK
...

Da ist dann schon zu überlegen:
- Ist das statistisches Rauschen, man soll sich nichts dabei denken (dafür sind mir die Signale zu stark!)
- Ist die Blitz-Liste stärker gestreckt (gute haben mehr ELO, schlechte weniger als bei längeren Zeiten) Das könnte schon sein und sollte vielleicht mal genauer betrachtet werden. Dann könnte aber auch sinnvoll werden, die Eichung stets mittels einer oder besser einiger aktuellen Engines durchzuführen.
- Oder gibt es doch und trotz eurer Eichungsbemühungen mittels des alten Shredder inzwischen einen deutlichen Versatz der beiden Listen?

Ich schlage vor, jeweils die jeweiligen Erfolge von
Rybka3, Fritz11, Naum4, Stockfish, Zappa, Shredder11
zu nutzen (Liste ändert sich fortlaufend), um eine 'Eichung' der Listen durchzuführen.
Gute Idee? / Schlechte Idee?

Benno
Parent - - By Werner Schüle Date 2009-10-01 11:26
Hallo Benno,
ich bin nicht der Statistiker in der CEGT. Ich weiss nur, CCRL machts anders:
Code:
As I said earlier, we use a subset of SSDF list as a standard to
calibrate all our lists. We use about 10 engines common between our
list and SSDF

Und sie benutzen nicht Elostat.

Schau dir mal die CCRL Listen an nach deinen Kriterien, sind die da besser?

... und Shredder hat 9444 Spiele, dabei hat er sicher mal glücklich und mal unglücklich gespielt. Gleicht sich sicher aus.

Gruß
Werner
Parent - By Benno Hartwig Date 2009-10-01 18:33
[quote="Werner Schüle"]Schau dir mal die CCRL Listen an nach deinen Kriterien, sind die da besser?
... und Shredder hat 9444 Spiele, dabei hat er sicher mal glücklich und mal unglücklich gespielt. Gleicht sich sicher aus.[/quote]Stimmt, die statistische Unsicherheit ist damit gering.
Trotzdem misshagt mir, dass die Eichung so über eine einzige Engine läuft.
Gerade diejenigen, die die Unterschiedlichkeit des Engine-Verhaltens bei verschiedenen Zeiten für relevant halten, müssten hier doch aufschreien.

Ich fand nicht, nach welchen Kriterien CCRL die Listen anpasst.
Weißt du's?

Benno
Parent - - By Gerhard Sonnabend Date 2009-10-01 13:27 Edited 2009-10-01 13:30
[quote="Benno Hartwig"]
[quote="Werner Schüle"]unsere Listen sind auf254 Shredder 9.1 2750 6 6 9444 geeicht.
Die Start-Elo wird so gesetzt, dass Shredder auf 2750 kommt.[/quote]
Sicher ein vielduskutiertes Thema.
"Und was ist, wenn gerade jener Shredder unglücklich spielte?" (Gemeint ist, wenn er unglücklicherweise ein Ergebnis erspielte, was nicht dem Erwartungswert eines solchen Ergebnisses entspricht?) Dann wäre die gesamte Tabelle verschoben.
[...snip...]
[/quote]

Hi Benno !

Das kann ich mir bei der Masse an Spielen nicht vorstellen.
In der 40/20-Liste hat die Referenzengine bisher 9444 Spiele,
in der Blitz-Rangliste deren 6336.

Das sich Blitz- und 40/20-Liste unterscheiden ist "Gott sei Dank" so !
Wäre es nicht der Fall, dann würde das einem zu Denken geben müssen,
nicht wahr ?

Wie man sehen kann liegt der Remisanteil bei 40/20 z.Zt. bei 35.4%,
in der Blitzrangliste bei lediglich 30.6%.
Das ist der Grund weshalb die Spreizung beim Blitz etwas grösser ist.

5% mehr entschiedene Partien entsprechen in etwa + 40 Punkten.

Viele Grüsse,
G.S.
Parent - - By Benno Hartwig Date 2009-10-01 14:29
Thanx

[quote="Gerhard Sonnabend"]In der 40/20-Liste hat die Referenzengine bisher 9444 Spiele, in der Blitz-Rangliste deren 6336.[/quote]
Klar, du hast recht, da sollten die korrekten Werte für Shredder schon recht verlässlich bestimmt worden sein.
Offen bleibt, ob Shredder ein Bursche ist, der im Blitz und bei längeren Zeiten etwa gleich relative Spielstärke entwickelt, oder ob da eine Engine gewählt wurde, die gerade sehr unterschiedliche relative Stärken hat und damit eine Verschiebung der Skalen bewirkt. (Darum mein Vorschlag, mehrere Engines in die Bewertung zu nehmen)

[quote="Gerhard Sonnabend"]Wie man sehen kann liegt der Remisanteil bei 40/20 z.Zt. bei 35.4%,
in der Blitzrangliste bei lediglich 30.6%.
Das ist der Grund weshalb die Spreizung beim Blitz etwas grösser ist.[/quote]Das ist interessant,  und das sorgt wohl auch für die Spreizung.
Aus dem Bauch heraus denke ich, dass eine Eichung (eine Angleichung der ELO-Niveaus) durch eine Gruppe von aktuellen Engines erfolgen sollte.
Allerdings: ein Kriterium für überzeugtes "So sollte man es unbedingt machen" will mir nicht einfallen.
Aber diese Top-Engines interessieren halt am meisten. Finde ich.

Aber eine Aussagekraft haben die Tabellen ja vor allem in der Bewertung der Spielstärke der Engines in einer Tabelle.
Jeder Vergleich mir irgendwas außerhalb ist immer mäßig vertrauenserweckend.
(Und sollte gleichwohl bei aller Vorsicht trotzdem gewagt werden!)

Benno
Parent - - By Gerhard Sonnabend Date 2009-10-01 15:00
Hi Benno !

[quote="Benno Hartwig"]
[...snip...]
Aus dem Bauch heraus denke ich, dass eine Eichung (eine Angleichung der ELO-Niveaus)
durch eine Gruppe von aktuellen Engines erfolgen sollte.
Allerdings: ein Kriterium für überzeugtes "So sollte man es unbedingt machen" will mir nicht
einfallen. Aber diese Top-Engines interessieren halt am meisten. Finde ich.
[/quote]

Da könnte schon was dran sein. Nur wüsste ich jetzt nicht,
wie man das mit "Boardmitteln" bewerkstelligen könnte ?!

[quote="Benno Hartwig"]
Aber eine Aussagekraft haben die Tabellen ja vor allem in der Bewertung der Spielstärke
der Engines in einer Tabelle.
Jeder Vergleich mir irgendwas außerhalb ist immer mäßig vertrauenserweckend.
(Und sollte gleichwohl bei aller Vorsicht trotzdem gewagt werden!)
[/quote]

Ich denke auch, dass der beste Vergleich der ist, welchen man innerhalb
einer einzigen Liste durchführt.
Da aber sowohl die Blitz- als auch die 40/20-Liste die selbe Engine (mit dem
selben Rating) als Referenz anführt, sind Vergleiche beider Listen schon fast "normal"
resp. erwünscht.

Viele Grüsse,
G.S.
Parent - By Benno Hartwig Date 2009-10-01 16:08 Edited 2009-10-01 16:11
Hallo Gerhard,

[quote="Gerhard Sonnabend"]Da aber sowohl die Blitz- als auch die 40/20-Liste die selbe Engine (mit dem
selben Rating) als Referenz anführt, sind Vergleiche beider Listen schon fast "normal"
resp. erwünscht.[/quote]Sicher, z.B. die Position einer Engine im Feld (hier und da) ist natürlich schon sehr interessant, und sie lässt sich gut vergleichen.
Wenn eine Engine in einem Feld deutlich weiter oben liegt, vor Konkurrenten liegt, dann gibt das sicher eine vernünftige Information.
Nur eben der nackte Vergleich der ELO-Zahlen EngineXYZ beim 40/4 und 40/20 nicht.

Aber auch beim Betrachten der Positionen sollte man natürlich im Auge behalten:
30 interessante Engines, jede mit 95%-Wahrscheinlichkeit im angegebenen Intervall, da wird man regelmäßig auch Ausreißer, Engines deren wahre Stärke außerhalb des angegebenen Intervalls liegt, in Kauf nehmen müssen. Und vielleicht ist ja gerade die Engine, deren Resultat überraschend wirkt, ein guter Kandidat für solch einen Ausreißer
(beziehen sich die CEGT- und CCRL-Intervalle eigentlich auf die von mir nur vermuteten 95%-Wahrscheinlichkeiten?)

Benno
Parent - - By Gerhard Sonnabend Date 2009-10-01 18:22
[quote="Roland Rösler"]
[...snip...]
Das einzig Wahre! Okay, zu Zeiten der single core Maschinen hatte ich ja noch ein gewisses Verständnis
für Ponder=off, aber diese Zeiten haben wir längst hinter uns gelassen. Dennoch wird weiterhin mit
ponder=off getestet!  Möglicherweise um auch diese "unsinnigen" 4 CPU Ergebnisse präsentieren zu können
und man keine 8 core Maschinen hat. Sollte mal ein Programmierer eine genialere Ponderstrategie als die
bisherigen entwickeln, CEGT und CCRL würden es nicht merken!
Schach ist nun mal ein Spiel, wo der Gegner nicht sein Gehirn abschaltet, nur weil er gerade nicht am Zug ist!
[/quote]

Die Diskussion Pro/Kontra PB=off/on ist so alt.
Ebenso die "mit/ohne TBs", "Lernen oder nicht Lernen",
"eigenes Buch oder Einheitsbücher", etc. etc.

Zumindest haben bisher alle Tests in Richtung PB=off/on
gezeigt, dass keine messbaren Unterschiede zu verzeichnen
sind/waren.

Da sind mir persönlich Erkenntnisse was 1-, 2- und 4-CPU (PB off)
bringen wesentlich wichtiger !

Was soll daran "unsinnig" sein ?
Jedoch, jeder wie er will...

Viele Grüsse,
G.S.
Parent - By Michael Scheidl Date 2009-10-01 19:07
Das sehe ich genauso.

Aus meiner Sicht sind Ponder=off-Tests relevanter für die Masse der Schachspieler, die Engines in der Analyse benutzen. Denn dort sind offensichtlich Ponder=on-Effekte irrelevant. Das heißt, wenn Schachspieler in die Ranglisten schauen um herauszufinden mit welcher Engine sie am besten analysieren sollten, sind Ponder=off-Tests für sie die bessere Informationsquelle. Denn in der Analysepraxis ist egal, wie gut eine Engine errät was der zu erwartende Gegenzug ist. Der Fokus liegt immer auf dem ersten Halbzug. In der Analyse gibt es kein Pondern.
Parent - - By Ingo Bauer Date 2009-10-01 07:32
Hallo

Engine:
Fritz 12                       : 2647   17  17   900    50.4 %   2644   42.8 %
Deep Fritz 11                  : 2636   14  14  1500    55.9 %   2595   38.6 %


900 Spiele und je schlechter Fritzens Gegner werden, deste schlechter wird auch seine Performance.

Engine:
43 Fritz 12                  : 2647  900

H12.1 MP 1T                   : 100 (+ 40,= 38,- 22), 59.0 %
Toga II 1.4 beta5c BB         : 100 (+ 44,= 34,- 22), 61.0 %
Rybka 3 1T                    : 100 (+ 10,= 38,- 52), 29.0 %
DSjeng WC2008 x64 1T          : 100 (+ 35,= 41,- 24), 55.5 %
Naum 4                        : 100 (+ 17,= 61,- 22), 47.5 %
Stockfish 1.4 JA 64bit 1T     : 100 (+ 27,= 47,- 26), 50.5 %
Onno-1-1-1 x64                : 100 (+ 35,= 46,- 19), 58.0 %

Zappa Mexico II x64 1T        : 100 (+ 34,= 40,- 26), 54.0 %


Alles wie immer bei mir, Ponder ON

Bye
Ingo
Parent - - By Gerhard Sonnabend Date 2009-10-01 20:04 Edited 2009-10-01 20:11
Hi Ingo !

Das bedeutet, dass Fritz 12 gegen die "fehlende Engine"
lediglich 39 - 39.5% geholt hat.
Welche Engine ist die grosse Unbekannte ?

Von der Performance her müsste der/die Unbekannte
somit leicht vor Naum 4 x64 liegen.



Viele Grüsse,
G.S.
Parent - - By Ingo Bauer Date 2009-10-01 20:13
Hallo

Engine:
Fritz 12                       : 2645   17  17  1000    52.2 %   2630   41.0 %
Deep Fritz 11                  : 2636   14  14  1500    55.9 %   2595   38.6 %


9 Elo, ich hör jetzt auf!

Engine:
Fritz 12                  : 2645  1000 (+317,=410,-273), 52.2 %

Deep Shredder 10 x64 1T       : 100 (+ 56,= 25,- 19), 68.5 %
H12.1 MP 1T                   : 100 (+ 40,= 38,- 22), 59.0 %
Toga II 1.4 beta5c BB         : 100 (+ 44,= 34,- 22), 61.0 %
Rybka 3 1T                    : 100 (+ 10,= 38,- 52), 29.0 %
DSjeng WC2008 x64 1T          : 100 (+ 35,= 41,- 24), 55.5 %
Naum 4                        : 100 (+ 17,= 61,- 22), 47.5 %
Stockfish 1.4 JA 64bit 1T     : 100 (+ 27,= 47,- 26), 50.5 %
Onno-1-1-1 x64                : 100 (+ 35,= 46,- 19), 58.0 %
Deep Shredder 12 x64 1T       : 100 (+ 19,= 40,- 41), 39.0 %
Zappa Mexico II x64 1T        : 100 (+ 34,= 40,- 26), 54.0 %


Mir scheint F12 ist nur gegen die ein zwei Besten getestet worden. Spielt mal gegen ein paar Engines der zweiten und dritten Reihe! So gut ich die GUI finde, so sehr entäuscht mich die Engine.

Gruß
Ingo
Parent - By Gerhard Sonnabend Date 2009-10-01 20:30 Edited 2009-10-01 20:32
Oooh, da lag ich ja richtig !!

Danke Ingo - freut mich für die neue Engine von Stefan.
Mal sehen wie das ganze dann mit MP aussieht.

btw.:
wird es 32- und 64-Bit Versionen geben ?

Zu Fritz 12:
z.Zt. scored die Engine wieder etwas besser bei uns (CEGT-Blitz),
noch also kann ich Deine Vermutung nicht teilen, dass Fritz 12
u.U. nur gegen die Besten getestet wurde.

Viele Grüsse,
G.S.
Parent - By Roland Rösler Date 2009-10-01 23:51
[quote="Ingo Bauer"]
Engine:
Deep Shredder 12 x64 1T       : 100 (+ 19,= 40,- 41), 39.0 %
[/quote]
Wirklich Shredder 12 und nicht Shredder XP? Das wäre die nächste gute Nachricht neben dem Score! Dann kann es sich ja nur noch um wenige Tage dauern bis zum Verkauf!
Parent - - By Roland Rösler Date 2009-10-01 23:44
[quote="Gerhard Sonnabend"]Von der Performance her müsste der/die Unbekannte
somit leicht vor Naum 4 x64 liegen.[/quote]
Was heist hier leicht vor Naum 4? Ein score von 61% gegen eine 2945 Engine (Fritz12) bedeutet eine Performance von 3022 (+77 Elo). Naum 4 liegt bei 2982 Elopunkten.
Okay, will man überhaupt Rückschlüsse aus 100 Spielen gegen eine Engine ziehen, kann man nur sagen: Es sieht wirklich gut aus!
Parent - - By Udo Kaiser Date 2009-10-02 00:32
shredder 12 wird das vielleicht erste kommerzielle Schachprogramm mit Rybka-Technologie sein.
Bislang hatten nur freeware oder open-source Programme diese Technik eingebaut und machten
Spielstärkesprünge. Nun also auch mal eine kommerzielle Engine.
Wie lange wird es noch dauern bis man uns Otto-Normal Verbraucher über das "Geheimnis" aufklärt.
Bei Nullmove oder LMR oder anderen "innovationen" hat es auch entsprechend lange gedauert bis
wir über diese Innovationen informiert wurden.

Manchmal könnte man schon das Gefühl haben, das der Erfinder dieser Technologie diese quasi in LIZENZ verkauft an andere Programmierer.
Sozusagen dann ganz legal ...
Parent - - By Ingo Bauer Date 2009-10-02 07:22
Hallo

[quote="Udo Kaiser"]
shredder 12 wird das vielleicht erste kommerzielle Schachprogramm mit Rybka-Technologie sein.
...
Manchmal könnte man schon das Gefühl haben, das der Erfinder dieser Technologie diese quasi in LIZENZ verkauft an andere Programmierer.
Sozusagen dann ganz legal ...
[/quote]

     

Jetzt schon der Brüller des Tages!

Wie sagen die Amis: You made my day!

Gruß
Ingo
Parent - By Udo Kaiser Date 2009-10-02 11:55
das freut mich doch sehr Ingo , das ich dir helfen konnte diesem trüben Freitag noch etwas
Nettes abzugewinnen, etwas geradezu Erfreuliches.

Laß uns mal mit dieser positiven Grundstimmung ins Wochenende gehen. Vielleicht scheint
dann ja auch noch einmal die Sonne in unsere Fenster hinein.
Parent - - By Benno Hartwig Date 2009-10-02 08:42
[quote="Udo Kaiser"]shredder 12 wird das vielleicht erste kommerzielle Schachprogramm mit Rybka-Technologie sein.[/quote]Oh, welche geheimnisvollen Rybka-Techniken, die bereits in OpenSource-Engines verbaut wurden, sind noch nicht in anderen kommerziellen Engines implementiert, sodass Shredder damit nun der erste sein kann?
Und woher hast du diese überaus interessanten Erkenntnisse?

*staun*
Benno
Parent - - By Udo Kaiser Date 2009-10-02 11:03
es gibt in letzter Zeit einige "interessante" engines die ähnlich spielen wie Rybka.
sie kaschieren sogar ihren Output wie Rybka.
Ein Schelm wer böses dabei denkt.

mal 2 Beispiele:

Nehmen wir einmal die privaten engines:
Pandix. Meine Empfehlung einmal die Pandix Partien des letzten ACCA nachzuspielen mit Rybka 3.0.

Open Source:
Crafty hat von Version 22 auf Version 23 einen großen Sprung gemacht. Richtig ?!
Parent - - By Benno Hartwig Date 2009-10-02 11:14
[quote="Udo Kaiser"]sie kaschieren sogar ihren Output wie Rybka.[/quote] Der Output lässt sich sicher auch mit dem wenigsten Aufwand (und Nutzen) angleichen.

[quote="Udo Kaiser"]Crafty hat von Version 22 auf Version 23 einen großen Sprung gemacht. Richtig ?![/quote]Mag sein.
Andererseits liegt Crafty-64bit-2CPU nach CEGT-40/20 um 368 ELO hinter Rybka3-64bit-2CPU.
Da scheint die 'Ähnlichkeit' doch noch nicht so übermäßig entwickelt zu sein.

Benno
Parent - - By Udo Kaiser Date 2009-10-02 11:43
na die "technologie" gibt X ELO Punkte. Je nachdem in welches Programm man es einbaut,
bringt das dann eine Gesamtspielstärke entweder von 2400+x  (crafty) oder bei Shredder
von 2900+x.
Parent - - By Benno Hartwig Date 2009-10-02 12:43
[quote="Udo Kaiser"]na die "technologie" gibt X ELO Punkte.[/quote]Das bestreite ich ja nicht.
Dass aber "engines die ähnlich spielen wie Rybka" damit vorhanden sind, habe ich mit Blick auf die ELO-Angaben wohl erfolgreich widerlegt.

Benno
Parent - - By Udo Kaiser Date 2009-10-02 13:22
[quote="Benno Hartwig"]
[quote="Udo Kaiser"]na die "technologie" gibt X ELO Punkte.[/quote]Das bestreite ich ja nicht.
Dass aber "engines die ähnlich spielen wie Rybka" damit vorhanden sind, habe ich mit Blick auf die ELO-Angaben wohl erfolgreich widerlegt.

Benno
[/quote]

Ich sehe nicht das du irgendwas widerlegt hast.

Wenn man diese Technologie in sein altes Schachprogramm einbaut, wird man
damit eine Spielstärkesteigerung erfahren. Je nachdem WO das Programm vorher
angesiedelt war, macht es einen Sprung.

Was willst du denn nun mit Blick auf eine Elo-Liste WIDERLEGEN an dieser Aussage ?
Parent - - By Gerhard Sonnabend Date 2009-10-02 13:57
[quote="Udo Kaiser"]
[...snip...]
Wenn man diese Technologie in sein altes Schachprogramm einbaut, wird man
damit eine Spielstärkesteigerung erfahren. Je nachdem WO das Programm vorher
angesiedelt war, macht es einen Sprung.
[/quote]

Schon immer haben Programme "Sprünge" gemacht, bereits lange
vor Fruit oder Rybka oder oder oder...
Mal Grössere, mal Kleinere.
Was also willst Du uns sagen ?
Übrigens auch Shredder, um den es ja hauptsächlich ging.
Siehe Shredder 9 ---> Shredder 10 ---> Shredder 11.

Viele Grüsse,
G.S.
Parent - - By Udo Kaiser Date 2009-10-02 14:48
klar machen Programme Sprünge in der Spielstärkeentwicklung.
Manche mehr. Andere weniger.
Aber die Sondersituation die wir seit Erscheinen von
Rybka haben dürfte doch wohl jedermann einleuchten.

Rybka hat die anderen abgehängt.
Parent - By Gerhard Sonnabend Date 2009-10-02 15:57
[quote="Udo Kaiser"]
klar machen Programme Sprünge in der Spielstärkeentwicklung.
Manche mehr. Andere weniger.
Aber die Sondersituation die wir seit Erscheinen von
Rybka haben dürfte doch wohl jedermann einleuchten.

Rybka hat die anderen abgehängt.
[/quote]

Also ich sehe die Sache so:
Rybka 1.0 Beta kam auf den Markt und war leicht besser
als die bis dato stärksten Engines. Erst mit der Version
1.2f und vor allem durch die 64-Bit-Versionen von Rybka
wurde der Abstand grösser. Richtig gross wurde der Vorteil
von Rybka aber erst ab den 2.x Versionen.

Beispiel Liste vom Oktober 2007:
Code:

Rybka 2.3.2a x64 1CPU       2956   18  18  1181    78.1 %   2735   29.0 %
Rybka 1.2f x64 1CPU         2880   16  16  1470    73.6 %   2702   26.9 %
Rybka 1.1 x64 1CPU          2866   24  24   670    72.8 %   2695   27.8 %
Rybka 1.0 Beta x64 1CPU     2825   12  12  2754    72.0 %   2661   27.5 %
Hiarcs 11.1 1CPU            2791   16  16  1202    61.1 %   2712   33.1 %
Zappa Mexico x64 1CPU       2789   14  14  1546    50.0 %   2789   36.5 %
Hiarcs 11 1CPU              2786   12  12  2150    57.1 %   2736   31.1 %
Loop 13.6 w32 1CPU          2784   22  22   647    56.8 %   2736   33.5 %
Fritz 10                    2771   12  12  2448    49.9 %   2771   30.2 %
Rybka 1.0 Beta w32 1CPU     2750    9   9  4163    65.6 %   2638   29.9 %


Viele Grüsse,
G.S.
Parent - - By Benno Hartwig Date 2009-10-02 14:12 Edited 2009-10-02 14:14
[quote="Udo Kaiser"]Was willst du denn nun mit Blick auf eine Elo-Liste WIDERLEGEN an dieser Aussage ?[/quote]
Du erklärtest selbstbewusst  "es gibt in letzter Zeit einige "interessante" engines die ähnlich spielen wie Rybka." und nanntest als Beispiel Crafty.
Und ich wies darauf hin, dass Crafty bei gleicher Hardware um 368 ELO schwächer ist.
Betrachten wir Wesselin Topalov (2813), 2813-368=2445
Die Nummer 100 der Welt hat noch 2643 ELO
Wo wären wir dann in der Liste der Spieler? Noch Platz 345 hat 2561 ELO (z.B. Klaus Bischoff), Bei Platz 500? oder 1000? oder noch weiter unten?
Nein, solch eine ELO-Differenz lässt die Beschreibung "sie spielen ähnlich" nicht zu, auch wenn es einzelne Aspekte ihres Spiels geben mag, die ähnlich scheinen.
Da ist schlicht und einfach der Qualitätsunterschied viel zu deutlich.
Aber ich nehme zu Kenntnis, wenn du das anders siehst, genügend Ähnlichkeiten unabhängig von dem letztlichen Spielniveau zu erkennen glaubst.
Ein "doch, doch, gib Crafty Turnierzeiten und lass Rybka blitzen, dann wird Crafty auch gleichgute Züge finden!" würde ich an dieser Stelle nicht gelten lassen.

OK, ich drückte es falsch aus: Ich widerlegte es für den konkret von dir angeführten Crafty.
Ich widerlegte nicht, dass es noch andere mir z.B. unbekannte derartige Engines gibt. Glaube ich aber nicht.

Benno
Parent - - By Udo Kaiser Date 2009-10-02 14:53
du verstehst scheinbar nicht das man die Technologie die in Rybka verbaut
ist an der Spielweise der Programme wiederfinden kann.
Dabei ist die Spielstärke dieser Programme unwesentlich für die
Identifizierung.

Das die Technik in jedem Programm zu unterschiedlich hoher Spielstärke
führt, je nachdem welche Spielstärke das Programm vorher hatte,
ist evident. Oder ?
Parent - By Benno Hartwig Date 2009-10-02 15:16
[quote="Udo Kaiser"]Das die Technik in jedem Programm zu unterschiedlich hoher Spielstärke
führt, je nachdem welche Spielstärke das Programm vorher hatte,
ist evident. Oder ?[/quote]Aber dem widerspreche ich doch gar nicht.
Ausdrücklich hatte ich dir in diesem Punkt auch schon um 12:43 zugestimmt.
(Zustimmung, dass das prinzipiell so sein könnte, nicht dass es in den Engines Realität ist! Das weiß ich ja gar nicht.)

Dass eine derartige Erkenntnis aber dann im Mindesten genügt, um zwei Engines mit so sehr erheblichem Spielstärkeunterschied zu bescheinigen, sie spielten 'ähnlich', halte ich für eine völlig falsche Verwendung dieses Wortes. Besonders, da Spielstärke eines der seit vielen Jahren am meisten beachteten Kriterien der Engines ist.
''Ähnlich spielen' sollte sich nicht an irgendeinem technischen Kniff der Analyse als vielmehr an den gewählten Zügen festmachen lassen.
Entweder haben die Züge prinzipiell eine andere Qualität, oder Rybka findet sie einfach regelmäßig in einem sehr kleinen Bruchteil der Crafty-Zeit.

Man mag auch einen Käfer und einen Porsche für 'ähnlich' halten. "Der eine fährt doppelt so schnell wie der andere, aber was soll's!"
Ich nutze das Wort aber anders.
(Nein, so sehr hinkt der Vergleich eigentlich gar nicht.)

Benno
Parent - - By Gerhard Sonnabend Date 2009-10-02 09:09
[quote="Udo Kaiser"]
shredder 12 wird das vielleicht erste kommerzielle Schachprogramm mit Rybka-Technologie sein.
Bislang hatten nur freeware oder open-source Programme diese Technik eingebaut und machten
Spielstärkesprünge. Nun also auch mal eine kommerzielle Engine.
Wie lange wird es noch dauern bis man uns Otto-Normal Verbraucher über das "Geheimnis" aufklärt.
Bei Nullmove oder LMR oder anderen "innovationen" hat es auch entsprechend lange gedauert bis
wir über diese Innovationen informiert wurden.

Manchmal könnte man schon das Gefühl haben, das der Erfinder dieser Technologie diese quasi in LIZENZ verkauft an andere Programmierer.
Sozusagen dann ganz legal ...
[/quote]

Hi !

Selbst wenn man davon ausgehen würde, dass es solche "Rybka-Technologien"
überhaupt gibt (ich glaube nicht daran), wer sagt denn, dass so etwas
in ein anderes Programmkonzept überhaupt hinein passen würde/könnte ?
Parent - - By Benno Hartwig Date 2009-10-02 10:53
[quote="Gerhard Sonnabend"]Selbst wenn man davon ausgehen würde, dass es solche "Rybka-Technologien"
überhaupt gibt (ich glaube nicht daran), wer sagt denn, dass so etwas
in ein anderes Programmkonzept überhaupt hinein passen würde/könnte ?[/quote]
Rybka hat, wie wohl bislang nur wenige Engines, bitbases.
Die Software-Architektur ist wohl weitgehend darauf ausgelegt.
eine "Rybka-Technologie"? Sicher nicht nur Rybka, ab Rybka nutzte tatsächlich die gute Performance, die damit möglich wurde.

Ich weiß nicht, und schon gar nicht von Open-Source-Engines, dass sie das nutzen.
Möglicherweise haben gerade die Engines, die von 64bit besonders profitieren, sowas eingebaut.

Wer profitiert von 64bit?
nach CEGT 40/20
- Rybka3-1CPU +59 ELO
- Naum4-2CPU +22 ELO (Naum4-1CPU zeigen keinen Unterschied!)
andere?

Hier in der Nutzung von 64bit liegt eine 'Rybka-Technologie' (wenn man so will).
Und das könnten auch bitbases sein, die dann tatsächlich eine deutlich unterschiedliche Softwarearchitektur mit sich bringt.

Benno
Parent - - By Jörg Oster Date 2009-10-02 11:03
Verwechselst Du da nicht Bitbases mit Bitboards???

Und Bitboards gibt es meines Wisens schon etwas länger als Rybka! 
Up Topic Hauptforen / CSS-Forum / Fritz 12 im Blitz (f.d. CEGT-Blitz-Rating-Liste)
1 2 Previous Next  

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill