Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Rybka 4 mit Wundersettings ???
- - By Harry Schnapp Date 2010-12-28 16:45
Hallo Frank,
Ich verwende Deine "61-er" aber auf 8 Kerne mit Ponder off.  Leider nimmt die Tragödie ihren Lauf,gegen Houdini 1.5 ist kein Kraut gewachsen.Rybka gelingt es ab und zu Mal gute Partien zu gewinnen aber am Ende meines 100 game Matches tippe ich auf 
unter 40%. Was komisch erscheint sind Rybka's ultra optimistische Bewertungen,kein Wunder mit diesen kombativen Settings!.
Gruß,
Harry
Parent - - By Clemens Keck Date 2010-12-28 17:05
Hallo settings freaks

ich komme langsam zu der Überzeugung: je mehr cores verwendet werden unso schlechter schneidet das/die setting(s) ab. Auf meinem 8 core gehe ich mit EXP 61 reihenweise unter selbst gegen schwache accounts bei playchess.

Gruß, Clemens
Parent - - By Damir Desevac Date 2010-12-28 18:00
Hallo Clemens,

Natürlich wurde so was geschehen. Diese ganze Rybka Settings sind komisch geworden.

Wie Ich bevor hier gesagt habe, es hilft nix um einige Dinge im Rybka Parameters zu verändern. Was muss verändert werden ist Rybkas  Bewertungsfunktion und Suche, und so was, kann nur Rybka's Programmier machen,

um die Engine verbessern zu können.  Alles anderes ist zum Scheitern verurteilt

Gruss

Damir
Parent - - By Frank Quisinsky Date 2010-12-28 18:57 Edited 2010-12-28 19:04
Guten Abend die Herren,

alles was nicht getestet werden kann, schon allein weil es aus Zeitgründen nicht geht, bleibt Spekulation. Bestes Beispiel für Spekulationen sind ... ach unter Turnierbedingungen ... was die Computerschächler immer so murmeln wenn nur Gemurmelt werden kann.

Was getestet werden kann muss keine Spekulation bleiben!
Daher wird getestet so rein nach dem Motto ... selbst ist der Mann!

Daher, die Testergebnisse zum Rybka Setting 61 liegen offen.
Nach Abschluss vom Test auch die Partien und mehr kann nicht getan werden.

Wie sagte Clemens heute noch.
Alles andere ist Spekulation und bekanntlich ...
Anhand von ein paar Partien kann nur "gemurmelt" werden, schreien können wir wenn ausreichend Material gegen ausreichend Gegner vorliegt. Und genau das ist immer das gleiche Spielchen, egal mit welcher Engine, ob ein IvanHoe bei dem viel gemurmelt, weniger geschrien wird oder jetzt auch bei diesem Setting.

Sprich, das Gemurmel ist immer riesengroß!

Und Clemens, einfache Rechnung ...
8 Cores bei Ponder = off und sonst gleichen SWCR Testbedingungen = 35 Partien pro Tag.
1.000 Partien hast Du locker in 28 1/2 Tag zusammen.

Spiele die gegen die TOP-25 und dann ist Schluss mit dem Gemurmel und ich schreie lauthals gerne mit

Gruß
Frank

Logische Schlussfolgerung aus Euren Mutmaßungen ist ...
Würde Rybka bei mehreren Cores und diesem Setting deutlich an Spielstärke verlieren, müsste die Engine bei weniger Zeit deutlich an Spielstärke gewinnen. Sprich bei Ingo, müssten die Ergebnisse deutlich besser sein als bei mir. Ingo stellte aber fest ... -20 ELO zum Default Setting. Nun, was stimmt da nicht?

Kleine Quiz-frage für Euch!?

Also, hier wird nicht Gemurmelt ... hier findet ein Aufgalopp statt!
Parent - By Frank Quisinsky Date 2010-12-28 19:16 Edited 2010-12-28 19:24
Ach so, Kurt schrieb gestern er hätte ein Pferd ...
Passe mich ja immer ein wenig beim Schreiben an ... insofern rede ich jetzt von einem Aufgalopp!

In ca. 1 1/2 Stunden sind es dann 400 von 1.000 Partien.
Gibt dann die nächste ELO-Berechnung.

Mal schauen wie es derzeit ausschaut:
Rating ist etwas gefallen, sind jetzt genau 80,0% ... 82,85 erreicht Houdini 1.5 x64 bei 3.005 ELO. 1% sind ca. 7 Punkte. ca. 18 Punkte dahinter ... Rybka 4 x64 Exp. 61 liegt also derzeit bei 2.985 grob gerechnet.

Partie 1 auf Arena 2: Gegen Naum 4.2 ... klare Remisstellung
Partie 2 auf Arena 2: Gegen IvanHoe B49jA ... leichte Vorteile für Rybka im Endspiel
Partie 3 auf Arena 4: Gegen Sjeng c't 2010 ... gerade begonnen
Partie 4 auf Arena 4: Gegen Komodo 1.2 ... sehr leichte Vorteile für Rybka im Endspiel ... schaut klar nach Remis aus
Partie 5 auf Arena 1: Gegen Shredder 12 ... schaut nach einer Niederlage für Rybka aus
Partie 6 auf Arena 1: Gegen GullChess 1.1 ... gerade begonnen
Partie 7 auf Arena 3: In dem Moment Houdini 1.5 geschlagen, Partie gegen Spark 1.0 gerade begonnen
Partie 8 auf Arena 3: Schon bei +3 gegen Critter 0.90

Also an den 80% wird sich kaum etwas ändern, danach noch die Partie gegen die Mitte und die untere Hälfte und dann mal neu berechnen nach 400 Partien.
Voll der LIVE Mode hier ...
Parent - - By Harry Schnapp Date 2010-12-28 19:38
Hallo mein Herr Frank,
Ich möchte mich mit Dir nicht streiten aber dieses ganze bla,bla hätte keinen Sinn gehabt.
Du hast Dich vertan mit Deinen Settings und basta,ich habe bisher mir die ersten 48 Partien angesehen
und das reicht mir.Ein totales Massaker!! Entweder bin ich ein Patzer oder ich war nicht in der Lage die "Settings"
richtig zu konfigurieren. Ich rate Dir zu spielen unter GLEICHEN BEDINGUNGEN wie ich und Clemens und dann gäbe es
vielleicht eine Chance daß Du dich bei uns KURZ entschuldigst. Ausreden sind sinnlos. Egal was und wie Du antwortest,
wir bleiben nach wie vor Schachfreunde.
Gruß,
Harry
Parent - - By Frank Quisinsky Date 2010-12-28 19:46
Hallo Harry,

ich soll mich jetzt für meine Testergebnisse entschuldigen weil Ihr etwas anderes festgestellt habt?!

Wird ja immer doller

Bekomme ja schon viel Zeug per eMail aber das ...

Harry, ich spiele einen offiziellen Test, die Ergebnisse sind einsehbar.
Mittlerweile sind es fast 400 Partien und 600 weitere folgen noch!
Diese Settings sind auch nicht von mir, sondern von einem User aus dem Rybka Forum.
Teste das  weil ich denke das gerade um Platz 1 in einer Ratingliste alles an Möglichkeiten ausgereizt werden sollte um hier möglichst genau eine Feststellung zu treffen.

Aber ich habe ein dickes Fell und bin vieles gewohnt.
Ich entschuldige mich bei Euch auch wenn ich nicht weiß wofür.

Heute kamen gar 2 Mails das ich sofort diesen Rybka Test einzustellen hätte denn es würde aufgrund von diesem Test nicht herauskommen wie stark Houdini 1.5 wirklich ist.

Dir und Deiner Familie einen guten Rutsch ins neue Jahr!

Gruß
Frank
Parent - - By Harry Schnapp Date 2010-12-28 20:08
Du hast alles falsch interpretiert Frank,
Ich habe nichts gegen Deine Tests,im Gegenteil.Es geht um etwas ganz anderes.
Würde ich Deine Arbeit bezweifeln dann hieße es Du bist en Fälscher der die Öffentlichkeit betrügt!
Ganz einfach:Du hast DEINE Testbedingungen,DEINE Methoden,Deine Zeiteinteilungen und DEINE Computer.
Wir haben andere,bei Dir funktioniert "61" und bei uns nicht!. Alles Klar jetzt?.
Gruß,
Harry
Parent - - By Frank Quisinsky Date 2010-12-28 20:22 Edited 2010-12-28 20:28
Harry,

aber das wäre ja sensationell!
Gab es noch nie?

Ich habe die Mega Einstellung-Settings mit Ponder = on, Aufgabefaktor = Aus und 256Mb Hash-Tabellen bei 40 in 10 gefunden.
Damit gehe ich in die Geschichte ein

Nein, lasse uns das Problem mal von hinten rechts nach vone links bringen um dann seitlich gesehen die gesunde Mitte zu finden, einfach ausgedrückt.

Es ist etwa dran an dem was Du schreibst, an dem was Clemens festgestellt hat und an dem was auch schon andere festgestellt haben. Wirklich, keine Ironie! Rybka 4 spielt mit diesen Settings sehr riskant. Meist testen die User nur gegen 1-3 andere starke Engines und hier liegt das Problem. Schaue mal auf die derzeitigen Ergebnisse. Gegen Stockfish sieht es z. B. gar nicht so gut aus. Überhaupt ist die Tendenz bei den Settings klar (augenscheinlich und auch bei der Durchsicht der Partien). Gegen stärkere Engines werden weniger Punkte eingefahren.

Schön zu sehen ist auch, dass wenn Rybka mit einem der Settings verliert der Verlust oft haarsträubend oder anders ausgedrückt ungewöhnlich ausschaut.

Aber ein Schachturnier besteht nicht nur aus dem Spiel von 3-4 Spielern. sondern ein Rating bemisst sich gegen eine größere Anzahl von Spielern. Und hier liegt der "Casus Beknacktus" begraben. Mit diesem Setting kommt die Garde der schwächeren Engines kaum klar. Habe schon viel zum Exp. 42 Setting geschrieben, einen ganzen Thread mit Testergebnissen und Eindrücken vollgemüllt. Offenbar schaut es beim Exp. 61 noch verrückter aus, zumal auch gar Houdini 1.5 ins schwimmen gerät denn auch Houdini 1.5 liegt zurück.

Es ist durchaus vorstellbar das Settings bei der Benutzung von mehreren Cores andere Ergebnisse produzieren. Insofern könnte auch etwas an der These von Clemens sein. Das will ich gar nicht abstreiten, sondern das ist eine schöne Anmerkung von einem begnadeten Computerschächler der weiß was er schreibt.

Schaust Du auf die Ergebnisse wirst Du leicht erkennen, dass überdurchschnittlich gut gegen schwächere Gegnerschaft gepunktet wird. Das macht ein paar Punkte aus und auch die niedrige Remisquote macht bei der Bayesian Berechnung ein paar Punkte aus. Auch hier ... das Berechnungsprogramm lässt grüßen!

Fest steht aber, dass die Settings etwas bringen und das ist der erste mir bekannte wirkliche Fall, in dem ein Setting etwas bringt. Sedat Canbaz stellte fest +40 ELO beim Setting 61 zu default. Das wird wahrscheinlich auch bei mir das abschließende Resultat werden. Mein Tipp war 2.972 also ca. 15 ELO besser als Setting 42. Ich hatte auf einem Q6600 schon mal 600 Partien spielen lassen und kam hier auf ich glaube es waren + 8 zum Setting 42 allerdings stand das Setting 42 seinerzeit bei mir bei + 28 und nicht wie jetzt bei + 21. Wären also + 16 zum Setting 42.

Exp. 42 macht ca. 20 ELO aus.
Exp. 61 macht ca. 35-45 ELO aus.

Also, es ist durchaus etwas dran an dem was bislang andere Personen festgestellt haben. Im Grunde stelle ich ergänzend fest, dass dieses Settings überproportional gut gegen schwächere Gegenschaft abschneidet. Das wird natürlich von den wenigsten abgetestet und insofern für viele auch ein bissel unverständlich.

Der Reiz des testen entfaltet sich hier in seiner ganzen Pracht!

Gruß
Frank
Parent - - By Harry Schnapp Date 2010-12-28 20:55
  Sehr schön Frank,
Aber ich muß Dir sagen daß es bei mir NUR,aber NUR um das Verhältnis zwischen Houdini und Rybka "61" geht auf 8 physicalische
cores,ohne Hyperthreading.Wenn Du willst sende ich Dir die 100 Partien damit Du das Drama siehst!.
Meinetwegen kann "61" die Nummer 1 werden,ich habe bereits geschrieben daß ich Deine Tests nicht bestreite,die sind auch
interessant für viele User. Es geht NUR um:
1) Wer mit 8 Cores auf "Playchess" mit Settings spielt,geht baden (Clemens).
2) Wer zu Hause mit 8 Cores und Settings egal ob 100 oder 1000 Partien gegen Houdini spielt verliert genau wie mit default.
    Rybka kann nicht mehr als durchschnittlich 38% erreichen.
  Gruß,
   Harry
Parent - - By Frank Quisinsky Date 2010-12-28 21:11 Edited 2010-12-28 21:14
Hallo Harry,

ich weiß das ich mit dieser Meinung (was jetzt kommt) fast allein da stehe aber kurz dazu:

Wenn eine Engine bei mehreren Cores eine schwächere Leistung bringt als bei einem Core, wird das in der Regel mit der SMP Implementation zu tun haben. In der Regel, weil durch die Veränderung von Settings durchaus auch Code-Teile der SMP Implementation betroffen sein könnten, schrieb mir mal ein Programmierer von ein paar Jahren.

2 Gründe:
- SMP Unterstützung bei Houdini ist besser als bei Rybka (kann leicht ausgetestet werden anhand von 2-3 Teststellungen).
- Veränderung von Settings beeinflussen den Spielstil, der die SMP Implementierung negativ beeinflusst (nicht wirklich eine Meinung hierzu, könnte sein ... warum nicht).

Auszuschließen ist:
Mit mehr Zeit besser oder schlechter. Rybka verändert bei mehr Zeit deutlich seltener noch etwas. Sprich, die Engine bringt sehr schnell eine gute Hauptvariante zu Stande. Von daher wird Rybka mit mehr Bedenkzeit im Vergleich zu anderen Engines etwas federn lassen. Das ist nach meinen Ergebnissen eigentlich klar auch wenn wir hier eh nur um maximal vielleicht 30 ELO sprechen. Glaube nicht das irgend eine Engine mit mehr oder weniger Zeit mehr als 30 ELO im Vergleich zu anderen Engines verliert oder gewinnt.

Vielleicht dreht sich bei mir noch das Match Ergebnis Rybka 4 x64 Exp. 61 - Houdini 1.5 x64. Das ist ja nur eines von gleichzeitig 25 laufenden. Zur Zeit steht es ... muss nachsehen ... 9.0 : 7.0 für Rybka 4 Exp. 61. Das sind gerade mal 16 Partien und nicht 100 wie jetzt bei Euch gespielt. Aber bei meinen Test geht es nicht um ein Einzelmatch, sondern um 25 gleichzeitig laufende Einzelmatches ... möglichst viele unterschiedliche Gegner um ein genaues Resultat zu erzielen.

Mit anderen Worten:
25 Einzelmatches mit 4 Partien werden ein um ca. 700% grob geschätzt, besseres Ergebnis produzieren als ein Einzelmatch von 100 Partien gegen "nur" eine Engine!

Also, ich streite das keinesfalls ab was Du oder auch andere hierzu schreiben. Nur nach jetzt fast 400 Partien liegt die Wahrscheinlichkeit bei derzeit 1:31 das dieses Rating noch um mehr als 15+- also 30 ELO fällt oder steigt, nach meinen Auswertungen zu allen bislang getesteten Engines in der SWCR.

Warten wir es ab ... sind nach wie vor 80%! Derzeit spielt auch wieder Rybka - Houdini und beide sagen ca. +0,9 aus der Sicht von Houdini nach 50 Zügen. Sieht aber dennoch absolut Remis aus.

Gruß
Frank
Parent - By Frank Quisinsky Date 2010-12-28 21:24 Edited 2010-12-28 21:28
Hi,

das hat Houdini 1.5 doch wirklich noch gewonnen, eigentlich unglaublich nach der Stellung die ich vorher gesehen haben.
9.0 : 8.0 im Match für Rybka ... Houdini verkürzt.

Aber IvanHoe bekommt kräftig Prügel auf einem anderen Rechner.

Schon verrückt wenn 8 Matches, ein ganzen Jahr gleichzeitig laufen.
Meist habe ich die Bildschirme gar nicht mehr an bzw. den Fernseher (4 HDMI Kabel laufen auch zum TV).
Einfach zu viel Schach aber derzeit ist es richtig spannend.

Gruß
Frank
Parent - - By Harry Schnapp Date 2010-12-28 21:45
Hallo Frank,
Auch wenn die Settings die Nummer eins werden bei Dir,wirst Du damit die Rybka Fans nicht glücklich machen.  
Die sind alle fixiert nur auf den direkten Vergleich Deep Rybka 4 x64 gegen Houdini 1.5 x64 und haben starke Bauchschmerzen.
Dazu kommt noch eine Bescherung:der Houdart macht auch eine 12 core Version und ich habe die starke Vermutung daß
auf dieser Ebene der Vorsprung noch um einiges steigen wird!.
Parent - - By Frank Quisinsky Date 2010-12-28 22:06
Harry,

wäre so als wenn Du schreiben würdest ...
Mich interessiert nur wie Kramnik - Anand spielt und alle anderen Spiele von Kramnik und Anand interessieren eh keinen.

Damit kannst Du aber keine Aussage zu einem Rating ermitteln.
Klar das viele nur die beste Engine interessieren aber was wäre die Bundesliga wenn nur Dortmund und Mainz spielen würden.
Insofern gut das es noch St. Pauli und München gibt.

Mir geht es auch nicht darum was uns ein Programmierer beschert Harry sondern bei der SWCR geht es um

--- DIE KNALLHARTEN --- FAKTEN.
Focus ... Fakten, Fakten, Fakten ...

Und nicht um eine Bescherung oder ich mag Houdini und alles andere ist Wurscht.
Würde ein Betreiber von einer Ratingliste so denken, ja dann würde die Ratingliste nur aus einer Engine bestehen die pausenlos gegen sich selbst spielt

Gruß
Frank
Parent - - By Harry Schnapp Date 2010-12-28 22:38
FranK,
"Bescherung" ist ja ironisch gemeint,wie:"noch eine Plage kommt auf die Rybka Fans zu".   Ein witz
Genau wie nicht nur Kramnik-Anand interessieren mich auch andere top Engines nicht nur Houdini-Rybka.
Lange,lange Jahre hatte ich bis zu 300 Engines auf meiner Festplatte und habe mich z.B. Mal mit Dann Corbit  über
irgend ein polnisches Programm unterhalten warum es nicht pondert... 
Jetzt,in meinem Alter muß ich Prioritäten setzen so daß ich Rating Tabellen selten lese und beobachte eher allgemein
ob es sich lohnt X Engine auszuprobieren. Ich mag z.B.auch Critter,genau wie Du aber ich muß mich nicht unbedingt
erkundigen wieviel Elo das Ding hat.
Gruß,
Harry
Parent - By Frank Quisinsky Date 2010-12-28 22:49 Edited 2010-12-28 22:54
Hi Harry,

kein Mensch wird alle 18 Vereine der Fußball Bundesliga anfeuern

Und jeder Fan einer Truppe wird sich freuen wenn der meist gehasste Verein ein Debakel erlebt.
Meine Lieblingstruppe SG Wattenscheid 09 ist sehr oft hintereinander abgestiegen. Runtergerechnet derzeit in LIGA 5 oder 6. Bongartz ging, Sane, Kügler, Bannach gingen (Bannach hatte leider einen tödlichen Autounfall als er nach Köln wechselte). Kügler war glaube ich mehrfach Torschützenkönig in der zweiten Bundesliga bevor Wattenscheid in die Bundesliga aufgestiegen ist und dort drei Jahre spielte. Tschiskale ging und passte auf, dass auf der Bayen Bank alle zufrieden sind, wie einst Kalle Del Haye der damalige Superstar aus M'gladbach, Flügelflitzer der auf der Bayern Bank sein Plätzchen gefunden hatte. Traurig, sehr traurig was oftmals mit unseren Favoriten so passiert. Erinnere mich noch an Aussagen in Schachforen ... niemand wird ChessTiger jemals gefährlich werden. Der ChessTiger Programmierer in TalkChess ... niemals wird ein Amateurprogramm unter den besten Engines der Welt liegen.

Wir können uns nicht mit allen Engines beschäftigen. Im Grunde machen das die Betreiber der Ratinglisten so gut es irgendwie geht. Ob Programmierer mit Material und Fehlermeldungen versorgt werden oder ob Anwender mit Infos versorgt werden.

Sind wir froh das es die Ratinglisten gibt, ich bin froh das es IPON, CEGT oder CCRL die Liste von Sedat oder Thomas Müller gibt. Viele schöne Arbeiten!

Aber wenn ich selbst analysiere interessieren mich im Grunde nur 4- maximal 8 Engines!
Stockfish, Spark, Hiarcs, Junior und Shredder!

Und wenn ich selbst spiele ja dann gegen ... AnMon, Phalanx, Zarkov, SSEChess, selten gegen eine andere eher gegen einen Schachcomputer.

Und so hat jeder seine Favoriten auch wenn es mit Critter oder anderen Programmen wahnsinnig gute Programme zur Verfügung stehen.
Wir können diese nicht alle nutzen, unmöglich!

Gruß
Frank
Parent - - By Kurt Utzinger Date 2010-12-30 08:43
[quote="Harry Schnapp"]
  Sehr schön Frank,
Aber ich muß Dir sagen daß es bei mir NUR,aber NUR um das Verhältnis zwischen Houdini und Rybka "61" geht auf 8 physicalische
cores,ohne Hyperthreading.Wenn Du willst sende ich Dir die 100 Partien damit Du das Drama siehst!.
Meinetwegen kann "61" die Nummer 1 werden,ich habe bereits geschrieben daß ich Deine Tests nicht bestreite,die sind auch
interessant für viele User. Es geht NUR um:
1) Wer mit 8 Cores auf "Playchess" mit Settings spielt,geht baden (Clemens).
2) Wer zu Hause mit 8 Cores und Settings egal ob 100 oder 1000 Partien gegen Houdini spielt verliert genau wie mit default.
    Rybka kann nicht mehr als durchschnittlich 38% erreichen.
  Gruß,
   Harry
[/quote]

Hallo Harry
Macht denn Computerschach noch einen Sinn [und Freude], wenn nur noch Matches
zwischen Houdini und Ryba stattfinden? Geht es nur noch um die "Erbsenzählerei"
und nicht mehr um das schöne Schachspiel an sich? Diesen [traurigen] Eindrücken
kann man sich kaum erwehren, wenn man solche Beiträge wie den vorliegenden
sich zu Gemüte führen darf/muss.
Gruss
Kurt
Parent - - By Harry Schnapp Date 2010-12-30 09:40
Hallo Kurt,
Woher dieser totale Unsinn "ich würde NUR MATCHES RYBKA GEGEN HOUDINI DURCHFÜHREN ??????? "
So eine "Feststellung" hat Du aus der Luft geholt !        

Frohes neues Jahr,
Harry
Parent - - By Kurt Utzinger Date 2010-12-30 11:52
[quote="Harry Schnapp"]
Hallo Kurt,
Woher dieser totale Unsinn "ich würde NUR MATCHES RYBKA GEGEN HOUDINI DURCHFÜHREN ??????? "
So eine "Feststellung" hat Du aus der Luft geholt !        

Frohes neues Jahr,
Harry
[/quote]

Hallo Harry
Dann ist Dein Posting bei mir völlig falsch rübergekommen, denn
NUR,aber NUR um das Verhältnis zwischen Houdini und Rybka geht
es
war für mich eine eindeutige Aussage, als ob alle anderen Engines
und Resultat bedeutungslos wären. Auch Dir ein frohes neues Jahr.
Gruss
Kurt
Parent - By Harry Schnapp Date 2010-12-30 12:34
Ja Kurt,
"Nur um das Verhältnis zwischen Rybka und Houdini" im Dialog mit Frank über
die Rybka "61" Settings und Rybka "default" im Vergleich zu Houdini meinte ich, nichts anderes.
Gerade was Frank macht mit diesen Ratings ist "Erbsenzählerei".Ich respektiere jede Arbeit sei es CEGT,CCRL,Frank u.a.
aber diese Listen sind nicht mein Bier und noch etwas: wer mich gut kennt weiß daß ich NIE das wort ELO in
Computerschach erwähnt habe. Ich hatte die Gelegenheit persönlich mit Arpad Elo im Jahr 1982 in Berlin
zwei Stunden lang zu plaudern,darunter auch über sein erfundenes Bewertungssystem und seine Meinungen darüber.
Viele Grüße 
Harry
   
Parent - - By Ingo Bauer Date 2010-12-28 21:46
Frank,

bei mir war das 61er Setting auch nach 600 Spielen 20 Elo HINTER R4 default. Danach habe ich das Testen wieder eingesstellt, Thema ist für mich durch!

Gruß
Ingo
Parent - - By Frank Quisinsky Date 2010-12-28 22:01
Ingo,

nun ich habe einen sich bestätigenden Test vorliegen.
Da Exp. 42 und Exp. 61 nun in der Liste sind.

Gibt da für mich keinen Zweifel mehr!

Wenn bei Dir - 20 dann hätten wir eine Differenz von 60 ELO.
Wir haben noch nicht mal eine Differenz von 30 ELO bei irgend einer anderen getesteten Engine!
Und jetzt mehr als doppelt so viel?

Was stimmt da nicht Ingo!

Schaun wir mal auf Deine Liste ...

Code:
1 Houdini 1.5              3007   15   15  2300   83%  2736   22%
2 Deep Rybka 4             2952   11   11  3500   77%  2742   30%
3 Houdini 1.03a            2948   11   11  3300   78%  2733   30%


Houdini 1.5 liegt 55 ELO vor Rybka 4 Default.
Houdini 1.5 liegt 59 ELO vor Houdini 1.03a.

Bei mir ...

Code:
   1 Houdini 1.5 x64              3004   22   21  1017   82%  2746   26% NEW +  55
   2 Rybka 4 x64 Exp. 61          2981   34   33   402   80%  2745   26% NEW +  41 to Rybka 4 default
   - Rybka 4 x64 Exp. 42          2960   23   22   900   78%  2730   26% NEW +  20 to Rybka 4 default
   - Houdini 1.03a x64            2949   22   21   920   79%  2719   29%
   - Rybka 4 x64                  2940   17   17  1520   80%  2700   29%
   3 IvanHoe B49jA x64            2932   19   19  1137   76%  2735   33% NEW +  09


Houdini 1.5 liegt 64 ELO vor Rybka 4 Default.
Houdini 1.5 liegt 55 ELO vor Houdini 1.03a.

Alles OK ... soweit so gut!

Nun wird bei Dir Rybka 4 12 ELO besser bewertet als bei mir.
Exp 42 ist 20 ELO besser als Rybka 4 default ... wären bei Dir dann nur 8 ELO
Exp 61 scheint 40 ELO besser zu sein als Rybka 4 default ... wären bei Dir dann 32 ELO

Du schreibst ... 20 ELO schlechter anstatt getestet ca. 32 besser = Differenz von 52 ELO.

Wir haben ...
SWCR Test 1 mit Exp. 42 = derzeit 20 ELO
SWCR Test 2 mit Exp. 61 = derzeit 40 ELO
Test von Sedat Canbaz mit Exp. 61 = 40 ELO

Logische Schlussfolgerung.
Da kann etwas nicht stimmen bei Dir.

Vielleicht sollte man mal die Gegner ausselektieren die bei Dir alle nicht spielen.
Aber daran wird es auch nicht liegen!

Keine Ahnung, wiederhole den Test ... spricht zu viel dafür das es sich bei Dir um ein Zufallsergebnis handelt.
Vielleicht hattest Du jetzt mal den 1/52 Fall.

Gruß
Frank
Parent - - By Ingo Bauer Date 2010-12-28 22:10
Ja Frank, ich weiß.

Was ich nicht weiß ist, wieso du schon vorher weißt was dabei raus kommt:

Zitat: Es sind dann zwei im Test und es wird dann sicherlich auch etwas einfacher zu sehen sein, dass diese Settings besser als die Standardeinstellungen abschneiden.

http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?tid=3333

Geschrieben ehe du den Test gestartet hast.

Gruß
Ingo
Parent - - By Frank Quisinsky Date 2010-12-28 22:16
Hi Ingo,

weil ich schon 600 Partien auf Q6600 hatte.
Nach diesen 600 Partien waren es + 16 zu Exp. 42.
Habe ich vor ein paar Minuten schon geschrieben.

Angeregt hatte mich das Ergebnis von Sedat in TalkChess vor ca. 1 Monat. So lies ich mal einen Q6600 ein paar Partien spielen um sicher zu sein, dass sich der Test auch lohnt. Denn nach einem Positionstest kam ich zu dem Ergebnis das Setting 42 besser ist als Setting 61. Witzig daran ist ... das sich die Settings kaum unterscheiden. Vergleiche die beiden Settings mal! Eigentlich kann das nicht sein aber die Resultate sind klar und eindeutig!

Gruß
Frank
Parent - - By Frank Quisinsky Date 2010-12-28 22:31
Hallo zusammen,

wird immer interessanter was dieses Setting produziert.
Schauen wir mal auf die Taktiker schlechthin ... Stockfish 1.9.1 und Spark 1.0.
Die beiden haben bislang sensationelle Ergebnisse gegen Exp. 61 erreicht.

Spricht für die taktischen Löcher im Spiel bzw. für das sehr gewagte Spiel von Rybka 4 mit diesem Setting.
Vergessen zu schreiben!

Gruß
Frank
Parent - - By Frank Quisinsky Date 2010-12-28 23:49
Habe mir heute extrem viele Partien von Rybka 4 Exp. 61 näher angesehen. Komme eigentlich immer zum gleichen Ergebnis. Die Engines verliert unerwartet weil die Bauern wirklich im wahrsten Sinne des Worten nach vorne stürmen. Das gibt Raum für Figurenspiel, nicht nur im Mittelspiel oder im Endspiel. Spark 1.0 konnte 2x gewinnen dabei sah gerade bei der Domäne von Rybka - Endspiel - noch alles sehr gut für Rybka aus. Die Bauern marschierten und Spark packte seine taktischen Fähigkeiten sehr spät aus, eigentlich ist Spark keine Engine die im Endspiel dominiert.

Später einfach mal nur die Verlustpartien von Rybka 4 Exp. 61 nachspielen.

Hier mal eine ... da wird kurz rochiert um dann am Damenflügel die Bauern nach vorne zu bewegen. Eigentlich auch ein logisches Spiel aber dabei wird vieles übersehen. Und gerade gegen die schwächeren Engines werden bei dieser Spielweise die Punkte wirklich reihenweise sehr einfach eingefahren.

Immer und immer wieder ...
Die Macht der Bauern, Buch von Jörg Hickl ... wahnsinnig gutes Lehrbuch!

Erinnert alles ein wenig an Roland Pfister und seinem Patzer. Genau das hatte Roland Patzer versucht beizubringen und was hat Patzer nicht alles für einen Freibauern ausgegeben. Haus und Hof wurden aufs Spiel gesetzt wenn es darum ging einen Freibauern zu schützen. Nicht ganz so krass aber das produziert dieses Rybka Setting. Und da das Mittelspiel passiv bleibt wirkt es sich eigentlich taktisch gar nicht weiter aus. Es werden kaum Kurzpartien produziert. Irgendwie so als wenn die Bauernangriffe im Nirgendwo verschwinden und dennoch werden reichlich Vorteile erspielt die dann diese Resultate verursachen.

Protector konnte Rybka bislang in einer Kurzpartie eindrucksvoll schlagen.
Auch hier wird die Rybka Schwäche wunderbar sehr deutlich!

Event:
Ort:
Datum:

Weiss:
Schwarz:

Ergebnis
Board


Spezieller Code gegen Zufallssetting könnte der Kommentar lauten.
Denn Raimund schrieb mal das er genau das versucht was Protector in dieser Partie auch spielte.
Gegen den generischen König mit Bauern nach vorne ... und Rybka rein zufällig durch das Setting konzentriert sich auf andere Dinge und geht baden.

Sensationell an diesem Setting ist eigentlich eher wie durch plötzliche Bauernvorstöße im späten Mittelspiel noch die Wende kommt. In klaren Remispositionen wird plötzlich noch gewonnen und Rybka spielt das direkt. Oder klare Remispartien gehen plötzlich noch verloren.

Tja und gleich steht es auch noch 7.0 : 11.0 gegen Stockfish denn Stockfish hat mal wieder ein Glanz-Angriffspartie hingelegt.

Alles sehr konträr ...

Gruß
Frank
Parent - - By Frank Quisinsky Date 2010-12-28 23:59 Edited 2010-12-29 00:03
Gegen Spark 1.0 gab es gerade auch noch ne Klatsche ...
Diese aber nicht durch die verrückten Bauern, sondern eher aufgrund der taktischen Fähigkeiten von Spark 1.0!

Event:
Ort:
Datum:

Weiss:
Schwarz:

Ergebnis
Board
Parent - By Frank Quisinsky Date 2010-12-29 00:01
Und hier die nächste gegen Stockfish 1.91 gerade angesprochen ...

Event:
Ort:
Datum:

Weiss:
Schwarz:

Ergebnis
Board


Und dennoch wenige Remispartien und die Punkte werden durch diese verrückten Bauern auch reihenweise eingefahren!

Gruß
Frank
Parent - - By Ludwig Bürgin Date 2010-12-29 09:55
Hallo Frank

Habe mir die Partie mit Rybka (nackt o.S.) angesehen.
Bei der Analyse sind wir beide  zur Überzeugung gekommen,
dass Rybka nicht mit Schwarz gespielt haben kann.

40 Züge in 10 min.? Wie funktioniert die Zeiteinteilung dann über das ganze Spiel ?

Gruß Ludwig
Parent - By Frank Quisinsky Date 2010-12-29 11:02
Hallo Ludwig,

ich habe noch nie versucht eine SWCR Partie zu reproduzieren.
Wenn Du Dich damit beschäftigen möchte, im TalkChess Thread (TalkChess Turnier Rubrik) liegen die ersten 465 Partien mit Shredder GUI Kommentaren zum Download.

Zeitkontrolle ist:
40 in 10, 40 in 10, 40 in 10 etc. wiederkehrend.

Denke immer daran:
Prozessortyp, gleiche GUI etc.. (beim reproduzieren).

Warte ...
http://www.amateurschach.de/download/swcr-rybka-4-x64-exp61-465.zip

So musst Du nicht in TalkChess suchen gehen!

Gruß
Frank
Parent - - By Stefan Pohl Date 2010-12-30 06:37
[quote="Frank Quisinsky"]
Rybka 4 spielt mit diesen Settings sehr riskant. Meist testen die User nur gegen 1-3 andere starke Engines und hier liegt das Problem. Schaue mal auf die derzeitigen Ergebnisse. Gegen Stockfish sieht es z. B. gar nicht so gut aus. Überhaupt ist die Tendenz bei den Settings klar (augenscheinlich und auch bei der Durchsicht der Partien). Gegen stärkere Engines werden weniger Punkte eingefahren.

Schön zu sehen ist auch, dass wenn Rybka mit einem der Settings verliert der Verlust oft haarsträubend oder anders ausgedrückt ungewöhnlich ausschaut.

Aber ein Schachturnier besteht nicht nur aus dem Spiel von 3-4 Spielern. sondern ein Rating bemisst sich gegen eine größere Anzahl von Spielern. Und hier liegt der "Casus Beknacktus" begraben. Mit diesem Setting kommt die Garde der schwächeren Engines kaum klar. Habe schon viel zum Exp. 42 Setting geschrieben, einen ganzen Thread mit Testergebnissen und Eindrücken vollgemüllt.

Schaust Du auf die Ergebnisse wirst Du leicht erkennen, dass überdurchschnittlich gut gegen schwächere Gegnerschaft gepunktet wird. Das macht ein paar Punkte aus und auch die niedrige Remisquote macht bei der Bayesian Berechnung ein paar Punkte aus. Auch hier ... das Berechnungsprogramm lässt grüßen!

Fest steht aber, dass die Settings etwas bringen und das ist der erste mir bekannte wirkliche Fall, in dem ein Setting etwas bringt.

Also, es ist durchaus etwas dran an dem was bislang andere Personen festgestellt haben. Im Grunde stelle ich ergänzend fest, dass dieses Settings überproportional gut gegen schwächere Gegenschaft abschneidet. Das wird natürlich von den wenigsten abgetestet und insofern für viele auch ein bissel unverständlich.

Der Reiz des testen entfaltet sich hier in seiner ganzen Pracht!

Gruß
Frank
[/quote]

Hallo Frank,

Du hast den Kern des Problems, das hier diskutiert wird, m.E. durchaus erkannt. Eigentlich ist es auch ganz einfach, wenn man sich mal anschaut, was das Setting bewirkt, nämlich dies: Es macht die Figuren von Rybka wertvoller und die der Gegner wertloser (für Rybka). Das hat nun genau eine einzige Wirkung, nämlich daß Rybka weniger Figuren abtauscht, bzw. sogar leichte Stellungsnachteile in Kauf nimmt, um Abtäusche zu vermeiden. Daher verbleiben die Partien länger in der Mittelspielphase, als normalerweise. Dies hat logischerweise zur Folge, daß Rybka gegen schwächere Gegner besser abschneidet, da es mehr Gelegenheiten/Zeit gibt, im Mittelspiel die taktische und postionelle Überlegenheit gegen schwache Gegner aufs Brett zu bringen bzw. der Gegner mehr Gelegenheit bekommt, etwas taktisches zu übersehen. Im Endspiel ist sowas einfach seltener, weil dort Taktik kaum noch eine Rolle spielt. Gegen starke Gegner bringt das aber eben kaum etwas, daher überwiegt hier der Nachteil, daß Rybka leichte Stellungsnachteile in Kauf nimmt, um Abtäusche zu vermeiden.
Da du in deiner Rangliste gegen sehr viele Gegner spielen läßt (damit eben leider zwangsläufig gegen viele schwache Gegner, weil es ja nicht so viele starke Gegner gibt), ist es klar, daß die Settings unter dem Strich bei dir besser scoren als die default-Engine. Wer nur gegen die Top3-5 testet wird hingegen ebenso logischerweise schwächere Ergebnisse erhalten, als die default-Version.
Hier setzt nun aber auch meine Kritik an deinen Tests an: Eben weil es für die Creme-de-la-Creme des Computerschachs nicht soooo viele gute Gegner gibt, solltest Du ernsthaft überlegen, deine Liste in den unteren Reginonen auszudünnen. Sonst produzierst Du Ergebnisse, die zwar unter deinen Testbedingungen stimmen, aber an den Praxiserfahrungen aller anderen Computerschächer total vorbeigehen können, wie man es jetzt exemplarisch an den Rybka-Spezialsettings sehen kann.

Gruß - Stefan
Parent - By Benno Hartwig Date 2010-12-30 08:01
[quote="Stefan Pohl"]Es macht die Figuren von Rybka wertvoller und die der Gegner wertloser (für Rybka). Das hat nun genau eine einzige Wirkung, nämlich daß Rybka weniger Figuren abtauscht, bzw. sogar leichte Stellungsnachteile in Kauf nimmt, um Abtäusche zu vermeiden. Daher verbleiben die Partien länger in der Mittelspielphase, als normalerweise. Dies hat logischerweise zur Folge, daß Rybka gegen schwächere Gegner besser abschneidet, da es mehr Gelegenheiten/Zeit gibt, im Mittelspiel die taktische und postionelle Überlegenheit gegen schwache Gegner aufs Brett zu bringen bzw. der Gegner mehr Gelegenheit bekommt, etwas taktisches zu übersehen.[/quote]Thanx, ja so könnten sich die Settings auswirken. Schön beschrieben.
Eine Engine-Betreuer auf einem Turnier könnte sowas ausnutzen wollen: gegen starke Engines beste Chancen suchen mit Normalsettings,
gegen schwächere Gegner aber mit 'meine Figuren sind aber wertvoller!'-Settings einen sichereren Ganzpunktgewinn versuchen.

Benno
Parent - - By Jörg Oster Date 2010-12-30 08:05
Hallo Stefan,

das würde aber bedeuten, dass Houdini, Rybka, die Ippolite, Stockfish und Critter nur noch unter sich spielen sollen. Ja? 

Eine gute Engine muss auch gegen schwächere die Punkte einfahren können. Und je breiter aufgestellt die Gegnerschaft, umso aussagekräftiger das Ergebnis.
Finde ich jedenfalls.

Gruß,
Jörg.
Parent - By Frank Quisinsky Date 2010-12-30 10:25
Hallo Jörg,

dass ist meine feste Überzeugung nach den ganzen Auswertungen die ich nun bei der SWCR seit über einem Jahr mache bzw. auch früher in Ratinglisten gemacht hatte. Stefan hat ja hierzu einen neuen Thread eröffnet. Ich weiß insbesondere auf meine Aktuell Seite und meinem Eintrag 106 hin.

Sofern Du möchtest lese mal Eintrag 106 auf meiner Aktuell Seite.
Die Aktuell Seite erreicht Du über meine Startseite.

Sollte direkt auffallen, siehe in Blauer Schrift die Zahl 106.

Viele Grüße
Frank
Parent - By Werner Mueller Date 2010-12-30 09:47
[quote="Stefan Pohl"]...
Eigentlich ist es auch ganz einfach, wenn man sich mal anschaut, was das Setting bewirkt, nämlich dies: Es macht die Figuren von Rybka wertvoller und die der Gegner wertloser (für Rybka). Das hat nun genau eine einzige Wirkung, nämlich daß Rybka weniger Figuren abtauscht, bzw. sogar leichte Stellungsnachteile in Kauf nimmt, um Abtäusche zu vermeiden.
...
[/quote]
Ja, aber das könnte man zur Not noch als 'Spielstil' und als nicht prinzipiell schlecht durchgehen lassen.

Das Setting bewirkt aber auch, dass der relative Wert der Figuren (also z.B. wieviele Bauerneinheiten ist ein Springer wert) für Weiß und Schwarz (bzw. eigene und gegnerische Figuren) nicht mehr derselbe ist (natürlich bewegen sich die Boni im centipawn-Bereich und die Unterschiede sind deshalb minimal - aber, wie ich schon mal schrieb, minimaler Quatsch ist eben auch Quatsch).

Und 'sehenden Auges' falsche Annahmen machen und auf Wunder hoffen - dagegen ist Voodoo-Zauber fast schon eine exakte Wissenschaft.
Parent - By Clemens Keck Date 2010-12-29 00:28
Hey WOW

im weiteren thread geht ja hier die Post ab. Finde ich klasse
Ich bin natürlich in keinster Weise für eine Entschuldignug egal von wem oder für was. Testen ist im Grundgesetzt gesichert und absolut frei  
Mir fällt halt nur auf wie schlecht das setting 61 (oder auch andre) gegen rybka default abschneidet. Da werden am server reihenweise Partien verloren.
Jedenfalls wird man am ende von Franks Exp 61 test sagen können, das das gemessene Rating unter seinen Bedingungen erspielt wurde und innerhalb dieser Bedingungen seine Gültigkeit hat. Ausnahmsweise wird das Ergebnis/Rating aber für mich aufgrund des Mistes was das setting bei mir produziert nicht ernst genommen obwohl es real ist.

Einfach weitermachen Frank (tuste ja eh), es macht viel spaß das ganze mitzuverfolgen

Guts Nächtle

Clemens
Parent - - By Ingo Bauer Date 2010-12-29 10:35
Hallo Frank.

[quote="Frank Quisinsky"]
Würde Rybka bei mehreren Cores und diesem Setting deutlich an Spielstärke verlieren, müsste die Engine bei weniger Zeit deutlich an Spielstärke gewinnen. Sprich bei Ingo, müssten die Ergebnisse deutlich besser sein als bei mir. Ingo stellte aber fest ... -20 ELO zum Default Setting.
[/quote]

Nun ja, zunächst fällt auf das du sehr überzeugt von dienen Ergebnissen bist. Bei mir war es -20, bei Clemens war es mies, auch Harry findet das Setting grottenschlecht.  Jetzt konstruierst du eine Reihe von meinen -20 zu deinen +X und behauptest das Clemens daneben liegt. Es ist falsch miene Ergebniss in deinem Sinne zu interpretieren, der logische Schluß wäre eigentlich das deine Test aus der Reihe tanzt und man mit seinem Ergebniss SEHR vorsichtig sein sollte. Stattdessen rennst du rum und verbreitest Verschwörungstheorien. In dem Moment in dem dir einer sagt das das was du so verbreitest nicht ganz auf dem Boden der Tatsachen ist, relativierst du im nächsten Posting und behauptest das das selbstverständlich alles nicht deine Meinung ist, hast du nur per Email bekommen ... Wenn ich etwas bekömme, höre, lese und es ist NICHT meine Meinung, mache ich es mir nicht zu eigen - du verlierst durch diese Spielerchen Glaubwürdigkeit. Auch steht diese deine Nichtmeinung immer noch auf deiner Webseite. Irgendwie sehr seltsam zwiespältig was du da gerade so von dir gibst.

[quote="Frank Quisinsky"]
Nun, was stimmt da nicht?
[/quote]

Ja Frank, das ist die Frage! Es ist schon erstaunlich, das du bei allen Ergebnissen bei mir in der Errorbar liegst, wie du selber schreibst alles zur CEGT 40/20 passt (was auf keinerlei Gewinn irgendeiner anderen Engine mit mehr Bedenkzeit hindeutet) und dann ein Ergebniss (Alle R4 Settings) rausfällt. Da liegt de rHase im Pfeffer!
Aber das ist das Problem wenn man eine Engine als einziger testet. Es fehlt die Kontrolle. Ich war sehr froh das du Houdini mit reingenommen hast, sonst wäre ich der einzige geblieben. Ich war noch froher das die CEGT (zwar offiziell inoffiziell, aber immerhin inoffiziell offiziell auf der Forenseite) Houdini getestet hat und mein Ergebniss bestätigen konnte. Bestätigung ist ist nebensächlich wenn eine Engine nicht unter den ersten drei ist, weil alles andere sowieso fast keinen interessiert, aber bei einer neuen Nummer 1, 2, 3 ist das sehr wichtig (Insebondere wenn man ohne Not parallell Konspiraionstheorien verbreitet)! Ich fürchte dieses Glück wird dir mit dem 61er Setting nicht gegönnt sein.

Gruß
Ingo
Parent - - By Frank Quisinsky Date 2010-12-29 10:59 Edited 2010-12-29 11:04
Lieber Ingo,

ganz ehrlich.
Die Kontrolle fehlt doch bei Dir!
Wo sind denn Deine Partien, Einstellungen etc.

Meine bisherigen Partien liegen komplett offen, mit Shredder GUI Kommentaren, TalkChess Thread.

Ferner habe ich 3x getestet.
Die besagten 600 auf Q6600 (Exp 61), jetzt ca. 540 bisherigen (Exp. 61) und die 900 bisherigen vom Exp. 42 Setting.

Dann gibt es noch die Ergebnisse von Sedat und die Ergebnisse vom Ersteller der Settings in Rybka Forum.
Erzähle also keinen Unsinn, sondern beschäftige Dich mal mit der Frage was du falsch gemacht hast bei Deinen 600 Partien!

Dabei sollte mehr herauskommen!!

Gruß
Frank
Parent - By Frank Quisinsky Date 2010-12-29 11:13 Edited 2010-12-29 11:16
Hi Ingo,

vergessen:
Was Clemens hat sind Eindrücke von Rybka - Rybka, denn "fast" nichts anderes passiert auf dem ChessBase Server.
Das dies nicht mit irgend einer Aussagekraft hinsichtlich einer Ratingzahl zu tun hat muss ich Dir nicht erklären.

Aber wenn Du jetzt hingehst und aus welchen mir fremden Gründen auch immer ein paar Verbündete zum Kampf gegen einen SWCR Test suchst (negativ gedacht aber was bleibt mir wenn ich Deine Zeilen lese) wünsche ich Dir viel Erfolg bei der Suche. Damit machst Du dich und Deine IPON Liste komplett lächerlich!

Wertvoll bei den Aussagen von Clemens war eher seine Feststellung zum Spielverhalten der Exp. Settings. So schrieb er schon im riesigen CSS Thread zum Test des Settings Exp. 42, dass die Engine mal so und mal so spielt (sofern ich das richtig im Kopf habe). Das kann ich nach meinen Eindrücken wirklich voll unterstreichen ... siehe meine ganzen Ausführungen zum Spielverhalten der Settings.

Ansonsten sind Deine Bemerkungen zu kommentieren mit "Traurig, traurig was Du im Kopf hast".
Sorry Ingo!

Gruß
Frank
Parent - - By Wolfgang Battig Date 2010-12-29 14:30
[quote="Ingo Bauer"]
... Ich fürchte dieses Glück wird dir mit dem 61er Setting nicht gegönnt sein.
[/quote]

Ich plane einen Test mit dem "sagenumwobenen" 61er-Setting, allerdings erst nächstes Jahr... .
Sowohl für 40/20 (12 Gegner à 50 Partien = 600) als auch 40/3 (dieselben 12 Gegner à 100 Partien = 1200).

Ob das dann Glück oder Pech (für wen auch immer) ist, wird sich noch herausstellen...

Gruß
Wolfgang
Parent - By Frank Quisinsky Date 2010-12-29 14:50 Edited 2010-12-29 14:57
Hi Wolfgang,

damit es vergleichbar bleibt ...
Es wäre optimal wenn Du dann 12 aus dem Pool der von mir getesteten 25 Programme (gleiche Versionen) heraussuchst.
Müsstest dann noch schreiben welche 12 und ich berechne meine ELO-Liste mit genau diesen 12 die Du Dir ausgesucht hast erneut bzw. lösche die Ergebnisse der restlichen 13.

Natürlich mit ELOstat und wir können vergleichen!

Bis Ende des Jahres und ca. bis 09.01 sind auch die noch offenen 3.000 Partien vom laufenden SWCR-64 Turnier durch und wir hätten gar auch noch die Exp. 42 im Vergleich.

Muss ja wirklich alles gleich sein wenn verglichen wird.

Gerade schrieb mir ein anderer User:
Es wäre unglaublich das das EXP 61 Setting derart schlecht bei mir abschneidet.
Hört, hört ...

Ich schrieb Ihm, lösche doch einfach alle Ergebnisse der Taktiker Stockfish, Spark und Hannibal raus und Du wirst glücklicher werden.

Aufgrund der Einträge hier im Forum schrieb mir gerade ein anderer User ...

Kann nicht glauben, das dieses Setting so gut ist. Bei mir sind es gerade mal 10 ELO mehr.
Ich frage welche Engines er benutzt und berechnete neu ... bei mir waren es dann 12 ELO mehr.

Mit der Datenbank kann jeder seine eigene Wahrheit herausfinden.
Da die TOP-25 komplett sind, einfach rauslöschen was einem nicht gefällt.

Ist genauso beim Fußball.
Einfach alle Mannschaften gegen die Bayern eine Niederlage eingefahren hat oder Unentschieden gespielt hat aus der Liste löschen und Bayern ist Herbstmeister.
Jeder so wie er es gerne hätte ...

Gruß
Frank

Übrigens, das Rating ist in den letzten 25 Partien um 1% gefallen = ca. 7 ELO.
Damit jetzt ca. bei 2.972 = 33 zu Rybka 4 default nach ca. 580 Partien.
Parent - - By Dieter Esser Date 2010-12-29 11:18
Hi all,

auch von mir - ein Test der verschiedenen Rybka Settings - jeweils gegen Houdini 1.5

Code:
OS:       Vista 64 / Q9550
Gui:      Fritz 11
Cores:    4
Ponder:   off
Time:     5 min per Game
Testset:  Nunn2
ETGB:     Nalimov / Gaviota / Robbobases - all 3/4/5

Ergebnis:
                          
Microsoft, Blitz:5'  0

Houdini 1.5 x64   - Deep Rybka 4 x64             30.0 - 20.0    +18/-8/=24     60.00%
Houdini 1.5 x64   - Deep Rybka 4 x64 Exp 42      35.5 - 14.5    +25/-4/=21     71.00%
Houdini 1.5 x64   - Deep Rybka 4 x64 (v61)       36.0 - 14.0    +27/-5/=18     72.00%


Wie vermutet keine Chance, und je mehr die Settings vom Standard abweichen, desto katastrophaler das Ergebnis.

Gruß
Dieter
Parent - - By Frank Quisinsky Date 2010-12-29 11:27
Code:
3 Rybka 4 x64 Exp. 42       : 2948  900 (+586,=234,- 80), 78.1 %

Shredder 12                   :  26 (+ 16,=  8,-  2), 76.9 %
Zappa Mexico II x64           :  26 (+ 15,= 11,-  0), 78.8 %
Naum 4.2 x64                  :  26 (+ 12,= 11,-  3), 67.3 %
Loop 2007 x64                 :  26 (+ 21,=  3,-  2), 86.5 %
SmarThink 1.20 x64            :  25 (+ 21,=  2,-  2), 88.0 %
Thinker 5.4d Inert x64        :  26 (+ 14,=  8,-  4), 69.2 %
Hiarcs 13.1                   :  26 (+ 21,=  3,-  2), 86.5 %
Komodo 1.2 JA x64             :  26 (+ 12,=  8,-  6), 61.5 %
Fruit 09_07_05 x64            :  26 (+ 17,=  7,-  2), 78.8 %
Onno 1.2.70 x64               :  26 (+ 20,=  5,-  1), 86.5 %
Spark 0.5 x64                 :  25 (+ 15,=  8,-  2), 76.0 %
Hannibal 1.0a x64             :  26 (+ 18,=  8,-  0), 84.6 %
Critter 0.80 x64              :  26 (+ 16,=  9,-  1), 78.8 %
GullChess 1.0a x64            :  26 (+ 14,= 11,-  1), 75.0 %
Jonny 4.00                    :  26 (+ 25,=  1,-  0), 98.1 %
Protector 1.3.6-370 JA x64    :  26 (+ 20,=  5,-  1), 86.5 %
Junior 12.0 x64               :  26 (+ 18,=  4,-  4), 76.9 %
Gaviota 0.80 x64              :  26 (+ 25,=  0,-  1), 96.2 %
Equinox 0.87t x64             :  26 (+ 22,=  3,-  1), 90.4 %
Stockfish 1.9.1 JA x64        :  25 (+ 11,= 10,-  4), 64.0 %
Sjeng c't 2010                :  25 (+ 17,=  8,-  0), 84.0 %
Crafty 23.4 JA x64            :  26 (+ 17,=  8,-  1), 80.8 %
Zarkov 6.44                   :  26 (+ 26,=  0,-  0), 100.0 %
Tornado 4.25 x64              :  26 (+ 24,=  2,-  0), 96.2 %
Umko 1.1 x64                  :  40 (+ 35,=  5,-  0), 93.8 %
Critter 0.90 x64              :  40 (+ 16,= 16,-  8), 60.0 %
GullChess 1.1 x64             :  40 (+ 28,=  9,-  3), 81.2 %
IvanHoe B49jA x64             :  40 (+ 12,= 19,-  9), 53.8 %
Spark 1.0 x64                 :  40 (+ 24,= 14,-  2), 77.5 %
Booot 5.1.0                   :  40 (+ 30,=  8,-  2), 85.0 %
Houdini 1.5 x64               :  40 (+  4,= 20,- 16), 35.0 %


Hallo Dieter,

und nun, habe ich auch ...
Schaue auf Exp. 42 - Houdini 1.5 x64

derzeit steht es bei Exp. 61 11.0 : 11.0 ... das sind erst 22 Partien!
Es ist durchaus möglich das bei diesem Einzelmatch sich das Blatt noch wenden wird.

Aber glaubst Du daran, dass sich das Blatt bei den restlichen 24 Einzelmatches auch noch wenden wird?
Schaue mal genau auf die Exp. 61 Resultate insbesondere gegen schwächere Gegnerschaft!!

Du spielst ferner 5+0 mit 5-Steinern.
Sind andere Bedingungen!

Aber wie gesagt, ein solches Ergebnis hatte ich bei Exp. 42 auch!
Und dennoch + 20 nach 900 Partien zum Default Setting!

Gruß
Frank
Parent - - By Dieter Esser Date 2010-12-29 11:36
Hm,

du musst dich hier nicht verteidigen, Frank.

Das wir beide was völlig unterschiedliches machen, ist mir schon klar.

Ich versuche ja gar nicht eine Rangliste zu machen, sondern mit einem - für mich - vertretbarem Aufwand unter den immer gleichen Testbedingungen (Nunn2, 5min, 64bit, 4 Cores, usw) Enginematches auszuspielen.

Das einzige, was hier - im Vergleich zu deiner Liste - überraschend ist, ist der direkte Vergleich zwischen Houdini und Rybka61. Aber das kann an den unterschiedlichen Testbedingungen liegen, oder einfach an der Tatsache, dass bei dir ja aus einem Buch gespielt wird, was dem Zufall im begrenzten Maße Tür und Tor öffnet.

Ansonsten kann man das Ganze zum Spaße mit Fußball vergleichen. Bei dir spielt die Bundesliga (und da sind auch die Vergleiche mit den kleinen wichtig), bei anderen ist eher ein Pokalszenario, wo nur das direkte Ergebnis im Endspiel zählt.

Gruß
Dieter
Parent - - By Frank Quisinsky Date 2010-12-29 11:44 Edited 2010-12-29 11:49
Hi Dieter,

nun ich bin aufgrund der letzten Mails bzw. Forenbeiträge so einiges gewöhnt und werde mittlerweile auch ein wenig aggressiv (ist ja ansteckend).
Erst Recht wenn ich so einen Schmarn von Ingo lese.

Kann die Ergebnisse ja auch kaum glauben erst Recht wenn ich mir ansehe wo die Unterschiede zwischen Exp. 41 und Exp. 62 im Setting selbst liegen. Das dies schon total unglaubwürdig ist und dann auch noch das Exp. 61 nun 20 ELO besser ist als Exp. 42 ist des Testers Leid

Allerdings wusste ich das wirklich vorher, denn ich hatte schon 600 Partien auf einem Q6600 im Kurztest produziert. Schrieb ich ja schon da waren es +8 zu Exp. 42 welches aber zu diesem Zeitpunkt bei +28 und nicht wie jetzt bei +20 lag ... also +16 = 36 ELO mehr zu R4 default. Derzeit beim laufenden Test nach 550 Partien sind es genau +38.

Hat wahrscheinlich auch nichts mit unseren Bedingungen zu tun, sondern eher damit das es gerade mal 22 Partien beim Match gegen Houdini 1.5 x64 sind. Selbst wenn es nach 40 Partien z. B. 20:20 stehen sollte heißt das nicht viel. Dahingehend ist es z. B. besser 100 Partien zu haben anstatt 40. Aber um ein gutes Rating zu erhalten ist es eher wichtiger gegen möglich viele Gegner die 40 Partien zu haben, zeigt die SWCR ja sehr schön auf.

Das bei einem Einzelmatch von 40 Partien ein 20:20 anstatt ein vielleicht erwartetes 25:15 Ergebnis produziert wird passiert öfters und ist keine Besonderheit. Dummerweise gerade beim Test vom Exp. 61 Setting aber das kann sich ja noch wenden.

Guter Fußballvergleich ... das mag ich

Gruß
Frank
Parent - - By Frank Quisinsky Date 2010-12-29 12:00
Hi Dieter,

übrigens, gibt gleich zwei Niederlagen dazu ...
Gegen Houdini und Stockfish ... beide Partien "live" kurz vor dem Matt ... also derzeit:

11:12 gegen Houdini und 10:13 gegen Stockfish.
Dafür wieder zwei Siege gegen Naum und Critter ...

Und dann kommen wieder die "schwächeren" und es wird zusammen geschoben.
Von Runde zu Runde das gleiche Spielchen!
Kann es ja auch nicht ändern

Gruß
Frank
Parent - - By Frank Quisinsky Date 2010-12-29 12:08 Edited 2010-12-29 12:10
Code:
Rybka 4 x64 Exp. 61 - Thinker 5.4d Inert x64 (2739)    20.0  -  2.0    90.91%    Perf=3139
Rybka 4 x64 Exp. 61 - Fruit 09_07_05 x64 (2706)       19.5  -  2.5    88.64%    Perf=3062
Rybka 4 x64 Exp. 61 - Equinox 0.87t x64 (2613)         21.0  -  1.0    95.45%    Perf=3141
Rybka 4 x64 Exp. 61 - SmarThink 1.20 x64 (2601)      19.5  -  1.5    92.86%    Perf=3046


Eine mögliche Erklärung für Ingo ...
Denn diese Engines sind bei Dir alle nicht im Test.

Und wenn wir auf das Ergebnis schauen wird es klar das besonders gute Resultate gegen diese Engines erzielt werden.
Daher ... es ist wichtig möglichst viele Engines im Test zu haben, nur so wird ein Rating genau und dafür sind keine x Tausend Partien notwendig!
Aber das versteht Ingo wahrscheinlich eh nicht!

Würde ich diese Ergebnisse vom Rating abziehen wären es anstatt derzeit + 38 ELO zu Rybka 4 default plötzlich nur noch + 30 ELO zu Rybka 4 default.
Und je mehr von diesen Ergebnisse gegen schwächere Gegnerschaft abgezogen wird, desto stärker wird Rybka 4 default im Vergleich zu Exp. 61.
Um das etwas deutlicher zu machen!

Gruß
Frank
Parent - - By Frank Quisinsky Date 2010-12-29 12:28 Edited 2010-12-29 12:36
Habe mal herausgesucht was Ingo so getestet hat ...

Er schrieb im CSS Forum:

Code:
Hallo Frank,

Ich hatte ja angedeutet das ich, nachdem der Typ im Rybkaforum etwas von 80 Elo über R4 default erzählt, auch mal sein bestes Setting testen werde. Dazu kurz die Frage warum du die 42 genommen hast? ABer auch egal, die 42 soll 64 ELo vor R4 liegen, die 61v2 volle 80 Elo.

Dieses 80 Elo Setting habe ich mal 600 Spiele schnell durchgejagt, hier das Ergebniss für DR 4 Standard:

1 Deep Rybka 4              : 2958  600 (+265,=259,-76), 65.5 %

Houdini 1.03a                 : 100 (+ 22,= 49,- 29), 46.5 %
Stockfish 1.9.1 JA            : 100 (+ 37,= 45,- 18), 59.5 %
Naum 4.2                      : 100 (+ 50,= 42,-  8), 71.0 %
Critter 0.80                  : 100 (+ 50,= 39,- 11), 69.5 %
Komodo 1.2 JA                 : 100 (+ 47,= 45,-  8), 69.5 %
Deep Shredder 12              : 100 (+ 59,= 39,-  2), 78.5 %

Und hier für das 80 Elo+ Setting:

DR4 Exp61v2 - Houdini 1.03a (2951)    42.5  -  57.5    42.50%    Perf=2899
DR4 Exp61v2 - Stockfish 1.9.1 JA (2898)    51.0  -  49.0    51.00%    Perf=2904
DR4 Exp61v2 - Naum 4.2 (2821)    72.5  -  27.5    72.50%    Perf=2989
DR4 Exp61v2 - Critter 0.80 (2817)    65.0  -  35.0    65.00%    Perf=2924
DR4 Exp61v2 - Komodo 1.2 JA (2806)    71.5  -  28.5    71.50%    Perf=2965
DR4 Exp61v2 - Deep Shredder 12 (2800)    71.0  -  29.0    71.00%    Perf=2955
    373.5  -  226.5    62.25%    Perf=2934

Im ganzen also rund -3% oder rund 20 Elo weniger - statt 80 Elo mehr ...

Ich habe erstmal wieder genug von Rybkasettings

Gruß
Ingo


Na Bitte, ist doch alles im grünen Bereich Ingo.
Habe im Grunde keine anderen Ergebnisse ... dieser von Dir benutzten Engines ... !!!

Ca. gleiche Ergebnisse gegen Stockfish, Naum, Komodo, Shredder, bei Critter eine andere Version.

Also, was erdreistest Du dich einen solchen Schmarn zu schreiben zumal Du deine eigenen Ergebnisse offenbar nicht mehr kennst.

Schrieb es Dir doch schon so oft per Mail bei Deinen IvanHoe Testklamotten, gerade bei der Ahmed Version.
Du musst auch gegen die Schwächeren testen, sonst kommt genau das dabei heraus!

Und bei den -20 bei -3% hast Du einen Denkfehler.
Hast ja noch nicht mal das Rating berechnet.

Kannst nicht hingehen und -3% rechnen wenn Du nur gegen die TOPs spielst, denn es ist klar das es dann weniger ist.
Du bist mir ein Experte, also wirklich!
Parent - By Frank Quisinsky Date 2010-12-29 13:10
jetzt muss ich schon den anderen die eigenen Ergebnisse erklären ...
Wie verrückt ist das denn!
Up Topic Hauptforen / CSS-Forum / Rybka 4 mit Wundersettings ???

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill