Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Stockfish-Elo im Höhenflug
1 2 Previous Next  
- - By Joe Boden Date 2014-01-09 20:30
Nur eine kleine Turniernotiz. Mag jeder daraus seine eigenen Schlüsse ziehen.

124-Games-Engine Match (Bullet 1+1)

Stockfish mit Aggressiveness 115 und Contempt -50

Stockfish 080114 64 SSE4.2  - Houdini 4 Pro x64    79.0  -  45.0    (124: +58, =42, -24)   
63.71%   
Perf = +97 Elo

( 63.7% TP = +97 Elo 68%->[+71,+122] 95%->[+45,+149] 99.7%->[+20,+177] )

124 games played
www.shredderchess.com
Parent - - By Thomas Müller Date 2014-01-09 22:14
jetzt kommen bestimmt welche die sagen...
"H4 ist bestimmt nicht mit contempt 0 eingestellt gewesen"

Ich finds spannend so ein resultat!
danke
Parent - - By Hauke Lutz Date 2014-01-09 22:17
Das Setting mit dem Ergebnis finde ich interessant.
Wie viele Kerne welches Prozessors standen bei welchem Takt zur Verfügung?
Parent - - By Joe Boden Date 2014-01-10 00:45
ich hab ein i3 notebook und weise 4 threads zu...
Parent - - By Stefan Pohl Date 2014-01-10 07:42 Edited 2014-01-10 07:45
Joe Boden schrieb:

ich hab ein i3 notebook und weise 4 threads zu...


Also testest Du mit Hyperthreading ON, denn die i3-CPUs haben doch nur 2 Cores, oder? Das kann man zwar machen, aber dann muß man bei Stockfish unbedingt den Parameter Idle Threads Sleep=false setzen, sonst gibt es merkwürdige Effekte in der PC-Ressourcenverwaltung, welche die gegnerische Engine in ihrer Rechenleistung beschneiden können. Daher ist der Parameter in offiziellen Releaseversionen auch immer default=false.
Probier das mal. Dann wird sich dein Wunder-Ergebnis wahrscheinlich in Luft auflösen.
Bevor man multicore-Tests macht, sollte man immer erst Testläufe im Singlecore-Betrieb machen, um mögliche Multicore-Probleme auszuschließen. Außerdem kann man dann mehr als eine Partie gleichzeitig spielen und bekommt früher aussagekräftigere Ergebnisse. Sollten die Singlecore-Ergebnisse gut sein, kann man dann immer noch hinterher mit MP-Betrieb testen.

Stefan
Parent - - By Jörg Oster Date 2014-01-10 10:26
Stefan Pohl schrieb:

Joe Boden schrieb:

ich hab ein i3 notebook und weise 4 threads zu...


Also testest Du mit Hyperthreading ON, denn die i3-CPUs haben doch nur 2 Cores, oder? Das kann man zwar machen,

NEIN! Bitte nicht! Bitte für Fishtest nur "echte" Kerne zur Verfügung stellen.
Vielen Dank.

Stefan Pohl schrieb:

aber dann muß man bei Stockfish unbedingt den Parameter Idle Threads Sleep=false setzen, sonst gibt es merkwürdige Effekte in der PC-Ressourcenverwaltung, welche die gegnerische Engine in ihrer Rechenleistung beschneiden können. Daher ist der Parameter in offiziellen Releaseversionen auch immer default=false.
Probier das mal. Dann wird sich dein Wunder-Ergebnis wahrscheinlich in Luft auflösen.
Bevor man multicore-Tests macht, sollte man immer erst Testläufe im Singlecore-Betrieb machen, um mögliche Multicore-Probleme auszuschließen. Außerdem kann man dann mehr als eine Partie gleichzeitig spielen und bekommt früher aussagekräftigere Ergebnisse. Sollten die Singlecore-Ergebnisse gut sein, kann man dann immer noch hinterher mit MP-Betrieb testen.

Stefan
Parent - - By docdwo Date 2014-01-10 14:27

> Bitte für Fishtest nur "echte" Kerne zur Verfügung stellen.


Warum? Ich teste mit dem Kommando bench:

exe per Kommandozeile aufrufen, dann
setoption name Min Split Depth value 5
bench 1024 4 22 default depth

und vergleiche mit

setoption name Min Split Depth value 7
bench 1024 8 22 default depth

Auf meinen Macbook Pro mit i7 sind 4 Threads schneller, auf meinem i2600k@4.2Ghz sind 8 Threads ca. 15% schneller. Warum ist es besser, diese 15% zu verschenken? Warum eine allgemeine Regel?

Ich glaube nicht, dass die angegebenen Contempt/Agressiveness Einstellungen nötig für so ein Ergebnis sind. Teste gerade
den aktuellen IP-compile http://www.mediafire.com/download/84e40l112zelt9x/Stockfish+090114.7z mit ähnlich gutem Ergebnis.

Übrigens: Das Konfidenzintervall wird zwar mit größerer Partienzahl kleiner, wenn ich aber ein Ergebnis außerhalb des Intervalls habe, ist es auch aussagekräftig in Bezug auf die Frage, welches Programm stärker ist - aber nicht in Bezug auf die Frage "wie viel stärker".
Parent - By Joe Boden Date 2014-01-10 15:20
Vielen Dank für Dein Feedback.

Wenn Du ähnlich gute Ergebnisse hast, dann muss sich seit der dev-Version spätestens seit dem 8.1.2014 etwas deutlich verändert haben bei den dev-Stockis.
An der Tabellenspitze meines 24-Teilnehmer-Turniers sieht es derzeit nach 14o Partien so aus.
Bislang thronte Houdini 4 immer an der Spitze. Das scheint auf jeden Fall schon mal anders zu sein.

1  Stockfish 080114 64 SSE4.2 [new]  X              1.0     0.5     0.5     1.0     1.0  1.0        1.0     1.0  0.5  1.0  1.0     9.5 / 11  46.75  86.36%  
2  Stockfish 080114 64 SSE4.2 attack     X        0.5        1.0     1.0     1.0     1.0  0.5        1.0     0.5  1.0  1.0  0.5     9.0 / 11  45.75  81.82%  
3  Houdini 4 Pro x64        X  1.0     0.0  1.0           0.5  0.0  0.5        1.0  1.0     1.0     1.0     1.0  1.0  9.0 / 12  40.75  75.00%
Parent - - By Jörg Oster Date 2014-01-10 15:26
Schön und gut.
Wenn du SF nur einmal startest, hast du recht. So kannst du gerne austesten, wie du SF auf deinem Rechner am besten nutzen möchtest. Z. B. für Analysen.

Aber, für Fishtest werden ja mehrere Instanzen von Stockfish gleichzeitig geladen. Z. B. 8, wenn du 4 Kerne einstellst. Leider kannst du nicht kontrollieren, welche dieser 8 instanzen jetzt die zusätzlichen Resourcen durch Hyperthreading zugewiesen wird. Dadurch kann es zu verfälschten Ergebnissen kommen.
Parent - By docdwo Date 2014-01-10 15:55
Verstehe. Es geht nicht um das obige Turnier sondern um einen Test mit mehreren Instanzen, der im Hintergrund läuft. Da macht es in der Tat Sinn,
im Sinne der Reproduzierbarkeit n-1 reale Cores zu nutzen, wenn n Cores vorhanden sind. Auch wenn auf der Maschine noch irgendwelche Hintergrundtasks laufen, habe ich die n-1 doch in der Regel ganz zur Verfügung.

Das gilt aber weder für Analysen, noch für ein Turnier wie das oben. Ohne Pondern ist immer nur ein einziges Programm am rechnen.

Eine Frage hierzu: Gegeben eine CPU mit 4 realen, 8 virtuellen Cores, die im wesentlichen unausgelastet ist. Starte ich jetzt parallel 7 Programme,
ist dann eines davon schneller, weil es einen realen Core für sich alleine hat? Hat das mal jemand ausprobiert? Ich habe so einen Effekt noch nicht beobachtet.

Vielleicht testet noch jemand anders mit den angegebenen Agressiveness/Contempt-Werten um auszuschließen, das sie gegen H4 Sinn machen?
Bei mir scheinen sie zumindest nicht zu schaden.
Parent - By Joe Boden Date 2014-01-10 16:14
@Stefan

Hab mich heute mal mit einem Computerspezialisten unterhalten und das Thema Hyperthreading besprochen. Ergebnis: Wenn alle Engines die gleichen Resourcenbedingungen haben, dann werden Testergebnisse durch HT nicht verfälscht.
Man kann also die Einstellungen in den Engines so belassen wie sie sind.
Parent - - By ? Date 2014-01-13 22:28
Stefan Pohl schrieb:

Joe Boden schrieb:

ich hab ein i3 notebook und weise 4 threads zu...


Also testest Du mit Hyperthreading ON, denn die i3-CPUs haben doch nur 2 Cores, oder? Das kann man zwar machen, aber dann muß man bei Stockfish unbedingt den Parameter Idle Threads Sleep=false setzen, sonst gibt es merkwürdige Effekte in der PC-Ressourcenverwaltung, welche die gegnerische Engine in ihrer Rechenleistung beschneiden können. Daher ist der Parameter in offiziellen Releaseversionen auch immer default=false.
Probier das mal. Dann wird sich dein Wunder-Ergebnis wahrscheinlich in Luft auflösen.
Bevor man multicore-Tests macht, sollte man immer erst Testläufe im Singlecore-Betrieb machen, um mögliche Multicore-Probleme auszuschließen. Außerdem kann man dann mehr als eine Partie gleichzeitig spielen und bekommt früher aussagekräftigere Ergebnisse. Sollten die Singlecore-Ergebnisse gut sein, kann man dann immer noch hinterher mit MP-Betrieb testen.

Stefan


Außerdem schadet es dem Houdini-Ergebnis, wenn man Hyperthreading verwendet. Wenn du zwei reale Cores hast, solltest du für Houdini auch nur zwei Cores verwenden (und nicht vier).
Parent - By Benno Hartwig Date 2014-01-15 13:58

> Wenn du zwei reale Cores hast, solltest du für Houdini auch nur zwei Cores verwenden


Vor kurzem hatte ich das auch fest behauptet. Und mir wurde massiv mit Hinweis auf Testergebnisse widersprochen.
Da habe ich auch mal auf einem i3-Notbook (2 reale Kerne) mit Hyperthreading (4 Kern) getestet.
4 Dinge waren bemerkenbswert:

1) 4 Kerne waren durchweg ein gut messbares Stück schneller (Größenordnung 15%) für das komplette Durchrechnen einer Tiefe. (Houdini und Stockfish!)

2) im direkten Vergleich H4-2Threads-H4-4Threads
war die 4-Thread-Variante nach gut 150 Partien ca. 80 zu 70 in Führung. (Auch zumindest ein Hinweis)

3) Nach ca. 15 Stunden war die 4-Thread-Variante nur noch am Verlieren(!!!) und erreichte durchweg nur 4 Plys weniger(!!!) Tiefe als die 2Thead-Variante.
Da kann es also ggf. auch allerdickste Probleme geben!

4) Während der ganzen Zeit war der I3 auf Hyperthreading geschaltet. Ich sah (auch im BIOS) auf die Schnelle nicht, wie ich dies deaktivieren klönnte.
Es hätten mich halt schon noch sehr die 2Thread-Zeiten interessiert, wenn Hyperthreading wirklich komplett deaktiviert ist.
Kriegte ich aber nicht.

Es ist schon irgendwie auch schwierig.
Aber Hyperthreading mit doppelt so vielen Threads wie Kernen zu nutzen ist möglicherweise manchmal doch auch wirklich gut (Abgesehen von 3) eben )

Benno
Parent - - By Frank Brenner Date 2014-01-09 22:19 Edited 2014-01-10 01:59
Für ich ist das im Eingangspoting notierte Ergebnis ein Quatsch Resultat.

Ein Glück betrifft das nur einen kleinen Teil der Gemeinde die stets irgendwelche ungeprüften Sensationsergebnisse veröffentlichen, wo letzlich in der Durchführung ein Fehler gemacht wurde. Dann werden solche Ergebnisse der sensation wegen dennoch veröffentlicht. Typisch (...) [Bezeichnung von Mod. gelöscht]
Parent - - By Joe Boden Date 2014-01-10 00:50
solche abqualifizierenden Äußerungen sind weder hilfreich noch sachlich.

Das Ergebnis wurde so veröffentlicht im Forum, wie es von der Shredder-GUI angezeigt wurde. Ich hab nicht jede Partie persönlich beobachtet. Aber alle Engines hatten die gleichen Bedingungen.

Was genau möchtest Du denn kritisieren?
Parent - - By Frank Brenner Date 2014-01-10 01:28
+97 ELO zu Houdini4 im Bullet ist ja wohl eine Sensation oder ?

Wenn man schon eine Sensation veröffentlicht, die auf 1+1 Bulletspielen basieren, dann kann man auch vorher zuhause im Wohnzimmer 1000 oder 5000 Spiele spielen um die "sensation" zu untermauern bzw zu wiederlegen und ggf DANACH posten.

Wer einfach beim erst besten Sensationsergebnis nach ein paar Minuten Testerei so ein Ergebnis postet der hat keine Ahnung.

Wenn  100  Tester zuhause Settings testen, dann entstehen nach nur 127 Spielen bei etwa 20-50 Spielern stets solche oder ähnliche Sensations zwischenergebnisse.
Parent - - By Joe Boden Date 2014-01-10 01:46 Edited 2014-01-10 01:59
Jeder hier weiß wieviele Spiele nötig sind, um statistisch relevante Daten zu erhalten.

Darum geht es aber nicht. Ich habe ein kleines Turnier spielen lassen und hier das Ergebnis gepostet. Da Du so klug bist, kannst Du dieses Ergebnis sicher für Dich persönlich einordnen. Ich tue das auch. Aber ein kleiner Hinweis könnte auch darin enthalten sein, nicht  mehr und nicht weniger.

Es besteht aber kein Anlass, deswegen ein Forumsmitglied als (...) [Bezeichnung von Mod. gelöscht]  zu benennen. Denkst Du nicht auch?
Parent - - By Stefan Pohl Date 2014-01-10 08:00
Joe Boden schrieb:

Jeder hier weiß wieviele Spiele nötig sind, um statistisch relevante Daten zu erhalten.

Darum geht es aber nicht.


Die Frage ist nur: Worum geht es dann?
Ein statistisch nicht relevantes Ergebnis ist so gut wie kein Ergebnis.

Stefan
Parent - By Joe Boden Date 2014-01-10 09:53
Mir geht es bei dendev-Versionen darum, erst einmal einen Eindruck zu gewinnen. Nicht mehr und nicht weniger. #

Ich beanspruche keine definitive Aussagekraft, oder habe ich das behauptet?
Viele Computerschachfreunde machen das ähnlich, wie man hier im Forum unschwer nachlesen kann. Ich kann mich nicht erinnern, dass deswegen jemand in die Kritik geraten ist.
Die Basics hinsichtlich der Relevanz von Tests kennen wir doch alle und müssen das nicht bei jedem kleinen "Begrüßungstestlauf" wieder zu einer grossen Sache von staatstragender Bedeutung machen. Das ist einfach nur nervend. Und es sind jedesmal die gleichen, die in dieses Horn blasen.

Warum eigentlich?
Parent - By Benno Hartwig Date 2014-01-15 17:45

> Ein statistisch nicht relevantes Ergebnis ist so gut wie kein Ergebnis.


Aber ob ein Ergebnis 'relevant' ist, hängt auch von den Fragen ab, die sich einem stellen.
5,0 zu 5,0 in einem Duell zwischen A und B mag man als viieel zu ausdrucksschwach ablehnen.
Eine denkbare These "A ist dem B um mindestens 800 ELO überlegen!!" könnte aber schon als widerlegt gelten.

Benno
Parent - By Frank Brenner Date 2014-01-10 11:49
Abqualifiziert hast du dich jezt sowieso, ob ich das nun auch hier schreibe oder nicht.
Parent - By Guest Date 2014-01-10 09:51
Quatsch? Ja, könnte man vermuten. Ich sage: es ist nur äußerst wenig glaubhaft.

Ich habe schon viele Engine Turniere durchgeführt und hinterher festellen müssen, das man es hätte besser machen müssen.

Adhoc behaupte ich mal, dass die testdurchführung suboptimal gelaufen ist!
Parent - - By Patrick Götz (Mod.) Date 2014-01-10 01:13 Edited 2014-01-10 08:24
Tolles Ergebnis!
Nur der Glaube fehlt mir.
Falls sich das Ergebnis aber bestätigen sollte, werde ich als erster den Vorschlag machen dieses Setting postum in "Stockmeister" umzubenennen 
Parent - - By Hauke Lutz Date 2014-01-10 03:34
Ich lasse mal Interessehalber 500 Partien (die ersten 250 Vorgabestellungen von Stefan - Hin- und Rückspiel) mit dem Setting bei Stockfish 140108 angewendet mit der Zeit 10s+1" gegen H4Pro spielen.
Jede Engine hat 4 GB Ram, sowie 4 echte Kerne von meinem 4930k, Takt 4,5 GHz zur Verfügung.
Das Rechnen auf Gegnerzeit ist deaktiviert.

Ich bin mal gespannt wie das Ganze endet & ob Joe einen echten Hammer gegen Houdini gefunden hat.

Gruß
Hauke
Parent - - By Hauke Lutz Date 2014-01-10 04:12
Nach den ersten 14 Partien steht es +5/=8/-1 (+102 Elo) für die 140108-Version mit Joe´s Setting.
Nicht schlecht, aber noch stehen 486 Partien aus.
Sobald ich aufgestanden bin (gegen frühen Nachmittag) kommt ein neuer und viel aussagekräftiger Zwischenstand.

Gruß
Hauke
Parent - - By Hauke Lutz Date 2014-01-10 05:32
Nach 44 Partien steht es +17/=23/-4 für das Stockfish-Setting... das sind über 100 Elo... das kann doch nicht wahr sein...
Parent - - By Stefan Pohl Date 2014-01-10 07:25
Hauke Lutz schrieb:

Nach 44 Partien steht es +17/=23/-4 für das Stockfish-Setting... das sind über 100 Elo... das kann doch nicht wahr sein...

Ist es wahrscheinlich auch nicht. Aber selbst wenn. Mit Contempt=-50 wird dieses Setting gegen schwächere Gegner sicher viele Punkte verschenken und in einem Ranglistentest daher höchstwahrscheinlich schlecht abschneiden.

Stefan
Parent - - By Hauke Lutz Date 2014-01-10 07:31
Stefan Pohl schrieb:

Mit Contempt=-50 wird dieses Setting gegen schwächere Gegner sicher viele Punkte verschenken und in einem Ranglistentest daher höchstwahrscheinlich schlecht abschneiden.

Stefan


Ich werde  gegen Bouquet 1.8 500 Partien unter gleichen Bedingungen nachstarten, sobald Houdini abgefertigt worden ist. Mal schauen wie viel das gegen einen (laut deiner Liste) 114 (+/-10) Elo schwächeren Gegner ausmacht.
Parent - - By Stefan Pohl Date 2014-01-10 07:47
Hauke Lutz schrieb:

Stefan Pohl schrieb:

Mit Contempt=-50 wird dieses Setting gegen schwächere Gegner sicher viele Punkte verschenken und in einem Ranglistentest daher höchstwahrscheinlich schlecht abschneiden.

Stefan


Ich werde  gegen Bouquet 1.8 500 Partien unter gleichen Bedingungen nachstarten, sobald Houdini abgefertigt worden ist. Mal schauen wie viel das gegen einen (laut deiner Liste) 114 (+/-10) Elo schwächeren Gegner ausmacht.


Mach das. Aber auch dir würde ich dringend empfehlen bei Stockfish Idle Threads Sleep=false zu setzen, sofern du die Engine im Multicore-Betrieb laufen läßt!!!

Stefan
Parent - - By Hauke Lutz Date 2014-01-10 08:04
Ich hab Idle Threads Sleep nicht verändert. Also den Hacken dringelassen. Scheint falsch gewesen zu sein, wenn ich dich jetzt richtig lese.
Parent - - By Stefan Pohl Date 2014-01-10 08:09
Hauke Lutz schrieb:

Ich hab Idle Threads Sleep nicht verändert. Also den Hacken dringelassen. Scheint falsch gewesen zu sein, wenn ich dich jetzt richtig lese.


Leider. Der Parameter ist in allen offiziellen Releases auf false gesetzt. Ich habe in einigen Tests mit dem Parameter auf true sehr merkwürdige Ergebnisse gehabt, sogar bei singlecore-Tests (was laut Gary L. eigentlich gar nicht sein kann). Aber ich würde jedem Tester raten, diesen Parameter unbedingt false zu setzen, schon mal deshalb, um auch Ergebnisse zu generieren, die die gleichen Bedingungen hatten, wie ein Test eines offiziellen Stockfishs.

Stefan
Parent - - By Hauke Lutz Date 2014-01-10 08:23 Edited 2014-01-10 08:29
Und wieder was gelernt (und das im Urlaub, nicht schlecht)

Hab jetzt mit "Ohne" Hacken gestartet. Mal schauen was passiert.

Der Zwischenstand war vor dem Abbruch 66 zu 38.
Parent - By Stefan Pohl Date 2014-01-10 09:09
Hauke Lutz schrieb:

Und wieder was gelernt (und das im Urlaub, nicht schlecht)

Hab jetzt mit "Ohne" Hacken gestartet. Mal schauen was passiert.

Der Zwischenstand war vor dem Abbruch 66 zu 38.


Ich frage mich sowieso, warum dieser Parameter überhaupt angeboten wird. Ihn auf true zu setzen, hat wohl nur Sinn, wenn Stockfish auf dem Rechner alleine vor sich hin werkelt (also für playchess-Matches oder bei Analysen). Ansonsten bringt er die Ressourcenverteilung durcheinander. Für jedweden Engine-Engine Test sollte man ihn unbedingt auf false setzen, besonders im MP-Betrieb.

Stefan
Parent - - By Stefan Pohl Date 2014-01-10 07:50
Stefan Pohl schrieb:

Hauke Lutz schrieb:

Nach 44 Partien steht es +17/=23/-4 für das Stockfish-Setting... das sind über 100 Elo... das kann doch nicht wahr sein...

Ist es wahrscheinlich auch nicht. Aber selbst wenn. Mit Contempt=-50 wird dieses Setting gegen schwächere Gegner sicher viele Punkte verschenken und in einem Ranglistentest daher höchstwahrscheinlich schlecht abschneiden.

Stefan


Ich lasse mal spaßeshalber die neuste Stockfish-Dev-Version mit dem vermeintlichen Wunder-Setting gegen Houdini 4 auf meinem alten Quad (ohne SSE4.2) heute ein paar Hundert Partien unter LS-Bedingungen machen, bevor ich zur nachmittags zur Arbeit gehe. Die ersten 22 Partien gingen 8-14 aus Sicht von Stockfish aus. Sieht also bisher nicht nach einem Wunder-Setting aus. Aber ich lasse das Ganze mal ein paar Stunden laufen.

Stefan
Parent - - By Stefan Pohl Date 2014-01-10 09:02
Stefan Pohl schrieb:

Stefan Pohl schrieb:

Hauke Lutz schrieb:

Nach 44 Partien steht es +17/=23/-4 für das Stockfish-Setting... das sind über 100 Elo... das kann doch nicht wahr sein...

Ist es wahrscheinlich auch nicht. Aber selbst wenn. Mit Contempt=-50 wird dieses Setting gegen schwächere Gegner sicher viele Punkte verschenken und in einem Ranglistentest daher höchstwahrscheinlich schlecht abschneiden.

Stefan


Ich lasse mal spaßeshalber die neuste Stockfish-Dev-Version mit dem vermeintlichen Wunder-Setting gegen Houdini 4 auf meinem alten Quad (ohne SSE4.2) heute ein paar Hundert Partien unter LS-Bedingungen machen, bevor ich zur nachmittags zur Arbeit gehe. Die ersten 22 Partien gingen 8-14 aus Sicht von Stockfish aus. Sieht also bisher nicht nach einem Wunder-Setting aus. Aber ich lasse das Ganze mal ein paar Stunden laufen.

Stefan


Also nach 100 Partien steht es 48.5-51.5 aus der Sicht von Stockfish. Das Wunder bleibt wohl aus (welche Überraschung!), denn Wundersettings gibt es nicht. Zumindest hab ich bisher noch keines gesehen.
Ich breche an dieser Stelle mal ab - ich verballere schon genug Strom für Stockfish-Tests. Mal sehen was bei Haukes Test rauskommt.

Stefan
Parent - - By Hauke Lutz Date 2014-01-10 09:07
Momentan steht es nach wenigen Partien 9,0 zu 7,0 für das Setting, aber Spruchreif ist das natürlich noch lange nicht.
Ich werde jetzt versuchen etwas Schlaf zu finden. Beim letzten Versuch hatte ich ja kein Glück, aber so konnte ich wenigstens den "irregulären" Test abbrechen...

Gruß
Hauke
Parent - - By Hauke Lutz Date 2014-01-10 18:23
Nach 214 Partien steht es +103/=86/-24 (+135 Elo) für das Setting, obwohl Idle Threads Sleep auf false gestellt ist.
Das Endergebnis wird möglicherweise etwas abweichen, aber sollte sich im Bereich >120 Elo einpendeln.

Gruß
Hauke
Parent - - By Stefan Pohl Date 2014-01-10 19:26
Hauke Lutz schrieb:

Nach 214 Partien steht es +103/=86/-24 (+135 Elo) für das Setting, obwohl Idle Threads Sleep auf false gestellt ist.
Das Endergebnis wird möglicherweise etwas abweichen, aber sollte sich im Bereich >120 Elo einpendeln.

Gruß
Hauke


Da muß es irgendein Problem geben. +135 Elo nur mit einem negativen Remisfaktor und ein bißchen erhöhter Königsangriffslust sind grotesk. Schon +30 wären sehr, sehr unwahrscheinlich.
Schreib hier bitte mal, wie Knotenzahlen und durchschnittliche Suchtiefen beider Engines aussehen und welche Stockfishversion du genau benutzt hast (den timestamp).

Stefan
Parent - - By Hauke Lutz Date 2014-01-10 19:29 Edited 2014-01-10 19:34
An der Anzahl der Kerne liegt es aufjedenfall nicht, weil meine CPU hat durchgehend eine Auslastung von 87 bis 91% und die Gui zeigt im Partienfenster auch bei beiden Engines 4 Kerne an. Der CPU-Schnitt beim Ressourcenmonitor liegt bei beiden Engine knapp über 30%.

Eine Idee wo ein Fehler sein könnte, wenn einer vorliegt?
Parent - - By Stefan Pohl Date 2014-01-10 19:37
Hauke Lutz schrieb:

An der Anzahl der Kerne liegt es aufjedenfall nicht, weil meine CPU hat durchgehend eine Auslastung von 87 bis 91% und die Gui zeigt im Partienfenster auch bei beiden Engines 4 Kerne an.

Eine Idee wo ein Fehler sein könnte, wenn einer vorliegt?


Naja, bei so kurzen Bedenkzeiten würde ich immer erst mal den MP-Betrieb über Bord schmeißen und beide Engines nur im Singlecorebetrieb laufen lassen. Das würde eine mögliche Problemquelle eliminieren. Ich würde beinahe wetten, daß das Problem dort liegt und sich im Singlecoremodus der Vorteil von Stockfish ganz schnell verflüchtigt.
Noch besser wäre es, die LittleBlitzerGUi zu benutzen, denn die zeigt die Knotenzahlen und Rechentiefen über alle Züge aus allen Partien gemittelt an. Nach 50-100 Partien sieht man so sehr genaue Werte. Die Knotenzahlen von Stockfish sollten so bei ca. 80% von denen von Houdini 4 liegen (singlecore).

Stefan
Parent - - By Hauke Lutz Date 2014-01-10 19:41
Die Knotenzahlen von Houdini sind viel geringer als die von Stockfish.
Ich hatte es jedoch auf die Rechentiefe geschoben, welche Houdini nicht erreicht.

Das Turnier hab ich nach 245 Partien und +144 Elo unterbrochen.

Gruß
Hauke
Parent - - By Stefan Pohl Date 2014-01-10 20:27
Hauke Lutz schrieb:

Die Knotenzahlen von Houdini sind viel geringer als die von Stockfish.
Ich hatte es jedoch auf die Rechentiefe geschoben, welche Houdini nicht erreicht.

Das Turnier hab ich nach 245 Partien und +144 Elo unterbrochen.

Gruß
Hauke


Ich schließe aus deinen anderen Postings, daß du die FritzGuI benutzt. Das ist schon mal prinzipiell schlecht, denn diese GUI ist nichts anderes als ein riesiger Haufen Bugs, der von einer hübschen Optik übertüncht bzw. zusammengehalten wird. Zudem unterstützt sie nicht mal das UCI-Protokoll vollständig. Zum Testen ist sie daher völlig ungeeignet.
Wenn dir die LittleBlitzerGUI nicht zusagt, weil man dort keine Partien live sehen kann, dann nimm Arena oder sonst was. Alles, wirklich alles, ist zum Engine-Testen besser geeignet als die FritzGUI.

Stefan
Parent - By Hauke Lutz Date 2014-01-10 21:16
Die Arena-Gui hab ich mal bei einem Vereinskollegen gesehen. LittleBlitzerGui finde ich auf dem ersten Blick umständlich & weil ich mit 4 Kernen testen wollen würde reicht es mir, wenn nur eine Partie zur Zeit gespielt wird.

Hauke
Parent - By ? Date 2014-01-13 22:38
Hauke Lutz schrieb:

Die Knotenzahlen von Houdini sind viel geringer als die von Stockfish.
Ich hatte es jedoch auf die Rechentiefe geschoben, welche Houdini nicht erreicht.

Das Turnier hab ich nach 245 Partien und +144 Elo unterbrochen.

Gruß
Hauke

Dann liegt da schon mal das Problem. Ich kann bestätigen, dass Houdini 4 normalerweise etwas höhere Knotenzahlen hat als SF (in meinem Fall DD). Ausgerechnet habe ich es nicht, aber es mag wohl bei 20% Unterschied liegen, ja.
Parent - - By Joe Boden Date 2014-01-10 19:45
wo kann man eigentlich die genauen bedingungen der ls-ratingliste einsehen? du machst doch keine breitenturniere, oder etwa doch?
Parent - - By Stefan Pohl Date 2014-01-10 20:21
Joe Boden schrieb:

wo kann man eigentlich die genauen bedingungen der ls-ratingliste einsehen?


Überraschenderweise auf der Unterseite "Conditions" auf der LS-Website...

Stefan
Parent - - By Joe Boden Date 2014-01-10 20:24
leider nur in english
Parent - By Stefan Pohl Date 2014-01-10 20:31
Joe Boden schrieb:

leider nur in english


Tja, so ist die moderne Welt nun mal. Mein English ist auch nicht das allerbeste.
Ich habe es aber gerade im Wesentlichen in anderem Zusammenhang hier gepostet (für Benno). Ich kopier das mal hier rein:

Ich habe doch meine Testbedingungen auf meiner Website klar definiert. Selbstzitat: "A new engine or new engine-version plays against the 11 opponents in the LS-top10-tournament except its own predecessor (if the predecessor is part of the LS top-tournament) (1000 games are played against each of these opponents)."
Das ist doch eigentlich eindeutig, dachte ich zumindest. Aber vielleicht ist auf dieser Seite mittlerweile auch zu viel Text. Also hier nochmal und auf Deutsch:
Jeder Test einer jeden Engine, Beta, Development-Version, Setting ist immer: Je 1000 Partien gegen alle 11 Engines des LS-top10-tournaments - außer ggf. den eigenen Vorgänger, sofern dieser im LS-top10-tournament vertreten ist.
Auf Stockfish 131223 bezogen heißt das, daß Stockfish 131223 gegen 10 Engines des LS-top10-tournaments gespielt hat (eben gegen alle außer seinen Vorgänger Stockfish 131210). Wenn die Engine (wie im diesem Fall) es daraufhin schafft, im LS-top10-tournament zu sein, dann kann man ihre Ergebnisse in der Kreuztabelle des LS-top10-tournaments einsehen, weil die Engine dann ja Teil des LS-top10-tournaments wird. Für die Zukunft dieser Engine heißt das dann, daß sie als Gegner für weitere Engine-Tests verwendet wird, wodurch dann in der LS-Gesamtliste ihre Partienzahl ansteigt (dadurch haben sich bei "Dauerbrennern" wie Critter 1.6a und Strelka 5.5 mittlerweile 64000 Partien angesammelt). Natürlich nur solange, wie sie es schafft im LS-top10-tournament zu bleiben. Es gibt ja 2 Möglichkeiten für eine Engine, aus diesem herauszufallen, nämlich
1) Sie steigt ab, weil eine andere Engine stärker ist, und sie aus den Top10 herausfällt. Wie z.B. Ivanhoe oder Firenzina, die von stärkeren Ippo-Derivaten (Mars, PanChess, Bouquet) verdrängt wurden.
2) Sie wird durch ihren stärkeren Nachfolger ersetzt, so wie Stockfish 131223 seinen Vorgänger Stockfish 131210 aus dem LS-top10-tournament verdrängt hat.

Da Fall 2) weit häufiger auftritt als Fall 1) habe ich mich ja auch entschlossen, die jeweils veraltete Version der Kreuztabelle des LS-top10-tournaments auch auf der Website anzuzeigen, weil man so schön sehen kann, wie sich die Einzelergebnisse der beiden Engineversionen (um beim konkreten Beispiel und der momentanen Situation auf der Website zu bleiben: Stockfish 131210 und seinem Nachfolger Stockfish 131223) verändert haben.

Stefan
Parent - By Horst Sikorsky Date 2014-01-10 21:08
HI HA,
auch mit wenig Partien kann ich ein " Normal Ergebnis" erreichen. allerdings mit
Stockfish 070114 und Jos Settings. 4min+2s je 4CPU nicht 1CPU!!

1   Stockfish 070114 64 SSE4.2  +16/-13/=19 53.13%   25.5/48
2   Houdini 4 Pro x64 Aq             +13/-16/=19 46.88%   22.5/48
Nachstehend eine seltsame Partie
Event:
Ort:
Datum:

Weiss:
Schwarz:

Ergebnis
Board
Parent - - By Patrick Götz (Mod.) Date 2014-01-10 08:22
Hallo Hauke,

aber eben auch wieder wenig Partien.
Trotzdem sorgt Dein Ergebnis dafür dass das Interesse an einen längeren Test steigt.

Gruß
Patrick
Up Topic Hauptforen / CSS-Forum / Stockfish-Elo im Höhenflug
1 2 Previous Next  

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill