Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Fire 4 im Kurztest
- - By Michael Scheidl Date 2014-12-07 10:21
1m+0,6s i5-3210M/2,5...2,9 GHz
je 256 MB Hashtables, Singlecore
Balanced-14.abk, div. Tablebases
Arena 3.5, Windows 8 x64

Fire 4   - Stockfish 0612-2014    3200   4.0 - 6.0    +3/=2/-5    40.00%
Fire 4   - Gull 3 x64             3081   4.0 - 6.0    +1/=6/-3    40.00%
Fire 4   - Komodo 5.1r2           3055   5.5 - 4.5    +4/=3/-3    55.00%
Fire 4   - Houdini 1.5a           3041   5.5 - 4.5    +4/=3/-3    55.00%
Fire 4   - Equinox 3.20           3012   6.0 - 4.0    +5/=2/-3    60.00%
Fire 4   - DeepSaros xp6          2945   6.5 - 3.5    +4/=5/-1    65.00%
Fire 4   - Texel 1.04             2850   7.5 - 2.5    +7/=1/-2    75.00%
Fire 4   - Spark 1.0              2771   9.0 - 1.0    +9/=0/-1    90.00%
Fire 4   - SmarThink v170         2768   4.0 - 6.0    +2/=4/-4    40.00%
Fire 4   - Vajolet2 1.45          2704   8.0 - 2.0    +7/=2/-1    80.00%
Fire 4   - DisasterArea-1.54      2638   9.5 - 0.5    +9/=1/-0    95.00%
Fire 4   - Tornado 6.0            2629   9.5 - 0.5    +9/=1/-0    95.00%

gesamt: 79,0/120 = 65,8%

(Die meisten Ratings laut CEGT-Blitz.)

Das entspricht einer Performance von 3007 Elo nach CEGT-Ratingniveau. Exkludiert man die hier als Meßgegner etwas zu schwach scheinenden DisasterArea und Tornado, so kommen 60,0% und 3015 Elo heraus. Das wäre somit nahe bei Equinox 3.20 bzw. zwischen Critter 1.6 und Rybka 4.0.

Dasselbe konnte man allerdings auch schon - siehe CCRL - über Fire 3.0 sagen... So ein Kurztest ist aber bekanntlich unverläßlich. Der Rest bleibt abzuwarten.
Parent - By Michael Scheidl Date 2014-12-07 12:32
Nachtrag der Ordnung halber: DisasterArea hat aufgrund eines Konfigurationsfehlers meinerseits ohne Buch gespielt.
Parent - - By Joe Boden Date 2014-12-07 12:41
Bei Fire tut sich nicht viel, wie Du ja auch schon geschrieben hast. Ich finde die Engine jetzt nicht mehr so spannend. Einst ruhten noch Hoffnungen auf Fire, aber da kommt von unten raus zu wenig Innovation und wirkt ausgelutscht.
Gull ist viel spannender zum Beispiel.
Parent - - By Michael Scheidl Date 2014-12-07 12:49
Laut Readme ist die Version 4 vollkommen neu programmiert worden; Syzygy-Nutzung ist nun auch dabei:

Zitat:
new search
new and improved eval
humanistic analysis
extensive search, pst, and eval parameter tuning
improved material table initialization and phase calculation
thread local storage SMP up to 64 threads
common endgame eval routines
support for Syzygy endgame tablebases
significant increase in playing strength

Fire 4 has been completely re-engineered from top to bottom, and does not use any source code from (or closely related to) Ippolit.

Da war ich sofort neugierig, und bin es noch was andere als meine Kurztestbedingungen betrifft, ob Fire 4 eventuell Gull 3 überholen kann.
Parent - By Joe Boden Date 2014-12-07 13:11
Zitat:
Laut Readme ist die Version 4 vollkommen neu programmiert worden;


Da erlaube ich mir jetzt aber mal eine gehörige Portion Skepsis!
Parent - - By Stefan Pohl Date 2014-12-07 13:34
Wenn mein aktueller Stockfish-Testrun durch ist, werde ich Fire 4 für meine just-for-fun Ippolit-Derivate-Liste testen. Das werden dann 7000 Bulletpartien. Ende der Woche sollte das Ganze durch sein, falls alles glattgeht.
Zeitangaben wie immer ohne Gewähr, besonders im Falle von Fire 4, wo ja wohl einige Leute Probleme mit der Engine haben.

Stefan
Parent - - By Stefan Pohl Date 2014-12-09 08:37
Stefan Pohl schrieb:

Wenn mein aktueller Stockfish-Testrun durch ist, werde ich Fire 4 für meine just-for-fun Ippolit-Derivate-Liste testen. Das werden dann 7000 Bulletpartien. Ende der Woche sollte das Ganze durch sein, falls alles glattgeht.
Zeitangaben wie immer ohne Gewähr, besonders im Falle von Fire 4, wo ja wohl einige Leute Probleme mit der Engine haben.

Stefan


Kleines Update bzgl. Fire 4:

Gute Nachricht 1: Läuft bei mir sowohl unter Windoofs Vista als auch unter Windoofs 7 (beide 64bit).
Gute Nachricht 2: Auch die Hashtable-Größeneinstellung scheint zu funktionieren (hatte jemand in einem anderen Forum angezweifelt), aber das schaue ich mir noch genauer an.
Gute Nachricht 3: Läuft in der LittleBlitzerGUI problemlos und auch mit der ShredderGUI scheints zu gehen (das schaue ich aber auch noch genauer an, aber Daueranalyse, Multicore-Betrieb und Hash-Größe klappen)
Gute Nachricht 4: Nach gut 1600 von 7000 Partien sieht es nach einem meßbaren Plus aus (+15 Elo z.Zt., noch wackelig), das wäre ganz knapp unter Gull 3. Aber deutlich vor Equinox 3.2. Damit wäre wohl Fire 4 die fünftbeste Engine der Welt. Dazu warte ich aber mal lieber noch Andreas Strangmüllers Testrun für seine Bullet-Liste ab, denn bei mir spielt Fire 4 ja nur gegen andere Ippolit-Derivate.
Interessante Nachricht 1: Knotenzahlen und Suchtiefe sind meßbar geringer (im singlecore-Bullet) als bei Fire 3. Da scheint sich ergo einiges in der Suche/Bewertung getan zu haben.

Stefan
Parent - By Michael Scheidl Date 2014-12-09 09:13
Eine weniger gute Nachricht: Fire 4 bzw. 4.0 zeigt den aktuell untersuchten Zug (noch) nicht an. Ein kleines Manko beim Beobachten der Analyse. Vielleicht kommt noch eine Version 4.1 die das dann macht. Die seltsamen Dateigrößen der Exes (~25 MB?! - im Speicher dann aber normal bzw. unauffällig) loszuwerden, wäre auch gut.
Parent - By Ralf Mueller Date 2014-12-09 09:16
Zitat:
Interessante Nachricht 1: Knotenzahlen und Suchtiefe sind meßbar geringer (im singlecore-Bullet) als bei Fire 3. Da scheint sich ergo einiges in der Suche/Bewertung getan zu haben.

Oder einfach in der Zählweise. 
Parent - - By Bernhard Traven Date 2014-12-07 23:42
Noomen Testsuite 2014
Hash 512 MB
Blitz 1m+1s
PB=ON
6er-Syzygy

Fire 4  vs Gull3  +15 / =38 / -7

http://www.mediafire.com/download/7sp9basy1sh13a1/Fire4_vs_Gull_3.zip
Parent - - By Benno Hartwig Date 2014-12-08 06:45
Natürlich sind solche Begegnungen interessant.
Aber warum nur begnügst du dich mit 60 Partien, wo eine Partie doch keine 5 Minuten dauert.
Einmal 24 Stunden oder vielleicht auch einige Male, und du hast ein Ergebnis, welches was aussagt.
So aber ist das Ergebnis nur wenig mehr als ein
"Schaut her, ein neuer Würfel, ich habe ihn ausprobiert, er hat eine 5 gewürfelt!" Trara, Zeitungsbericht, Rundfunkmeldung...

Benno
Parent - - By Roland Riener Date 2014-12-08 13:22
Ich finde die an Bernhard gerichtete Schelte unangebracht. 60 Partien, die dazu noch zur Einsichtnahme mitgeliefert werden, sind doch schon was. Wer es ausführlicher will, kann das Ergebnis ignorieren und selbst einen längeren Testlauf durchführen.

Hier zählt auch die Aktualität, bis die professionellen Tester mit Ergebnissen kommen, werden mindestens Wochen vergehen.

Roland
Parent - - By Benno Hartwig Date 2014-12-08 13:41
Natürlich kann ich ignorieren, was ich wenig aussagefähig finde.
Sollte ich?
Ich meine, dass ein Hinweis auf die Aussagekraft für manchen durchaus hilfreich sein kann.
Ich glaube, mancher unterschätzt und unterschätzt tatsächlich immer noch, wie groß die zufälligen Schwankungen bei wenigen Partien häufig sind.
Wie sehr wahrscheinlich auch größere Abweichungen von den Erwartungwerten dann tatsächlich sind.

BTW:
Mit LittleBlitzer sind auch Testläufe mit 1000 Partien oft locker in 24 Stunden durch.

Benno
Parent - - By Stefan Pohl Date 2014-12-08 15:52
Benno Hartwig schrieb:

BTW:
Mit LittleBlitzer sind auch Testläufe mit 1000 Partien oft locker in 24 Stunden durch.

Benno


Oder sogar mehr. Meine Stockfish-Tests mit 70"+700ms, die auf nur 3 von 4 Cores parallel laufen, schaffen gut 1200 Partien in 24 Stunden.
Meine Bullet-Tests der Ippo-Derivate mit 30"+350ms brauchen nur ca. 60 Stunden für 7000 Partien. (auch 3 Partien gleichzeitig auf je einem Core).

Was diese Kurztests mit 100 BlitzPartien oder weniger bringen sollen, erschließt sich mir daher ebenfalls nicht.

Stefan
Parent - - By Benno Hartwig Date 2014-12-10 08:54 Edited 2014-12-10 08:59
Wie sind hier eigentlich deine Erfahrungen mit Hyperthreading?
Sollte ich auf hyperthread-fähigen Intel-Prozessoren die Anzahl der realen Kerne als Maximum für die LittleBlitzer-Partienzahl nehmen (und dann aber akzeptieren, dass der Taskmanager die CPU dauerhaft als nur zu 50% ausgelastet anzeigt), oder sollte ich die virtuellen Kerne sämtlich nutzen?

Mein Notebook hat einen i3 mit 2 realen Kernen und Hyperthreading und ich nutze es dafür gern.
Nach meinem Eindruck laufen dort LittleBlitzer-Turniere mit 4 Partien gleichzeitig absolut unauffällig und gut. Andere Arbeiten finden damit dann natürlich nicht statt.
Oder hat jemand auch schlechte Erfahrungen mit sowas?

Benno
Parent - - By Michael Scheidl Date 2014-12-10 11:43 Edited 2014-12-10 11:49
Zitat:
Oder hat jemand auch schlechte Erfahrungen mit sowas?

Als ich mich anhand meiner Dualcore i5-CPU damit beschäftigt habe, war das nur zwecks bis zu 4 Threads für Analysen mit einer einzelnen Engine. Von daher sind meine Erfahrungen mit Hyperthreading insgesamt gut, aber: Verschiedene Engines profitieren unterschiedlich davon, und manch eine läuft eventuell tatsächlich mit nur den physischen 2 Cores schneller. Muß man ausprobieren. Im allgemeinen konnte ich aber einen mehr oder weniger großen Geschwindigkeitsgewinn durch die "Hyperthreads" feststellen.

Deine Beobachtung daß man sogar vier verschiedene Enginethreads gleichzeitig, zwei davon nur Hyperthreads, gut laufen lassen kann ist angenehm überraschend! Auf diese Idee bin ich gar nicht gekommen. Das ganze ist aber sicherlich sehr individuell, was die jeweilige Computerkonfiguration und Engine betrifft. Man sollte das bei sich konkret testen. Vermutlich bekommt jeder einen etwas anderen Eindruck davon, und verschiedene Resultate, aber genau danach kann und sollte sich dann die eigene Anwendungspraxis richten.

Das alte Dogma daß Hyperthreading im Computerschach generell "pfui" ist, gilt jedenfalls definitiv nicht mehr.

P.S. siehe auch http://talkchess.com/forum/viewtopic.php?t=47757
Parent - - By Benno Hartwig Date 2014-12-10 13:48

> Das alte Dogma daß Hyperthreading im Computerschach generell "pfui" ist, gilt jedenfalls definitiv nicht mehr.


Ich würde da auch gern noch mehr Klarheit gewinnen.

Ich will auf diesem i3 (2 reale Kerne, 4 Threads per Hyperthreading) mal testen:
Rechenleistung Stockfish auf 1 Kern
- wenn sich alle anderen Kerne langweilen
- wenn 1 weiterer Thread unter Dampf steht
- wenn 2 weitere Threads unter Dampf stehen
- wenn 3 weitere Threads unter Dampf stehen
Wird die Leistung meines einen Stockfish-Threads dadurch beeinflusst? Wie stark ggf?

und aus Neugier auch:
- wenn 5 weitere Threads unter Dampf stehen
- wenn 7 weitere Threads unter Dampf stehen
- wenn 15 weitere Threads unter Dampf stehen (warum nicht, es wird schon nichts kaputt gehen )
Dann sollte die Leistung von SF einbrechen.
Aber geschieht das in einem erwartbaren und reproduzierbaren Maß?
Oder geschieht die CPU-Leistungszuteilung auch irgendwie unregelmäßig?
Und hängt dies ggf. auch ab von der Auswahl der Engines, die die konkurrierenden Threads nutzen?

Benno
Parent - By Michael Scheidl Date 2014-12-10 14:52
Falls (?) sich dieser i3 wie ein i5 verhält, ist ungefähr folgendes zu erwarten:


i5-3210M, 2,5...2,9 GHz
512 MB Hashtables
Shredder Classic, Win 8 x64


Time do depth 20
Neustart der GUI nach jedem Testlauf.

Threads move time(s)
--------------------
  1     f3    29
  2     f3    12
  3    Tad1   10
  4    Tad1    9
--------------------
  1     f3    26
  2    Tad1    9
  3    Tad1   10
  4     f3    12
--------------------


Bedaure keine bessere Nachricht geben zu können
Parent - By Ingo B. Date 2014-12-10 13:35
Benno Hartwig schrieb:

Wie sind hier eigentlich deine Erfahrungen mit Hyperthreading?
Sollte ich auf hyperthread-fähigen Intel-Prozessoren die Anzahl der realen Kerne als Maximum für die LittleBlitzer-Partienzahl nehmen (und dann aber akzeptieren, dass der Taskmanager die CPU dauerhaft als nur zu 50% ausgelastet anzeigt), oder sollte ich die virtuellen Kerne sämtlich nutzen?

Mein Notebook hat einen i3 mit 2 realen Kernen und Hyperthreading und ich nutze es dafür gern.
Nach meinem Eindruck laufen dort LittleBlitzer-Turniere mit 4 Partien gleichzeitig absolut unauffällig und gut. Andere Arbeiten finden damit dann natürlich nicht statt.
Oder hat jemand auch schlechte Erfahrungen mit sowas?

Benno


Ich bin zwar nicht gefragt und habe kein HT CPU mehr, aber dafür einen interessanten Gedanken.

Nimm doch mal die Classic GUI (die kenne ich, eine andere geht wahrscheinlich auch) und lade die selbe Engine 4 mal (evtl, den Namen leicht ändern).
Jetzt in Grundstellung die Analyse anwerfen. Der Task-Scheduler von Windows sollte dafür sorgen, das deine 4 Enignes ungefähr gleich schnell sind. Sollte das der Fall sein, sollte auch das testen auf 4 Threads möglich sein.
Jetzt die GUI mit den 4 Enignes nochmal starten und im Taskmanager den 4 Engines jeweils eine CPU FEST zuweisen (Affinity -> Zugehörigkeit). Wenn du danach die Analyse anwirfst, sollte zwei Engines schneller laufen als zwei andere ...
Sollten im 2ten Fall die Engines auch gleichschnell sein, ist es keine HT CPU ( ) oder die CPU optimiert zusätzlich noch intern ...

Gruß
Ingo
Parent - - By Frank Brenner Date 2014-12-08 16:08

>  Aktualität, bis die professionellen Tester


es gibt hier keine professionellen Tester.

Alle machen es mit ihrem heim-Pc als Einzelperson  als Hobby.

Wer 60 Ultrablitzpartien veröffentlicht  die mal eben in der 5 Minutenpause gespielt wurden die ein "sensations-ergebnis"  darstellen, der Spamt.
Parent - By Michael Scheidl Date 2014-12-08 16:20 Upvotes 1
Zitat:
...der Spamt.

So empfinde ich das nicht. Es ist immerhin ein Ergebnis (von mehreren die erst folgen werden bzw. können), und natürlich nichts endgültiges. Aber es kann schnell einen ersten, obzwar nur vorläufigen Eindruck vermitteln, zumindest ein "Potential" wie ich gerne sage, aufzeigen usw. usf.

Also ich bin sicher nicht dagegen wenn jemand Resultate meldet, auch wenn sie fernab der heutzutage gewünschen statistischen Verläßlichkeit sind (inkl. meiner eigenen ).
Parent - - By Roland Riener Date 2014-12-08 19:19
Zitat:
es gibt hier keine professionellen Tester


Wortklauberei. Stefan Pohl arbeitet sicher "professionell", wenn auch nicht kommerziell. Er ist dazu noch äußerst aktuell, andere eben weniger.

Dürfen hier nur bierernste Beiträge abgeliefert werden? Die "Sensationsergebnisse" sind doch auch interessant ("BVB Tabellenletzter") und bestätigen doch nur die mögliche Schwankungsbreite der Ergebnisse.
Parent - - By Frank Brenner Date 2014-12-08 19:47

> Stefan Pohl arbeitet sicher "professionell",


das tut er, zweifelsfrei.

Die Kritik richtete sich gegen jemanden der in der kaffeepause 60 Ultrablitzspiele hier veröffentlicht mit stark verzerrtem Ergebnis.
Parent - By Joe Boden Date 2014-12-08 22:02
Zitat:
Wer 60 Ultrablitzpartien veröffentlicht  die mal eben in der 5 Minutenpause gespielt wurden die ein "sensations-ergebnis"  darstellen, der Spamt.


Toleranz bitte...

Lass doch jeden sein Hobby so gestalten und kommunizieren wie er will. Wir leben doch nicht mehr im Mittelalter wo die Bischöfe bestimmten, wie dem lieben Gott zu huldigen ist.

Andere Stimme hier haben auch schon beklagt, 10000ende Partien, wie Stefan Pohl sie immer gespielt hat wären sinnlos, weil nach 600-1000 Partien nicht mehr viel passieren würde. Das ist nicht meine Meinung...aber so what!?

Also lass mal gut sein Frank Brenner.
Up Topic Hauptforen / CSS-Forum / Fire 4 im Kurztest

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill