Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Gull 3 erschienen...
- - By Bernhard Traven Date 2014-04-17 20:39 Edited 2014-04-17 21:31
laut ThinkAlot 20-25 stärker wie die vorgängerversion!



https://mega.co.nz/#!QtoAkYiD!fW00vfdeTfXC2t6Wu3m8dNGkRGpNcfh0gR5HebkmZqE
Parent - By Ingo b. Date 2014-04-17 21:24
Vielen Dank für den Tip!

Gruß
Ingo

PS: Da war mal jemand der bessere MS
Parent - - By Michael Scheidl Date 2014-04-17 21:38 Upvotes 1
Danke!

Siehe auch http://sourceforge.net/projects/gullchess/files/Gull%203.zip/download

Das ist sehr vielversprechend. Gull könnte den Kampf der "mächtigen Drei" bald zu einem Vierkampf werden lassen.

Parent - - By ingo B. Date 2014-04-17 22:04
Michael Scheidl schrieb:

Danke!

Siehe auch <a class='ura' href='http://sourceforge.net/projects/gullchess/files/Gull%203.zip/download'>http://sourceforge.net/projects/gullchess/files/Gull%203.zip/download</a>

Das ist sehr vielversprechend. Gull könnte den Kampf der "mächtigen Drei" bald zu einem Vierkampf werden lassen.



Oh je, wo hast du denn die schlechte 90er Serie ausgegraben ...
Wenn schon dann so:



Das sind die einzigen Fantastischen 4! und nicht irgendwelche drei und nicht von Marvel!

Wer davon H, K, S oder G ist überlasse ich jedem selber.

Gruß
Ingo
Parent - - By Bernhard Traven Date 2014-04-18 05:38
Noomen Testsuite
Hash 512MB
PB=ON
Tablebases=NO
Bullet 1m+1s

Gull 3 - Don 1.0b

+10 / =33 / -17

https://mega.co.nz/#!4txUyCKI!OZTbbsmvg9CJbViCf1Viy1IResol16FLWT-uM0KeS8M
Parent - - By Roland Riener Date 2014-04-18 12:40
Danke, Bernhard.

Die Partien habe ich mir noch nicht angesehen, aber das Endergebnis und vor allem die Reihenfolge der entschiedenen Spiele sind interessant:

1 - 10: Gull + 2
11 - 20: Gull + 2
21 - 30: Don + 2
31 - 40: ausgeglichen
41 - 50: Don + 6 !!
51 - 60: Don + 3

Gesamt daher Don + 7

Wenn ich diese extreme Ungleichverteilung sehe, verstehe ich die Befürworter von ausreichend langen Testserien, wie Stefan Pohl, besser.

Roland
Parent - - By Ingo B. Date 2014-04-18 12:50
Roland Riener schrieb:

...
Wenn ich diese extreme Ungleichverteilung sehe, verstehe ich die Befürworter von ausreichend langen Testserien, wie Stefan Pohl, besser.
...


Na ja, gegen EINE Engine, superkurze Bedenkzeit die auch noch einem Lito (ist doch einer?) in die Hände spielt und 70 Spiele ... würfeln geht auch

Ich habe jetzt ein paar Spiele mehr. Nach 110 Spielen* gegen einzelne Engine langt die Performance von 3107 bis 3025. Ein Delta von 82 Elo. Je nachdem welche Einzelengine man nimmt kann man sich leicht mal verschätzen.

Zur Halbzeit sieht es so aus als wenn Gull 3 ganz oben mitspielen kann.

Gruß
Ingo

* Wobei 110 Spiele natürlich nicht ausreichen um sinnvoll etwas zu bewerten.
Parent - - By Stefan Pohl Date 2014-04-18 15:02
Ingo B. schrieb:

Roland Riener schrieb:

...
Wenn ich diese extreme Ungleichverteilung sehe, verstehe ich die Befürworter von ausreichend langen Testserien, wie Stefan Pohl, besser.
...


Na ja, gegen EINE Engine, superkurze Bedenkzeit die auch noch einem Lito (ist doch einer?)


Don ist ein OpenSource/GitHub Stockfish-Derivat und hat mit Litto, Ippo und Co nichts zu tun

Stefan
Parent - By ? Date 2014-04-18 15:38
Stefan Pohl schrieb:

Ingo B. schrieb:

Na ja, gegen EINE Engine, superkurze Bedenkzeit die auch noch einem Lito (ist doch einer?)


Don ist ein OpenSource/GitHub Stockfish-Derivat und hat mit Litto, Ippo und Co nichts zu tun



Ahh, Danke. Dann bleibt nur 60 Spiele und nur ein Gegner. Langt auch um die individuelle Abweichung zu erklären.

Interessant das bei mir nach 128 Spielen, G3 ganz gut gegen Stockfish da steht. Aber, erstens ist es noch nicht zu Ende und zweitens sind 70, 128, 220 Spiele gegen einen Gegner zu wenig, um eine Aussage zur allgemeinen Performance zu machen.

Ingo
Parent - By Bernhard Traven Date 2014-04-18 13:23 Edited 2014-04-18 13:56
Roland mir sind halt die testsuites lieber wie irgendein buch.
es komt halt immer das auf den tisch was auch angekündigt ist...
zugegeben, nach 60 partien (silversuite hätte 100) ist das nur nen fingerzeig in welche richtung es (vermutlich) gehen könnte...
wenn du schreibst zwischen partie 41-50 hat Gull schwer geschwächelt liegts vielleicht auch an ner damen,- nimzoindisch + katalan schwäche?!?
schreibe ich jetzt hier vollkommen nonsens
ich bin da nicht belesen genug und lasse mich gerne aufklären!!

noomensuite 2012:
https://mega.co.nz/#!E8ZTlRgS!Wg-CxZar9hiFgc_JHHcoPS2NV3WERjDYsEeTFWnhblQ
Parent - - By Stefan Pohl Date 2014-04-18 13:12 Edited 2014-04-18 13:15
Michael Scheidl schrieb:


Das ist sehr vielversprechend. Gull könnte den Kampf der "mächtigen Drei" bald zu einem Vierkampf werden lassen.


Das ist wohl schon passiert. Der IPON-Testrun ist zur Hälfte durch und Gull 3 liegt ca. +10 Elo vor Komodo TCEC...

Der LS-Testrun kann frühestens Sonntag starten, wenn ich mit Stockfish 140412 durch bin. Dann aber voraussichtlich auf beiden Testrechnern, sodaß das Ergebnis hoffentlich Mittwoch oder Donnerstag vorliegt.
Leider ist der Stockfish Testrun einmal kurz nach der Halbzeit hängengeblieben (Cutechess ist eingefroren)...Daher verzögert sich das Ergebnis etwas. Cutechess ist wohl doch nicht so stabil wie die LittleBlitzerGUI. Aber leider kann ich die LBG ja wegen des 50ZügeBugs nicht mehr verwenden.
Hoffentlich geht jetzt alles glatt.

Stefan
Parent - - By Stefan Pohl Date 2014-04-18 13:29
Stefan Pohl schrieb:

Michael Scheidl schrieb:


Das ist sehr vielversprechend. Gull könnte den Kampf der "mächtigen Drei" bald zu einem Vierkampf werden lassen.


Das ist wohl schon passiert. Der IPON-Testrun ist zur Hälfte durch und Gull 3 liegt ca. +10 Elo vor Komodo TCEC...

Der LS-Testrun kann frühestens Sonntag starten, wenn ich mit Stockfish 140412 durch bin. Dann aber voraussichtlich auf beiden Testrechnern, sodaß das Ergebnis hoffentlich Mittwoch oder Donnerstag vorliegt.
Leider ist der Stockfish Testrun einmal kurz nach der Halbzeit hängengeblieben (Cutechess ist eingefroren)...Daher verzögert sich das Ergebnis etwas. Cutechess ist wohl doch nicht so stabil wie die LittleBlitzerGUI. Aber leider kann ich die LBG ja wegen des 50ZügeBugs nicht mehr verwenden.
Hoffentlich geht jetzt alles glatt.

Stefan


Bisher läufts ja beim IPON-Testrun erstaunlich gut (gute +40 Elo!!!). Und das läßt natürlich auch für den LS-Testrun auf ein sehr gutes Ergebnis hoffen. Insbesondere weil das bisherige Ergebnis von Gull gegen die besten 6 Gegner (zwischen 6 und 7 klafft ja eine große Elolücke (Rybka/Fritz) erheblich besser ist, als gegen die schwächsten 6 Gegner (Performance gegen Top6: 3085 bzw. 3065 (worst6)).
Da ich ja nur gegen starke Gegner teste, könnte es also auch im LS-Test gut laufen. Allerdings hat der Autor selbst ja einen erheblich kleineren Zuwachs als +40 Elo prognostiziert.
Wird spannend!

Stefan
Parent - - By Ingo B. Date 2014-04-18 15:31
Stefan Pohl schrieb:

...das bisherige Ergebnis von Gull gegen die besten 6 Gegner (zwischen 6 und 7 klafft ja eine große Elolücke (Rybka/Fritz) erheblich besser ist, als gegen die schwächsten 6 Gegner (Performance gegen Top6: 3085 bzw. 3065 (worst6)). ...


Wie hast du das den ausgerechnet? Den schon mehrere Male ausdiskutierten Anfängerfehler die individuellen Performances gegen die 6 Gegner zu addieren und durch 6 zu teilen kann ich mir bei jemandem der meint Ergebnisse auf 5 Elo genau haben zu müssen, kaum vorstellen (das das für die besten 6 auch 3085 ergibt ist Zufall)!

Korrekt wäre die Punkte der besten 6 und Ihre Durchschnittselo zu errechnen und das ganze dann nochmal für die letzten sechs.
Jetzt aktuell nach 1773 Spielen würde das so aussehen:

Durchschnittselo der besten 6 = 3029 Elo
440/759 oder 57%
57% gegen 3029Elo ist ein Rating von 3077

Durchschnittselo der schlechten 6 = 2823 Elo
605,5/760 oder 80%
80% gegen 2823 Elo ist ein Rating von 3063

Das sind gerade mal 14 Elo Unterschied*, von einem Ergebniss das "erheblich besser" kann man da, wie bissher immer, nicht sprechen!

Sorry wenn ich das hier NOCHMAL wiederhole! Ich muß dir nicht sagen welche Errorbar bei 760 Spielen vorliegt und ich weiß, dass du das alles selbst weißt - mache ich nur damit nicht andere den Fehler machen.
Das könnten wir aber als Bsp nehmen, falls jemand mal wieder meint, das irgeneine nennenswerte Verzerrung stattfände, falls Engine gegen 300 Elo schwächere getestet würde.

Ingo

*Am Ende werden sich die Ratings der Gegner natürlich auch nochmal ändern und die "Onlineberechnung" ist Eloformel mit einem Bayeselorating als Start, da kommt auch nochmal eine Korrektur drauf. Genau so wie meine Berechnung einfache Eloformel war und ohne den Bayesschen Schnickschnack auskommen muß.
Dieses Rating aus dem laufenden Turnir ist immer nur ein Fingerzeig wo es hingeht. Man sollte das nicht so ernst nehmen ehe es zu Ende ist und nur mit den endgültigen Werten rechnen ...
Parent - By Stefan Pohl Date 2014-04-19 04:18
Ingo B. schrieb:

Stefan Pohl schrieb:

...das bisherige Ergebnis von Gull gegen die besten 6 Gegner (zwischen 6 und 7 klafft ja eine große Elolücke (Rybka/Fritz) erheblich besser ist, als gegen die schwächsten 6 Gegner (Performance gegen Top6: 3085 bzw. 3065 (worst6)). ...


Wie hast du das den ausgerechnet? Den schon mehrere Male ausdiskutierten Anfängerfehler die individuellen Performances gegen die 6 Gegner zu addieren und durch 6 zu teilen kann ich mir bei jemandem der meint Ergebnisse auf 5 Elo genau haben zu müssen, kaum vorstellen (das das für die besten 6 auch 3085 ergibt ist Zufall)!

Korrekt wäre die Punkte der besten 6 und Ihre Durchschnittselo zu errechnen und das ganze dann nochmal für die letzten sechs.
Jetzt aktuell nach 1773 Spielen würde das so aussehen:

Durchschnittselo der besten 6 = 3029 Elo
440/759 oder 57%
57% gegen 3029Elo ist ein Rating von 3077

Durchschnittselo der schlechten 6 = 2823 Elo
605,5/760 oder 80%
80% gegen 2823 Elo ist ein Rating von 3063

Das sind gerade mal 14 Elo Unterschied*, von einem Ergebniss das "erheblich besser" kann man da, wie bissher immer, nicht sprechen!

Sorry wenn ich das hier NOCHMAL wiederhole! Ich muß dir nicht sagen welche Errorbar bei 760 Spielen vorliegt und ich weiß, dass du das alles selbst weißt - mache ich nur damit nicht andere den Fehler machen.
Das könnten wir aber als Bsp nehmen, falls jemand mal wieder meint, das irgeneine nennenswerte Verzerrung stattfände, falls Engine gegen 300 Elo schwächere getestet würde.

Ingo

*Am Ende werden sich die Ratings der Gegner natürlich auch nochmal ändern und die "Onlineberechnung" ist Eloformel mit einem Bayeselorating als Start, da kommt auch nochmal eine Korrektur drauf. Genau so wie meine Berechnung einfache Eloformel war und ohne den Bayesschen Schnickschnack auskommen muß.
Dieses Rating aus dem laufenden Turnir ist immer nur ein Fingerzeig wo es hingeht. Man sollte das nicht so ernst nehmen ehe es zu Ende ist und nur mit den endgültigen Werten rechnen ...


Alles völig korrekt.
Ich habe das  nur so auf die Schnelle auf Arbeit ins Ipad gehackt.
Dennoch, auch bei der korrekten, aufwendigeren Rechenweise scheint es so zu sein (mit aller gebotenen Restunsicherheit), daß Gull 3 gegen starke Gegner sehr gut zurechtkommt. Und das läßt für den LS-Testrun einiges erhoffen.
Mehr wollte ich auch gar nicht zum Ausdruck bringen

Stefan
Parent - - By Bernhard Traven Date 2014-04-18 13:46
Stefan Pohl schrieb:

Der IPON-Testrun ist zur Hälfte durch und Gull 3 liegt ca. +10 Elo vor Komodo TCEC...


das hat sich fei schwer geändert Stefan...

aktuell führt Komodo glatt mit 13 zählern!
Parent - - By Stefan Pohl Date 2014-04-18 13:59 Edited 2014-04-18 14:03
Bernhard Traven schrieb:

Stefan Pohl schrieb:

Der IPON-Testrun ist zur Hälfte durch und Gull 3 liegt ca. +10 Elo vor Komodo TCEC...


das hat sich fei schwer geändert Stefan...

aktuell führt Komodo glatt mit 13 zählern!


Falsch.
Gulls Performance liegt momentan bei 3064 Elo (1660 Partien von 3080 gespielt). Und Komodo TCEC hat ein IPON-Rating von 3056 (im IPON RoundRobin. In der kompletten Liste ist Komodo TCEC sogar nochmal 7 Elo schwächer (3049)) Also liegt Gull momentan bei +8 Elo vor Komodo TCEC, wäre der Testlauf jetzt zuende und Gull würde mit diesem Ergebnis im IPON RoundRobin verzeichnet. Und in der komplette  IPON -Liste wären es sogar +15 Elo.

Stefan
Parent - By Bernhard Traven Date 2014-04-18 14:01
 
ok!!
Parent - - By Stefan Pohl Date 2014-04-19 04:31 Edited 2014-04-19 04:33
Stefan Pohl schrieb:

Bernhard Traven schrieb:

Stefan Pohl schrieb:

Der IPON-Testrun ist zur Hälfte durch und Gull 3 liegt ca. +10 Elo vor Komodo TCEC...


das hat sich fei schwer geändert Stefan...

aktuell führt Komodo glatt mit 13 zählern!


Falsch.
Gulls Performance liegt momentan bei 3064 Elo (1660 Partien von 3080 gespielt). Und Komodo TCEC hat ein IPON-Rating von 3056 (im IPON RoundRobin. In der kompletten Liste ist Komodo TCEC sogar nochmal 7 Elo schwächer (3049)) Also liegt Gull momentan bei +8 Elo vor Komodo TCEC, wäre der Testlauf jetzt zuende und Gull würde mit diesem Ergebnis im IPON RoundRobin verzeichnet. Und in der komplette  IPON -Liste wären es sogar +15 Elo.

Stefan


Inzwischen ist der IPON-Test fast durch (Partien gegen Fritz kommen ja noch nachträglich, weil Fritz ja nur unter seiner GuI läuft) und nach 3036 Partien sieht es nun so aus, daß Gull 3 wohl knapp vor (!) Komodo TCEC in der IPON landen wird. Super Leistung!!!
Wahrscheinlich ca. +35 Elo zu Gull 2.8. Also meßbar mehr Zuwachs, als der Autor selber angegeben hat.
Beachtenswert das Einzelergebnis gegen Houdini 4 (49.77%!!!). Zwar sind das "nur" 220 Partien, aber immerhin. Mal sehen, wie die 1000 Partien gegen Houdini 4 im LS-Testrun laufen werden...

Bin sowieso sehr gespannt, wie der LS-Testrun laufen wird. Insbesondere, ob Gull es endlich mal schafft, seine 10000 Partien ohne seine typischen 5-10 Abstürze hinter sich zu bringen (das macht zwar in Elo nix aus, aber schön ist es bei einer Spitzenengine auch nicht). Die Abstürze passieren übrigens bei langem Endspielgeschiebe (>150 Zügen) mit Dame (auf beiden Seiten) und den damit einhergehenden langen Schachgebots-Serien.

Stefan
Parent - By Bernhard Traven Date 2014-04-19 08:39
ich find schon auch: eine tolle leistung von Vadim Demichev!
bei meinem mini-test gerade, hat es allerdings knapp nicht gereicht gegen critter...

NoomenSuite
Hash 512MB each
PB=ON
Tablebases=NO
Bullet 1m+1s

Gull 3 - Critter 1.6a

+14/ =30/ -16

https://mega.co.nz/#!09IVBAyT!b9CAMqz_WLd8WWAuEzo76sHcGdW5x2joL8f-4mHRUyM
Parent - By Stefan Pohl Date 2014-04-20 07:25
Der LS-Testrun von Gull 3 läuft seit gestern Abend. Sogar auf beiden PCs, was in Zukunft kaum mehr passieren wird, da ich auf einem PC ein neues Testprojekt starten will (Ein endlos laufendes RoundRobin der absoluten Enginespitze (3-5 Engines) mit mehr Zeit (10'+3'') und allen 4 Cores für eine Engine, also Quadcore-Betrieb (mit einem lernfähigen, neutralen 8-Züge Buch für jede Engine, unter der Shredder Classic GUI). Dazu sicher in einigen Wochen mehr Infos. Bei diesem Tempo schafft man nämlich nur ca. 50 Partien pro Tag.)

Jedenfalls hat Gull 3 im LS-Testrun mittlerweile 1600 Partien absolviert und liegt bei ca. +25 Elo zu Gull 2.8. Eigentlich ein sehr schöner Zuwachs an Spielstärke, allerdings hatte ich nach dem starken Ergebnis im IPON-Testrun doch etwas mehr erwartet, andererseits entspräche dieser Zuwachs genau der Prognose des Autors. Aber es fehlen ja auch noch 8400 Partien. Abwarten.
Ergebnis voraussichtlich Mittwoch.
Stay tuned!

Stefan
Parent - - By Roland Riener Date 2014-04-21 13:23
Bernhards Link ist heute nicht mehr aktiv, aber deiner.

Es erscheinen die Optionen Gull 3x64 ohne Zusatz und mit Zusatz BMI2. Welcher ist der für "moderne Computer" (SSE4) der richtige?

Besten Dank im voraus, Roland
Parent - - By Michael Scheidl Date 2014-04-21 13:41
Bei mir mit Intel i5-CPU und Windows 8 x64 läuft die BMI2-Version nicht.

Siehe http://en.wikipedia.org/wiki/Bit_Manipulation_Instruction_Sets#Supporting_CPUs wo leider keine konkreten CPUs angeführt werden, nur die Familien oder wie das heißt.
Parent - - By Roland Riener Date 2014-04-21 15:01
Danke Michael, ich verwende W7x64 mit einem i3 und der ist dem i5 doch nahe verwandt. Wenn der BMI bei dir nicht läuft, würde er es bei mir sicher auch nicht.

Dann habe ich doch vorher instinktiv richtig den ohne Zusatz geladen, und der läuft und läuft und ....
Parent - By Michael Scheidl Date 2014-04-21 15:06
Anzunehmen; ich teste sowas meist direkt beim Entpacken durch Doppelklick auf die Exe, die ich probieren will. Bei der BMI2-Version ist das Kommandozeilenfenster das dann jeweils erscheint, gleich wieder verschwunden. Bleibt es ordnungsgemäß offen, so kann man "uci" eingeben um gleich einen Überblick der Optionen zu erhalten.

(beenden in dem Fall mit "quit" statt mit "exit")
Parent - - By Daniel Riesner Date 2014-04-18 13:05
Und mal wieder unter XP nicht zu verwenden! Schade!
Parent - - By Michael Scheidl Date 2014-04-18 16:05
Wirklich nicht? Ich habe im Zipfile ein Verzeichnis "XP compatible builds" mit zwei Gull 3-Engines gefunden, 32+64 Bit.
Parent - By Chess Player Date 2014-04-19 11:15
und funktioniert sogar...
Up Topic Hauptforen / CSS-Forum / Gull 3 erschienen...

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill