Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / FCT1: Vajolet2 1.45 x64 Round-Robin seit der Geisterstunde!
- - By Frank Quisinsky Date 2014-08-25 11:49
Hallo zusammen,

pünktlich zur Geisterstunde startete der nächste Round Robin.
Interessant ist, dass Vajolet2 1.45 x64 in der ersten 100ter Serie direkt mit 53 Remisen aufwartet.
Dran glauben mussten alle in Folge, auch die TOPs.

Somit zumindest zunächst mal Träger des Remis-Trikots!
Wobei die Ideen mit den Trikots noch verbessert werden, habe da jemand der mich vielleicht ein wenig unterstützt.

CEGT hat diese aktuelle Version schon getestet (Version ist ca. 1 Woche alt) und hier ist eine leichte Verschlechterung zu sehen.
Bzw. Stillstand zwischen den Version 1.28 / 1.43 / 1.45

Die 1.43 habe ich selbst nicht getestet, wollte ja aber dann war schon die 1.45 da.

Habe ein paar Partien verfolgt!
Vajolet2 bei diesen Partien im Mittelspiel in Nachteil aber gleicht zum Endspiel eigentlich verlorene Stellungen aus.

Ein Taktiker ist Vajolet2 nicht, viele kurze Partien sind nicht zu erwarten, wahrscheinlich gar keine oder 1-3 vielleicht!
Aber auch die positionellen Programmen sind reizvoll.

Mal schauen ...

Gruß
Frank
Parent - - By Wolfgang Battig Date 2014-08-25 12:34
Frank Quisinsky schrieb:

....
CEGT hat diese aktuelle Version schon getestet (Version ist ca. 1 Woche alt) und hier ist eine leichte Verschlechterung zu sehen.
Bzw. Stillstand zwischen den Version 1.28 / 1.43 / 1.45


Verschlechterung gilt allerdings nur für unsere 40/20-Liste (effektiv 40/8 bei Werner). Da liegt die 1.45 sogar noch hinter der 1.28.

Bei 40/3 hat es einen deutlichen Sprung nach vorne gegeben. Je 1000 Partien mit beiden Versionen (43 und 45) bei identischen Bedingungen (PC, Testsuite) ergaben +37 zugunsten der 1.45. Zur 1.28 sind es sogar +60.

Zitat:
Die 1.43 habe ich selbst nicht getestet, wollte ja aber dann war schon die 1.45 da.
...

Die 1.43 war buggy, stürzte ständig ab. Damit hättest Du richtig Spaß bekommen...
Der Autor konnte den Fehler dann mit Werner Schüles Hilfe lokalisieren und beheben, Resultat war dann die 1.45.
Die läuft nach meiner Erfahrung absolut stabil.
Parent - - By Frank Quisinsky Date 2014-08-25 22:51 Edited 2014-08-25 22:54
Hallo Wolfgang,

verfolge gerne Eure 40 in 20 ohne ponder und die von Gerhard mit ponder.
Da ja keiner mitliest ... das immer sehr interessiert von Anfang an ... Mensch!

Die Ratinglisten mit kurzen Bedenkzeiten wie die von Ingo oder von Euch, anderen interessieren mich persönlich nicht so sehr.
Schaue dort nur sehr selten.

Habe also nicht gesehen das sich Vajolet2 bei kurzen Bedenkzeiten besser schlägt. Eigentlich ungewöhnlich, denn Engines mit hoher Remisquote, die meist auch eher positionell anzusiedeln sind gewinnen mit mehr Zeit. Aber Vajolet2 ist zu neu für mich, auch wenn ich die 1.28 ja schon mit 1.500 Partien in meiner Liste habe. Lehne mich bei der Engine noch nicht aus dem Fenster. Habe gerade mal kurz geschaut ... nach 250 Partien sieht noch alles nach einer kleinen Verbesserung bei mir aus.

Ja, habe verfolgt was Werner zu Vajolet2 1.43 alles geschrieben hat. Er macht wirklich eine sehr gute Arbeit, nicht nur bei der Liste. So viel Energie wie einst in Winboard oder Arena Zeiten als laufend die Programmierer angeschrieben wurden habe ich gar nicht mehr. Siehste ja, lehne Engines mit kleinen Fehler eher total ab um mir Arbeit zu sparen. Aber dann reizt es mich doch wieder wenn ich die Zeit habe auch mal einen Fehler zu durchleuchten.

Ja, die 1.45 läuft bislang absolut stabil.
Habe gestern verfolgt, auch Task-Manager etc..
Heute mal die produzierten Partien durchstöbern.

Nicht böse gemeint aber was mir bei 40 in 20 bei CEGT auffällt ...
Da werden offenbar gerne 100-Partien Matches gegen 10 Gegner gespielt.
Finde das sind zu wenige Gegner ... auf der anderen Seite die Ergebnisse sind für mich nachvollziehbar. Wird ja aus dem großen Pool von Gegner auch gut zusammengestellt. Schlecht kann das ja nicht sein wenn die Ergebnisse stimmen. Auch wenn ich natürlich mehr Gegner bevorzuge. Bei CEGT ist es ja auch einfach, kommen ja auch immer im weiteren Verlauf neue Gegner hinzu. Alles OK aber manchmal ist auch bei CEGT 40 in 20 zu beobachten das Ratings deutlicher fallen oder steigen. Denke es liegt eher an der Anzahl der Gegner als an der Anzahl der gespielten Partien.

+60 ELO ist wirklich enorm ...
Bin mal gespannt wie das bei mir enden wird.
Wahrscheinlich in der Klapse

Gruß
Frank
Parent - - By Wolfgang Battig Date 2014-08-26 11:24
Hi Frank,

Frank Quisinsky schrieb:

verfolge gerne Eure 40 in 20 ohne ponder und die von Gerhard mit ponder.


welche meinst Du? Die 40/20 mit Ponder ist eingestellt, wurde zu aufwändig. Dort wurde nicht auf eine bestimmte Hardware angepasst sondern immer 40/20 gespielt. Adaption war auch nicht nötig, da GS und ich für die Liste in etwa gleich schnelle PCs verwendet haben (+/- 5% oder so).

Mit Ponder haben wir nur die 5'+3" im Angebot, also entsprechend IPON.

...

Zitat:
Ja, habe verfolgt was Werner zu Vajolet2 1.43 alles geschrieben hat. Er macht wirklich eine sehr gute Arbeit, nicht nur bei der Liste. So viel Energie wie einst in Winboard oder Arena Zeiten als laufend die Programmierer angeschrieben wurden habe ich gar nicht mehr.


Ja, Werner macht das Klasse. Wobei wir das nicht ständig machen können. Hängt auch immer vom Programmierer ab, wie empfänglich der für Anregungen/Fehlerberichte ist. Der Vajolet-Autor war sehr umtriebig und hat Werner diverse Testversionen zugeschickt. So konnte der Fehler schließlich behoben werden. Den Aufwand können wir aber nicht immer leisten, sind ja keine Betatester! Bei Vajolet machte es aber Sinn, weil die Engine nur noch ein paar ELOs braucht um auch ein Kandidat für unsere 5+3Ponder-Liste zu sein (Einstieg zurzeit bei ca. 2740 ELO, Quazar 0.4 x64). Dafür brauchen wir natürlich stabile Engines, die auch mit Ponder keine Probleme machen. Die 1.28 konnte noch nicht Pondern, seit 1.43 soll es gehen (noch nicht probiert).

Zitat:
Nicht böse gemeint aber was mir bei 40 in 20 bei CEGT auffällt ...
Da werden offenbar gerne 100-Partien Matches gegen 10 Gegner gespielt.
Finde das sind zu wenige Gegner ... auf der anderen Seite die Ergebnisse sind für mich nachvollziehbar.


Mit schneller werdender Hardware und somit abnehmender Bedenkzeit (Werner und Johann spielen auf den schnellen i7 bzw. i5-Rechnern mit 40/8!) geht die Tendenz - zumindest im Spitzenbereich - zu 100er Matches. Gerade bei den Tops hat das aber auch einen praktischen Sinn. Für die Top 3 bis 4 gehen relativ schnell die Gegner aus, wenn die ELO-Differenz nicht zu groß werden soll und möglichst keine "Clones" dabei sein sollen.

Beispiel Stockfish 5.0 x64 1CPU, Rating 3130: In einer Spanne von 300 Punkten gibt es nur max. 14 verschiedene Gegner (bis Hiarcs 14 runter). Und da sind schon ein paar "Verdächtige" bei (Equinox, Critter, Rybka). Wenn du die auch noch rauslässt und dann 50er-Matches spielst bekommst du keine 600 Partien zusammen. Für Komodo 7, Houdini 4 und mit Abstrichen auch für Gull 3 gilt im wesentlichen dasselbe, leicht abgeschwächt vielleicht.

Also machen 100er Matches schon Sinn, oder man lässt die ELO-Differenz komplett außen vor. Irgendwann gibts dann nen "Whitewash". Macht das Sinn?
Oder man nimmt jeden "Clone" mit rein der nicht bei 3 auf den Bäumen ist...

Nur zur Klarstellung: Ich bin auch eher für mehr Gegner bei weniger Partien pro Match. Bei manchen Konstellationen ist das aber schwierig.

Gruß
Wolfgang
Parent - - By Frank Quisinsky Date 2014-08-27 01:44 Edited 2014-08-27 02:23
Hallo Wolfgang,

schön das Du Dir die Zeit genommen hast !!
Ich habe ganz offensichtlich zu viel davon (eigentlich eher gar nicht) !

Zu den CEGT Listen:

Ah verschrieben, also ich schaue auf 40 in 20 ponder = off (immer schon) und beobachte die Liste von Gerhard Sonnabend mit 5+3 und Ponder = on. Finde die 5+3 mit Ponder = on kommt hinsichtlich Aufbau und Durchführung meinen Arbeiten sehr gleich. Auch ziehe ich mir hier natürlich die Anhaltspunkte, um neue Engines zu testen, denn ne Quelle was ich teste brauche ich natürlich auch. Ferner vergleiche ich dann natürlich! Aber ich habe wie in allen meiner Listen immer das Problem, dass der direkte Vergleich hinkt, weil bei mir ... warum auch immer ... Shredder im Vergleich zu anderen Listen eher unter Wert spielt. Ich rede mir das selbst schön und vermute, dass liegt daran, das Shredder eher mit mehr Zeit abbaut anstatt zulegt. Beobachte ich im Grunde ein bissel und es gibt auch noch andere Beispiele bei Engines, die zwischen w32 und x64 quasi "Null" profitieren. Modernere Engines mit Prozessoroptimierungen für modernere Prozessoren sind hier zusätzlich im Vorteil. Schaue ich dann aber auf das Verhältnis zwischen den Engines, stimmt im Rahmen der typischen Abweichungen ja fast immer alles. Glaube auch, dass wenn ich ohne Aufgabefaktor spielen würde, das eine oder andere Ergebnis anders ausfallen würde. Wenige Punkte mehr oder weniger bei 1.000 Partien haben größere Folgen. Gibt so viele kleine Beeinflussungsfaktoren, die aber wenn mehrere davon aufeinander treffen dann schon den einen oder anderen leicht sichtbaren Unterschied ausmachen. Immer wieder stelle ich genau das fest und immer wieder zweifle ich dann wieder an irgend einen eigenen Eindruck.

Übrigens, Eure 40 in 120 schaue ich mir hier und da auch mal gerne an !!
Nur selbst hätte ich daran kein Interesse vergleichbares zu erstellen, kann so lange einer Partie nicht konzentriert folgen.

Ponder:

Ich war es satt mit Ponder = on zu testen. Zu viele Fehler bei zu vielen Engines. Habe darauf echt die Lust verloren. Wie gesagt, einfach kein großes Interesse mehr immer wieder Fehler zu melden. Im Grunde sind es ja die Ratinglistenbetreiber (Werner ist das beste Beispiel), die durch die Meldungen meist dazu beitragen, dass die Fehler behoben werden. Aber so wie ich meine Liste aufbaue, bin ich zeitlich schon etwas mehr als gedacht ausgelastet und die Aktivität reicht mir wie sie ist. Wollte das ja auch erst gar nicht mehr öffentlich machen und sendete nach der Pause nach SWCR1 nur 3 oder 4 Leuten meine Liste per eMail, so auch Werner. Ja, es ist wichtig das bei einer Ponder = On Liste wirklich das Pondern auch stimmt, sonst zu viele Hänger und wir sitzen ja auch nicht den ganzen Tag am PC um laufend zu korrigieren. Ponder scheint heute immer noch ein Problem zu sein, gerade in Verbindung mit einer vernünftigen Zeiteinteilung. Nun ja, die Zeiteinteilung hat sich aber in den letzten Jahren deutlich bei den Engines verbessert.

Clones:

Rybka = Fruit
IPP = Rybka
Houdini = IPP
Und dann wieder Critter ist Houdini
Naum schaut wie Rybka aus
Equinox ist IPP und offenbar auch der letzte Fritz
Und dann noch die vielen anderen IPPs ...

Da gibt es wieder einen interessanten Thread im Orgin Forum bei TalkChess.
Im Grunde hat Robert auch Recht behalten auch wenn er immer so gerne schreibt ... wir prüfen ja im Rahmen der offiziellen Turnierteilnahmen und jenes und dieses ist nicht geprüft weil keine offizielle Anmeldung von Programm x oder y erfolgte (er redet sich da immer selbst wieder raus, er meint bzw. argumentiert in anderen Threads eher klar Anti-Clone und stellt offizielle Prüfarbeiten nur zu gerne vor seinen Eindrücken um diese auf eine seriöser wirkende Art zu untermauern). Zumindest das finde ich bei der offiziellen Organisation gut. Wir dürfen hier den Clones einfach keine Bühne geben, dass wäre nicht OK und gerade die vielen sehr guten Arbeiten von Programmierern, die Gutes leisten würden ... wenn es anders wäre ... direkt mit in Frage gestellt. Es würden noch mehr die Lust verlieren. Insofern bleiben die IPPs und sonstigen Clones die "Wohnzimmer Engines" für User A oder B und das ist auch gut so.

Für uns, wie Du es beschrieben hast, ein echtes Problem !!!
Wir brauchen, um die wirklichen TOP-Entwicklungen wie Komodo oder Stockfish, GullChess zu testen, mehr Gegner. Woher nehmen wenn nicht aus dem Lager der Clones. Aber das hat dann immer alles auch einen faden Beigeschmack, denn im Grunde halten die Clones immer die gleichen Stärken. Spielen zu viele in einer Liste, wäre das vergleichbar, als wenn wir ein Turnier mit 10 Engines spielen und bei den 10 Engines sind 6 dabei die nichts anders sind als Spielstil Veränderungen, wie in TheKing Zeiten, auf höherem Niveau. Dann haben wir das Problem, dass die wirklich eigenen Entwicklungen zu ungleichen Teilen auf Gegner treffen.

Beispiel:
Stockfish spielt gegen:
Komodo, Houdini, Critter, Rybka, Equinox und Gullchess je 100 Partien ...

Die Realität ist dann ...
Stockfish spielt gegen Komodo 100 Partien
Stockfish spielt gegen GullChess 100 Partien
Stockfish spielt gegen Clone Fraktion 400 Partien (da im Grunde gleiche Stärken und Schwächen ein ungleicher Test).

Also ein Verhältnis von 100 / 100 / 400 und wenn Stockfish besonders gut die Clone Fraktion punktet, wird der ermittelte Wert in Elo ... egal wie viele Partien vorliegen ... zu stark beeinflusst und das Ergebnis ist nicht wirklich ein Ergebnis wie wir es uns wünschen würden. Das brauchen wir auch nicht schön zu reden weil es so ist wie es ist. Umso unsinniger die Diskussionen um Ratinglisten wie Anzahl der Partien ... wenn wir Äpfel mit Birnen vergleichen.

Was also tun?
Clones komplett blocken und dann haben wir folgendes Problem ...
Das von Dir beschriebene ... es fehlen die Gegner und Engines wie Stockfish müssen gegen zu viele klar Schwächere antreten. Da die Schwächeren gerne viele Remispartien gegen die Stärkeren produzieren wird auch hier ein wenig negativ beeinflusst ... sowohl bei den Ausgabewert der Schwächeren Engine als auch bei Stockfish.

Clones kommen und gehen und blockieren nur Plätze in kleineren Ratinglisten für echte Entwicklungen.
Je weniger drin sind desto mehr wirklich interessantes kann getestet werden.
Klar, warum ich so vorgehe wie ich vorgehe!

Also ...
Mit welchen Übel leben wir bei der Erstellung einer Liste oder welches Übel ist das Geringste?
Das kann ich auch nicht sagen aber ich persönlich habe deutlich mehr Spaß beim Zusehen und testen wenn viele unterschiedliche Kräfte gegeneinander spielen.

Bei der CEGT aufgrund der Masse der getesteten Engines ja fast egal weil die Masse gleicht leichte Unwägbarkeiten wieder aus. Nur in einer kleineren Liste, wie ich das derzeit praktiziere, würden 5 Clones die Einzelergebnisse der Anderen zu stark beeinflussen. Das hatte ich sehr schön mit der SWCR2 festgestellt. Dort spielten auch Houdini, Critter, Equinox, Naum etc.. Je mehr ich davon rausgeworfen haben desto mehr haben die Elo der anderen -echten Engine Entwicklungen- teilweise deutlicher verändert. Die SWCR2 war so scheiße das ich das Konzept in die Tonne treten musste und neu aufgebaut habe.

Du kannst schon mit 1.000 Partien ein richtig gutes Ergebnis produzieren aber das wird auch nur dann richtig gut wenn weitestgehend die Unwägbarkeiten so gut es geht ausgeschaltet werden. Das ist dann mein Ding, mit geringen Mitteln versuchen das Ergebnis immer weiter und weiter zu verbessern, wie das Buch an dem ich arbeite. So macht es dann auf längere Sicht Spaß sich mit dem Thema zu beschäftigen. Und bei mir gilt immer ... blos nicht wieder die Lust verlieren! Durch Clones verliere ich aber stetig das Interesse und das versuche ich zu vermeiden.

---

Und zurück rudern und die Clones wieder rauswerfen.
Würden die Ratinglistebetreiber das machen hätte das Auswirkungen auf das Nutzungsverhalten der User.
CEGT ist da ja sehr konsequent geblieben und hat dann erst so nach und nach mal eine kritische Engine hinzugenommen. Meist stellt sich auch erst später heraus das eine Engine mal wieder geklont wurde. Erkennen können wir das nicht immer direkt, auch ich nicht mit den Stats die ich durchführe. Sind hier auch angewiesen auf Informationen die heute ja sehr schön und einfach produziert werden können. Also, heute ist es einfacher einen Clone zu erkennen und wenn 1x in der Liste und schon x Partien gespielt ... so ging es mir ja auch schon oft ... am besten neu beginnen wenn es die Arbeit eines einzelnen ist. Ich beende sehr schnell wenn mir etwas nicht passt aber CEGT ist heute etabliert und da kann ein Konzept nicht mal so direkt von jetzt auf gleich geändert werden und wie gesagt die Frage ist ob das überhaupt sinnvoll ist.

Wenn dann nur aus einen einzigen Grund ...
Den Clones die Bühne zu nehmen!

Schwieriges Thema und auch ich habe in SWCR1 und SWCR2 x davon drin gehabt.
Aber je mehr ich merkte die Liste wird interessanter mit unterschiedlichen Programmen je mehr richte ich mich gegen dieses Thema aus.
Zumal die Clones nicht wirklich eine Bereicherung darstellen, gibt heute kein Clone mehr welcher wirklich durch irgend etwas besonders auffällt was andere echte Entwicklungen nicht auch haben oder können. Vielleicht redet der eine oder andere User sich das ein wenn er für einen Clone in den eigenen Geldbeutel greifen musste. Wir wissen aus der Vergangenheit das für viele kommerzielles was gutes darstellen muss. Auch ich habe seinerzeit ein Interview mit Vas gemacht, habe ihn in x mails kommerziell beraten hinsichtlich wie wird vermarktet und wo gehe ich hin. Da hatte ich auch nicht die Infos die ich heute habe. Bei Houdini war es aber Gott sei Dank von Anfang an klar weil das sehr früh einige andere Programmierer in TalkChess schön dargestellt haben und auch beweisen konnten.

Viele Grüße
Frank

Also nach wie vor ...
Ob Clone Topic oder wie testen ...
Die CEGT macht eine gute Arbeit und ich möchte erst mal jemanden sehen der so beständig eine Leistung erbringt.
100%ig geht es nicht und in jeder Liste steckt auch immer das eine oder andere Problem. Nichts ist perfekt aber fügen wir alles zusammen wurde im Bereich Listenerstellung hervorragendes geleistet. Und maßgebend daran beteiligt ist nun mal die CEGT sprich Du und die anderen Tester.
Parent - - By Frank Quisinsky Date 2014-08-27 11:32 Edited 2014-08-27 11:44
Hi Wolfgang,

gibt ja auch noch eine andere Betrachtungsweise ...

Nehmen wir die TOP4 weg ...
Stockfish, Komodo, Gullchess und Fire ...

Rücken die anderen 17 näher zusammen.
Von Platz 4 - 21 sind es derzeit nach EloStat ja nur ...
185 Elo !!!

Schaue ich jetzt mal so in meine Historie hatten wir das noch nie (und das ohne Clones).
Meine innerhalb der TOP-21 bei unterschiedlichen Engines von Platz 4 - 21 nur 185 Elo.
Das liegt auch daran das von unten ziemlich viele Programme sind gut verbessern und mit Senpai, Texel und SmarThink einige Programme erfolgreich sich schnell hochgespielt haben.

Habe mich damit gestern mal beschäftigt ...
Das heißt das die Elo-Unterschiede mit Ordo berechnet meines Erachtens in einer Liste genauer werden.

Könnte nun natürlich die TOP4 rausnehmen und die Liste weiter nach unten aufbauen ...
Dann wird es klarer bei der Darstellung.

Macht aber keinen Sinn wenn die TOP4 nicht mehr spielen.
Hätte dann selbst weniger Spaß daran.

In meiner Liste ist es derzeit so, dass die TOP4 die Ergebnisse der anderen in Einzelfällen um bis zu 3-4 Elo beeinflussen. Bei einer Engine sind es derzeit gar 5 Elo.
Damit kann ich gut leben

Nehme ich die Clones dazu gibt es bei den anderen "Nicht-Clones" Abweichungen in einer Liste von bis zu 14 Elo bei 1.000 Partien (mit SWCR2 verglichen, daher in die Tonne).
Insofern, für mich die richtige Entscheidung ... bei der Messung mit 1.000 Partien wird die Liste genauer wenn ohne gleiche Programme hantiert wird.

Diese 14 Elo können zwar gedrückt werden mit mehr Partien aber auch nicht bis auf Werte von unter 10!
Das heißt das eine Liste mit vielen Clones und vielen Partien statistisch gesehen nur augenscheinlich genauer misst.
Die Wirklichkeit sieht anders aus. Die Liste wird gar ungenauer, egal wie viele Partien!

Das meinte ich mit ungleichen Teilen testen durch das hinzufügen von eigentlich "gleichen Engines".

Gruß
Frank
Parent - - By Benno Hartwig Date 2014-08-27 12:35

> Das heißt das die Elo-Unterschiede mit Ordo berechnet meines Erachtens in einer Liste genauer werden.


'Genauer' will wohl bedeuten 'dicher dran an den richtigen Werten'.
Wodurch sollen diese 'richtigen ' Werte denn eigentlich definiert sein?
Ich befürchte, dass es da bei den Betrachtern sehr unterschiedliche Vorstellugen gibt.
Und "Welche Gegnerschaft soll dafür eigentlich relevant sein?"  ist eben eine Schlüsselfrage, ganz unabhängig davon, mit welchem Tool dann gerechnet werden soll.

Benno
Parent - By Frank Quisinsky Date 2014-08-31 11:59
Hallo Benno,

habe Deinen Beitrag gar nicht gesehen.
OK, siehst Du sehr einfach in den Berechnungen zu meinem Round Robin ...

Beispiel:
Engine hat 500 der 1.000 Partien gespielt und von mir aus jetzt genau 42% erzielt.
Eine andere Engine mit 975 Partien liegt auch bei genau 42%.
Sollten beide Engines die gleiche Elo erreichen, so nach EloStat.
Nicht nach Ordo, Ordo gibt ein besseres Ergebnis aus, was dann bei gleicher Erfolgsquote von 42% dem Endergebnis nicht nur näher kommt sondern dieses genau trifft.

Sprich in einer Liste vieler Partien (durcheinander, so wie FCT1 Liste aller Partien, also nicht jeder gegen jeden x Partien Auswertung) werden die Berechnungen durch unterschiedliche Anzahl an Partien mit Ordo genauer. Auch sind die Unterschiede in einer Liste von ... bei mir jetzt ... 21 Engines von Platz 1 bis 21 genauer, also die tatsächliche Differenz zwischen Platz 1 und 21 stimmt eher wenn dann z. B. geprüft wird wie Ergebnisse vom Platz 1 gegen 21 tatsächlich ausfallen. Habe da kürzlich auch ein paar Stichproben gemacht nachdem die CEGT und Ingo umgestellt haben. Nutzte zwar Ordo immer schon und blende die Ergebnisse von EloStat / Ordo und Bayesian ein aber tatsächlich gefällt mir Ordo auch am besten.

Gruß
Frank
Parent - - By Daniel Mehrmann (Homer) Date 2014-08-31 11:12
Für mich ist Gull aber definitiv ein Fruit-Clone und kein Original.

Dies ist mir erst aufgefallen, als ich mal den Gull Quellcode nach Ideen
durchsucht habe.

Allerdings stellt das für mich kein Problem dar, da ja die Sourcen mitgeliefert werden.

Gruß
Daniel
Parent - - By Frank Quisinsky Date 2014-08-31 11:46
Hallo Daniel,

bei Gull scheiden sich die Geister, viele Gerüchte etc..
Habe das was Du schreibst auch schon mal von einem anderen Programmierer gelesen.

Nur bei Gull ist es so:
Die Sourcen liegen frei, er optimiert wirklich richtig gut und es sind zu viele eigene Dinge drin.
Im direkten Clone-Vergleich ist auch nichts zu sehen, aus PGN stats kann ich auch wenig erkennen.

Zu viele Punkte wo ich sage es gibt keinen Grund die Engine aus meinem Turnier zu nehmen.

Wenn ich das mit Houdini vergleiche ...
Clone-Vergleich zu 99% gleich zu Robbolite in Version 1.0.
Dann Sourcen nicht wieder frei gegeben, eigenes eingefügt und ab zum Verkauf.
Das dann aber nicht zugegeben und ziemlich patzig reagiert auf entsprechende Talkchess Mitteilungen.

Der GullChess Programmierer schreibt ja selbst das er etwas vom IPP Code drin hatte und dann herausgeholt und neu geschrieben.
Er schreibt es gar selbst und das finde ich gut.
Das etwas von Fruit drin ist ... wer hat Ideen von Fabian nicht genutzt?
Sind bestimmt einige aber wenn ich so auf meine Infos schaue ...

GullChess hat eine Eigenschaft die kein anderes Programm hat.
Im späten Übergang zum Endspiel wird der Gegner regelrecht gefoltert.
Kleine Stellungsverbesserungen durch sehr feine positionelle Züge.
Eigentlich etwas was Komodo in älteren Versionen leicht besser machte als in den neueren taktisch besseren.
GullChess ist sehr präzise in dieser Partiephase und schiebt regelrecht zusammen, auch Stockfish ist davon nicht ausgeschlossen wenn die Taktik nicht bis dahin gegriffen hat habe ich auch SF schon leiden gesehen.

Auch ein Indicator das hier nichts absolutes gleiches spielt.
Gegen GullChess habe ich persönlich nichts!
Alles gut und Sourcen sind frei ...

Gruß
Frank
Parent - - By Daniel Mehrmann (Homer) Date 2014-08-31 16:09
Prinzipell sind wir einer Meinung

Ich meine aber nicht Ideen von Fruit, sondern komplette Funktionen
mit dazugehörigem Framework. Besonders deutlich wird dies z.B bei
move_do() und move_undo().

Für mich sieht das so aus als ob der Entwickler 1:1 von dieser Basis
für Gull gestartet ist. Ich habe mich allerdings nicht weiter damit
beschäftigt und den Code in 10 Minuten überflogen.

Wie geschrieben, die Quellen sind ja dabei

Gruß
Daniel
Parent - - By Frank Quisinsky Date 2014-08-31 16:38
Hi Daniel,

die Frage ist dann ob diese kompletten Funktionen maßgeblich für den restlichen Programmaufbau sind bzw. ob diese Funktionen nicht eher als heutiger Standardaufbau angesehen werden muss. Es gibt sicherlich Funktionen bei denen es keinen Sinn macht es anders zu programmieren, wenn ein perfekter Code vorhanden ist bzw. ein anderer Code es auch nicht besser machen könnte. Schrieb mich hierzu gestern noch jemand an der auf einen interessanten Thread in TalkChess verwiesen hat.

Da ist natürlich schon etwas dran und wenn dann das Clone Tool genau das überprüft kommen Übereinstimmungen zu Stande die in Wirklichkeit gar keine sind. Dann werden Programme zu Unrecht als Clones ausgewiesen.

Gruß
Frank
Parent - - By Daniel Mehrmann (Homer) Date 2014-08-31 17:54
In diesem Bereich gibt es meiner Meinung nach keinen "Standard" Code. Für gewöhnlich
gestaltet das jeder Programmierer so, wie es aus seiner Sicht sinnvoll erscheint.

Dies kann durch aus zu völlig unterschiedenen Modellen führen.
Natürlich wären die Grundlagen hierfür entscheidend, wie z.B die Suche später die erforderlichen
Informationen erhält und speichert (Move/Pos stack)

Mein erster Eindruck war, dass Gull den Weg von Strelka gegangen ist, jedoch viel mehr
verschleiert hat. Mittlerweile ist nicht mehr viel vom "Fruit" Code übrig.

Um dies aber sicher zu beweisen, müsste ich mich mit dem Code noch wesentlich mehr
beschäftigen. Dazu habe ich aber weder die Zeit, noch verspüre ich die Lust dazu.

Eine Überraschung wäre das allerdings nicht für mich, da der gleiche Author sich auch
mit Toga (eigene Version) beschäftigt hat und somit wahrscheinlich mit dem "Fruit-Framework" gut auskannte.

Gruß
Daniel
Parent - - By Daniel Riesner Date 2014-08-31 18:46
Soweit ich weiß, hat der Gull-Autor einmal sogar selber geschrieben, dass von IvanHoe (IPP) viel übernommen wurde. Ich glaube ab der Version 2.1 war dies der Fall. Und die Ähnlichkeit mit IvanHoe (der widerrum Rybka sehr stark ähnelt) ist zum Teil vorhanden.

Gruß
Daniel
Parent - - By Frank Quisinsky Date 2014-08-31 22:59
Hallo Daniel & Daniel,

nun, wie er es hinbekommen hat bleibt dann hier und dort schleierhaft.
Nur jedenfalls hat er das ein wenig geschickter gemacht als so mach anderer und wenn er sich hierzu geäußert hat war er zumindest auch ehrlich.

Ferner liegen die Sourcen frei und das er dann wirklich verbessern konnte, tja das zeigt die ELO.
Wenn er wirklich wichtige Parts von Fruit genutzt hat muss er das natürlich erwähnen, auch bei freien Sourcen.
Sonst entsteht der Eindruck es wäre alles von Ihm.
Habe mir das nicht angesehen aber ich gehe davon aus das es OK ist, denke das haben sich ganz andere auch schon längst angesehen.

Gruß
Frank
Parent - By Hauke Lutz Date 2014-08-31 23:06
Ich denke auch das man schon lange etwas gehört / bemerkt hätte, wenn ThinkALot im Übermaß übernommen hätte.
Parent - By Frank Quisinsky Date 2014-08-27 01:04 Edited 2014-08-27 01:10
Hallo zusammen,

Zwischenstand:
Also da kommt mit Vajolet2 eine echte positionelle Engine auf uns zu. Sehr bissig und schwierig zu schlagen. Wer den Round Robin verfolgt sieht, wie gleich die Ergebnisse sind ob gegen Platz 8 - 21. Das deutet schon darauf hin, das Vajolet2 eine besondere Stärke haben muss. Angstgegner im Verhältnis zur Spielstärke scheint Zappa Mexico II zu sein. Gegen diese Engine kommt Vajolet2 dann nicht so richtig dazu das typische Spiel aufzuziehen. Also weit weg von problematischer Round-Robin. Die Engine spielt ohne Probleme und kurze Verlustpartien gab es bislang nach 50% vom Round Robin nur 4. Kurze Gewinnpartien unter 50 Züge gab es noch keine aber das war zu erwarten.

Zur Zeit +26 ELO aber ich gehe davon aus, das das Rating fallen wird.
Wird hier schön an der Prognose ersichtlich, denn die Serie 401-500 Partien war eine richtig gute.

Code:
  Stats after   100,   200 ... games!   Elo   Games  Score  Draws   White Black Points  w/ d/ l
    Vajolet2 1.28 POP x64             2732  1.000  35.2%  40.5%   (predecessor)
--. Vajolet2 1.45 POP x64             ----  1.000  --.-%  --.-%   --,-  --,-  --,-   --/--/--
--. Vajolet2 1.45 POP x64             ----    900  --.-%  --.-%   --,-  --,-  --,-   --/--/--
--. Vajolet2 1.45 POP x64             ----    800  --.-%  --.-%   --,-  --,-  --,-   --/--/--
--. Vajolet2 1.45 POP x64             ----    700  --.-%  --.-%   --,-  --,-  --,-   --/--/--
--. Vajolet2 1.45 POP x64             ----    600  --.-%  --.-%   --,-  --,-  --,-   --/--/--
18. Vajolet2 1.45 POP x64             2758    500  38.0%  43.6%   26,0  16,5  42,5   21/43/36  +4,5% Elo go down
18. Vajolet2 1.45 POP x64             2750    400  36.9%  43.8%   20,5  17,0  37,5   13/49/38
18. Vajolet2 1.45 POP x64             2748    300  36.7%  42.0%   22,5  15,0  37,5   18/39/43
18. Vajolet2 1.45 POP x64             2745    200  36.2%  43.5%   20,5  17,5  38,0   21/34/45
20. Vajolet2 1.45 POP x64             2732    100  34.5%  53.0%   20,0  14,5  34,5   08/53/39
 

                                         Points  Score  EloS  Ordo  +   -  Draws
01. Stockfish 03.08.14 BMI2 x64       795.5/975  81.6%  3087  3118  19 19  32.3%    
02. Komodo 7a x64                     772.0/975  79.2%  3062  3091  19 19  32.4%
03. GullChess 3.0 BMI2 x64            735.5/975  75.4%  3026  3053  18 18  36.8%
04. Fire 3.0 AVX x64                  638.0/975  65.4%  2946  2964  17 17  41.0%
05. Chiron 2.0 x64                    564.5/975  57.9%  2893  2904  17 17  41.3%
06. Protector 1.6.0 x64               563.5/975  57.8%  2893  2904  16 16  46.7%
07. Hannibal 1.4b x64                 530.0/975  54.4%  2870  2878  16 16  43.7%
08. Texel 1.04 x64                    507.5/975  52.1%  2854  2860  17 17  40.9%
09. Senpai 1.0 SSE42 x64              477.0/975  48.9%  2834  2837  16 16  43.1%
10. Hiarcs 14 WCSC w32                467.5/975  47.9%  2827  2830  16 16  44.8%
11. Shredder 12 x64                   428.0/975  43.9%  2800  2800  17 17  42.5%
12. Junior 13.8.04 Yokohama x64       414.0/975  42.5%  2791  2789  16 17  43.1%
13. Spike 1.4 Leiden w32              409.0/975  41.9%  2787  2785  17 17  41.8%
14. SmarThink 1.70 SSE3 x64           394.5/975  40.5%  2777  2774  18 18  36.4%
15. Quazar 0.4 x64                    392.5/975  40.3%  2776  2772  17 17  41.9%
16. Zappa Mexico II x64               378.0/975  38.8%  2765  2761  17 17  42.7%
17. Spark 1.0 x64                     370.5/975  38.0%  2760  2755  17 17  38.3%
18. Vajolet2 1.45 POP x64             190.0/500  38.0%  2758  2752  23 23  43.6%
19. Gaviota 1.0 AVX x64               337.0/975  34.6%  2735  2728  18 18  37.1%
20. Deuterium 14.2.33.276 x64         334.0/975  34.3%  2733  2725  17 17  40.0%
21. Nirvanachess 1.7 x64              301.5/975  30.9%  2708  2698  18 18  37.4%


Wahrscheinlich also ca. um die +15 - +25 bei meinem Round Robin und eine wirklich echte Bereicherung für die Liste ... weil ... weil der Spielstil ein anderer ist und genau das ist auch das Salz in der Suppe bei einer Ratingliste. Na ja, gibt ja noch andere positionell starke Programme aber ohne das ich jetzt einen wirklichen Eindruck im Detail habe ... dafür habe ich mir immer noch nicht ausreichend Partien angesehen ... ist bei Vajolet2 auffällig das viele Mittelspiele die eher leicht negativ enden noch in ein Remis gedreht werden. Insofern macht die Engine einen sehr bissigen Eindruck. Also, auch Vajolet2 geht in beständigen Schritten auf die 2.800 zu. Und viele wirklich eigene Engine Entwicklungen die bei 2.800 oder höher stehen haben wir nun nicht gerade.

Viele Grüße
Frank
Up Topic Hauptforen / CSS-Forum / FCT1: Vajolet2 1.45 x64 Round-Robin seit der Geisterstunde!

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill