GULL 1.1 live on IPON

By Gerhard Sonnabend Date 2010-11-13 20:19

Ich habe mal ein bisschen unregelmässig mitgeschrieben.
Dies vor allem für die Leute*, welche immer und immer wieder zum Besten geben,
dass man nicht viele Spiele braucht um recht genau auf die Stärke einer Engine
schliessen zu können. Dies zwar nicht gegen einen einzelnen Gegner, sicher jedoch
falls ein Set aus verschiedenen Gegnern ausgewählt würde. Daraus könne man sehr
wohl nach wenigen Spielen Rückschlüsse ziehen !
Einige dieser *Spezialisten lassen Turniere mit 20 Teilnehmern "Jeder gegen Jeden"
über jeweils 4 (!!) Games pro Paarung spielen und behaupten nach diesen gerade mal
76 (!!) Games pro Engine, dass Programm X besser als Programm Y ist.
Ich habe nichts gegen diese Art zu testen, einzig die z.T. vorlauten und unrichtigen
Behauptungen halte ich für völlig unangebracht.

Gull 1.1 x64 - IPON-Testlauf

Code:


Performance  nach (x) Spielen
   2706           45
   2737           55
   2765           70
   2778           86
   2780           95
   2776          105
   2798          131   
   2791          148
   2785          164
   2785          179
   2789          189
   2781          200
   2784          537

Muss man noch mehr dazu sagen/schreiben ?

Anmerkung:
sollte Gull 1.1 x64 bei Ingos Testdurchlauf nach 1900 Spielen eine Performance von
2765-2778 erreichen würde das keinesfalls bedeuten, dass diese *Lari-Fari-Tester
richtig liegen mit Ihren Behauptungen. Dies wäre für den Fall der Fälle lediglich
ein absoluter Zufallstreffer !

Viele Grüsse,
G.S.

By Kurt Utzinger Date 2010-11-13 21:18

Hallo Gerhard

Und wenn nun jemand glaubt/meint/behauptet, dass ELO-Unterschiede
von 20 Punkten irrelevant sind, bzw. im Unschärfebereich liegen, dann
würde Deine Liste untermauern, dass 70 Partien genügen -

Gruss
Kurt

By Werner Mueller Date 2010-11-14 08:27

[quote="Kurt Utzinger"]
Hallo Gerhard

Und wenn nun jemand glaubt/meint/behauptet, dass ELO-Unterschiede
von 20 Punkten irrelevant sind, bzw. im Unschärfebereich liegen, dann
würde Deine Liste untermauern, dass 70 Partien genügen -

Gruss
Kurt
[/quote]
Das hat offensichtlich gesessen!

By Ingo Bauer Date 2010-11-14 10:06 Edited 2010-11-14 10:11

Hallo

[quote="Werner Mueller"]

Das hat offensichtlich gesessen!

[/quote]

Leider ist deine Schadenfreude nicht sonderlich fundiert.

1. Der eine bezog sich auf diejenignen die meinen nach wenignen Spielen ein Rating zu kennen, das andere auf diejenigen die mit einem 20 ELo Intervall zufrieden sind. Gerhads Auflistung und Kurts Antwort haben sehr wenig miteinander zu tun.
2. 20 Elo Errorbar waren mit der Liste die Gerhard zeitgte noch lange nicht erreicht. Selbst die imaginäre 20 Elo Person wäre noch nicht zufrieden.
3. Wen jemand mit 20 ELo zufrieden ist ist das ja in Ordung, aber Gerhard bezog sich auf diejenignen, die Behaupten nach 600, 800 SPielen würde sich nichts mehr ändern, oder besser höchstens 10 Elo dabei ignorierend das die Mathematik bei 10 Elo viele tausend Spiele mehr braucht. Kurt bleibt wenigstens an der Mathmatik hängen und nicht an seinem "Glauben".

Bye
Ingo

By Frank Quisinsky Date 2010-11-14 10:58 Edited 2010-11-14 11:07

Hi Ingo,

denke Du spricht mich an.
Kannst mich ruhig beim Namen nennen!

Das es nach 800 Partien noch zu Abweichungen von 20 ELO kommen kann ist auch mir völlig klar.
Könnte sogar 30 sein und über der ErrorBar liegen.
Das habe ich nie in Abrede gestellt.

Aber das sind Fälle die praktisch so selten eintreten, dass sie vernachlässigt werden können.
Das ist mein Aufhänger.

Von Fällen zu sprechen, die quasi fast nie eintreten ist Nonsens.
Daher macht es keinen Sinn tausende von Partien spielen zu lassen um sicher zu sein das der Quasi - Nie - Fall dann wirklich nicht eintritt.
Das hat etwas mit ErrorBar-Verfolgungswahn zu tun

Wenn ich meine ganzen Testergebnisse zusammenziehen, von 15 Jahren bei weit mehr als 300 getestete Engines ... dann hatte ich diesen Fall jetzt 6x. Und nur 1x deutlich über der ausgewiesenen ErrorBar (beim Endergebnis) ... auch das kommt vor.

Insofern, ob 2.000 Partien gespielt wurden oder ob 800 Partien gespielt wurden ...
Das passiert auch nach 2.000 Partien dann, wenn die Anzahl der Gegner nicht ausreicht oder zu viele Angstgegner unter den Gegner waren, oftmals zu viele Versionen von einem Programm.

Möchte das auch nicht immer wieder schreiben nur weil Du dich an etwas aufhängst was Du offenbar statistisch gesehen nie verfolgt hast. Ich verfolgte jede einzelne getestete Engines, bzw. habe für jedes getestete Programm eine ELO-Entwicklungskurve. Daraus ziehe ich meine Aussagen und Auswertungen und nicht aus einer dämlichen Was-Wäre-Wenn-Error-Bar Berechnung die zu viele Fehler hat.

Fehler die erst Recht auffallen wenn verglichen wird.

Ergebnis nach 100, 200, 300, 400, 500 etc. Partien.
Denn es ist nicht nur interessant zu vergleichen was die ErrorBar für Statistiken beim Endergebnis nach sagen wir mal 2.000 Partien ausgibt, sondern was die ErrorBar ausgegeben hat nach 100, 200, 300, 400, 500 Partien. Und wenn Du das mal verfolgst wirst Du jegliche ErrorBar Thesen ... die eh nur einen Anhaltspunkt bilden ... über den Jordan schütten. Wobei die ErrorBar Ausgaben von Bayesian im Vergleich zu ELOstat ja noch ganz OK sind bzw. sich die Fehler bei den ermittelten Werten minimieren.

Hoffe nun, zum 1.000x etwas klarer!

Sich mit einem Thema etwas intensiver beschäftigen ist immer besser als nur Zahlen abzulesen! Du kannst das selbst mal verfolgen und nach 680 Partien auf den 1/52 Fall warten oder verfolgen was nach 100, 200, 300, 400, 500, 600, 680 Partien passiert und statistisch festhalten wie oft sich die ErrorBar geirrt hat.

In der SWCR bislang nach dieser Statistik bei 98 getesteten Engines = 42x passiert.

Gruß
Frank

By Frank Quisinsky Date 2010-11-14 11:14 Edited 2010-11-14 11:23

Hi Ingo,

und wenn Du die 42x wieder in ein Verhältnis bringst ...
98 Engines x (100, 200, 300, 400, 500, 600, 680 Partien = 7 Messwerte pro Engine)

Also 98 Engines x 7 Messwerten = 686 Messwerte : 42 ErrorBar Abweichungen = 16x
Bringst Du das jetzt noch in ein Verhältnis wie oft immer die gleichen Engines betroffen waren ... dann ... da ist er wieder der 1/52 Fall bei Bayesian!

Daher auch der CEGT zu SWCR Vergleich.
Mich interessiert welche der 98 Engines der SWCR betroffen sein könnten.
Dann ein paar Partien mehr spielen und vielleicht habe ich einen Treffer gelandet und kann die Auswertungen meiner ELO-Liste verbessern. Dafür muss ich keine 4000 Partien mit einer Engine spielen sondern einfach nur 2 Listen vergleichen.

Gruß
Frank

By Ingo Bauer Date 2010-11-14 11:41

Moin Frank

[quote="Frank Quisinsky"]

denke Du spricht mich an.
Kannst mich ruhig beim Namen nennen!
[/quote]

Ich blieb so neutral wie der gesammte Thread bisher war - das hat nichts damit zu tun das ich nicht Roß und Reiter nenne wenn es passt.

[quote="Frank Quisinsky"]
Das es nach 800 Partien noch zu Abweichungen von 20 ELO kommen kann ist auch mir völlig klar.
Könnte sogar 30 sein und über der ErrorBar liegen.
Das habe ich nie in Abrede gestellt.
[/quote]

Gut.

[quote="Frank Quisinsky"]
...
Aber das sind Fälle die praktisch so selten eintreten, dass sie vernachlässigt werden können.
...
[/quote]

Das obere ist wieder so eine absolute Aussage die dementsprechend falsch sein muß. Korrekte Formulierung von dir wäre: Und das ist nach meinen Ansprüchen so selten das ich es vernachlässige.

Ich formuliere: Und das ist so häufig, das ich es mit mehr Spielen minimieren will.

Wir haben da unterschiedliche Ansprüche an Genauigkeit.

Gruß
Ingo

By Frank Quisinsky Date 2010-11-14 12:17

Hallo Ingo,

das mit den Ansprüchen an Genauigkeit stimmt ganz offenbar.
Versuche eher mit dem Ausschlussverfahren für eine höhere Genauigkeit zu sorgen bzw. nutze dann die Zeitersparnis "meines Erachtens" effektiver zumal ich im Vergleich zu IPON mit doppelter Bedenkzeit und ohne Aufgabefaktor spiele.

Heißt aber nicht, dass ich andere Listen wie IPON nicht mag

Ganz im Gegenteil ...

Gruß
Frank

By Ingo Bauer Date 2010-11-14 12:30

Hallo Frank

[quote="Frank Quisinsky"]

Versuche eher mit dem Ausschlussverfahren für eine höhere Genauigkeit zu sorgen bzw. nutze dann die Zeitersparnis "meines Erachtens" effektiver zumal ich im Vergleich zu IPON mit doppelter Bedenkzeit und ohne Aufgabefaktor spiele.
...
[/quote]

Wobei natürlich doppelte Bedenkzeit und fehlender Aufgabefaktor mit mathematischer Genauigkeit - und das war unser Thema - exakt nichts zu tun haben.

(Und ich bezweifeld sogar das sie irgendetwas ändern - aber das Thema hatten wir auch schon mehfach)

Gruß
Ingo

By Frank Quisinsky Date 2010-11-14 12:41

Hallo Ingo,

doch, das hat sehr wohl etwas mit dem Thema zu tun.

Würde ich mit Deiner Bedenkzeit spielen, würde ich automatisch bei meiner Turnierorganisation das doppelte an Partien produzieren.
Was bedeuten würde, dass aus wenigen Fällen noch weniger Fälle werden (Engines weichen beim Endergebnis von der ErrorBar ab)
Du schaust gerne auf die ErrorBar und es ist für mich durchaus nachvollziehbar mit welchen Argumenten Du daher kommst.

Würdest Du Dir aber die ErrorBar Geschichte genauer ansehen, also Ergebnisse nach 100, 200, 300 etc. Partien würde sich Deine Meinung vielleicht ändern.
Das machst Du offenbar nicht, weil Dich das Endergebnis interessiert.

Mich interessiert weniger das Endergebnis sondern der Weg zum Endergebnis.
Meine bei den statistischen Auswertungen!

Gruß
Frank

By Ingo Bauer Date 2010-11-14 13:02

Hallo

Oben schriebst du:

[quote="Frank Quisinsky"]
...
Versuche eher mit dem Ausschlussverfahren für eine höhere Genauigkeit zu sorgen bzw. nutze dann die Zeitersparnis "meines Erachtens" effektiver zumal ich im Vergleich zu IPON mit doppelter Bedenkzeit und ohne Aufgabefaktor spiele.
[/quote]

Jetzt schreibst du

[quote="Frank Quisinsky"]
doch, das hat sehr wohl etwas mit dem Thema zu tun.
Würde ich mit Deiner Bedenkzeit spielen, würde ich automatisch bei meiner Turnierorganisation das doppelte an Partien produzieren.
[/quote]

Na was denn nun? Erst führst du doppelte Bedenkzeit an um "effektiver" zu werden und dann schreibst du das du mit meiner Bedenkzeit doppelt so viele Partien erhalten würdest. Letzteres ist eine Binsenweisheit die mit ersterer "Effektivität" nichts zu tun hat. Irgendwie glaubst du ja das Ergebniss wäre mit doppelter Bedenkzeit 'besser', sonst würdest du ja nicht so lange spielen. Im mathematischen Sinne ist es das aber nicht da du weniger Spiele und damit eine höhere mathematische Ungenauigkeit hast.
Die "Effektivität" (was soll das sein?) der doppelten Bedenkzeit mag dich interessieren, hat mit Mathematik aber nichts zu tun.

Dein "Weg zum Ergebniss" den du beobachtest ist auch ein Trugschluß, da irgendwann deine Wahrnehmeung von der mathematischen Wirklichkeit abweicht. Dir ist die Schwankung die nach sagen wir 800 Spielen noch stattfindet zu klein, trotzdem ist sie da. Womit wir wieder bei "Anspruch an Genauigkeit" wären der bei mir höher scheint.

Gruß
Ingo

Gruß
Ingo

By Frank Quisinsky Date 2010-11-14 13:14 Edited 2010-11-14 13:21

Hallo Ingo,

Du solltest nicht krampfhaft nach Aussagen suchen, die Du aus "Deiner Sichtweise ... nicht gerade gutwillig" auseinander pflücken kannst. Sonst wäre ja mal wieder die ganze Mühe umsonst, sondern solltest Dich mit den Gedankengängen Deiner Gesprächspartner dann eher "gutwillig" beschäftigen. Sonst haben wir wieder den typischen Foren-Stierkampf an dem mir zumindest nichts liegt, denn ich muss niemanden etwas beweisen.

Zu Deinen Aussagen.
Ich schrieb aus den wenigen Fällen noch weniger Fälle.
Was absolut klar und logisch ist, je mehr Partien hinzukommen.

Die Frage ist aber nicht die, sondern eher die ob es Sinn macht einen genauen ELO-Wert nachzujagen aufgrund massenhaft produzierten Partien. Dies alles um sicher zu sein, dass der 1/52 Fall nicht eintrifft. Dabei reden wir hier um ELO-Abweichungen von ca. 20 bei schon vorhandenen 680 Partien die dann wirklich sehr sehr selten eintreffen.

Warum ich die doppelte Bedenkzeit bzw. überhaupt diese Bedenkzeit einsetze ist doch schon xmal geschrieben wurden. Ich schaue bei den Partien zu (natürlich nicht bei allen). Laufen die Partien zu schnell bekomme ich noch weniger mit. Konzentrationsvermögen beim Zusehen einer Partien lässt auch irgend wann nach. Für mich ist 40 / 10 an der untersten Schmerzgrenze wenn Partien verfolgt werden und aufgrund meiner Spielstärke noch irgend eine Aussage getroffen werden kann. Bei Deiner Bedenkzeit wäre das für mich nur noch ... Partien kloppen ... ohne einen weiteren Sinn. Würde mir alles viel zu schnell gehen und dann wäre ja der Hauptsinn weg.

Für mich müssen möglichst viele Punkte abgedeckt sein, auch Punkte die mir vielleicht selbst neue Erkenntnisse bringen. Als ich die SWCR startete begann ich mit 40 in 20. So flogen über 2.000 Partien dann wieder in den Mülleimer. Ganz einfach ... die Partien dauerten mir zu lange. 2 oder 3 hintereinander beobachten ... war für mich konzentriert nicht mehr möglich, zumal die Engines eh auf einem sehr hohen Level spielen. Also runter schrauben, aber keines Falls zu tief landen. So entschied ich mich für 40 in 10.

Die Nutzen-Frage!

Ferner reitest Du auf Glaubensfragen rum.
Das ist nichts für mich, halte solche Dinge aufgrund der erzielten Statistiken fest.
Ich wünsche mir vielleicht bei Engine a oder b ein besonders Ergebnis aber das hat nichts mit den tatsächlich erzielten Ergebnissen zu tun.

Und zu dem Anspruch auf Genauigkeit:
Nutzen / Aufwand sollte unter anderem immer in einem gesunden Verhältnis zum Ergebnis stehen.
Das stimmt bei Dir nicht, würde mal sagen das ist bei mir sehr viel realistischer.
Jouni hatte vor ein paar Tagen mit einem Satz in TalkChess den Nagel auf dem Kopf ... fand Deine Antwort wirklich nicht gut!

Das Ergebnis selbst allerdings ist natürlich besser weil mehr Partien vorhanden sind.
Das ist absolut nicht wegzudiskutieren und das möchte ich auch nicht.

Aber bei den wenigen Abweichungen nach Partiennummer 680 einen solchen Aufwand betreiben?
Also ich würde mir da eher mehr Engines in Deiner Liste wünschen als zu sehen das Engines wie Toga schon 5.000 unsinnige Partien gespielt haben!

Aber das wiederum ist Dein Bier weil Diene Liste

Gruß
Frank

By Ingo Bauer Date 2010-11-14 13:22

Moin Frank,

[quote="Frank Quisinsky"]

Du solltest nicht krampfhaft nach Aussagen suchen, die Du aus "Deiner Sichtweise ... nicht gerade gutwillig" auseinander pflücken kannst.
...
[/quote]

Du machst es einem aber auch nicht leicht mit deinen erratischen Meinungsäußerungen.

Aber recht hast du, wir kommen da nicht weiter!

Gruß
Ingo

By Frank Quisinsky Date 2010-11-14 13:27

Hallo Ingo,

und wenn bei jeder einzelnen Begründung noch weiter ausholen würde wären die Beiträge noch länger und darauf haben sicherlich die wenigsten derer Lust, die vielleicht einen solchen Thread verfolgen. Dennoch gebe ich mir Mühe und versuche die Standpunkte darzulegen.

Nein, wir kommen bei so einigen Punkten nicht zusammen.
Oftmals denke ich das Du das auch einfach nicht möchtest bzw. Dich dann mit Statistiken anderer nicht beschäftigen möchtest. Das ist natürlich OK. Demgegenüber steht auch Dein Interesse an diesen Fragen, denn sonst würdest Du ja nicht so oft ... meist provokativer Natur ... mit Nachfragen um die Ecke kommen.

Dir einen schönen Sonntag, habe für heute genug von Ingo!

Gruß
Frank

By Frank Quisinsky Date 2010-11-14 12:31 Edited 2010-11-14 12:36

Hi,

ein gutes "Zufalls-Beispiel" ist Jonny 4.00.
In der SWCR-32 schwankte die Engine stark auch nach 600 Partien um 10 ELO rauf und runter.
Letztendlich ein Ergebnis von ca. 2.620 ELO.

Klar, dass ist einfach ein zufälliges Ergebnis (Engine schwankt stark, passiert sehr selten).

Nun spielt Jonny 4.00 auch in der SWCR-64 und wir kennen die ELO!
Großkotzig wie der Mensch ist können wir sagen ... dann schauen wir mal gezielt auf Jonny 4.00 denn die Engine hat 2.620 ELO.

Nun sind 175 Partien beim laufenden SWCR-64 Turnier gespielt und Jonny 4.00 war schon nach 50 Partien bei den 2.620 ELO. Unverändert bis jetzt nach 175 Partien +-5 was absolut normal ist (zu wenige Partien).

Aber was fällt auf ... die Fahrstuhlengine Jonny 4.00 (ELO von 2.645 - 2.615 bei der ersten Messung ... SWCR-32) spielt urplötzlich in der SWCR-64 so stabil wie irgend möglich.

Geht ja hier nicht darum aufzuzeigen, dass eine Engine stark schwankt um dann zu sagen ... spielt unregelmäßig.
Das sind alles statistische Zufälle, wenn gleich oft und merkwürdiger Weise Engines betroffen sind, die taktische Löcher oder taktische Stärken haben. Auch nur eine Vermutung aber es schaut danach aus.

Wollte das noch schreiben, hatte ich im Vorposting vergessen!

Gruß
Frank

By Gerhard Sonnabend Date 2010-11-14 19:00

Von meiner Seite aus warst Du nicht gemeint Frank !

Es geht eher um jene Hobby-Tester, welche z.B. bei
Stockfish 1.7 laut ausgerufen hatten, dass diese
Version eher einen Rückschritt im Vergleich zu der
Version 1.6x bedeuten würde.
Und dies natürlich nach den üblichen 70-90 Spielen !!
Deutlich mehr Beispiele (Fehleinschätzungen) kann man
in Massen finden.

Du selbst wertest zwar am unteren Rand, die Anzahl der
gespielten Games bei Dir ist jedoch nicht allzu gering,
also (fast) alles im Lot.

Blöd ist, dass ausser Ingo keiner den Sinn meines Postings
verstanden hat. Beim Herrn Müller ist das aus meiner Sicht
keine Überraschung; der Kurt Utzinger hat schon lange die
Bindung zu den Dingen verloren und versteht den Sinn klarer
Weise ebenfalls nicht, wie auch ?

Egal, weiter gehts.

Viele Grüsse,
G.S.

By U. Haug Date 2010-11-14 19:48

Hallo Gerhard,

[quote="Gerhard Sonnabend"]

Blöd ist, dass ausser Ingo keiner den Sinn meines Postings
verstanden hat.

[/quote]

Hmmmm... woran das liegen könnte?

[quote="Gerhard Sonnabend"]
Beim Herrn Müller ist das aus meiner Sicht keine Überraschung; der Kurt Utzinger hat schon lange die
Bindung zu den Dingen verloren und versteht den Sinn klarer Weise ebenfalls nicht, wie auch ?
[/quote]

Geht's noch???????
Personen, die beim gleichen Hobby manchmal die gleiche, manchmal eine andere Einschätzung haben, derart zu beleidigen, ist schon ein bisschen mehr als unschön.

Ulrich

By Werner Mueller Date 2010-11-15 07:33

[quote="U. Haug"]
Hallo Gerhard,

[quote="Gerhard Sonnabend"]

Blöd ist, dass ausser Ingo keiner den Sinn meines Postings
verstanden hat.

[/quote]

Hmmmm... woran das liegen könnte?

[quote="Gerhard Sonnabend"]
Beim Herrn Müller ist das aus meiner Sicht keine Überraschung; der Kurt Utzinger hat schon lange die
Bindung zu den Dingen verloren und versteht den Sinn klarer Weise ebenfalls nicht, wie auch ?
[/quote]

Geht's noch???????
Personen, die beim gleichen Hobby manchmal die gleiche, manchmal eine andere Einschätzung haben, derart zu beleidigen, ist schon ein bisschen mehr als unschön.

Ulrich
[/quote]
Nein, nein, Du urteilst da zu streng - die Herren Tester reagieren nur etwas dünnhäutig, wenn sich jemand (wie im Fall Kurt) mit dem schachlichen Gehalt ihrer Test-'Partien' beschäftigt, oder wenn ihnen (wie in meinem Fall) jemand nachgewiesen hat, dass ihre 'ELO'-Zahlen, außer den drei Buchstaben im Namen, mit ELO-Zahlen nichts zu tun haben.

By Frank Quisinsky Date 2010-11-14 20:40 Edited 2010-11-14 20:48

Auf der Jagd nach den glorreichen ELO's ...
Bin dabei, bzw. die Engines die ich so einsetze ... bzw. die Kommentaren die so "ungemein" über meine Finger kommen bzw. die Macht über Kleinhirn und Großhirn ergreifen.

Gaviota 0.80 x64 jetzt nach 181 Partien bei 2.362 ... STOP ... !
Runde 50 mehr als erwartet, SUPER !!

Gruß
Frank

PS:
Bei Ingo hat bloß das Großhirn die Kontrolle über das Kleinhirn übernommen.
Das kann im Computerschach aber auch eher negative Auswirkungen haben, denn wir sind ...
vor Überraschungen nie gefeit.

By Ingo Bauer Date 2010-11-15 19:44

Gull 1.1 finished with 24 Elo plus.

Have a look here: http://www.inwoba.de

Bye
Ingo