Welche Enigne gewinnt am meisten bei doppelter Bedenkzeit?

By Hermann Hartl Date 2010-07-26 17:54

Hi,

also, ich denke mal, daß es sicher so ist, dass Engines mit längerer Bedenkzeit stärker spielen.

Allerdings verstehe ich dein Experiment nicht ganz. Hat da eine Engine doppelt soviel Zeit wie die andere? Oder haben beide die doppelte Zeit? Und wenn du nur eine testest, wirst du mangels Vergleichsmöglichkeit nicht feststellen können, welche bei längerer Bedenkzeit am meisten zulegt.Dazu müßtest du alle relevanten Engines testen. Was wohl ziemlich aufwändig wäre.

Davon mal abgesehen, würde ich mal tippen, daß Zappa ein aussichtsreicher Kandidat wär für die vorderen Plätze.

Grüße
Hermann

By Ingo Bauer Date 2010-07-26 18:02

Hallo

[quote="Hermann Hartl"]
Allerdings verstehe ich dein Experiment nicht ganz. Hat da eine Engine doppelt soviel Zeit wie die andere? Oder haben beide die doppelte Zeit?
[/quote]

Ich suche eine Engine die vermeintlich am meisten von mehr Bedenkzeit profitiert. Diese werde ich gegen mindestens 10 Gegner testen. Alle Engines erhalten die doppelte Bedenkzeit (10 + 6) um festzustellen ob die einzelne Enigne besser abschneiden kann.

[quote="Hermann Hartl"]
Und wenn du nur eine testest, wirst du mangels Vergleichsmöglichkeit nicht feststellen können, welche bei längerer Bedenkzeit am meisten zulegt.Dazu müßtest du alle relevanten Engines testen. Was wohl ziemlich aufwändig wäre.
[/quote]

Stimmt, es geht auch nicht darum festzustellen welche Enigne tatsächlich am meisten profitiert, sondern darum festzustellen ob überhaupt eine Engine wirklich messbar, also ausserhalb einer Errorbar, besser wird!
Die Abstimmung dient nur dazu eine allgemeine Stimmung festzustellen welche Engine denn ein aussichtsreicher Kandidat sein könnte.

Gruß
Ingo

By Werner Schüle Date 2010-07-26 18:06

Hallo Ingo,
wieviele Spiele willst du machen um da eine statistische Sicherheit reinzubringen bei z.B. 10 Elo Unterschied ?

Gruß
Werner

By Ingo Bauer Date 2010-07-26 18:27

Moin Werner

[quote="Werner Schüle"]
Hallo Ingo,
wieviele Spiele willst du machen um da eine statistische Sicherheit reinzubringen bei z.B. 10 Elo Unterschied ?

Gruß
Werner
[/quote]

Mindestens 1000 Spiele! Diese hätten so ca ein Intervall von 19/20 Elo (Bayes/Elostat).

10 Elo sind natürlich ein Witz. Es geht ja gerade darum das man angeblich deutlich sehen kann das einzelne Engines von mehr Bedenkzeit profitieren. Ich kann das in fast allen verfügbaren Ranglisten nicht sehen. Selbst bei praktisch 10facher Bedenkzeit haben alle ENgines praktisch die selben Nachbarn - wobei ich bei Engines die dicht zusammenliegen natürlich nicht aussschließen kann das sie mal die Plätze tausche.

Machen wir doch mal das Experiment, vielleicht kommt ja dabei raus, dass eine Engine plötzlich 50 Elo zulegt - dann sehe ich mich genötigt mein Ansicht zu revidieren. Vielleicht kommt dabei raus das wir 2 Elo haben, das würde dann nichts Beweisen, weil ja nur die doppelte Bedenkzeit oder zu wenig Spiele, aber immerhin sprechen wir dann über die Engine die ja am MEISTEN profitieren soll und ein Indiz das sich nichts tut wäre es allemal. Bei 10 Elo machen wir halt alle weiter wie bisher

Kurz: Erst mal Daten sammeln und auswertet. Welche Konsequenzen daraus zu siehen sind sehen wir dann.

Gruß
Ingo

By Frank Quisinsky Date 2010-07-26 18:40 Edited 2010-07-26 18:42

Hi Ingo,

50 ELO wirst Du natürlich nicht erreichen wenn die Bedenkzeit verdoppelt wird.

Im Vergleich zu den anderen vielleicht 50 ELO wenn die Bedenkzeit x10 genommen wird, also alle mit 10.

Aber Junior könntest Du testen.
Die Engine müsste ca. 15-20 ELO zulegen wenn Du Deine Bedenkzeit verdoppelst, im Vergleich zu den anderen jetzt bei IPON Bedenkzeit.

Überhaupt schwierig zu testen ...
Doppelte Zeit sind ca. 50-60 ELO.

Jetzt könntest Du sagen, wenn Junior 11.2 x64 mit doppelter IPON Zeit spielt dann müsste ja rauskommen ...
50-60 ELO + 30 ELO (30 ELO ca. bei vierfacher Zeit ... nicht sicher aber schaut danach aus, also ca. 15-20 ELO bei doppelter Zeit).

Also müsste sich Junior ca. um 65-75 ELO in Deiner Liste steigern.
Auf die Schnelle wäre das ein Experiment ...

Aber so funktioniert das auch nicht, nicht jede Engine spielt 50-60 ELO bei doppelter Bedenkzeit besser.

Glaube nicht das Du das vergleichen kannst.

Etwas rauszulesen wäre z. B. wenn IPON mit SWCR-64 verglichen wird ... da doppelte Zeit.
Aber dafür ist meine Liste noch nicht gut genug.

Könnten wir in ca. 2 Monaten mal machen.

Gruß
Frank

By Ingo Bauer Date 2010-07-26 19:01 Edited 2010-07-26 19:05

Hi

Schau dir mal an was Junior 11.2 x64 1-CPU so bei der CCRL in der 40/4 und 40/40, also 10 facher Bedenkzeit,'gewinnt'. (Wenig Spiele, aber praktisch identische Performance)

Ansonsten will ich nicht wissen ob eine Engine bei doppelter Bedenkzeit besser spielt, das weiß ich, ich will wissen ob sich eine Engine relativ zu anderen bei längeren Bedenkzeiten verbessert -da habe ich nämlich Zweifel ... (Siehe mien Posting letztes Posting als Antwort auf dich)

Mal sehen was bei der Umfrage rauskommt.

Gruß
Ingo

By Frank Quisinsky Date 2010-07-26 19:50

Hi Ingo,

OK, so habe ich Dich aber auch verstanden.
Ich habe ein solches Experiment vor ca. 10 Jahren mit Ponder = On durchgeführt.

Müsste auf meinen alten Sicherungs-CDs wühlen.
Solltest Du Dich aber dran erinnern.

Das war ein Experiment mit Gandalf 4.32h UCI.

Du hast Beta getestet.
Ich hatte festgestellt, dass Gandalf 4.32h bei Verdoppeltung der Bedenkzeit überproportional zunimmt im Vergleich zu den seinerzeit anderen drei TOP-Programmen (das waren Fritz, ChessTiger und Junior). Darzu ist eine lange Diskussion im Beta Test Forum von Gandalf, welches ich eingerichtet hatte, ausgebrochen. Seinerzeit zweifelste Du das auch an, nach drei Wiederholungen der Partien, gleichen Resultaten erinnere ich mich noch an Deinen Kommentar "Dann ist es so"

Gruß
Frank

By Ingo Bauer Date 2010-07-26 19:58

Hi Frank,

[quote="Frank Quisinsky"]

Das war ein Experiment mit Gandalf 4.32h UCI.

Du hast Beta getestet.
Ich hatte festgestellt, dass Gandalf 4.32h bei Verdoppeltung der Bedenkzeit überproportional zunimmt im Vergleich zu den seinerzeit anderen drei TOP-Programmen (das waren Fritz, ChessTiger und Junior). Darzu ist eine lange Diskussion im Beta Test Forum von Gandalf, welches ich eingerichtet hatte, ausgebrochen. Seinerzeit zweifelste Du das auch an, nach drei Wiederholungen der Partien, gleichen Resultaten erinnere ich mich noch an Deinen Kommentar "Dann ist es so"

[/quote]

Daran habe ich keinerlei Erinnerung. Mit Gandalf war was, ganz tief hinten in meinm Kopf, aber da ging es nur um UCI Kompatibilität. An ein Betaforum oder gar ein solches Experiment kann ich mich nicht erinnern. Bist du sicher das du mich nicht verwechselst.

Aber auch ohne Erinnerung, zu Gandalf 4.32h Zeiten haben wir auf SIngle Computern wie wiele Spiel gespielt und gemeint wir wüßten irgendetwas? 100, 200 ... mehr waren es mit Sicherheit nicht! Wie sicher waren die Ergebnisse damals? Weder "wußten" wir wirklich etwas noch kann man die Daten heute verwenden.

Und als aller letztes - um so besser wenn ich so etwas nochmal teste. Ich willl soger gegen mindestens 10 andere Engines testen um so besser ist das Ergebniss.

Gruß
Ingo

By Frank Quisinsky Date 2010-07-26 21:18 Edited 2010-07-26 21:21

Hi Ingo,

ich habe es auch nur noch in Erinnerung, die Diskussion im Gandalf Forum.
Allerdings habe ich noch 3x die gleiche Datenbank mit 400 Partien, gespielt wurden die auf Pentium III 733Mhz (war ein Board mit 2x Pentium III 733Mhz). Gespielt mit 40 in 5, 40 in 10 und 40 in 40 gegen vier gleiche Gegner je 100 Partien. Daraus wurde ersichtlich, dass Gandalf immer besser punktete je länger die Bedenkzeit war. So stellte ich die Vermutung auf, dass Gandalf 4.32h bei 40 in 40 "wahrscheinlich 40 ELO besser spielt" im Vergleich zu 40 in 5 bei gleichen Gegnern.

Nun damals hatten wir noch nicht die Möglichkeiten wie heute. Dieser Rechner lag schon bei ca. 3.500 DM beim Neukauf!

Mehr war das nicht zu diesem Thema.

Gruß
Frank

By Gerhard Sonnabend Date 2010-07-27 19:32

Hi Ingo !

Ich denke, dass wenn wir die CEGT-Blitz und Deine Liste
aktuell vergleichen, wir bei einer Übereinstimmung jenseits
der 90% liegen. Berücksichtigt man zusätzlich, dass bei 95%
auch noch 5 Engines ausserhalb der Errorbars liegen dürfen
(nicht müssen), dann sind die Listen nahezu Deckungsgleich.
Ein weiterer Hinweis, dass die gewählte Bedenkzeit kaum eine
Rolle spielt. Sobald für die CEGT-40/20-Liste ebenfalls ausreichend
Spiele für die beteiligten Engines vorliegen, wird sich dieser Fakt
wie immer bestätigen.
Und, 1000 Spiele für die "verdächtigen Programme" würden eh
nicht ausreichen um irgendetwas zu "beweisen".

Viele Grüsse,
G.S.

By Ingo Bauer Date 2010-07-27 20:09

Hi Gerhard,

Ja, den 90% stimme ich zu - allerdings ist das die schlechteste Übereinstimmung im Vergleich zu allen anderen Listen (auch der Vegleich der CEGT BLitz zu den anderen kommt zu dem Ergebniss). Insofern halte ich diese List für ... verbesserungswürdig, wenngleich die Listen natürlich größtenteils übereinstimmen.

Bye
Ingo

PS: DIE CCRL Blitz habe ich nicht im Vergleich ...

By Frank Quisinsky Date 2010-07-28 00:33

Hi Gerhard,

Fakt wäre Fakt wenn es bewiesen wäre.

Gleiche Voraussetzungen, gleiche Rechner optimale Bedinungen und dann 40/5, 40/10, 40/20, 40/40, 40/80 und dann vergleichen.
Aber das ist kaum umsetzbar.

Also selbst bei meinen Erfahrugswerten mit Ratinglisten bin ich weit davon weg von Fakt zu reden.

Gutes Beispiel ist Hiarcs:
Hiarcs ist im Blitz stark, wird bei mittleren Bedenkzeiten schwächer (Version 12.1) aber das heißt jetzt auch nicht unbedingt das die Engine bei noch längeren Bedenkzeiten wieder stärker wird.

Zappa:
Leute werden etwas in die Irre geführt. Zappa ist deutlich stärker bei x64 im Vegleich zu w32. Nun denken die User ... die Engine legt bei längeren Bedenkzeiten zu. Fakt ist, dass der Vorteil bei einer guten x64 Umsetzung grob gesagt ca. 30-40 ELO sind. Sind es mehr, spricht eher mehr dafür die w32 Umsetzung nicht optimal ist (siehe Diskussionen rund um Komodo, Stockfish Interview). Vermute dennoch auch, dass Zappa bei längeren Bedenkzeiten im Vergleich zu den anderen zulegen wird.

Zu hohes LMR / Nullmove bewirkt gut im Blitz und offenbar schwächer bei längeren Bedenkzeiten. Das entnehme ich aus den Diskussionen zum Thema. Wichtig wäre auch mehr Hintergrundwissen zu den Programmen anstatt alles wild zu testen ohne überhaupt zu wissen ... was ist denn überhaupt aufgrund der Programmstruktur möglich.

Junior:
Junior wird im Grunde im Endspiel stärker wenn mehr Zeit vorhanden ist. Junior errechnet die guten Züge dann wirklich ...

Also Vermutung:
Programme mit weniger Wissen werden bei längeren Bedenkzeiten besser. Programme mit mehr Wissen spielen konstanter!
Ob das stimmt sei dahingestellt.

Gruß
Frank

By Thomas Mayer (Quark) Date 2010-07-26 21:33

Hallo Ingo,

Dein Versuchsaufbau ist problematisch. Du solltest zumindest mit einer identischen Vergleichsgruppe arbeiten - identisch heißt hier, daß bei diesen Engines die Bedenkzeit NICHT verändert werden darf. Sinnvoll untersuchen kann man das eigentlich nur mit Ponder=OFF, ansonsten wächst die zur Verfügung stehende Bedenkzeit für die Vergleichsgruppe ja auch.
Aufbau müßte sein:
Engine A spielt mit 5+3 1000 Partien gegen 10 Engines die auch auf 5+3 eingestellt werden
Engine A spielt mit 10+6 1000 Partien gegen 10 Engines die auf 5+3 eingestellt BLEIBEN.
Und dann nimmt man Engine B und macht mit der den gleichen Durchlauf. Du bräuchtest also 2 Engines, die Du so dann vergleichen könntest. Ähnlich wie Du glaube ich übrigens auch nicht, daß es wirklich größere Unterschiede gibt - aber wie wärs mit Spark und Junior als Vergleichsengines ?

Die Bedenkzeit für die Vergleichsgruppe zu erhöhen ergibt einfach kein sinnvolles Ergebnis weil bei denen ja auch unterschiedliche Performance bei unterschiedlichen Bedenkzeiten vorliegen können. Du hast keine feststehende Vergleichsgruppe, Shredder 5+3 ist eben NICHT Shredder 10+6.

GUIs die Zeithandicaps im Zusammenhang mit automatischen Matches kennen ? Keine Ahnung, evtl. Arena ? Mit WinBoard geht das meines Wissens auch irgendwie, im zweifelsfall könnte man bei WinBoard sich das selber programmieren.

Gruß, Thomas

By Ingo Bauer Date 2010-07-26 23:05

Hallo Thomas,

[quote="Thomas Mayer (Quark)"]
Hallo Ingo,

Dein Versuchsaufbau ist problematisch. Du solltest zumindest mit einer identischen Vergleichsgruppe arbeiten - identisch heißt hier, daß bei diesen Engines die Bedenkzeit NICHT verändert werden darf. Sinnvoll untersuchen kann man das eigentlich nur mit Ponder=OFF, ansonsten wächst die zur Verfügung stehende Bedenkzeit für die Vergleichsgruppe ja auch.
Aufbau müßte sein:
Engine A spielt mit 5+3 1000 Partien gegen 10 Engines die auch auf 5+3 eingestellt werden
Engine A spielt mit 10+6 1000 Partien gegen 10 Engines die auf 5+3 eingestellt BLEIBEN.
Und dann nimmt man Engine B und macht mit der den gleichen Durchlauf. Du bräuchtest also 2 Engines, die Du so dann vergleichen könntest. Ähnlich wie Du glaube ich übrigens auch nicht, daß es wirklich größere Unterschiede gibt - aber wie wärs mit Spark und Junior als Vergleichsengines ?

Die Bedenkzeit für die Vergleichsgruppe zu erhöhen ergibt einfach kein sinnvolles Ergebnis weil bei denen ja auch unterschiedliche Performance bei unterschiedlichen Bedenkzeiten vorliegen können. Du hast keine feststehende Vergleichsgruppe, Shredder 5+3 ist eben NICHT Shredder 10+6.

GUIs die Zeithandicaps im Zusammenhang mit automatischen Matches kennen ? Keine Ahnung, evtl. Arena ? Mit WinBoard geht das meines Wissens auch irgendwie, im zweifelsfall könnte man bei WinBoard sich das selber programmieren.

Gruß, Thomas
[/quote]

Hallo Thomas,

Ich stimme dir insofern zu, als das es bestimmt bessere, genauere Versuchsaufbauten gäbe. Wobei ich Ponder OFF nicht zu den besseren zählen würde. Aber wer soll, wer will all die Arbeit leisten. Also suche ich nur die Engine die nach allgemeiner Auffassung den größten Gewinn aus mehr Zeit ziehen kann. Diese Engine will ich "schnell" vergleichen. Sollte die Engine mit deutlich besserer Performance herrauskommen dürfen sich die Verfechter der "Je länger desto besser für mein Lieblingsengine"-Theorie bestätigt füllen, sollte kein Hinweis auf eine Verbesserung ergeben kann ich das für mich als Indiz werten und die andere Fration darf es (und wömglich wird sie es) ignorieren. Mein wiederholter Hinweis hier, dass eine Enigne die immer wieder gerne als Bsp genommen wird das sie ja Zeit braucht bei 40/4 und 40/40, also 10facher Zeit, absolut identisch abschneidet, wird auch ignoriert. Insofern erwarte ich nicht, dass jemand Aufgrund eines negativen Ergebnisses bei nur doppelter Zeit seine Meinung ändern würde. Für MICH wäre es aber schon interessant zu sehen ob das was ich im Moment nur "glaube" vielleicht ein bischen mit der Wahrheit zu tun haben könnte.

Weiter denke ich, dass es eine sehr kurze Bedenkzeit gibt unter der eine Engine wegbricht, vielleicht weil die Zugerzeugung unabhänig von der Hardware immer eine absolute Zeit braucht. Diese kurze Bedenkzeit kann auch, je nach Enigne und Art des "Movegen", variieren. Nachdem du mir ja insofern zustimmst das es wahrscheinlich keine signifikanten Unterschiede gibt würde mich noch aus berufenerem Munde interessieren was du zu der "unterer Schwellwert" Theorie sagst.

Bei dem Winboard das "man ... " selber programmieren kann nehme ich an das du ein " ... che" vergessen hast

Gruß
Ingo

By Frank Quisinsky Date 2010-07-27 00:24 Edited 2010-07-27 00:27

Hi Ingo,

um es genau zu testen ... daran hatte ich gar nicht gedacht ... ist es besser was Thomas geschrieben hat.
Ohne Ponder, hatte er ja erklärt, damit hat er natürlich absolut Recht.

Einfach zu testen wäre es wahrscheinlich so, wie ich es früher bei Gandalf machte.
Allerdings produzierst Du damit kein wirklich aussagekräftiges, sondern nur ein grobes Ergebnis.

Wie gesagt, wenn die SWCR-64 aussagekräftiger wird (denke in ca. 6 Wochen der Fall) dann könnten wir IPON mit SWCR-64 vergleichen.
Die Unterschiede über 20 ELO mal herausfiltern und dann diese Engines genauer untersuchen. Wir verwenden ja beide Ponder, ich habe ca. die doppelte Bedenkzeit.

Engine Differenzen zwischen unseren Listen größer als 20 ELO haben auch wenig mit der Error-Bar zu tun, da zu diesem Zeitpunkt auch in der SWCR alle mindestens 800 Partien (meist mehr) gespielt haben. Differenzen von 20 ELO bei mehr als 800 Partien sind quasi ausgeschlossen bzw. sollten in einem vom 1.600 Fällen vorkommen. Insofern würden Engines die z. B. zwischen unseren Listen um 20 und höher differieren grob auffallen und würden sich dann wirklich für eine nähere Untersuchung eignen.

Nach der Umfrage ... ganz interessant ... schaut es so aus, das die Meinung zu Zappa und Junior tendiert. Finde Junior ist klar, bei Zappa liegt die Vermutung nahe.
Zappa nimmt überdurchschnittlich bei x64 im Vergleich zu w32 zu. Insofern liegt ein möglicher Verdachtsfall vor und das die User Zappa wählen ist logisch. Bei Komodo hat sich das ab Version 1.2 zu Version 1.0 relativiert. Don Daily machte einiges um die w32 zu optimieren (fragte im Talkchess Forum vor einiger Zeit und nach den Ergebnissen der Version 1.2 bei w32 und x64 wird es auch deutlich das der Unterschied nicht mehr so riesengroß ist).

Bei Stockfish ist das schwierig. Finde die w32 legt mit mehr Bedenkzeit zu (geht aus meinen Ergebnissen klar hervor). Die x64 muss ich ja erst noch testen, könnte sein das die x64 nicht betroffen ist, keine Ahnung.

Dein Aufbau ist auch gut, aber ohne Ponder wäre das erst richtig gut.

Es besteht ja auch der Verdacht das Engine mit mehr Zeit schwächer werden.
Rybka, Hiarcs (Paradebeispiel) und gar Shredder!

Also ich würde eine konstante Engine als Engine A nehmen.
Das wäre Sjeng bei mir.

Sjeng 5+3 ohne Ponder, 1000 Partien gegen 10 Engines.
Sjeng 10+6 ohne Ponder, 1000 Partien gegen 10 Engines.

Und nun vergleichen mit ...

Zappa und Junior ...

Wären dann insgesamt 6.000 Partien.
Mache Dir nicht so viel Arbeit.

600 Partien reichen, also 100 gegen 6 Engines.
Wären dann bei drei Engines 3.600 Partien, ohne Ponder!

Auch eine Aktion die Zeit in Anspruch nimmt, willst Du das wirklich machen.
Ich bin so zu, weil sich die x64 im Aufbau befindet, hätte dafür über keine Kapazitäten frei.

Gruß
Frank

By Ingo Bauer Date 2010-07-27 07:26

Moin

[quote="Frank Quisinsky"]

um es genau zu testen ... daran hatte ich gar nicht gedacht ... ist es besser was Thomas geschrieben hat.
Ohne Ponder, hatte er ja erklärt, damit hat er natürlich absolut Recht.

[/quote]

Tut mir leid, das war aber auch der einzige Punkt wo ich ihm nicht zugestimmt habe. Es geht doch gerade darum das immer Behauptet wird das einen Engine mehr Zeit braucht und dadurch in den Ranglisten weiter oben stehen würde. Alle Ranglisten testen mit identischer Zeit für alle Gegner, also MUß ich auch mit identischer Zeit rechnen.

Was Thomas meinte ist, das duchr "pondern", mein Ergebniss evtl verwässert würde, da ich nicht weiß wie viel tatsächlich gepondert wird, aber das weiß ich beim Originallauf unter meinen Testbedinungen auch nicht (genau wie bie jedem richtigen Turnier) ...

Und noch etwas was dich interessieren müßte: WENN Thomas Recht hätte und du ihm zustimmst, wäre jedes Testen OHNE Ponder besser ... dann darfst du deine Ranglistenerstellung umstellen!

[quote="Frank Quisinsky"]
...
Allerdings produzierst Du damit kein wirklich aussagekräftiges, sondern nur ein grobes Ergebnis.
[/quote]

Natürlich ist das grob, deswegen will ich ja auch die vermeintliche Engine zu finden die den größten Sprung macht um überhaupt etwas zu sehen. Ich schrieb doch schon mehrmals das mein Test für diejenigen die glauben das sich etwas tut die besseren Chacen bietet. Wenn EINE Engine einen Sprung macht bin ICH bereit darüber neu nachzudenken. Wenn nichts passiert nehme ich das nur als Indiz, die Verfechter der "Meine Lieblingsengine braucht mehr Zeit" Theorie werden es höchstwahrscheinlich aus verschiednen Gründen ignorieren. (Die Möglichkeit das die "Meine Lieblingsengine braucht mehr Zeit"-Fraktion mein Ergebniss bei einem positiven Sprung trotzdem anzweifelt halte ich für eher gering)

[quote="Frank Quisinsky"]

Wie gesagt, wenn die SWCR-64 aussagekräftiger wird (denke in ca. 6 Wochen der Fall) dann könnten wir IPON mit SWCR-64 vergleichen.
Die Unterschiede über 20 ELO mal herausfiltern und dann diese Engines genauer untersuchen. Wir verwenden ja beide Ponder, ich habe ca. die doppelte Bedenkzeit.

[/quote]

Einmal haben wir unterschiedliche Eröffnungen und zum anderen hast du meiner Meinung nach viel zu wenige Spiele, ich glaube nicht das wir da irgendetwas vergleichen können.

[quote="Frank Quisinsky"]
.. 600 Partien reichen ...
[/quote]

Das Thema hatten wir schon ein paar mal, zu glauben das 600 Partien reichen ist genau das, Glauben. Leider hat das nichts mit mathematischer Wirklichkeit zu tun.

Gruß
Ingo

By Frank Quisinsky Date 2010-07-27 07:53 Edited 2010-07-27 07:59

Ingo,

die mathematische Wirklichkeit oder die Wirklichkeit einen Houdini aufzunehmen liegt einzig und allein dort was ich Deiner Liste enthalten ist. Sehr wahrscheinlich auch die stark eingeschränkte Eröffnungwahl Deiner Eröffnungen. Es ist schade das Du in solchen Punkten so stumpfsinnig bist und Du Dich laufend für Deine Wahrheiten rechtfertigst.

1. 600 Partien ist wenig, ja ...
Aber die Liste entsteht gerade, die notwendigen 800 erreiche ich nicht an einem Tag zumal ich keine Blitzergebnisse erzeuge.

2. Ich verzerrre die Liste nicht durch Clones wie bei Dir (Toga und Fruit, Rybka und Houdini). Glaube 8x Rybka / Houdini in einer Liste mit ca. 60 Programmversionen. Da kannste Tausend Partien haben, die sind nicht aussagekräftiger als 400.

3. Nur 100 mögliche Eröffnungsvarianten zu nehmen aus einer Vielfalt von über 5.000 die GMs spielen, verzerrt eine Liste genauso. Wenn nur 2 Varianten enthalten sind, die eine Engine nicht mag, hättest Du bei 1.000 Partien, 20 verschenkte Punkte. Mithin wäre es keine Rolle, ob es nun 1.000 oder 4.000 Partien sind denn 20 werden 80 verschenkte Punkte, die immer wieder verschenkt werden. Die Wahrscheinlichkeit bei einer größeren Auswahl an Eröffnungen liegt deutlich daraunter. Die Engine wird um mindestens 15 ELO benachteiligt, gleiches wenn Du 200.000 Partien hättest. Potentiert sich, daher ist die Anzahl der Partien egal.

4. In Deiner Liste sind im Grunde 17 verschiedene Programme, um eine klare Liste zu produzieren benötigst Du 23 unterschiedliche Engines.

Wenn Du nun aber engstirning bist, und alles immer nur richtig ist was Du auch machst, ist es schwierig mit Dir zu diskutieren Ingo. Im Parsimony CSS Forum hast Du die Meinung vertreten, dass 300 Partien für ein Rating ausreichen (seinerzeit sagte ich Dir schon, dass es fast 500 sind). Im Arena Forum hast Du die Meinung vertreten, dass es 800 Partien sind.

Zu den jeweiligen Zeiträumen hattest Du immer genau diese Partieanzahl als maximale in Deinen Listen.

Du hast Dich hinsichtlich max. Partieanzahl an den offfiziellen Diskussione die ich mit Heinz van Kempen geführt hatte (beim Aufbau der CEGT) beteiligt. Heinz war auch der Meinung dass versucht werden sollte das mindestens 500 Partien gespielt werden sollte wobei er immer sagte besser wären 1.000. Zu diesem Zeitpunkt warst Du der Meinung es müssen schon über 1.000 sein. Mit den Jahren ist Deine Wahrheit also stetig gewachsen.

Meine Wahrheit hatte ich schon mit der ersten Ratingliste in Winboard Zeiten herausgefunden und vertrete diese Meinung heute noch.

Solltest Dich wirklich mal näher mit Statistiken auseinandersetzen.
Natürlich ist es richtig, dass mehr Partien immer besser sind, aber es kommt auch darauf an wie diese erzeugt wurden.

Beschäftige Dich mal mit ...

2 Engnes spielen je 5.000 gegeneinander (hast Du nun den wahren optimalen Wert, nur wegen der Anzahl der Partien?)
3 Engines machen das ... Die ELO wird trotz 10.000 Partien pro Engine nun erst langsam besser ...
4 Engines machen das ... und die ELO verändert sich trotz 15.000 Partien weiter ...

Etc..

Bei 17 unterschiedliche Engines die Du einsetzt bist Du trotz x-tausend Deiner Blitzpartien immer noch nicht am Ziel um die Err-Bar zu errreichen, die Dir die Berechnungsprogramme vorgaukeln.

Aber warum schreibe ich das eigentlich, wirst Du eh nicht verstehen.
Geht nicht über Deinen Horizont, weil in Deiner Liste ...

Schade!

Gruß
Frank

By Frank Quisinsky Date 2010-07-27 08:05

Hi Ingo,

so, nochmals ... wir können das gerne vergleichen.
In ca. 2 Monaten sind 34 Engine Versionen, und 24 verschiedene Version in der SWCR-64. Alle Engine haben dann mindestens 800 Partien gespielt, die meisten über 1.000. Es dürften keine Abweichungen größer als 15 ELO (grob gesagt) in meinen Listen mehr sein. Die Wahrscheinlichkeit liegt so hoch, dass es zu solchen Abweichungen nur in einen von 46 Fällen kommt. Ich betrachte zwar Deine Liste persönlich als weniger gut (eingeschränkten Eröffnungen, zu wenige Gegner, zu schnelle Bedenkzeiten) allerdings hast Du mehr Partien die viele statistische Probleme bei Dir ausgleichen.

Keine Liste ist perfekt Ingo, Deine ist genauso weit davon weg wie alle anderen die wir haben.
Aber Deine Liste ist zumindest eine Liste mit der solche Dinge waage möglich sind.

Gruß
Frank

By Frank Quisinsky Date 2010-07-27 08:15

Ingo,

und da wir schon mal dabei sind ....
Du schreibst ... Deine Liste wäre die erste Ponder = On Liste.

Die ATL-4 war Ponder = on
Die erste größere Winboard Liste war Ponder = on ... schon vor ca. 10 Jahren!

Gerhard Sonnabend prodzierte mit seinem Pentium III 800 Dual (auch schon vor ca. 8 Jahren eine Ponder = On Liste).

Ingo, übertreibe nicht immer so mit Deinen Wahrheiten, dass nervt ein wenig ... zumal vieles davon noch nicht mal Halbwahrheiten sind.
Kleiner Tipp von jemanden der das alles schon sehr viel länger macht als Du und sich mit deutlich mehr Dingen auseinandergesetzt hat.

Nehme das einfach mal gelassen hin und kontere jetzt nicht darauf mit irgend einen Unfug.

Viele Grüße
Frank

By Ingo Bauer Date 2010-07-27 08:45

[quote="Frank Quisinsky"]
...
Du schreibst ... Deine Liste wäre die erste Ponder = On Liste.
[/quote]

Bitte genauer, ich schreibe: "The fIrst pure chess engine rating list with PONDER ON". ("Die erste, reine Engine Liste mit Ponder ON)"

Das "pure" steht da mit Absicht. Die SSDF testet ja auch Ponder ON und das ohne Zweifel schon deutlich länger als du und ich. Es bezieht sich darauf das ich eben ohne lernen und ohne Bücher teste - sprich, ich teste soweit möglich Engines und nichts anderes.

[quote="Frank Quisinsky"]
Die ATL-4 war Ponder = on
Die erste größere Winboard Liste war Ponder = on ... schon vor ca. 10 Jahren!

Gerhard Sonnabend prodzierte mit seinem Pentium III 800 Dual (auch schon vor ca. 8 Jahren eine Ponder = On Liste).
...
[/quote]

Daran hatte ich nicht mal gedacht, allerdings existieren diese Listen auch nicht mehr, bzw werderen nicht mehr aktuell gehalten. Insofern will ich mal nicht päpstlicher sein als der Papst.

[quote="Frank Quisinsky"]
Kleiner Tipp von jemanden der das alles schon sehr viel länger macht als Du und sich mit deutlich mehr Dingen auseinandergesetzt hat...
[/quote]

Es könnte aber auch sein das man dank so übergroßer Erfahrung nicht mehr von vermeintlichen Erkenntnissen weg kommt obwohl sie falsch sind ...

Aber ist OK, du bleibst bei deinem Glauben, ich bei meiner Mathematik (soweit ich sie verstehe).

Bye
Ingo

By Frank Quisinsky Date 2010-07-27 09:07 Edited 2010-07-27 09:13

Hi Ingo,

Die erste, reine Engine Liste mit Ponder ON

Ja, aber was ist hier so besonderes daran.
Sämtliche Listen, die ich publiziert hatte, waren "reine Engine Listen" mit Ponder = on.

In der ATL-4 gab es einen Mix, eine Ausnahme.
Ein Rechner Ponder = on, ein Rechner Ponder = off ... aber alles war auch gesplittet und zusammengeführt.
War die einzige Ausnahme bzw. die allererste Liste mit Kai und Christian zu AMD K6-2 Zeiten war Ponder = off.
Danach waren alle Vergleiche, publizierten Ergebnisse und Listen Ponder = on.

Die SSDF spielte mit Autoplayer Kabel und auch mit Ponder = On.
Das ist richtig.

Ich schrieb ja nicht, dass meine Listen die ersten mit Ponder = on wären.
Das kommt von Dir.

Allerdings waren die ersten Engine Listen überhaupt mit meiner Beteidigung erstellt wurden ... zu einem Zeitpunkt als gerade mal 4 Engines WB kompatibel waren ging es los (Crafty, Tristram, TheCrazy Bishop und SSEChess). Dann kamen Phalanx etc..

Dennoch schmücke ich mich nicht damit ... weil es keinen Sinn macht.

Nicht existierende Listen:
Macht meines Erachtens auch keinen Sinn einen Liste über Jahre mit gleichen Bidingungen zu führen.
Es kommen immer mal wieder Erkenntnisse etwas anders machen zu wollen.

CEGT leidet ein wenig darunter. Die haben sooo viele Partien und Gewohnheit ist eingetreten.
Ponder = on würde für CEGT einen Neuanfang bedeuten und was würde mit der ganzen bestehenden Liste passieren?
Die würde irgendwann aufgrund x Engine Updates nicht mehr aktuell sein und das Interesse würde stark nachlassen.

EINE RATINGLISTE IST NUR EINE MOMENTAUFNAHME
Leider ... mehr nicht ... viel Arbeit aber dennoch "Nur eine Momentaufnahme".
Und insofern halte ich nicht daran fest.

Ingo schreibt:
Es könnte aber auch sein das man dank so übergroßer Erfahrung nicht mehr von vermeintlichen Erkenntnissen weg kommt obwohl sie falsch sind ...

Damit hast Du meinen wunden Punkt getroffen.
Je älter ich werde desto mehr stimmt das offenbar.

Und früher haben wir unsere Eltern ausgelacht, voller Tatendrang ...

Ich hoffe das gerade Jüngere etwas bewirken und auch gerade Personen die aufgrund einer Vielzahl von eigenen Erfahrungen stark eingegrenzt sind mal so richtig an die Wand diskutieren. Also, auf die Erfahrungskette bin ich oftmals gar nicht so stolz, weil das behindert eher. Wie mit allen Dingen im täglichen Leben! Kostet sehr viel Überwindung das mal einzugestehen aber wichtig ist es eigentlich nur mal über diese Schwelle hinweg zu sein.

Gruß
Frank

By Ingo Bauer Date 2010-07-27 09:18

Hi

[quote="Frank Quisinsky"]

Die erste, reine Engine Liste mit Ponder ON

Ja, aber was ist hier so besonderes daran.
Sämtliche Listen, die ich publiziert hatte, waren "reine Engine Listen" mit Ponder = on.

In der ATL-4 gab es einen Mix, eine Ausnahme.
Ein Rechner Ponder = on, ein Rechner Ponder = off ... aber alles war auch gesplittet und zusammengeführt.
War die einzige Ausnahme bzw. die allererste Liste mit Kai und Christian zu AMD K6-2 Zeiten war Ponder = off.
Danach waren alle Vergleiche, publizierten Ergebnisse und Listen Ponder = on.

Die SSDF spielte mit Autoplayer Kabel und auch mit Ponder = On.
Das ist richtig.

Ich schrieb ja nicht, dass meine Listen die ersten mit Ponder = on wären.
Das kommt von Dir.
...
[/quote]

Irgendwie ließt du nur die Hälfte von dem was ich schreibe. SSDF, ATL ... testen/testeten mit Büchern (und die SSDF auch noch mit lernen). DIE IPON ist die erste reine Engine Liste mit Ponder ON!

Bye
Ingo

By Frank Quisinsky Date 2010-07-27 09:26

Ingo,

nein Ingo, das war die Winboard Liste vor ca. 10 Jahren

Oder vor ca. 8 Jahren das CCE Turnier.
Beim CCE-Turnier (lief ca. 2 Jahre) spielten Engines immer das gleiche Schweizer Turnier System (16 Engines und 9 Runden).

Die vielen Turniere wurden zu einer Ratingliste zusammengeführt.
Oder die ATL-1 vor ca. 6 Jahren.

Aber, mir ist das egal ...
Von mir aus ist es IPON!
Wenn es Dir so wichtig ist!!

Gruß
Frank

PS:
Das war auch nur ein Beispiel Deiner Wahrheiten.
Wie Houdini, die Ponder Frage oder die Frage wie viele Partien notwendig sind.
Es war immer so, dass das was Du hattest der Wahrheit entspricht und über Jahre hinweg entstanden immer diese Diskussionen mit Dir, siehe meine anderen Positings in diesem Thread von heute. Ich finde das nervig, ein Punkt der Diskussionen mit Dir so schwierig macht.

By Ingo Bauer Date 2010-07-27 09:36

Hi

[quote="Frank Quisinsky"]

Aber, mir ist das egal ...
Von mir aus ist es IPON!
Wenn es Dir so wichtig ist!!
[/quote]

Mir ist das wichtig? Ähhh - bitte ließ noch mal nach, wer hier, als allererster aus heiterem Himmel überhaupt, mit dem Thema angefangen hat und entscheide dann wem das wichtig zu sein scheint.

[quote="Frank Quisinsky"]
...
Wie Houdini, die Ponder Frage oder die Frage wie viele Partien notwendig sind.
Es war immer so, dass das was Du hattest der Wahrheit entspricht und über Jahre hinweg entstanden immer diese Diskussionen mit Dir, siehe meine anderen Positings in diesem Thread von heute. Ich finde das nervig, ein Punkt der Diskussionen mit Dir so schwierig macht.
[/quote]

Hmm ich habe eher das Gefühl das das andersherum ist und glaube das das sehr schön hier in diesem Thread zu sehen ist.
Ich habe ihn gestartet, wissend, dass ich etwas starte das meine Überzeugung massiv erschüttern kann ... Ich lehne mich weit aus dem Fenster und verkünde, dass ich das nicht glaube. Sollte es anders kommen kann jeder mit dem Finger auf mich zeigen ... und du behauptest ich wäre dogmatisch ...!

Bye
Ingo

By Frank Quisinsky Date 2010-07-27 09:54

Hi Ingo,

bleibe beim Thema und verhalte Dich jetzt nicht genauso Teen-mäßig wie Robert Houdert in TalkChess.

Wollte Dir nur mal gewisse Dinge ein wenig aufzeigen denn Du magst es offenbar Dich über die Bemühungen anderern Personen zweifelhaft zu äußern um eigenes bzw. eigene Wahrheiten in den Vordergrund zu stellen.

Siehe Deine Antwort auf ...
Wir können ja die SWCR-64 später mal mit IPON vergleichen.

Du reitest auf 600 Partien rum, den Eröffnungen etc.. dabei wäre das Eröffnungsproblem eher ein Problem bei Dir selbst.

Und ganz klar und immer wieder ...
Es gibt keine perfekte Liste, Deine IPON ist aufgrund verschiedener Umstände weiter davon weg als andere Listen aber wir haben nunmal nicht sonderlich viele Listen die überhaupt irgendwie miteinander vergleichbar sind. Und nochmals, ich habe dahingehend auch niemals behauptet das es Listen von mir wären. Du wirst in 13 Jahren Internet nicht eine Posting von mir finden in dem ich eigene Arbeiten nicht selbst angegriffen habe. Das liegt daran, dass ich niemals zufrieden mit eigenen Dingen bin, wäre es so wäre das Hobby für mich dann eher langweilig. Und von daher ist es gut das dieses Thema kompliziert ist (sehe ich so).

Gruß
Frank

By Ingo Bauer Date 2010-07-27 10:23

Hi

Im Moment kommt nichts neues mehr von dir. Es sieht so aus als wären wir durch.

Bye
Ingo

By Frank Quisinsky Date 2010-07-27 10:30 Edited 2010-07-27 10:37

Hi Ingo,

habe mal in die Schachwerkstatt Beiträge geschaut, auch in die vom ersten Gambit-Soft Forum (da war noch wenig von Dir zu lesen).
Bei den Schachwerkstatt Beiträgen gab es einige Diskussionen mit "Michael Koppel" von Dir.

Das war ca. 2004. Zu diesem Zeitpunkt hattest Du schon ca. 50.000 Partien mit Ponder = On gespielt.
Seierzeit 6+3 nach Deinen Angaben.

Im ChessBits Forum mal geschaut, da tauchten 2001 Deine ersten Beiträge zu Ponder auf. Dein Interesse ging auch hier immer klar zum Pondern!

Ganz offenbar habe ich etwas falsch in Erinnerung.

Zeit mich dafür zu entschuldigen.

Nur die Diskussionen im CSS Forum (kann ich nicht zurückverfolgen) bzw. die in Paderborn.
Aber vielleicht habe ich das selbst einfach nur falsch in Erinnerung.

Gruß
Frank

By Ingo Bauer Date 2010-07-27 10:45

Hi

Gut!

Das Problem ist, dass wenn jemand etwas so mit Überzeugung behauptet und ich es nicht kontrolieren kann, ich anfange an mir selbst zu Zweifeln

Bye
Ingo

By Frank Quisinsky Date 2010-07-27 11:02

Hallo Ingo,

also in der Ponder-Frage warst Du klar immer ein Befürworter fürs Pondern, zumindest seit 2001 konnte ich das nachvollziehen.
Habe diverse Foren noch, bzw. die Beiträge in alten Sicherungen.

Musste einiges sichern, weil ich mithalf oder einige Foren von mir selbst waren.

Richtig heftige Diskussionen gab es zum Pondern eigentlich erst mit Hyatt Ende 1997. Das zog sich durch bis 1999 in allen möglichen Foren. Die heftigsten gab es im alten ChessBits Forum (habe ich leider nicht mehr).

Habe auch mal in meinen eigenen Ratinglisten bzw. Partien geschaut. Die ersten Ponder = On Turniere spielte ich Anfang 1999 mit dem Dual Pentium III 733 Mhz. Mit diesem Rechner startete ich ein Turnier bei dem zeitgleich zwei Turniere gespielt wurden. Eines unter Winboard und eines unter der Fritz GUI. Die Ergebnisse wurden auch hier zusammengezogen. Das Turnier lief knappe 2 Jahre. Die Turnierseite hatte 340.000 Zugriffe produziert. Die Datenbank mit den Partien wurde 21.000x heruntergeladen. Solche Zahlen sind heute nicht mehr zu erreichen, ist nichts besonderes mehr. Die Zugriffe hatte ich wahrscheinlich auch nur deswegen weil diese Turierseite ein Teil der Winboard Seite von Frank's Chess Page war. Immerhin stand Frank's Chess Page über 1 1/2 Jahre hinweg in der FIDE Statistik beständig auf Platz 1-5. Die Fide führte seinerzeit Statistiken über angemeldete Schachseiten. Waren über 20.000 Seiten angemeldet. Seinerzeit produzierten ca. 1.500 unterschiedliche Rechner 18.000 Hits pro Tag.

Hinweise auf Listen von Dir vor Deinem 6+3 Turnier (ca. 2003 / 2004) habe ich in der Tat nicht gefunden.
Stöbere gerade mal so in den alten Beiträgen, mein Gott war ich aktiv

Aber alles was ich gefunden habe waren Beiträge von Listenbetreibern die Ponder = off verteidigt haben was das Zeug hielt. Michael Koppel, Christian Liebert waren z. B. zwei Personen die Ratinglisten online stellten.
Im Grunde ist ja gegen Ponder = off auch sonderlich etwas auszusagen, bis auf das meines Erachtens Ponder = on Partien realistischer und spannender sind. Sich die Zeitkomponente verlängert und dadurch dann auch "teils" unterschiedliche Ergebnisse produziert werden.

Gruß
Frank

By Frank Quisinsky Date 2010-07-27 11:15

Korrektur: Anfang 1998 war es!
Gerade das Turnier gefunden ... startete im März 1998 (angesprochene Ponder = On Turnier, als Ratingliste).

By Ingo Bauer Date 2010-07-27 08:07

[quote="Frank Quisinsky"]

die mathematische Wirklichkeit oder die Wirklichkeit einen Houdini aufzunehmen ...
[/quote]

Hmm, ja. Zwei Dinge die wirklich zusammengehören und sehr gut in diese Diskussion passen.

Danke
Ingo

By Frank Quisinsky Date 2010-07-27 08:25 Edited 2010-07-27 08:30

Hi,

ist ja wenigstens mal positiv, dass Du deine offenbare Achillesferse selbst siehst.
Klar, sonst würdest Du dich deswegen auch nicht laufend rechtfertigen.

Guter Ansatz!

Gruß
Frank

Wer ohne Grund und auch noch unüberlegt und ungerechter Weise ständig austeilt muss auch mal mit solchen Quisinsky Postings rechnen.

By Frank Quisinsky Date 2010-07-27 08:37 Edited 2010-07-27 08:40

Hi Ingo,

und ich könnte noch x andere Dinge hinzusetzen.

Du warst mal einer der größten Ponder = off Verfechter.
Unsere Diskussionen im alten CSS Forum.

Eine der Diskussionen bewirkte gar das wir beide dort eine Zeit nicht mehr geschrieben hatten.

Mit Pauken und Trompeten verdeidigste Du das ponderlose Spielen.
Wie kam die Einsicht?

Weil Intel und AMD Dual Core Prozessoren herausbrachten die dann auch käuflich waren und seinerzeit die Dual Systeme zu teuer waren.
Oder weil Du dann plötzlich auch Rechner hattest mit denen Ponder = On möglich war?

Und heute ...
Die erste Ponder= ON Liste

Belasse es mal dabei ...

Wie gesagt, ich finde es gut was Du machst.
Die perfekte Liste gibt es nicht, aber reite nicht immer auf Dinge herum von denen Du ganz offenbar wenig verstehst (und das meine ich auch so wie ich es hier schreibe).
Oder besser nicht verstehen willst ... weil Du es nicht so machst!

Gruß
Frank

By Ingo Bauer Date 2010-07-27 09:14

Hi

[quote="Frank Quisinsky"]

Du warst mal einer der größten Ponder = off Verfechter.
Unsere Diskussionen im alten CSS Forum.
[/quote]

Sorry, aber
1. Kann ich mich daran nicht erinnern und bezweifle es sehr da ich NIE POFF getestet habe und
2. Selbst wenn es so wäre halte ich Menschen die ihre Meinung ändern können weil sie Tatsachen anerkennen für viel wertvoller und interessanter als Sturköpfe, welche die einmal eingenommene Standpunkte auch gegen Tatsachen nicht mehr ändern können.

[quote="Frank Quisinsky"]
Eine der Diskussionen bewirkte gar das wir beide dort eine Zeit nicht mehr geschrieben hatten.

Mit Pauken und Trompeten verdeidigste Du das ponderlose Spielen.
Wie kam die Einsicht?
[/quote]

Siehe oben. Ich habe mehrmal aus verschiedenen Gründen nicht geschrieben. Bitte unterlasse Behauptungen ohne Beleg die mich betreffen. Ich schreibe hier auch nicht was ich glaube was du mal für Ansichten hattest ohne es belegen zu können. Das ist jetzt das zweite mal in 2 Tagen in denen du mir Meinungen unterschiebst, bitte halte dich da zurück. Danke! Ansonsten: siehe obigen Punkt 2.

[quote="Frank Quisinsky"]
Und heute ...
Die erste Ponder= ON Liste

Belasse es mal dabei ...
[/quote]

Die erste reine Rangliste mit Ponder ON - das ist ein Unterschied!

Ansonsten belsse ich es mal dabei, ich habe ja weiter oben dargelegt was genau ich schrieb und nicht was du lesen willst - das ist nämlich dein Problem und nicht meins.

Bye
Ingo

By Frank Quisinsky Date 2010-07-27 09:38

Hi Ingo,

du möchtest mir also jetzt verklickern, dass Deine Listen die Du in Zeiten des alten CSS Forums gepostet hast Ponder = On Listen waren, obwohl Du die Hardware gar nicht hattest. Erinnerst Du Dich als wir zusammen in Paderborn in einer Kneipe waren. Wir unterhielten uns kurz, Thema war Deine Ponder = off Liste. Roland Tröger sagte zu Dir noch, dass es ponder = off gar nicht gibt, kein Mensch schaltet sein Gehirn aus wenn schachgespielt wird. Das wäre zwar aufs Computerschach nicht übertragbar aber es wäre für ihn unsinnig.

Deine Antwort war:
Mit Ponder = off werden die gleichen Ergebnisse produziert als mit Ponder = on

Das ist die typische Meinung von Personen die Ponder = off spielen.
Genau zu dieser Meinung schreibst Du heute selbst viele Kommentare.

Im Auto bei der Rückfahrt überlegte Roland und sagte zu mir ... aber wie kann er das sagen wenn er nur Ponder = off spielt.

Das ist Dein Problem Ingo, nicht mein Problem!

Richtig was Du schreibst (Änderung von Meinungen)!
Habe auch schon oft Meinungen geändert, was ist verwerflich daran?

Nur Du läßt keine andere Meinung zu dem Zeitpunkt zu, wenn Du in einem Thema verzottelt bist ... wie jetzt mit Houdini.

Weißt Du eigentlich das auch mit Houdini offenbar auch "Reverse Engineneering" betrieben wurde!
Tja, sollen sich die Cloner die Köpfe einschlagen, ich schrieb per E-Mail das mich diese Ergebnisse nicht interessieren und ich bitte mir solche Mails nicht mehr zuzusenden.
Nun erhalte ich täglich 100 SPAM Mails, Problem musste ich gestern lösen.

Schiebe Dir nichts unter Ingo ...
Das sind Deine Äußerungen die ich so noch im Kopf habe.

Oder hattest Du vor ca. 4-8 Jahren schon Maschinen mit denen Ponder = on möglich war.
Kann mich nicht daran erinnern!

Gruß
Frank

By Ingo Bauer Date 2010-07-27 09:58

[quote="Frank Quisinsky"]
Hi Ingo,

du möchtest mir also jetzt verklickern, dass Deine Listen die Du in Zeiten des alten CSS Forums gepostet hast Ponder = On Listen waren, obwohl Du die Hardware gar nicht hattest. Erinnerst Du Dich als wir zusammen in Paderborn in einer Kneipe waren. Wir unterhielten uns kurz, Thema war Deine Ponder = off Liste. Roland Tröger sagte zu Dir noch, dass es ponder = off gar nicht gibt, kein Mensch schaltet sein Gehirn aus wenn schachgespielt wird. Das wäre zwar aufs Computerschach nicht übertragbar aber es wäre für ihn unsinnig.

Deine Antwort war:
Mit Ponder = off werden die gleichen Ergebnisse produziert als mit Ponder = on

Das ist die typische Meinung von Personen die Ponder = off spielen.
Genau zu dieser Meinung schreibst Du heute selbst viele Kommentare.

Im Auto bei der Rückfahrt überlegte Roland und sagte zu mir ... aber wie kann er das sagen wenn er nur Ponder = off spielt.

Das ist Dein Problem Ingo, nicht mein Problem!

Richtig was Du schreibst (Änderung von Meinungen)!
Habe auch schon oft Meinungen geändert, was ist verwerflich daran?

Nur Du läßt keine andere Meinung zu dem Zeitpunkt zu, wenn Du in einem Thema verzottelt bist ... wie jetzt mit Houdini.

Weißt Du eigentlich das auch mit Houdini offenbar auch "Reverse Engineneering" betrieben wurde!
Tja, sollen sich die Cloner die Köpfe einschlagen, ich schrieb per E-Mail das mich diese Ergebnisse nicht interessieren und ich bitte mir solche Mails nicht mehr zuzusenden.
Nun erhalte ich täglich 100 SPAM Mails, Problem musste ich gestern lösen.

Schiebe Dir nichts unter Ingo ...
Das sind Deine Äußerungen die ich so noch im Kopf habe.

Oder hattest Du vor ca. 4-8 Jahren schon Maschinen mit denen Ponder = on möglich war.
Kann mich nicht daran erinnern!

Gruß
Frank
[/quote]

Frank, hör endlich auf mir etwas zu unterstellen! Wenn du das nicht belegen kannst und du weiter machst muß ich davon ausgehen das du das mit Absicht machst. Nochmal, ich unterstelle dir auch nichts ohne Beleg und nochmal: Ich achte denjenigen der seine Meinung auch ändern kann höher als denjenigen der stur daran festhält. Insofern verstehe ich nicht mal was du mir vorwerfen willst wenn es denn stimmen würde!

Zu den Listen die ich früher gepostet habe kann ich nur sagen das ich das nicht getan habe. Meine jetzige Liste führe ich so sein Shredder 10, vorher kann ich keine Listen gepostet haben weil ich keine hatte. Vielleicht habe ich mal ein Turnierergebniss gepostet, das hatte aber nichts mit einer Liste zu tun.

Nochmal, hör auf mir eine Meinung zu unterstellen ohne Belege - ich mache das auch nict mit dir und halte das für unseriös - und ein weiteres mal, vielleicht ließt du es jetzt: Ich achte denjenigen der seine Meinung auch ändern kann höher als denjenigen der stur daran festhält. Insofern verstehe ich nicht mal was du mir vorwerfen willst wenn es denn stimmen würde! Soll es schlecht sein wenn man siene Meinung ändern kann -das wäre mir neu!

Bye
Ingo

By Frank Quisinsky Date 2010-07-27 10:06 Edited 2010-07-27 10:08

Hallo Ingo,

dann wird es so sein (keine Listen vor Shredder 10).
Du wirst es besser wissen als ich, nur ich habe ettliche Diskussionen mit Dir zu diesem Thema noch in Erinnerung.

Dennoch, Du wirst es besser wissen als ich.

Insofern:
Dann muss ich mich dafür entschuldigen, allerdings liegt es mir fern Dir etwas zu unterstellen.
Vielleicht irre ich mich auch wirklich.

Hatte so viele Kontakte in den vielen Jahren, so viele geschrieben aber schon aufgrund der Diskussionen mit Dir im CSS Forum zu genau diesem Thema, der Diskussion vor ca. 9 Jahren in Paderborn ...

Christian Liebert hatte mal an einer Liste gespielt. Da wurde etwas festgestellt was Du auch nicht tragen konntest Du ich erinnere mich auch hier daran, dass Du deine Ergebnisse in Form einer Liste gepostet hattest.
Aber egal ...

Gruß
Frank

Nein, es ist völlig OK seine Meinung auch mal zu revidieren.
Aber so wie Du über Deine Meinungen diskutierst finde ich das persönlich nicht OK, denn Du läßt ja gar keine andere Meinung zu, anstatt auch mal solche zu beleuchten.
Eigentlich Sinn und Zweck von einem Forum bzw. einer Diskussion.

By Bert Rinzel Date 2010-07-27 10:16

Habt ihr langeweile?

By Ingo Bauer Date 2010-07-27 10:24

Sieht so aus

Bye
Ingo

By Frank Quisinsky Date 2010-07-27 10:25

Du?
Sollte ja jetzt besser geworden sein ...

By Ingo Bauer Date 2010-07-27 10:26

Hi

Am meisten bewundere ich dein vermeintliches Elefantengedächtniss. Ich frage mich wie viele Leute sich wohl inhaltlich an irgendwelche Kneipengespräche von vor 9 Jahren erinnern können! Ich kann es nicht!

Bye
Ingo

By Frank Quisinsky Date 2010-07-27 10:34 Edited 2010-07-27 10:36

Hi Ingo,

ich kann es in diesem Fall auch nur deswegen weil es eine längere Diskussion mit Roland Tröger bei der Rückfahrt gab bzw. als er mich auf der Rückfahrt ... mitten in der Nacht zum Essen einlud. Eigentliches Thema war Deep Shredder vs. The World, welches nach Paderborn mit Ossi Weiner und Stefan Meyer-Kahlen organisiert wurde bzw. über die notwendige Hardware diskutiert wurde (Rechenzeiten etc..). So kam auch die Diskussion mit Dir wieder auf.

Gruß
Frank

By Ingo Bauer Date 2010-07-27 08:47

Hi

[quote="Frank Quisinsky"]
Hi,

ist ja wenigstens mal positiv, dass Du deine offenbare Achillesferse selbst siehst.
Klar, sonst würdest Du dich deswegen auch nicht laufend rechtfertigen.

Guter Ansatz!

Gruß
Frank

Wer ohne Grund und auch noch unüberlegt und ungerechter Weise ständig austeilt muss auch mal mit solchen Quisinsky Postings rechnen.
[/quote]

???

Ich weiß nicht mehr wovon du sprichst? Aus deiner heftigen Reaktion sehe ich eher das du dich durch "mathematische Wahrheiten" in deinem Glauben angegriffen fühlst!

Gruß
Ingo

By Frank Quisinsky Date 2010-07-27 08:56

Hi Ingo,

selbst nachdem ich nun schon seit 25 Jahren aus Freude daran Listen erstelle (schon zu Schachcomputer Zeiten und selbst mit einem Computer) ChessChallenger 7, Stufe 1 gegen 3 und so Scherze

bin ich immer noch nicht der Meinung alle Wahrheiten gefunden zu haben.

Siehe Naum Test.

Ich war eigentlich immer der Meinung:

Rating nach 380 Partien ... es beginnt interessant zu werden.
Rating nach ca. 450 Partien ... sollte ausreichen.

Ich korrigierte mit weiter nach oben.
Auf 620 Partien weil Fall 2 eingetroffen ist (Naum 4.2). Fall 1 war in der ATL-4 mit Glaurung.

Bringe ich meine Statistiken zusammen habe ich jetzt schon über 520 Engine Versionen. So musste ich mich korrigieren auf 620 Partien +-10 (= 20) in 1 von 52 Fällen.
Für mich ist wichtig ... die Situation zu erzeugen ... ca. 1/50.

Jede Ratingliste hat mindestens 1 Problem bzw. mindestens eine Engine die austitscht. Egal wie viele Partien ... so richtig schlau daraus werde ich dennoch nicht.

Es gibt also noch offene Fragen bei den Statistiken und ich bin weit davon weg zu behaupten die Wahrheit gefunden zu haben.
Wahrscheinlich muss ich mich damit abfinden dass dies nie wirklich möglich wird.

z. b. in der SWCR-64 wackelt alles, weil die Engine auf die geeicht wird mit austitscht. Und das ist Shredder 12 x64.
Was stimmt nicht?

Werde das mit Shredder 12 w32 in den nächsten Tagen überprüfen und die w32 in der x64 gegen alle durchspielen lassen.
Bin mal gespannt.

Also, ich bin weit davon weg von "mathematischen Wahrheiten".
Einzig was geht und das zeigen Ratinglisten immer wieder auf wäre mit Wahrscheinlichkeiten zu arbeiten.

Gruß
Frank

By Thomas Mayer (Quark) Date 2010-07-27 13:16

Hallo Ingo,

das Problem ist, daß Du einen Effekt nachweisen willst, der im niederen zweistelligen Elo-Bereich liegt. Dazu muß Dein Versuchsaufbau so genau wie möglich sein, ansonsten hast Du viele nutzlose Partien gespielt die gar nichts aussagen.
Ganz wichtig ist eine IDENTISCHE Vergleichsgruppe - und das schaffst Du eben nur mit ponder=off. Ich bin vollkommen Deiner Meinung, daß prinzipiell ponder=on die bessere Methode ist, Engines zu testen, aber bei dem, was Du versuchst geht das so nicht, da die Vergleichsgruppe eben IMMER mit der gleichen Bedenkzeit spielen muß weil es sonst eben keine Vergleichsgruppe ist. Wie angesprochen, Shredder 10+6 ist UNGLEICH zu Shredder 5+3. Wie gesagt, Du solltest ja mit Time-Handicap spielen. Folgender Versuchsaufbau wäre sinnvoll:
Engine X und Engine Y (unsere beiden Vergleichsengines) spielen mit 5+3 gegen 10 ausgewählte Engines die ebenfalls 5+3 als Zeitkontrolle bekommen.
Dann spielen Engine X und Y mit 10+6 wieder gegen die 10 Engines mit 5+3. Nun vergleicht man die Zugewinne von Engine X und Y, insbesondere die Intervalle (Das sollte ausrechenbar sein, ab wieviel Elo Abweichung die Abweichung signifikant wäre - ich würde da wieder auf den Mathe-Lehrer im Forum zurückgreifen, der mag das selber nicht mehr so genau wissen, kennt aber sicher jemanden, der es weiß wie's geht

-Tendenziell würde ich sagen, daß schon ein kleinerer Unterschied als die 95% Intervalle hier ausreicht, aber Stochastik und Bauchgefühl passt meist nicht so ganz zusammen...

Übrigens unbedingt mit Vorgabestellungen spielen, sonst könnte der Effekt der Bücher einstreuen. (Natürlich kann auch die Auswahl der Stellungen das Ergebnis beeinflussen, aber ich halte das für exakter als mit Büchern spielen)
Hauptnachteil der Methode: Du mußt 4000 Partien spielen für Engine X & Y weil die aus Deiner Rangliste nicht nutzbar sind.
Aber alles andere ist eben Unsinn - um einen Unterschied von ein paar Elos herauszuarbeiten mit lediglich 1000 Partien sollten wenigstens die Versuchsbedinungen eindeutig sein. In dem Zusammenhang, um den Zeitunterschied zu vergrößern, was hieltest Du von 2+1 & 10+5 ? Dann hättest Du einen Faktor 5 !

Ich glaube übrigens an Deine untere Schwellwert-Theorie, meines Erachtens hat allerdings die ART der Zeitkontrolle einen viel größeren Einfluß. 5+3 dürfte vom Zeitaufwand ähnlich wie 6+0 sein oder evtl. 40 in 4 - ich würde aber mitunter Abweichungen erwarten. Jedenfalls ist 6+0 auf jeden Fall etwas anderes, weil sinnvolles Zeitmanagement hier sicher eine größere Rolle spielt als bei 5+3. Rein vom Beobachter-Standpunkt finde ich 6+0 übrigens deutlich interessanter - insgesamt ist es aber schon fast ein anderes Spiel...

Andererseits, vergleicht man CEGT 40 in 4 und Deine Rangliste, dann ist der Unterschied nicht allzu groß, auch wenn ponder und andere Wahl der Zeitkontrollen-Art durchaus Unterschiede möglich machen und evtl. in größerem Maße erwarten ließen.
Tja, Du willst ein Statement zum unteren Schwellwert ? Ich hab mich da jetzt drum herum gewurstelt - aber sagen wir mal 1+1 bei heutigen Rechnern produziert immer noch irgendwo sinnvolle Resultate, kürzere Zeiten mögen zu Testzwecken interessant sein aber insgesamt andere Resultate erzeugen. Oder sagen wir es so: erreiche ich eine Steigerung bei Partien in einer Minute oder auch den beliebten 10 Sekunden + 0.1 increment oder gar Partien in einer Sekunde, dann ist es nicht unwahrscheinlich, daß dies auch bei höheren Bedenkzeiten hilft - aber eindeutige Aussagen über die Größenordnung der Steigerung oder gar Rangfolgen sind eher nicht zu treffen. IMO wird da die Bedeutung von zeitkritischen Routinen, dem Zeitmanagement als solches usw. relativ gesehen überbewertet. Eine Zeitkontrolle wie Deine, 5+3, halte ich für hinreichend um die Spielstärke von Engines zu bewerten, genauso wie die 40/20 der CEGT. Die Praxis gibt einem ja auch recht, die Abweichungen zur 40/120 der CEGT z.B. sind ja nicht gerade gigantisch.
Ich ändere übrigens die Engines, die ich da im Vergleich gern sehen würde: Zappa & Spark.

Gruß, Thomas

By Ingo Bauer Date 2010-07-27 17:47

Hallo Thomas,

Ich gebe dir ja größtenteils Recht, wie ich schon schrieb. hauptsächlch geht es mir aber darum, das immer wieder behauptet wird das Engine X bei Turnierzeit aber richtig zulegen würde. Da auch Hinweise das das bei 10facher Zeit von 40/4 auf 40/40 nicht statistisch sichtbar ist, ficht viele nicht an (ausser das diese Listen aufgrund verschiedener Hardware, Zeitanpassungen und verwendeten Büchern evtl sowieso nicht zu solchen Vergleichen taugen). Insofern ist es eigentlich egal wie "gut" meine Vorraussetzungen sind. Ich will eigentlich nur für mich wissen ob die Engine die lt. allgemeiner Auffassung am meisten durch mehr Zeit gewinnt evtl wirklich zulegen kann. Den bisherigen obigen Favoriten halte ich tatsächlich für den Interessantesten. da er auch bei 2Threads überdurchschnittlich zulegt. Ich denke auch darüber nach evtl nach den 10 + 6 ein Schnellturnier mit 2 + 1 anzuhängen. dann hätte ich einen Sprung von 2 + 1 zu 10 + 6, immerhin die 5fache Zeit ...

Ein paar allgemeine Komentare zu deinem Text:

[quote="Thomas Mayer (Quark)"]
Hallo Ingo,
das Problem ist, daß Du einen Effekt nachweisen willst, der im niederen zweistelligen Elo-Bereich liegt.
[/quote]

Der Effekt liegt so niedrig nach unserer Überzeugung. Die Verfechter der "Meine Lieblingsengine braucht mehr Zeit"-Theorie gehen bestimmt nicht von einstelligen Elozahlen aus ...

[quote="Thomas Mayer (Quark)"]
Ich glaube übrigens an Deine untere Schwellwert-Theorie, meines Erachtens hat allerdings die ART der Zeitkontrolle einen viel größeren Einfluß. 5+3 dürfte vom Zeitaufwand ähnlich wie 6+0 sein oder evtl. 40 in 4 -
[/quote]

Das täuscht. ich habe auch mal gedacht ich bin 5 + 3 schneller durch. Hier mal eine Rechnung:

Statistik aus meiner aktuellen Datenbank:

Und nun die Rechnung:

2 Engines * (300s + 3s*67)= 1002s oder 16 Minuten und 42 Sekunden. Es ist also mehr als ein 8 + 0 und mehr als 30% von einem 6 + 0 weg.
Ich gebe dir aber Recht, ein "Sudden death" is eventuell interessanter. Würde ich heute meine Liste nochmal anfangen würde ich wahrscheinlich ein 7 + 1 spielen lassen.

[quote="Thomas Mayer (Quark)"]
... vergleicht man CEGT 40 in 4 und Deine Rangliste, dann ist der Unterschied nicht allzu groß ...
[/quote]

Sowohl CEGT 40/4 und noch mehr CCRL 40/4 haben die größten Abweichungen zu meiner Liste. Wenn man einen Satz von Engines anpasst merkt man, das einige Engines sogar doppelt ausserhalb der Errorbars liegen. Bei allen Listen (CEGT,CCRL,SSDF) ab meinem 5 + 3 und länger habe ich im Moment keine Abweichungen die ausserhalb der 95% liegen! Das muß man aber schon in eine Excelliste eintragen, die durchschnittliche Eloabweichung berechen, Enginerating anpassen und dann vergleichen (Habe hier viel gelernt dank unserem Mathelehrer

). Mit dem bloßen Auge sehe ich nichts, da gebe ich dir Recht.

Gruß und Danke für dein ausführliche Meinung
Ingo

By Werner Schüle Date 2010-07-27 18:27

Hallo Ingo,
nur zur Info - auch bei CEGT wurde mal versucht, die Engines bei 40/120 und 40/20 zu vergleichen. Damals hatte Deep Junior die größte Abweichung (+) bei der 40/120.
Ich hab diese Liste mal im Dezember 2009 aktualisiert - Deep Junior 10 2CPU lag damals dann nur noch 10 Punkte vorne in der 40/120. Leider wird unsere 40/120 derzeit nur sehr langsam aktualisiert, so dass solche Vergleiche nicht mehr gemacht werden können (bei allen bekannte Ungenauigkeiten...).

Gruß
Werner

By Ingo Bauer Date 2010-07-27 19:04

Moin Werner,

Ja, wenn man mal in die sehr langen Zeitkontrollen sieht (CEGT und CCRL), fällt auf, dass die Vergleichsmöglichkeiten dünn gesäht sind. Deswegen beziehe ich mich auch immer auf 40/4 und 40/20 bzw 40/40. Aber selbst da sind die interessanten Engines fast nie durchgängig überall getestet. Als Kritik sei gesagt das (nicht nur bei euch) dem "Ich habe mal mit Enigne X angefangen"-Prinzip, das persönlichen Neigungen folgt, leider ein wenig Systhematik fehlt.

Anonsten und viel wichtiger: 10 Elo bei eurer Partienanzahl hat welche Aussagekraft? Lohnt sich eine solcher Aufwand für eine zweite oder dritte identische Rangliste?
(Es ist natürlich etwas anderes wenn man hochwertige Partien sehen will ...)

Gruß
Ingo

By Ernst Happe Date 2010-07-27 20:02

hi ingo,

ich würde es anders machen. nicht doppelte bedenkzeit, sondern 10 fache bedenkzeit!

aus meinen beobachtungen von stellungsanalysen ist es bestimmt besser so.

ernst

Houdini 1.03a	2	9%
Deep Rybka 4	1	5%
Stockfish 1.8	3	14%
Naum 4.2	0	0%
Komodo 1.2	0	0%
Deep Shredder 12	0	0%
Critter 0.70	0	0%
Deep Fritz 12	0	0%
HIARCS 13.1	1	5%
Zappa Mexico II	10	45%
spark-0.4	0	0%
Protector 1.3.2	0	0%
Onno 1-1-1	0	0%
Deep Sjeng WC2008	0	0%
Deep Junior 11.2	5	23%