Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Spike 1.4 Leiden, verlor von 1.000 auf 2.000 Partien ...
- - By Frank Quisinsky Date 2011-05-09 23:43 Edited 2011-05-09 23:47
Hallo,

Clemens wird lesen
Er verfolgte offensichtlich sehr genau die Spike 1.4 Ratings in der SWCR !!

Nun hat Spike 1.4 Leiden w32 zunächst 1.000 Partien in der SWCR-32 gespielt. Da eine Vergleichsengine (keine x64 Engine) spielt Spike 1.4 Leiden auch in der SWCR-64 die 1.000 Partien und verlor ca. 10 ELO von Partiennummer 1.000 auf 2.000 (spielte also in rein in der SWCR um ca. 15-20 ELO niedriger als in der SWCR-32). Nehme ich rein den Wert vom SWCR-64 Turnier, liegt Spike 1.4 Leiden dort wo wir die Engine auch in der CEGT oder bei IPON finden. Die Listen wären sich alle drei sehr einig. Warum also nach den ersten 1.000 SWCR Partien der deutlich höhere Wert als bei CEGT oder IPON?

Wir könnten es uns einfach machen und sagen ... ErrorBar nach 1.000 Partien aber das ist Quatsch immer alles auf die Error Bar zu schieben. Denn nach 1.000 Partien 10 ELO Abweichung zu haben, das passiert zu selten, nach interner Statistik bei 28 Fällen 1x. Also Gründe suchen und diese sind augenscheinlich.

Spike 1.4 Leiden hat einen Angstgegner und das ist Rybka 4.1. Und mithin auch deutlich weniger Punkte gegen IvanHoe und Houdini. Alle drei Engines, also Rybka, IvanHoe und Houdini spielten bei letzten SWCR-32 Turnier nicht mit. Das heißt, dass Rating nach 1.000 Partien wurde ermittelt ohne 120 Partien (3x 40 gegen den Angstgegner).

Gerade mal eine kleine Statistik gefertigt. Würde ich die Partien beim laufenden SWCR-64 Turnier gegen Houdini, IvanHoe und Rybka löschen, hätten wir noch eine Abweichung von 4 ELO. Das schaut schon eher realistisch aus.

Keine Ratingliste ist perfekt und die Auswahl der eingepickten Engines ist schwierig, weil ich ja viele Gemüter abdecken möchte. Aber selbst bei guter Planung passieren solche Dinge und insofern mal wieder ein Anzeichen dafür, dass die Ratinglisten ... egal wie viele Partien ... auch immer ein wenig mit Vorsicht zu genießen sind. Auch egal wie viele Gegner, wichtig sind verschiedene Gegner. Meiner Meinung noch viel wichtiger als irgend wann mehr Partien spielen zu lassen (hatte mehrfach berichtet).

Mit diesem Fall von Spike 1.4 Leiden haben wir ein schönes Beispiel. Auch wenn es hier nur um 10 ELO geht aber 10 ELO Abweichung sind nach 1.000 Partien schon eine Menge Holz.

Genug für heute ...

Grüße an Clemens
Frank
Parent - - By Benno Hartwig Date 2011-05-10 07:19
[quote="Frank Quisinsky"]Spike 1.4 Leiden hat einen Angstgegner und das ist Rybka 4.1.[/quote]Wie meinst due 'Angstgegner'. Dass Spike unterlegen ist, verwundert sicher niemanden. Aber ist Spike im direkten Vergleich stärker unterlegen als es der ELO-Differenz entspricht?
Benno
Parent - - By Frank Quisinsky Date 2011-05-10 07:21
Hi Benno,

stärker unterlegen als die ELO-Differenz entspricht!

Viele Grüße
Frank
Parent - - By Benno Hartwig Date 2011-05-10 09:04
[quote="Frank Quisinsky"]stärker unterlegen als die ELO-Differenz entspricht![/quote]Interessant.
Wenn ich auf CEGT gucke, finde ich dass Spike 1.4 gegen Rybka 4 ganz vernünftig punktet:
http://www.husvankempen.de/nunn/40_40%20Rating%20List/40_40%20All%20Versions/46.html (sehr stark)
http://www.husvankempen.de/nunn/40_40%20Rating%20List/40_40%20All%20Versions/56.html (etwas unterdurchschnittlich)
Und R4.1 ist doch nicht so viel anders als R4, oder?
Hier erkenne ich den Angstgegner nicht.

Benno
Parent - - By Thomas Müller Date 2011-05-10 10:21
Hi Benno,

dein erster Link verweist auf die 6x core von spike gegen gegner mit 4x core
6 vs 4 ist evtl. ein kleiner vorteil für spike
Oder was wolltest du jetzt vergleichen?

gruß thomas
Parent - - By Benno Hartwig Date 2011-05-10 23:51
[quote="Thomas Müller"]dein erster Link verweist auf die 6x core von spike gegen gegner mit 4x core
6 vs 4 ist evtl. ein kleiner vorteil für spike [/quote]Wirklich?
Spike hat größere Gewinnchancen, aber auch einen Gegner mit weniger ELO.
Interessant ist eben, dass gerade gegen diesen Gegner (und seine vglw. wenigen ELO) solch ein gutes Spike-Rating herauskam.
Dies sollte gegen schwächere Gegner (mit weniger ELO) nicht höher erwartet werden können als gegen stärkere (mit mehr ELO)
"Du musst gegen den Schwächeren halt wirklich mehr gewinnen, um auf dasselbe ELO-Rating zu kommen!" Und ob das nun einfacher ist?

Benno
Parent - By Frank Quisinsky Date 2011-05-12 21:36 Edited 2011-05-12 21:38
Hi Benno,

schaue mal auf News 198. Enthalten ist ein kleiner Spießroutenlauf den Spike während der Durchführung meiner Wartungspartien spielt.
680 neue Spike Partien und bei den Gegnern dabei (Fire, Rybka, Houdini und IvanHoe) ... und das Rating fällt für diese 600 Partien runter.
Gleiches Bild wie Eingangs zum Posting nach 1000 SWCR-64 Partien mit diesen Gegnern oder 1.000 SWCR-32 Partien ohne so viele von diesen Gegnern.

Durch das Abtesten in der SWCR-32 ohne diese Gegner war das Rating definitiv um 15 ELO zu hoch, obwohl so viele Partien und so viele Gegner. Der Aufhänger von dem Posting!

Insofern ganz interessant was dabei herauskommt wenn ich aus der SWCR Datenbank sämtliche Rybka, Houdini, IvanHoe, Fire, Stockfish Partien lösche. Aber diese Engines gehören nun mal dazu, ist der aktuelle Stand der Dinge. Und leider, das sind Beeinflussungsfaktoren bei egal welcher Ratingliste die wirklich kaum reguliert werden können (es sei denn ich weiß es und setzte Engines gezielt nicht ein). Insofern auch die Kernaussage ... ob nun 5.000 oder 1.000 Partien gespielt sind, Rating kann sich durchaus in höheren Bereichen verändern wenn plötzlich komplett andere Gegner eingesetzt werden. Die Statistik spielt uns hier einen Streich.

Gruß
Frank
Parent - - By Werner Mueller Date 2011-05-10 07:33
[quote="Frank Quisinsky"]
...
Aber selbst bei guter Planung passieren solche Dinge und insofern mal wieder ein Anzeichen dafür, dass die Ratinglisten ... egal wie viele Partien ... auch immer ein wenig mit Vorsicht zu genießen sind. Auch egal wie viele Gegner, wichtig sind verschiedene Gegner. Meiner Meinung noch viel wichtiger als irgend wann mehr Partien spielen zu lassen (hatte mehrfach berichtet).

Mit diesem Fall von Spike 1.4 Leiden haben wir ein schönes Beispiel. Auch wenn es hier nur um 10 ELO geht aber 10 ELO Abweichung sind nach 1.000 Partien schon eine Menge Holz.
...
[/quote]
Halllo Frank,

verstehe gar nicht, warum Du immer wieder auf dieser Binsenweisheit (so als würdest Du ständig posten, man solle nicht nur mit 'Spanisch' oder 'Sizilianisch' testen) herumreitest.

Ratinglisten sind IMMER mit Vorsicht zu genießen, d.h. zu interpretieren. Eine (Deine, aber wohl nicht nur Deine) Falschinterpretation ist jedenfalls, dass eine Ratingliste leisten könne oder gar müsse, eine Ratingzahl im Prinzip beliebig genau (sozusagen als Naturkonstante) ermitteln zu können. Kann sie aber nicht weil diese Ratingzahl keine der Engine eingebrannte Größe ist und sein kann.

Stell Dir in Deinem Beispiel mit Spike nur mal 10 ungeborene Programmierer vor, mit ihren 10 somit ungeschriebenen Programmen, welche (warum nicht?) sämtlich Angstgegner von Spike gewesen wären und nun in Deiner Engine-Auswahl zwangsläufig fehlen.

Die Testumgebung ist das eine - und die wirst Du rein prinzipiell NIE optimal (in dem Sinne, dass die Ratingzahl als eine Art Naturkonstante zu betrachten wäre) hinbekommen. Und die ErrorBars sind das andere - sie haben 'Aussagekraft' innerhalb dieser (und nur dieser) Testumgebung und ihre Größe folgt nicht irgendeinem Voodoo-Zauber oder Laola-Wellen sondern statistischen Gesetzen.

Grüße, Werner
Parent - - By Benno Hartwig Date 2011-05-10 08:45 Edited 2011-05-10 08:48
[quote="Werner Mueller"]Kann sie aber nicht weil diese Ratingzahl keine der Engine eingebrannte Größe ist und sein kann.[/quote]Klar, ein wenig problematisch ist dieser Begriff 'die Ratingzahl einer Engine' schon.
Was könnte eigentlich 'die ideale Ratingzahl einer Engine' sein, deren Ermittlung dann möglichst genau angestrebt werden könnte?

Gedankenversuch:
Ich stelle mir das 'Universum aller realen Schachengines' vor, und versuche die Stärke der zu ratenden Engine in diesem Universum darzustellen.
Was ergäben die ELO-Berechnungen, wenn jede Engine gegen jede andere 1.000.000 antregen würde.
(was müsste hier 'aller' sein? Müssten die Engines, die kaum die Regeln beherrschen dabei sein?)

real:
Und dann versuchen wir mit kleineren Engine-Runden und weniger Partien einen möglichst guten Schätzwert für diese 'ideale Ratingzahl' zu erwischen.

Klar, und mit jeder neu erscheinenden Engine ändert sich das ELO-Gefüge.
Die Ratingzahl ist, wie du richtig sagst, der Engine nicht eingebrannt.
Sie ist aber kein gar zu schwammiges Gebilde. Nur die praktischen Schätzungen dieser Zahl sind bisweilen schwammig/fragwürdig/ungenau.

Benno
Parent - - By Werner Mueller Date 2011-05-11 08:55
[quote="Benno Hartwig"]
[quote="Werner Mueller"]Kann sie aber nicht weil diese Ratingzahl keine der Engine eingebrannte Größe ist und sein kann.[/quote]Klar, ein wenig problematisch ist dieser Begriff 'die Ratingzahl einer Engine' schon.
Was könnte eigentlich 'die ideale Ratingzahl einer Engine' sein, deren Ermittlung dann möglichst genau angestrebt werden könnte?

Gedankenversuch:
Ich stelle mir das 'Universum aller realen Schachengines' vor, und versuche die Stärke der zu ratenden Engine in diesem Universum darzustellen.
Was ergäben die ELO-Berechnungen, wenn jede Engine gegen jede andere 1.000.000 antregen würde.
(was müsste hier 'aller' sein? Müssten die Engines, die kaum die Regeln beherrschen dabei sein?)

real:
Und dann versuchen wir mit kleineren Engine-Runden und weniger Partien einen möglichst guten Schätzwert für diese 'ideale Ratingzahl' zu erwischen.

Klar, und mit jeder neu erscheinenden Engine ändert sich das ELO-Gefüge.
Die Ratingzahl ist, wie du richtig sagst, der Engine nicht eingebrannt.
Sie ist aber kein gar zu schwammiges Gebilde. Nur die praktischen Schätzungen dieser Zahl sind bisweilen schwammig/fragwürdig/ungenau.

Benno
[/quote]
Nein (da sind wir uns einig), die Ratingzahlen sind kein 'schwammiges Gebilde' und die gängigen Listen jedenfalls halte ich ganz bestimmt nicht für 'schwammig/fragwürdig/ungenau'. Wäre ja auch seltsam, wenn alle mehr oder weniger und unabhängig voneinander auf denselben Unsinn kämen. Mein persönlicher Favorit ist übrigens Ingos Liste, vor allem weil quasi mit Erscheinen einer interessanten Engine das Testergebnis schon vorliegt.

Zu Deinem Gedankenexperiment - da fällt mir wieder Strauß ein: 'Lieber ungefähr richtig, als exakt falsch'.

1 Million Partien jeder gegen jeden: wenn die durch diese Partienzahl minimierten ErrorBars noch irgendeine Bedeutung außerhalb der Testumgebung haben sollen, stellst Du an die Güte dieser Testumgebung rein prinzipiell nicht erfüllbare Forderungen (die zu treffende Auswahl der Engines ist zudem nur ein Punkt unter beliebig vielen).
Und wenn Dir das noch nicht genügt: z.B. ist die Elosche Theorie (welche ja MIT Grundlage der Berechnungen ist) ein mathematisches Modell. Und wie jedes Modell kann man es überstrapazieren so dass Blödsinn dabei herauskommt, im Extremfall etwa durch Teilnahme Deiner 'Engines, die kaum die Regeln beherrschen' (meintest Du Rybka? ).
Parent - - By Michael Scheidl Date 2011-05-11 16:10
Bei alldem mache ich mir fast Sorgen, ob die fleißigen Tester tatsächlich selbst noch ihren Spaß an der (allzu?) intensiven, dankenswerten Tätigkeit haben. Von der Warte des Publikums aus würde ich persönlich nie den Anspruch stellen, unbedingt ein "hochgenaues" Rating jedweder Engine zu erhalten. Das bringt wenig, weil die meisten Engines kurzfristige Updates erhalten. Die kommerziellen Engines werden zwar seltener neu aufgelegt, aber deren Ratings werden ja quasi automatisch genauer, weil bestimmte Versionen dann langfristig in Gebrauch sind.

Sehe ich das bisher richtig, daß die Errormargins eine 95%-Wahrscheinlichkeit beschreiben? Also mit anderen Worten, daß sogar ein 5%-Restrisiko sozusagen besteht daß das "echte" Rating trotzdem außerhalb dieser Bereiche liegt? Lohnt es sich dann überhaupt, die Margins gezielt und aufwändig auf einstellige Werte zu bringen?

Ohne für andere sprechen zu sollen - von denen mehrere das jedoch möglicherweise ähnlich sehen - meine ich, daß man hier sicherlich etwas großzügiger sein kann, wenn sich die Tester ohnehin schon soviel Arbeit machen. Ich finde +/- 20 schon sehr gut und informativ genug. Ich erwähne es nur damit da keiner in eine Streßfalle oder so läuft. Und das noch dazu im Sommer; hoffentlich sind die Kühlsysteme überall gut dimensioniert.

Wenn es andererseits jemand (als Tester selbst) wirklich genauer wissen will, und größtes Vergnügen dabei hat dem nachzuforschen, sei es ihm natürlich umso mehr vergönnt. Ohne diese Begeisterung würden wir die Stärke vieler Engines gar nicht kennen, oder müßten diese am Ende noch selber testen (uff...) 
Parent - - By Thomas Müller Date 2011-05-11 16:18
Ich selbst erstelle eine kleine rangliste.
Mit reichen z.Z 250-350 partien um ein erstrating zu erstellen.
Ob eine engine jetzt 2700 oder 2727 hat ist mir pers wurscht.
Mir reicht eine grobe richtung....ok die engine hat um die 2700 und bewegt sich auf dem niveau von engine xyz.
Je nach testumgebung kommt eh immer was anderes raus. Auch die listen direkt zu vergleichen ist schwer.
Aber es fällt trotzdem auf, dass trotz dieser ganzen unterschiedlichen bedingungen die reihenfolge sozusagen immer gleich ausfällt!
Houdini, Rybka, Stickfish, Critter, Naum usw.....
Wozu muss ich das noch genauer bis auf das kleinste elo wissen ?!?

Gruß thomas
Parent - - By Frank Quisinsky Date 2011-05-12 21:28
bei 250-300 Partien hast Du in 1 von 15 Fällen eine Abweichung größer als 50. Das ist schon sehr heftig. Einen echten Sprung in meinen Excel Auswertungen hast Du bei ca. 420 Partien. Liegen Dir 420 Partien vor hast Du die angestrebte Genauigkeit von ca. 25 ELO. Recht hast Du mit der Aussage, das z. B. ein Rating auf 25 ELO genau wirklich ausreicht als Informations-Weitergabe.

Selbst schaue ich mir also auch gerne Ratinglisten an bei denen die Engines also ca. 400 Partien aufwärts gespielt haben.

Wolfgang Battig schrieb z. B. ...
Eine 32bit Engines spielen jetzt mal 500 CEGT Partien.
Reicht, um die Liste vernünftig und passend in die CEGT zu integrieren.

Du schreibst ...
Houdini, Rybka, Stockfish, Critter, Naum ...

Richtig wäre ...
Houdini, Rybka, IvanHoe, Stockfish, Critter, Komodo, Naum
Komodo und IvanHoe sind noch dazwischen und der Unterschied von Komodo zu Naum beträgt ca. 10 ELO.
Um das zu messen sind dann wirklich mehr Partien notwendig.

Aber die Aussage ...
Komodo und Naum liegen auf einem Level oder Rybka und IvanHoe liegen auf einem Level, oder Stockfish und Critter liegen auf einem Level ist ausreichend. Also es erkannt werden wenn ca. eine 25er Stufe vorhanden ist und bei der Betrachtung aller Ratinglisten wird es sehr deutlich.

Wir wissen das Komodo und Naum auf einem Level liegen.
Ob jetzt in Liste A nach 4.000 Partien 8 vor oder in Liste B nach 400 Partien 6 hinter ... ist Schei...egal!

Gruß
Frank
Parent - By Thomas Müller Date 2011-05-13 08:58
klar bei 500, 1000 oder 3734 wirds genauer.
Mir reichen aber für einen ersten blick ca. 300...der rest kommt dann bei mir im laufe der zeit auch dazu.
Die meisten haben schon über 400, Houdini hat sogar schon über 1000
Benutze ja nur meinen einen ollen Quadcore dafür...da geht nicht mehr.

Komodo...ist leider immer noch single und da ich mit 4-core teste ist die 100 elo weg von naum auf platz 12.
Kommt auf die betrachtungsweise an. SMP ist für mich ein muss in der heutigen zeit. Von dem her etwas schade bei komodo.
Aber die SMP wird kommen und dann ist es eine top 5 keine frage.

gruß thomas
Parent - By Frank Quisinsky Date 2011-05-12 21:11
Hallo Michael,

Sorgen musst Du Dir wirklich nicht machen

Aus meiner Sicht der Prioritäten:

- soll Spaß machen, in meinem Fall ... kann jederzeit bei einer der acht laufenden Partien zuschauen (gewählte Bedenkzeit reicht aus).
- spiele gerne mit Excel rum und habe reichlich Material.

Diese beiden Gründe sind so gewaltig, dass hier ganz klar das eigene Hobby-Interesse zu stark vordergründig ist.

Was nervt sind z. B. viele Updates gleicher Engines. Aber durch das SWCR System werden diese Dauerbrenner dann immer wieder berücksichtigt.

Und zur Arbeit:
- Mal weniger und mal etwas mehr. Je nachdem was ich gerade so spielen lassen. Bei den langen Turnieren bringe ich hier und da mal eine neue Ratingliste auf die Seiten und dafür benötige ich rund 15 Minuten.
- Zu prüfen sind regelmäßig ob Partien auf Zeit verloren wurden, denn diese werden direkt wiederholt. Da muss etwas konfiguriert werden.

Und wenn ich etwas machen möchte, auch die Zeit habe schreibe ich einfach eine oder ein paar News. Nicht jede ist immer interessant

Genauigkeit:
Also wenn ich nicht versuchen würde mit den geringsten Mitteln den größtmöglichen Erfolg zu erzielen würde die Arbeit hinsichtlich der Genauigkeit der Liste, hinsichtlich der Statistiken die ich mir so erstelle weniger Spaß machen. Dann würde einer meiner beiden Spaßfaktoren wegfallen. Natürlich versuche ich neues herauszufinden (Spieleigenschaften, Erkenntnisse zu Ergebnissen, Fehler bei Engines finden etc..). Und wenn mal weniger Lust vorhanden ist oder natürlich auch Zeit beschränke ich mich auf die Updates der Liste.

Kühlsysteme:
Übertakte nicht, verbaut sich die hochwertigsten Komponenten hinsichtlich Kühlung und Netzteil und so stromsparend wie möglich. Die SWCR Rechner laufen problemlos vor sich hin.

Und natürlich sollen interessierte an den Ergebnissen teilhaben. Können die Partien laden, im Falle der SWCR versuche ich jegliche Informationen (sofern nicht zu aufwendig zu erstellen) zur Verfügung zu stellen. Wir haben mit der CEGT und IPON ja gute Listen aber beide decken nicht das ab was mir wichtig ist, dafür viele andere Dinge:

32bit: Denke was die TOP-Programme angeht hat die SWCR mittlerweile die meisten Ergebnissen. Hinsichtlich der 32bit Zuwachsberechnung die zuverlässigsten Ergebnisse.
64bit: Alles was in den letzten fast 2 Jahren kam und vorne lag wurde getestet, neuere noch nicht getestete Versionen werden getestet.

IPON:
Vorteil, Hälfte der Zeit, Ingo setzt mehr Hardware ein ... schnelle Ergebnisse.

CEGT:
Die vielen Amateure dazu und die Ergebnisse bei mehr als einen Core.

Insofern haben die meines Erachtens interessantesten Listen (zähle meine so langsam dazu ohne das ich überheblich wirken möchte) alle Besonderheiten und können je nach Interesse des Beobachters zum Abruf von benötigten Informationen dienen.

Also Michael ...
Keine Sorgen machen, mir macht es Spaß und Hektik gibt es bei mir nicht. In der SWCR wird kontinuierlich nach einem klar strukturierten Plan getestet. Ob ich dabei Spark - Critter sehe oder ProDeo - AnMon ... ich habe an diesen Partien meinen Spaß und das steht zunächst mal an erster Stelle.

Bei der SWCR haben wir jetzt eine Mindestpartiezahl von 1.000. Das heißt zukünftig wird jede aufgenommene Engine mindestens 1.000 spielen. 1.000 Partien : 40 Partien pro Match = mindestens 25 Gegner (nie gleiche Versionen von einem Programm).

Damit erreiche ich nicht unbedingt Traumwerte bei der erzeugten ELO (Ingo ist näher dran) aber die Abweichungen bewegen sich (auf 100 gesehen) bei derzeit:

60 Engines schwanken um 5 ELO
32 Engines schwanken um 10 ELO
6 Engines schwanken um 15 ELO
2 Engines schwanken um 20 ELO

Bis Partiennummer 1.000. Also deutlich unter den Ausgaben der ErrorBar die ca. bei 20 ELO und 1.000 gespielten Partien liegt. Diese Werte sind sehr gut weil sich das erstellte Buch mit Bestnoten eingeführt hat. Weil ausreichend Gegner vorliegen und weil eine klare Struktur vorliegt. Mit den Ergebnissen bin ich mehr als zufrieden und schon über das eigentliche Ziel an gewünschter Genauigkeit hinweg. Freut mich natürlich besonders.

Jetzt da die Aufbauarbeit mehr oder weniger abgeschlossen ist wird die SWCR erst richtig Ihre Stärke unter Beweis stellen. Also, Genauigkeit ist erreicht, jetzt geht es darum die Liste auf mehr Engines auszubauen, schneller und später aktueller zu werden.

Und die Arbeit ...
Ja die wird jetzt immer weniger und nicht mehr!
Steht ja alles!

Gruß
Frank
Parent - - By Benno Hartwig Date 2011-05-11 20:57
[quote="Werner Mueller"]...stellst Du an die Güte dieser Testumgebung rein prinzipiell nicht erfüllbare Forderungen[/quote]Ja. Und genau das finde ich auch gar nicht schlimm. Wenn man sich nur darauf geeinigt hat, dass dieses praktisch unerreichbare Ergebnis das Ideal darstellt oder ihm sehr nahe kommt, kann man eben überlegen, mit welchen praktikablen Ansätzen man eine möglichst gute Schätzung dieses idealen Ratings hinbekommt.

Wenn A unter bestimmten Rahmenbedingungen gegen B spielt, gäbe es einen Erwartungswert für die Punkteausbeute von A.
Und praktisch könnten wir diesen Wert nicht exakt bestimmen.
Aber das Gedankenexperiment mit 1.000.000 Partien käme diese sehr nahe, würde das Ideal schon gut beschreiben.
So meinte ich meinen Vorschlag.

Benno
Parent - By Frank Quisinsky Date 2011-05-12 21:20
Ja. Und genau das finde ich auch gar nicht schlimm. Wenn man sich nur darauf geeinigt hat, dass dieses praktisch unerreichbare Ergebnis das Ideal darstellt oder ihm sehr nahe kommt, kann man eben überlegen, mit welchen praktikablen Ansätzen man eine möglichst gute Schätzung dieses idealen Ratings hinbekommt.

So ist es Benno! Sehr pragmatisch aber wenn dieses Ziel nicht vorhanden wäre würde der Statistik-Part wegfallen. Die Kombination aus "Ich schaue zu und habe Spaß" in Kombination mit "Ich kann anschließend Excel quälen" ist schon nicht schlecht, gefällt mir.

Verstehe allerdings Dein Vorschlag nicht so richtig.

Du kannst sehr schöne Statistiken erstellen indem Du die Partien einfach verdoppelst. Also z. B. 10x 100.000 SWCR Partien in eine Datenbank kopierst. Zumindest für die Wahrscheinlichkeitsberechnungen sehr interessant, denn diese verändern sich kaum, meine echte 1.000.000 Partien zu haben oder "lediglich" 100.000 Partien.

Und Dir viel Spaß mit IPON. Auch IPON hat seinen Reiz. Für mich selbst ist die eigene Liste die uninteressanteste von IPON / CEGT / SWCR. Ganz einfach, hinsichtlich Statistiken und Auswertungen ist ja schon alles bis zum Exzess ausanalysiert wurden. Insofern schaue ich selbst mehr bei IPON oder CEGT gezielt Ratings an als bei der SWCR (die habe ich alle im Kopf)

Gruß
Frank
Parent - By Frank Quisinsky Date 2011-05-10 18:02
Hallo Werner,

lassen wir die ErrorBar jetzt mal außen vor.
Stimme Dir eigentlich mit dem was Du schreibst zu.

Dennoch ist es schon spannend zu versuchen etwas herauszuarbeiten, Ergebnissen auf die Spur zu gehen. Und selbst wenn fragwürdiges dabei heraus kommt entstehen neue Gedankengänge, neue Ideen werden geboren. Sinn und Zweck ist es natürlich auch etwas bestehendes weiter zu verbessern.

Schöner Nebeneffekt, denn nach wie vor ... zusehen bei den Matches bereitet am meisten Spaß. Statistik ja klar, willkommen, macht mir auch Spaß. Hinzu kommt die Analyse, Forscherdrang und selbst wenn nur ein alter Pfennig gefunden wird und der Goldtaler ausbleibt

Viele Grüße
Frank
Up Topic Hauptforen / CSS-Forum / Spike 1.4 Leiden, verlor von 1.000 auf 2.000 Partien ...

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill