Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Gleiches mit Gleichem vergleichen ... Sinn einer Ratingliste
- - By Frank Quisinsky Date 2009-11-23 15:55 Edited 2009-11-23 16:03
Hi,

ist es nicht der Sinn einer Ratingliste gleiches mit Gleichem zu vergleichen.

Eine Ratingliste für Chess-Engines sollte die Performance der Engines vergleichen.
Wichtig ist doch hierbei in erster Linie festzustellen, wo die spielstärkemäßigen Unterschiede der Engines liegen.

Werde das niemals richtig verstehen, wie alles mögliche vermischt werden kann.
Wenn vermischt wird, ist es kein direkter Vergleich mehr.

Sehe ich das falsch ?

Wenn Zeitfaktoren wie 1 Core, 2 Cores, 4 Cores oder 64Bit miteinander vermischt werden, könnten auch
Zeitfaktoren wie die Bedenkzeit oder Ponder = on / off miteinander vermischt werden.
Im Grunde ist das nichts anders !!

Das Ergebnis ist so oder so kein genauer Vergleich !!

Ich kann nur etwas vergleichen was "gleich" ist.
"Gleich" wären bei Engines die Bedingungen ...

Alle mit:
1 Core oder 2 Cores oder 4 Cores
32Bit oder 64Bit
gleiches Buch, Vorgabestellungen etc.
gleiche Anzahl von Partien
die gleichen Endspieldatenbanken

Gibt meines Erachtens nur eine Ausnahme:

Die Hash-Tabellen ... wobei diese auch nur bedingt wichtig sind.

Wenn eine Engine z. b. nach 3 Minuten 512Mb füllt, ein andere Engine nur 256Mb füllt kann das differenziert eingestellt werden.
Ob das dann viel ausmacht ist eine andere Frage, eher im Endspiel wenn die Tabellen zu klein sind.

Ein Betreiber einer Ratingliste prüft das ...
Schaut sich an wie schnell bei der verwendeten Zeit die Hash-Tabellen gefüllt werden.
KLAR !!

Problematisch maximal die Engines bei denen das nicht ersichtlich ist. Es gibt einige UCIs die die Anzeige (Füllung der Hash-Tabellen) unterschiedlich nutzen.
Dann muss das anhand von vielleicht 2-3 Endspielstellungen mühsam getestet werden.

Viele reden ja von der "perfekten Ratingliste".
Diese wird es schon deswegen nicht geben weil die Meinungen zu vielen der Punkte strittig ist.

Für mich sind auch viele Dinge klar die für andere nicht klar sind.

Wird ja in diesem Thread schon offensichtlich !!
Warum wird nicht gleiches mit Gleichem verglichen.

Dafür möchte ich mal eine plausible Antwort lesen.

Wahrscheinlich ist es so, dass Personen ungern auf bereits gespielte Partien verzichten.
Aber das ist Quatsch !!

---

Die Frage in diesem Thread lautet:
Wenn wir gleiches nicht mit Gleichem vergleichen dürfen wir dann überhaupt von einer Ratingliste sprechen ?
Denn ... es hapert an der Vergleichbarkeit !!

Dann könnten wir z. B. auch:
Eine Ratingliste mit den schnellsten Autos ins Leben berufen. Welches Auto ist schneller.
Auto 1 hat andere Reifen als Auto 2 ... wenn dann alle mit den gleichen Reifen ... wie die Leistung vom Motor ausschaut ist hier egal.
Aber die Leistung vom Motor kann dann sehr schnell fallen wenn andere Reifen verwendet werden.

Teste doch hier auch nicht auf 195er Reifen und 135er Reifen.
Sondern dann alle mit 195er Reifen.

Ganz ehrlich ...
Ohne jemand zu Nahe zu treten ...

Selbst Experten werden bei diesem Thema meines Erachtens "Computerschachblind".

Und warum ?

Auch offensichtlich !!

Weil neben einer Computerschach-Engine auch ein Computer notwendig wird.
Niemand der hier z. B. ein 64Bit Betriebssystem gekauft hat wirft es runter und installiert ein 32Bit Betriebssystem.
So werden Argumente gesucht, die z. B. mich aber alle nicht überzeugen !!



Wer will als x64 OS-Nutzer auf Hiarcs 12.1 verzichten nur weil Hiarcs 12.1 keine x64 Unterstützung hat.
Aber ... gibt es Engine die nur x64 kompatibel sind ... NEIN !!
Also, unter OS mit 64Bit Support kann dann auch mittels 32Bit Engines getestet werden.

Wo liegt das Problem ?

Gruß
Frank
Parent - - By Gerhard Sonnabend Date 2009-11-23 16:07
Hi Frank !

[quote="Frank Quisinsky"]
ist es nicht der Sinn einer Ratingliste gleiches mit Gleichem zu vergleichen.
Eine Ratingliste für Chess-Engines sollte die Performance der Engines vergleichen.
Wichtig ist doch hierbei in erster Linie festzustellen, wie die spielstärkemäßigen
Unterschiede der Engines sind.
Werde das niemals richtig verstehen wie alles mögliche vermischt werden kann.
Wenn vermischt wird, ist es kein direkter Vergleich mehr.
Wenn Zeitfaktoren wie 1 Core, 2 Cores, 4 Cores oder 64Bit miteinander vermischt
werden könnten auch Zeitfaktoren wie die Bedenkzeit oder Ponder = on / off miteinander
vermischt werden.
Im Grunde ist das nichts anders !!
[...snip...]
[/quote]

Das ist Quatsch, sorry !
4CPU gegen 1CPU hat die selbe Berechtigung wie 32-Bit vs 64-Bit.
Denke mal an Fritz 12. Den gibts "nur" 32-Bit und auch nur "Single".
Weshalb nun sollte diese Engine nicht gegen 64-Bitter oder SMPs
spielen dürfen ? Solch ein Vergleich wäre (ist) vollkommen "normal".

Wer vermischt denn PB=off/on Resultate ?
Das wäre was total anderes als "1CPU vs 4CPU". Allerdings würde
bis auf minimale Abweichungen das selbe Resultat heraus kommen.
Das zeigen alle Tests bisher.

Viele Grüsse,
G.S.
Parent - - By Frank Quisinsky Date 2009-11-23 16:22 Edited 2009-11-23 16:27
Hallo Gerhard,

GS:
Das ist Quatsch, sorry !
4CPU gegen 1CPU hat die selbe Berechtigung wie 32-Bit vs 64-Bit.

FQ:
Richtig, aber nicht in einer Liste, sondern in hierfür gesonderten Listen zum Thema !!
Ganz einfach, weil der Zuwachs durch mehrere Cores oder x64 zu w32 nicht gleich ist.
Und da nicht gleich kann auch nicht verglichen werden.

GS:
Denke mal an Fritz 12. Den gibts "nur" 32-Bit und auch nur "Single".
Weshalb nun sollte diese Engine nicht gegen 64-Bitter oder SMPs
spielen dürfen ?

FQ:
Können die doch ... aber für eine Ratingliste ist das unwichtig.
Weil eine Ratingliste die Aufgabe hat zu vergleichen.

GS:
Solch ein Vergleich wäre (ist) vollkommen "normal".

FQ:
vergleichen und Vergleich !!
Die Wörter können unterschiedlich interpretiert werden.

Natürlich kannst Du 32Bit mit 64Bit vergleichen.

Gibst Du mir Recht das dieser Vergleich sinnvoller ist wenn folgendes passiert:

Ratingliste mit 20 Engines die sowohl mit w32 als auch mit x64 z. B. 1.000 Partien gegeneinander gespielt haben.
Dann kannst Du vergleichen ... aha Sjeng WC-2008 hat also 2.700 ELO bei w32 und 2.740 ELO mit x64.

Das ist dann sicherlich deutlich aussagekräftiger als wenn alles in einem Topf ist und auch noch durcheinander gegeneinander antritt.
Jedes dieser Matches verzerrt unnötig das Endergebnis.

Bei meinem Beispiel:
Dann wären die Bedingungen gleich und Du könntest wirklich "vergleichen".

GS:
Wer vermischt denn PB=off/on Resultate ?
Das wäre was total anderes als "1CPU vs 4CPU". Allerdings würde
bis auf minimale Abweichungen das selbe Resultat heraus kommen.
Das zeigen alle Tests bisher.

FQ:
Das wäre nichts anderes hinsichtlich es fließen Komponenten ein, die nicht miteinander vergleichbar sind.
Deswegen habe ich das ja geschrieben um deutlich zu machen das nichts anderes passiert.

Ob das nun w32 oder x64 ist oder 5 Minuten Blitz Partien mit 20 Minuten Pro Partie Partien vermischt werden.

Kenne ja Deine Meinung aber es sind so viele Tester mit so vielen Computern vorhanden.
Es macht Sinn mit neueren Erkenntnissen etwas besseres aufzubauen.
Nichts anderes passiert mit den Engines die wir testen ... die meisten treten auch nicht Jahre auf der Stelle !!

Wie gesagt kein Vorwurf ...
Aber ich persönlich werde das nie verstehen.
Parent - - By Gerhard Sonnabend Date 2009-11-23 16:47
[quote="Frank Quisinsky"]
[...snip...]
Gibst Du mir Recht das dieser Vergleich sinnvoller ist wenn folgendes passiert:
Ratingliste mit 20 Engines die sowohl mit w32 als auch mit x64 z. B. 1.000 Partien gegeneinander gespielt haben.
Dann kannst Du vergleichen ... aha Sjeng WC-2008 hat also 2.700 ELO bei w32 und 2.740 ELO mit x64.
Das ist dann sicherlich deutlich aussagekräftiger als wenn alles in einem Topf ist und auch noch durcheinander
gegeneinander antritt.
Jedes dieser Matches verzerrt unnötig das Endergebnis.
Bei meinem Beispiel:
Dann wären die Bedingungen gleich und Du könntest wirklich "vergleichen".
[...snip...]
[/quote]

Frank, der o.g. Vergleich würde genau so ausfallen wie er es heute bereits tut.

Abstrakt: es spielen "2 Zahlen" gegeneinander, die eine ist (ELO) 2700 und die
andere (ELO) 2750. Nach dem Match hat man ein Ergebnis. Das ELO-System ist sehr
gut für Engines geeignet (noch besser als für Menschen !), da diese ihre
Spielstärke bei entsprechendem Testaufbau (ohne Buch, ohne Lernen etc. etc.)
im Laufe der Zeit nicht verändern.
Ein "schlimmes" Beispiel für eine Liste ist z.B. die SSDF, da hier:

a.) unterschiedliche Hardware gegeneinander spielen "darf"
b.) unterschiedliche Bücher (sogar mit Lernwerten) benutzt werden

Und behaupte jetzt bitte nicht, dass unterschiedliche Hardware lediglich was mit
unterschiedlicher Zeit zu tun hat. Das wäre viel zu kurz gegriffen.

Ich würde es sehr begrüssen wenn Du und Andere endlich "Nägel mit Köpfen" machen
würden und Listen "nach Deiner Art" ins Leben rufen.
Nach eigener Zeit könnten wir dann miteinander vergleichen.

Viele Grüsse,
G.S.
Parent - - By Frank Quisinsky Date 2009-11-23 17:02
Hallo Gerhard,

GS:
Frank, der o.g. Vergleich würde genau so ausfallen wie er es heute bereits tut.

FQ:
Könnte in der Tat sein (muss aber nicht, glaube eher an "muss aber nicht") zudem ...
Wie würde es sich auf alle anderen Engines in der Liste niederschlagen.
Das ist die doch entscheidende Frage.

GS:
Abstrakt: es spielen "2 Zahlen" gegeneinander, die eine ist (ELO) 2700 und die
andere (ELO) 2750. Nach dem Match hat man ein Ergebnis. Das ELO-System ist sehr
gut für Engines geeignet (noch besser als für Menschen !), da diese ihre
Spielstärke bei entsprechendem Testaufbau (ohne Buch, ohne Lernen etc. etc.)
im Laufe der Zeit nicht verändern.
Ein "schlimmes" Beispiel für eine Liste ist z.B. die SSDF, da hier:

a.) unterschiedliche Hardware gegeneinander spielen "darf"
b.) unterschiedliche Bücher (sogar mit Lernwerten) benutzt werden

FQ:
Zustimmung !!
Und noch weitere Punkte ...
Die SSDF war nie für mich ein Maßstab ...
Erinnere mich noch an Ruffian oder Gandalf.
Die wurden gar über 100 ELO schwächer beurteilt als in allen anderen gängigen Listen.
Keine Ahnung was die SSDF seinerzeit getestet hat, aber egal.
Dort haben auch viele Leute Spass und das ist die Hauptsache !!

GS:
Und behaupte jetzt bitte nicht, dass unterschiedliche Hardware lediglich was mit
unterschiedlicher Zeit zu tun hat. Das wäre viel zu kurz gegriffen.

FQ:
Ist aber auch ein Punkt der zu der Liste der anderen Faktoren hinzu kommt.

GS:
Ich würde es sehr begrüssen wenn Du und Andere endlich "Nägel mit Köpfen" machen
würden und Listen "nach Deiner Art" ins Leben rufen.
Nach eigener Zeit könnten wir dann miteinander vergleichen.

FQ:
Besser wäre es noch wenn umdisponiert wird.
Vielleicht aufgrund der bisherigen Erkenntnisse die großen Listen überdacht werden und ein komplett neuer Aufbau erfolgt.
Das wäre mit Einsicht besser als jetzt weitere 200.000 Partien mit dem bestehenden Konzept hinzuzufügen.
Glaube auch das die Tester der Listen mehr Spaß daran hätten.

Gruß
Frank

PS:
Eine andere Frage die mich gerade stark beschäftigt ...
Fällt mir bei meinem Qualle Turnier auf.
Dort spielen derzeit 12 Engines,  jeder gegen jeden 20 Partien.
OK, sind nur 240 Partien aber ...

Jetzt kommen zwei neue Engines, zwei alte fliegen raus.
Plötzlich steht Engine x nicht mehr auf Platz 5 sondern auf Platz 8 !!
Nur weil völlig andere Gegner hinzukommen.
Das ist OK und nicht neu aber ...

Es stellt sich die Frage ...
Wie viele unterschiedlichen Programme sind überhaupt notwendig um eine klare Liste zu erstellen.

Anderes Beispiel:
Nehme ich CEGT oder CCRL Partien und picke nur 10 Engines heraus die gegeneinander gespielt haben.
Egal jetzt wie viele Partien ... können auch mehr als 1.000 sein.
Und kommen zwei neue hinzu ...

Und vorbei ist es mit der ErrBar denn diese zwei Engines können alles verändern.

Insofern für mich neu und derzeit interessant:

Frage:
Wie viele unterschiedliche Engines benötigt ein genauer ELO-Wert einer Engine ?

Daraus ergibt sich folgendes:

Bei einer Liste von 10 Engines müssen in der Tat dann 1.000 Partien pro Engine gespielt werden.
Bei einer Liste von 12 Engines müssen vielleicht nur 800 Partien pro Engine gespielt werden.
Bei einer Liste von 14 Engines müssen vielleicht nur 600 Partien pro Engine gespielt werden.

Wahrscheinlich ist das so !!
Nur zu sagen ...
Engine x hat 1.000 Partien gespielt und das Rating ist sicher ... ist zu flach wenn z. B. noch 10 Engines für die 1.000 Partien verwendet wurden.
Funktioniert so offenbar nicht !!

Kannst ja auch nicht hingehen und eine ELO-Liste mit 2 Engines machen.
Diese dann 1.000x gegeneinander antreten lassen und behaupten die ELO ist sicher )

Hast Du Dich mal mit dieser Frage beschäftigt ?

Gruß
Frank
Parent - - By Frank Quisinsky Date 2009-11-23 17:18
Hi,

Du schreibst:
Nägel mit Köpfen ...

Bin ja dabei, allerdings möchte ich nicht mehr veröffentlichen.
Keine Lust auf HTML Seiten und Diskussionen per eMail zu Ergebnis x oder y.

Bin aber gerne bereit, anderen die sich mit dem Thema wirklich beschäftigen Ergebnisse per eMail zu senden.

Gruß
Frank

Teste selbst mit:
32bit, 4-Steiner Nalimov, EGBBS, ShredderBases, 256Mb Hash, Shredder 12 GUI, Ponder = On, 40 in 10, Buch von Sedat Canbaz.
40 in 10 auf meiner Hardware ist CEGT Bedingung, allerdings spiele ich mit Ponder = on.

Musste schon viele Korrekturen durchführen.
40 in 20 dauerte mir zu lange.
So habe ich 1.600 Partien in den Müll geworfen.
Dann Remis anbieten und Aufgabe Funktion an.
Habe 500 Partien in den Müll geworfen weil z. B. eher zufällig zwei Engines im Mittelspiel bei vollem Brett und unklarer Stellung ... spannende Partien ... von der Shredder GUI als Remis abgebrochen wurden. Schrott !!
1x gesehen das Engine ohne TBs in Remisstellung aufgegeben hat weil -6 selbst angezeigt wurde. Aber falscher Läufer und Randbauer gewinnt nicht und die Aufgabe war unnötig.

Jetzt also mit 40 in 10 und gespielt wird bis zum Matt.
Besser würde mir gefallen wenn ich nach x Zügen abbrechen könnte. Habe schon eine 300, 299 Partie in der Datenbank die schon nach über 100 Zügen tot Remis war.
Schon x Partien über 200 Zügen und nur 4 davon wurden noch entschieden. Das sind gerade mal 1%. Shredder fehlt der Partieabbruch nach x Zügen.
Bin schon am Überlegen ob ich auf Arena wechsel aber die Shredder GUI gefällt mir auch gut und mit Arena will ich nicht wieder anfangen.

Das Buch ist der Schwachpunkt meiner Liste. Nicht weil das Buch von Sedat schlecht ist sondern weil der Shredder GUI die PGN-Random Funktion fehlt.
Nach allem was es gibt, halte ich PGN-Random ... auch nach sämtlichen Statistiken zum Thema ... für die realitätsbeste Testmethode.
Parent - By Gerhard Sonnabend Date 2009-11-23 17:20 Edited 2009-11-23 17:26
[quote="Frank Quisinsky"]
Hi,

Du schreibst:
Nägel mit Köpfen ...

Bin ja dabei, allerdings möchte ich nicht mehr veröffentlichen.
Keine Lust auf HTML Seiten und Diskussionen per eMail zu Ergebnis x oder y.

Bin aber gerne bereit, anderen die sich mit dem Thema wirklich beschäftigen Ergebnisse per eMail zu senden.

Gruß
Frank

Teste selbst mit:
32bit, 4-Steiner Nalimov, EGBBS, ShredderBases, 256Mb Hash, Shredder 12 GUI, Ponder = On, 40 in 10, Buch von Sedat Canbaz.
40 in 10 auf meiner Hardware ist CEGT Bedingung, allerdings spiele ich mit Ponder = on.

Musste schon viele Korrekturen durchführen.
40 in 20 dauerte mir zu lange.
So habe ich 1.600 Partien in den Müll geworfen.
Dann Remis anbieten und Aufgabe Funktion an.
Habe 500 Partien in den Müll geworfen weil z. B. eher zufällig zwei Engines im Mittelspiel bei vollem Brett und unklarer Stellung ... spannende Partien ... von der Shredder GUI als Remis abgebrochen wurden. Schrott !!
1x gesehen das Engine ohne TBs in Remisstellung aufgegeben hat weil -6 selbst angezeigt wurde. Aber falscher Läufer und Randbauer gewinnt nicht und die Aufgabe war unnötig.

Jetzt also mit 40 in 10 und gespielt wird bis zum Matt.
Besser würde mir gefallen wenn ich nach x Zügen abbrechen könnte. Habe schon eine 300, 299 Partie in der Datenbank die schon nach über 100 Zügen tot Remis war.
Schon x Partien über 200 Zügen und nur 4 davon wurden noch entschieden. Das sind gerade mal 1%. Shredder fehlt der Partieabbruch nach x Zügen.
Bin schon am Überlegen ob ich auf Arena wechsel aber die Shredder GUI gefällt mir auch gut und mit Arena will ich nicht wieder anfangen.

Das Buch ist der Schwachpunkt meiner Liste. Nicht weil das Buch von Sedat schlecht ist sondern weil der Shredder GUI die PGN-Random Funktion fehlt.
Nach allem was es gibt, halte ich PGN-Random ... auch nach sämtlichen Statistiken zum Thema ... für die realitätsbeste Testmethode.
[/quote]

Ist doch alle SO einfach, Frank !
Such Dir 2-4 Gleichgesinnte und los gehts.
Einer findet sich immer, welcher alles online stellt und pflegt.
So was kann man auch im Wechsel machen.

Viele Grüsse,
G.S.
Parent - - By Gerhard Sonnabend Date 2009-11-23 17:24
[quote="Frank Quisinsky"]
[...snip...]
FQ:
Besser wäre es noch wenn umdisponiert wird.
Vielleicht aufgrund der bisherigen Erkenntnisse die großen Listen überdacht werden und ein komplett neuer Aufbau erfolgt.
Das wäre mit Einsicht besser als jetzt weitere 200.000 Partien mit dem bestehenden Konzept hinzuzufügen.
Glaube auch das die Tester der Listen mehr Spaß daran hätten.
[...snip...]
[/quote]

Das würde Dir jetzt gefallen, verstehe ich schon

Geht aber nicht, wir wollen doch später vergleichen, also müssen
die "grossen Listen" genau wie bisher weiter geführt werden.

Bekommst Du langsam kalte Füsse ?
Reden und Schreiben ist leicht - selbst was auf die Beine stellen
scheint nicht SO einfach zu sein...

Viele Grüsse,
G.S.
Parent - By Frank Quisinsky Date 2009-11-23 17:48
Hi Gerhard,

bin doch dabei ... erstelle auch gerade eine Ratingliste

Gruß
Frank
Parent - - By Peter Martan Date 2009-11-23 17:03
[quote="Gerhard Sonnabend"]
4CPU gegen 1CPU hat die selbe Berechtigung wie 32-Bit vs 64-Bit.
Denke mal an Fritz 12. Den gibts "nur" 32-Bit und auch nur "Single".
Weshalb nun sollte diese Engine nicht gegen 64-Bitter oder SMPs
spielen dürfen ? Solch ein Vergleich wäre (ist) vollkommen "normal".

Wer vermischt denn PB=off/on Resultate ?
Das wäre was total anderes als "1CPU vs 4CPU". Allerdings würde
bis auf minimale Abweichungen das selbe Resultat heraus kommen.
Das zeigen alle Tests bisher.
[/quote]

Und warum ersteres und letzeres nicht? Und warum nicht eine engine mit viel mehr Zeit als die andere spielen lassen?
Ich mache das dauernd in Stellungen, von denen ich weiß, dass engine a mit viel mehr pruning drüber weg geht, einen sehr großen Zeitvorteil dadurch hat in die Tiefe zu kommen, engine b hingegen einfach viel gründlicher sucht und viel länger braucht, um bei gleichen Suchtiefen mithalten zu können.
Allerdings interessiert mich halt in solchen Fällen nicht, was ich eh schon weiß, sondern was b dabei noch findet und a nicht.
Jetzt hat Timo Klaustermeyer endlich mal wieder die Frage aufgeworfen, was für und wieviele Teststellungen man nehmen sollte, das finde ich viel relevanter als 1 core, 2 core, 3 core und dementsprechend geringe Zeitunterschiede oder 32 oder 64 bit. Wenigstens kommt man offenbar endlich von der völlig unreflektierten Bücher- Testerei ab.
Ferner würde ich endlich von der nur mehr lächerlichen Elobolzerei abgehen. Du sagst gern, diese Wertung eignet sich für engines viel besser als für Menschen, da hast du schon recht, weil die Unterschiede zwischen den engines viel geringer sind. Ich fände halt noch besser als eine Tausender- eine Zehntausenderskala, dann könnte man mit dem entsprechend großen Partienzahlaufwand die Unterschiede sogar in Tausendern messen.

Dazu ein prinzipielle Frage: ich gehe mal davon aus, all das rechnet sich über Werbekosten, die eine site, auf der die Rangliste veröffentlicht wird, einspielt. Dass das immer wieder dieselben 50 Leute sind, die mehrmals täglich nachschauen, ob sich an der Rangliste seit vor 3 Stunden nicht vielleicht doch schon wieder etwas geändert haben könnte, ist vielleicht denen, die sich über das rege Interesse an der site, auf der für sie geworben wird, furchtbar freuen, nicht wirklich bekannt, hältst du das für möglich?
Parent - - By Gerhard Sonnabend Date 2009-11-23 17:19
[quote="Peter Martan"]
[...snip...]
Dazu ein prinzipielle Frage: ich gehe mal davon aus, all das rechnet sich über Werbekosten, die eine site, auf der die Rangliste veröffentlicht wird, einspielt. Dass das immer wieder dieselben 50 Leute sind, die mehrmals täglich nachschauen, ob sich an der Rangliste seit vor 3 Stunden nicht vielleicht doch schon wieder etwas geändert haben könnte, ist vielleicht denen, die sich über das rege Interesse an der site, auf der für sie geworben wird, furchtbar freuen, nicht wirklich bekannt, hältst du das für möglich?

[...snip...]
[/quote]

So ganz verstehe ich das jetzt nicht ?!
Wir bekommen nichts für unsere CEGT-Seite falls Du das meinst ?
Im Gegenteil, wir haben sogar die Werbung aus unserem Board
entfernen lassen und müssen dafür bezahlen !

Viele Grüsse,
G.S.
Parent - - By Frank Quisinsky Date 2009-11-23 17:30
Hi Gerhard,

also das konnte ich bei CEGT oder CCRL bislang nicht beobachten. Meine das bestimmte Engines plötzlich bessere Ergebnisse hatten.
Das wäre ja völlig paradox denn die Tester die dort aktiv sind sind bekannt und testen neutral.

Aber in der Tat, hatte in früheren Zeiten auch oft den Eindruck das ELOs nach oben oder unten gedrückt wurden.

Kannst Du ja im Grunde auch einfach beeinflussen.
z. B. bei dem Crafty Beispiel.

Crafty spielt gegen 20 verschiedene Gegner 10 Partien und gegen Spark 0.3 50 Partien )
Wer schaut schon in die Datenbank oder kennt jetzt aus dem Kopf von jeder Engine den Angstgegner

Von daher finde ich es auch wichtig das in einer Liste jeder gegen jeden die gleiche Anzahl von Partien spielt.
Wer manipulieren möchte kann das hierbei natürlich auch tun.

In Zeiten von Frank's Chess Page machte ich 1x eine kommerzielle Werbung für ChessBase.
Voll in der "WinBoard - Engines - Entwicklungs - Aera

Die Werbeeinnahme nutze ich für einen neuen PC mit zwei Prozessoren.
Auf diesen spielte ich dann ein Jahr ein Turnier unter ChessBase GUI und ein Turnier unter WinBoard.

Die Ergebnisse beider Turniere dann in einem Topf und daraus eine Ratingliste geschustert.

In der Tat waren auf der Seite über 600.000 Zugriffe in einem Jahr !!

Und wie viele haben Manipulation geworfen ... es waren viele Geister von denen ich mir das anhören musste.

Zunächst waren es mehr aus dem Lager der ChessBase Fans als WB Gandalf auf einem Level mit der seinerzeitigen Junior Version lag. Gandalf kämpfte mit Junior um Platz 3.
Als Gandalf dann zwischenzeitlich mal auf Platz 4 zurückgefallen ist meldeten sich die Winboarder ... das kann nicht sein etc.. )

Insofern ...
Mir war es irgend wann egal und ich antwortete auf die E-Mails auch nicht mehr.

Ach ja, gerade über SSDF gesprochen.
In der SSDF hatte Gandalf ca. 100 ELO weniger und da kannst Du Dir vorstellen was mir alles vorgeworfen wurde.

Später hat sich dann herausgestellt das es eine merkwürdige Gandalf Einstellung der WB bei der SSDF war.
Tja ...

Gruß
Frank
Parent - - By Peter Martan Date 2009-11-23 19:40
Nein, Frank, das hatte ich nicht gemeint, das Werbung für eine bestimmte engine gemacht wird und die Ergebnisse beeinflusst.
Ich hatte nur einfach angenommen, es werde (CEGT hab ich mir dahingehend ehrlich noch gar nicht angeschaut) der Aufwand irgendwie mit Werbung auf den Internetseiten der Veröffentlichung gedeckt, dass das alles nur aus Spaß an der Sache gemacht wird, ist natürlich bewundernswert, Miesmacher der ich bin, finde ich es trotzdem mittlerweile etwas übertrieben.
Parent - - By Frank Quisinsky Date 2009-11-23 20:12
Hi Peter,

OK, aber alles was intensiv betrieben wird (z. B. auch jede Programmentwicklung) ist übertrieben.
Nur maches geht nach außen, anderes nicht.

So wurde dem Arena Team nachgesagt, mein Gott was für eine Arbeit ... ist doch übertrieben.
Klar, sofern damit kein Geld verdient wird wäre es dann noch unter Ideologie zu buchen.

So, werde dann für heute meine Postings auch einstellen, denn ich übertreibe es derzeit mal wieder

Egal, habe ja mal Zeit und Spaß macht es immer wieder.
Gerade auch gute Diskussionen bei denen was hängen bleibt.

Gruß
Frank
Parent - By Roland Rösler Date 2009-11-24 00:30
[quote="Frank Quisinsky"]OK, aber alles was intensiv betrieben wird (z. B. auch jede Programmentwicklung) ist übertrieben.[/quote]
Den Satz sollte man sich wirklich auf der Zunge zergehen lassen. He Frank, Du badest gerne lau?
Parent - - By Peter Martan Date 2009-11-23 19:42
Dann entschuldige bitte, Gerhard.
Ich hatte einfach die Hoffnung, es würde sich die viele Arbeit irgendwie mit Werbung auf den Seiten lohnen, ich hätte sie mir ja nur mal ordentlich anschauen sollen.

Aber ehrlich, ist's nicht langsam etwas viel?
Parent - - By Gerhard Sonnabend Date 2009-11-24 07:24
[quote="Peter Martan"]
Dann entschuldige bitte, Gerhard.
Ich hatte einfach die Hoffnung, es würde sich die viele Arbeit irgendwie mit Werbung auf den Seiten lohnen, ich hätte sie mir ja nur mal ordentlich anschauen sollen.

Aber ehrlich, ist's nicht langsam etwas viel?
[/quote]

No matter, Peter !
"Etwas viel" in Bezug auf was ?
Solltest Du die Anzahl der Games meinen, so ist es mir sogar noch zu wenig.
Wir kommen gerade ob der Neuerscheinungen gar nicht dazu etwas Rang-
listenpflege zu betreiben, d.h. älteren Engines weitere Spiele zu verpassen.

Viele Grüsse,
G.S.
Parent - By Peter Martan Date 2009-11-24 09:08
[quote="Gerhard Sonnabend"]
"Etwas viel" in Bezug auf was ?
Solltest Du die Anzahl der Games meinen, so ist es mir sogar noch zu wenig.
Wir kommen gerade ob der Neuerscheinungen gar nicht dazu etwas Rang-
listenpflege zu betreiben, d.h. älteren Engines weitere Spiele zu verpassen.
[/quote]

Etwas viel in Bezug auf das Ergebnis. Statistiker- Stolz ist eine feine Sache, wenn sie sich auch noch mit der Historiker- Ehre verbündet, nimmt das Forschen kein Ende.

Sag mir nur, wem noch Ranglisten dienen, die außer den aktuell 20 besten auf aktuell gerade preiswerter hardware (von mir aus auch da 2,3 verschiedene Prozessoren, GUIs und Betriebssysteme, warum nur 32- und 64bit Windows, warum nicht auch Mac und Linux?) diese 20 Plätze untereinander in vom mir aus 2, 3 verschiedenen Zeitvorgaben mit 2,3 (wechselnde) Testsets ausspielen.
Wenn jetzt ein Querkopf wie ich seine eigenen Bedingungen haben will, soll er das doch selber machen, kann man ihm eh nicht verbieten und dass er dann seinen völlig verqueren Ergebnisse auch veröffentlicht.
All den Ranglisten- Fans (ich möchte den häßlichen aber auch ganz gut passenden Ausdruck Freaks vermeiden) alle Widersprüche wegzutesten, gelingt auch dir nicht, nimm irgendeine viel zu schwache engine rein, weil du meinst, die ist eigentlich super oder eine viel zu starke, weil du meinst, die ist ein Clon, ich will gar keinen Vorschlag machen, welche, demnächst werden es eh viel mehr sein, und du hast schon bei aller sonstiger exakt gleicher Randomisierung alle deine Listen wieder völlig neu zu schreiben.
Ich mein ja nur, etwas viel in Hinblick darauf.
Was machst du, wenn in 10 Jahren auch die Zehntausender- Eloskala nicht mehr reicht, um bei den 20 besten noch Hunderter- Unterschiede selbst mit 100000 Partien pro engine herauszukitzeln?
Parent - - By Ingo Bauer Date 2009-11-23 18:51
Hallo Gerhard

[quote="Gerhard Sonnabend"]
...
Wer vermischt denn PB=off/on Resultate ?
Das wäre was total anderes als "1CPU vs 4CPU". Allerdings würde
bis auf minimale Abweichungen das selbe Resultat heraus kommen.
Das zeigen alle Tests bisher.
...
[/quote]

"Das zeigen alle Tests bisher" ist aber schon fast mutwillig bestimmend geschrieben - du kannst auch mit solchen Formulierungen keine Fakten schaffen. An deiner Stelle hättest ich vielleicht geschrieben "Das sagt mir meine Interpretation aller Tests bisher". Wie du weißt sehe ich das aber anders! (Naum kommt heute Abend, sieht nach der größten Abweichung aus bisher gutes "+" für Ponder OFF!)

1 + 4 CPU Resultate kann man natürlich schon in eine Liste bringen, da sehe ich eigentlich keine Probleme.

Gruß
Ingo
Parent - By Gerhard Sonnabend Date 2009-11-24 07:29
[quote="Ingo Bauer"]
Hallo Gerhard

[quote="Gerhard Sonnabend"]
...
Wer vermischt denn PB=off/on Resultate ?
Das wäre was total anderes als "1CPU vs 4CPU". Allerdings würde
bis auf minimale Abweichungen das selbe Resultat heraus kommen.
Das zeigen alle Tests bisher.
...
[/quote]

"Das zeigen alle Tests bisher" ist aber schon fast mutwillig bestimmend geschrieben - du kannst auch mit solchen Formulierungen keine Fakten schaffen. An deiner Stelle hättest ich vielleicht geschrieben "Das sagt mir meine Interpretation aller Tests bisher". Wie du weißt sehe ich das aber anders! (Naum kommt heute Abend, sieht nach der größten Abweichung aus bisher gutes "+" für Ponder OFF!)

1 + 4 CPU Resultate kann man natürlich schon in eine Liste bringen, da sehe ich eigentlich keine Probleme.

Gruß
Ingo
[/quote]

Hi Ingo !

Sorry, es sollte nicht mutwillig bestimmend klingen.
Ich habe früher aber auch schon PB=off/on Tests durchgeführt und
Deine Resultate bisher bestätigen diese früheren Tests.
+- 10-16 Punkte reichen mir persönlich nicht um mehr als ein
Rauschen zu vermuten. Aber natürlich werde ich auch weiterhin
Deine Tests sehr interessiert verfolgen, man weis ja nie. Ich kann
mir z.B. sehr gut vorstellen, dass bei PB=on Wiederholungen einzelner
Serien eine grössere Schwankung aufzeigen würden als bei PB=off ?!

Viele Grüsse,
G.S.
Up Topic Hauptforen / CSS-Forum / Gleiches mit Gleichem vergleichen ... Sinn einer Ratingliste

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill