Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Neue IPON Elos ?
Poll Soll die IPON Rabgliste anders geeicht werden oder ihr jetziges Rating beibehalten? (Closed)
Beibehalten 14 61%
Ändern 9 39%
- - By Ingo Bauer Date 2011-01-05 11:43
Hallo

Ich möchte nur wissen was das Forum so über die Eloeichung der IPON Rangliste denkt.

Ist das OK oder soll "anders" geeicht werden?

Danke
Ingo
Parent - By peter struwel Date 2011-01-05 12:39
anders ---> NÖ 
Parent - - By Benno Hartwig Date 2011-01-05 12:46
[quote="Ingo Bauer"]Ist das OK oder soll "anders" geeicht werden?[/quote]Diese Alternative erscheint mir noch etwas 'unscharf' definiert. 
Benno
Parent - - By Ingo Bauer Date 2011-01-05 12:49
[quote="Benno Hartwig"]
[quote="Ingo Bauer"]Ist das OK oder soll "anders" geeicht werden?[/quote]Diese Alternative erscheint mir noch etwas 'unscharf' definiert. 
Benno
[/quote]

Hallo Benno,

Unscharf mit voller Absicht. Ich will nur Wissen ob es so als "OK" empfunden wird oder nicht.

Mögliche Alternativen, wenn möglich mit Begründung, dürfen hier gerne vorgestellt werden ...! Am besten eine die dann evtl. eine 50% Mehrheit findet

Gruß
Ingo
Parent - By peter struwel Date 2011-01-05 13:54
...

Mögliche Alternativen, wenn möglich mit Begründung, dürfen hier gerne vorgestellt werden ...!
Am besten eine die dann evtl. eine 50% Mehrheit findet

Gruß
Ingo
...
wenn du unbedingt eine neue liste willst, dann mache bitte eine die es bisher noch nie gab!

ideen habe ich schon:

z.b.

- 1 welche engine können die schönsten mattbilder in der praktischen partie erzielen, unter der nebenbedingung, dass
     es minimalmatts darstellen

- 2 die schönsten gambitpartien spielen

- 3 u.s.w. ...
Parent - By Patrick Götz (Mod.) Date 2011-01-05 13:13
Ich habe mit nein gestimmt.

Falls Deine Liste doch neu angeglichen werden sollte würde, könnte man sich das letzte Computer-Mensch Ergebnis als Messlatte nehmen.

Das waren normale Turnierpartien ohne Anti-Computer Blödsinn, also genau das, was man mit den Computern spielen und analysieren will. Da  99,999% aller gespielten Partien echte, normale Schachpartien ohne Remis- oder Anti-Computer-Ziele sind, ist nur eine Spielstärkebetrachtung in diesem Bereich sinnvoll und interessant.

Das das letzte Computer-Mensch Ergebnis war im August 2009 der "Mercosur Cup Villa Martelli" in dem POCKET FRITZ 4 (Hiarcs 13 inside) auf einem Handy (600 MHz) eine Performance von 2898 Elo erreichte.

Deine gesamte Liste müsste also deutlich angehoben werden um einen realistischeren Bezug zwischen Menschen und Computern in normalen Schachpartien herzustellen.

Gruß
Patrick
Parent - By Michael Scheidl Date 2011-01-05 15:21
Für eine vernünftige Kalibrierung mit FIDE- oder Verbands-Elowertungen wird es wohl nie eine ausreichende Datenbasis geben. Die paar Ergebnisse die man kennt, waren typischerweise mit anderen Engines auf anderer Hardware und unter anderen (Bedenkzeit usw.-)Bedingungen.

Ich persönlich würde ein Zahlenniveau vorziehen, daß schon von sich aus signalisiert, daß man keine "menschlichen" Elos vor sich hat. Beispielsweise könnte man Crafty als Bezugspunkt wählen und auf 0 setzen, sodaß das Spektrum bei IPON derzeit ca. von -20...+400 Punkte reichen würde.

Das erste (oder einzige?) Problem dabei wäre vielleicht, daß Du vermutlich keine bestimmte Eich-Engineversion ewig mitschleppen willst, sondern eine jeweils aktuelle in der Liste stehen soll, wie bei den anderen Engines auch. D.h. hier wäre entweder eine Ausnahme nötig, oder die Liste würde mit einer neuen Version dieser Engine eine Art Gesamtupdate der Ratings erfahren.

Ich selbst würde auch den "Meilenstein" Rybka 1.x (1.0 beta war glaub ich noch nicht MP-fähig?) als Bezugspunkt in Betracht ziehen, oder die erste Weltmeister-Rybkaversion 2.3.2a.

Das häufige Mißverständnis von wegen FIDE- und/oder Computerratings bei "Uneingeweihten" wäre durch dreistellige Ratings m.E. a priori vermeidbar, auch wenn es für manche einen Kulturschock bedeutete. Aber wir können ja hoffen und annehmen, daß sich die Hobbyfreunde Ranglisten mit eingeschaltetem Hirn ansehen.

Daß irgendwelche Engineratings in diversen Massenmedien-Artikeln kommentarlos FIDE-Elozahlen gegenübergestellt werden, finde ich seit jeher störend. Da man befürchten muß daß deren Schreiber sich nicht mit viel Zeitaufwand in die Einzelheiten dieser Sache einlesen (wollen), könnte man mit "ganz anderen Zahlen" dieses Problem an der Wurzel packen...
Parent - By Frank Quisinsky Date 2011-01-05 16:47
Hallo Ingo,

ich habe mit behalten abgestimmt.

Wir hatten das ja seinerzeit besprochen und ich finde die Einteilung richtig gut.
Wie ich Dir seinerzeit geschrieben habe geht GM Georg Meyer (zur Zeit 2.650 ELO und die Nummer 2 in Deutschland ... letztes Jahr im Januar) davon aus, dass Rybka 3 auf einem Notebook mit einem Core und 32bit (was er hatte) ca. bei 2.900 ELO liegt. Dies aufgrund eigener Schnellschachpartien bzw. Analysen. Im Interview der Schachwelt mit Georg, welches ich mit GM Jörg Hickl machte, sagte er uns, das er ca. 30% macht, meist bei Punktausbeute dann Remis spielt. Andere GMs würden offenbar diese Meinung teilen.

Insofern ist die Einteilung goldrichtig!

Fraglich ist allerdings ein wenig:
Du lässt ja kein Schnellschach sondern Blitz spielen. Dann werden die Programme stärker um das auf eine "Menschliche" ELO umzusetzen. Selbst lasse ich ja Schnellschach bei der SWCR spielen und bei mir stimmt es daher. Bei Dir müssten demnach die ELOs ca. 50 höher sein.

CEGT ist ca. 200 ELO zu hoch beim 40 in 20 welches ca. bei der SWCR 40 in 8 entspricht (ältere Vergleichshardware, kein Ponder bei CEGT).

Kann sein das diese Informationen auch direkt im Interview stehen, weiß das nicht mehr. Das Interview hat Jörg geschrieben ist aber auf seiner Seite veröffentlicht.

Viele Grüße
Frank
Parent - - By Norbert Rüppel Date 2011-01-05 17:42
Hallo Ingo,

ich bin für ein beibehalten der aktuellen Eichung, sie erleichtert ja auch den Vergleich mit Franks Liste.
mfg
Norbert
Parent - By Frank Quisinsky Date 2011-01-05 18:06 Edited 2011-01-05 18:09
Hallo Norbert,

das Problem ist eigentlich eher ... wenn die Ratings von Computerschachprogrammen zu hoch ausfallen wird genau das bei wirklich guten Schachspielern belächelt und als Freak Liste abgestempelt oder ... da ist aber viel Wunschdenken dabei.

Vergleichbar zu:
Du kaufst Dir einen VW Polo der ca. mit 75 PS auf 175 - 180 km/h kommt. Hättest aber lieber einen Porsche und veröffentlicht auf Internetseiten, dass Dein Polo schneller ist als ein Porsche mit 300 PS. Damit steht das komplette Großmeisterschach nur "anscheinend" im Schatten vom Computerschach denn die starken Schachspieler denken sich ... bei 3.200 ELO ziehen wir mal 200-300 ELO ab und dann stimmt es.

Hatte von solchen E-Mails einige erhalten als ich auf den Schachwelt Seiten den News-Ticker gemacht hatte. Da schrieben die Schachspieler ob das wirklich so sei, dass ein Rybka 3 bei ca. 2.850 ELO liegt. Das wäre doch sicherlich ein wenig zu hoch, oder? Ergänzend dann ... maximal im Blitz Schach der Fall aber wer interessiert sich für Blitz-Schach. Die Vereinsspieler interessieren sich für Schnellschach / Turnierschach und blitzen meist nur "Just for Fun".

Tja!
Die Computerschächler testen meist mit Blitz um genug Partien zu haben und denken sich dann ... wenn eine Engine im Blitz Spielstärke x hat, hat die Engine die gleiche Spielstärke auch im Schnellschach oder Turnierschach. Die Fans der Blitzratinglisten verurteilen dann wieder die Fans vom Bullet und schimpfen ... wie kann man nur 1+1 testen

Wir irrsinnig!
Schwierig die wirklichen Wahrheiten herauszufinden, weil die wirklichen Wahrheiten bei jedem Anwender schlicht unterschiedlich geordnet sind

Gruß
Frank
Parent - By Thomas Mayer (Quark) Date 2011-01-05 20:04
[quote="Ingo Bauer"]
Hallo

Ich möchte nur wissen was das Forum so über die Eloeichung der IPON Rangliste denkt.

Ist das OK oder soll "anders" geeicht werden?

Danke
Ingo
[/quote]

Hallo Ingo,

es wurde im Thread ja schon angesprochen und war auch meine Idee als ich Dein Posting sah. Setz doch Shredder auf 0. Shredder dürfte so die Messlatte für die absolute Spitze sein. Und der unsinnige Vergleich mit Menschen-Elo hört dann auch auf. Es ist schon amüsant - Du stimmst zwar zu, daß Computer im Blitz relativ gesehen höhere Erfolgsraten (und damit Elo-Zahlen) gegen Menschen erzielen können - das die ~ 330 Elo Differenz, die Deine Liste von mir aus zwischen Junior und Houdini aufzeigt so gegen Menschen nicht zum Ausdruck kämen bezweifelst Du aber. Menschen spielen vollkommen anders Schach als Computer - es sieht im Ergebnis nur verblüffend ähnlich aus... Das ursprüngliche KI-Ziel, eine Herangehensweise ähnlich derer der Menschen, ist schon lange fallen gelassen worden - schon deshalb sind Computer Elo & Menschen Elo einfach nicht wirklich vergleichbar.

Gruß, Thomas
Parent - By Jörg Oster Date 2011-01-05 20:15
Wie auch andere, bin ich für eine Neuausrichtung.
Wenn man sieht, wie hoch in manchen Listen das Rating geht, dann ist das für mich einfach lächerlich.

Mein Vorschlag: Crafty auf 100 setzen und dementsprechend die anderen anpassen.
Ich frage mich allerdings, ob das mit Elostat bzw. Bayesian dann noch sinnvoll ist. Der Elo-Bereich ist ja eigentlich ein anderer.

Gruß, Jörg.
Parent - By Sabine Freund Date 2011-01-05 20:34
Belassen, besser sogar die Werte etwas anheben um ca. 150 Punkte.
Parent - By Ingo Bauer Date 2011-01-05 20:42
Nur falls sich jemand wundert. Ich lese sehr aufmerksam mit, will aber, ehe ich das "Voting" schließe, nicht Einfluß nehmen.

Gruß
Ingo
Parent - - By Wolfgang Draeger Date 2011-01-06 11:51
Ich bin für ändern der ELO-Bewertung der Engines.
Wie schon mehrfach geschrieben, hört dann die unsinnige gleichbewertung Mensch-Maschine auf.

Probleme sehe ich allerdings darin, eine Grundlage für die neue Bewertung zu finden.
Wenn bei dem einen Shredder=0 genommen wird, muss das bei dem anderen nicht
auch zutreffen. Hardware, Bedenkzeit, Bases usw. beeinflussen ja die "Spielstärke".

Ich muss gestehen, hierzu habe ich im Moment noch keine Lösung.

Gruß Wolfgang
Parent - - By Frank Quisinsky Date 2011-01-06 12:21 Edited 2011-01-06 12:24
Hi,

dann sollten wir vielleicht einen Programmierer finden der eine spezielle Rating-Berechnung für Computerschachprogramme in Angriff nimmt. So könnten auch endlich mal die ganzen Komponenten einfließen die bei den heutigen Berechnungsprogrammen fehlen.

- weniger Partien notwendig wenn Anzahl der Gegner höher ist (bei der Ratingprognose)
- genaueres Rating bei höherer Bedenkzeit, weniger Partien notwendig bei der Prognose
- variable Berechnung beim Einbeziehen von Remispartien (höhere Bewertung bei Gewinnpartien)
- automatische Nicht-Berechnung wenn gleiche Gegner in der Datenbank sind.
- Ausgabe eines Ratings in einer Spielstärke-Kategorie 1-99. Das Rating wird also nicht direkt in einer Ratingzahl wie 2.800 ELO bemessen sondern das Berechnungsprogramm gibt eine Kategorie aus. z. B. Rating fällt in Kategorie 61/99.
- Einteilung dieser Kategorie in drei Gruppen (1-33, 34-66, 67-99).

Die Berechnung könnte dann wie folgt ausschauen:

Houdini 1.5 x64  80/78/82 ... was bedeutet ... in Kategorie 80 gegen Engines der Kategorie 67-99 ... in Kategorie 78 gegen Engines der Kategorie 34-66 und in Kategorie 82 gegen Engines der Kategorie 1-33.
Das würde uns direkt die Antwort geben wie stark Houdini gegen gleichstarke Gegenerschafft, mittel starke und schwache Gegnerschaft spielt.

Etc, etc.
Wir haben so viele Erkenntnisse zu Ratings gewonnen und sollten die mal so langsam nutzen.
Was uns fehlt ist ein eigener Bereich zu diesem Thema im CSS Forum und ein Programmierer der die gesammelten Ideen umsetzt und uns ein vernünftiges Berechnungsprogramm programmiert.

Alles das nur bitte nicht wieder eine Einzelaktion die dann irgendwann wieder in der Kritik steht.
Wichtig hierbei nicht nur die Erkenntnisse sondern der Austausch von Erkenntnissen und der Austausch von "Fantasie". Nur so gelingt etwas "fantastisches" !!

Gruß
Frank
Parent - - By Frank Quisinsky Date 2011-01-06 12:40
Hallo zusammen,

was auch ganz wichtig wäre bei der Entwicklung von einem neuen Berechnungs-Programm ...

Es sollte mehr Statistiken ausgeben.

z. B. Anhand von dem Partiedatum eine Spielstärkeentwicklungskurve einblenden.
Rating nach 50, 100, 150 etc. und dann mittels grafischer Kurve darstellen ... so spare ich mir die Arbeit bei meinen privaten Excel Tabellen.

Gute Statistiken würde uns allen auch helfen die Ratings besser zu verstehen.

Da hätte ich direkt 40-50 Ideen was alles an Statistiken automatisch generiert werden könnte.
Aber das wäre Schritt zwei.

Schritt eins wäre es einen Konsens zu einer Berechnung zu finden.
Und dieser Konsens sollte für uns sein, für die Computerschächler.

Also, Computerschach hätte dann eine völlig eigene Berechnung der Spielstärke, weit weg von ELO, DWZ, Ingo (meine nicht Ingo Bauer, sondern die ältere INGO Berechnung).

Alles andere würde keinen Sinn ergeben.
Wenn schon denn schon und wirklich etwas gutes entwickeln als die Frage dann nächstes Jahr erneut zum 100x zu diskutieren.

Gruß
Frank
Parent - - By Sabine Freund Date 2011-01-06 12:53
Hallo Schachfreund Frank.
Mich persönlich würde dieser ganze Statistikkram nicht besonders interessieren. Lieber möchte ich beim studieren einer Rangliste feststellen könnnen welches Programm mir beim analysieren meiner und fremder Schachpartien am besten behilflich sein kann. Deshalb halte ich die bisherigen Listen und deren Art der Auswertung für äusserst hilfreich, da ich die Werte schnell und einfach verstehe und in Bezug zu meiner eigenen Leistungsstärke bringen kann.
Mit Gruß Sabine
Parent - - By Frank Quisinsky Date 2011-01-06 13:54 Edited 2011-01-06 13:57
Hallo Sabine,

Statistiken sind meist immer sehr mühselig zu studieren und werden als trockenes Thema beschimpft. Statistiken können aber auch sehr aufschlussreich sein. Nicht nur die hier beschriebene zur ELO-Entwicklung. Mit meiner Sammlung an kleinen Statistiken versuche ich z. B. mehr über die Engines herauszufinden. Welche Stärken und Schwächen haben die Engines, gibt es außergewöhnlich gute oder schwache Partiephasen. Das geht dann eher in Deine Richtung und ist auch gut und richtig so. Also, es kommt immer darauf an wie eine Statistik angegangen wird, welche Erkenntnisse wir daraus ziehen können. Ein ELO-Berechnungsprogramm ist ein pures Statistikprogramm und insofern sollte uns ein modernes Berechnungsprogramm mehr als nur Spielstärkestatistiken zur Verfügung stellen.

Wir glauben an das was wir sehen oder begreifen. Was wir nicht sehen oder begreifen stellen wir in Frage. Computerschach heute bedeutet, dass die eigentlich wenigen Computerschächler mehr oder weniger von eigenen Arbeiten überzeugt sind, weil die Anwendungsgebiete oft zu unterschiedlich sind. Fernschach, Analysen, Eng-Eng Partien, Schachserver, die vielen Beeinflussungsfaktoren von der Buchfrage über die Frage bei den Endspieldatenbanken etc.. Hätten wir wirklich mal ein richtig gutes Auswertungs-Programm würden viele auch verstehen lernen, Computerschach besser beurteilen können und der ganze Bereich würde ohne Ende gepuscht werden. Weil sich hieraus wieder neue Möglichkeiten bilden, die Kausalkette lässt grüßen.

Das ist doch viel interessanter als "nur" ...

1. Engines zu haben
2. GUIs zu haben

Es fehlt das Salz in der Suppe!
Der Diskussions-Aufhänger ...

Eine Bonner Runde mit 1.000 Parteien (Computerschach heute) ... da könnten wir doch auch eine Runde mit 5 Parteien basteln.

Computerschach heißt also ...
Fantasie ... neue Erkenntnisse ... stetige Entwicklung ... Fortschritt ... und letztendlich wirds zum Aushängeschild der richtigen Nutzung der künstlichen Intelligenz.

Glaube mir mal, solche Beiträge wie jetzt von Dir habe ich schon oft gelesen. z. B. während der Arena Entwicklung. Als wir begonnen hatten kamen dann die Messages aber was soll denn rein, in der ersten Beta war doch schon alles drin. Sabine, wenig war drin und wenig ist heute drin trotz vieler spannender Funktionen die hinzugekommen sind. Immer mehr Personen sind begeistert und beschäftigen sich mit dem Projekt.

Kannst Du Dir ein Programm wie Shredder, ChessBase Datenbank oder Arena vorstellen, was nichts anderes macht als Datenbanken auszuwerten, Berechnungen durchzuführen und uns alles automatisch an wichtigen Infos generiert? Versuche es Dir mal vorzustellen ... Du gibst eine Datenbank vor und erhällst unzählige Informationen zu sämtlichen Engines.

Was uns fehlt ist also das Verbindungsstück zwischen Engines und GUIs.
Wir selbst können das nicht alles selbst erarbeiten, unsere Spielstärke reicht hierfür auch nicht aus.
Also lassen wir das unsere Helfer sinnvoll zusammenstellen.

Ich denke wir müssen Computerschach heute von einer ganze anderen Seite bertrachten.
Als Winboard kam waren wir noch die Computerschach - Neandertaler. Mit UCI waren wir etwas organisierter und mit Arena wurde der Kampf für die Kompatibilitäten erfolgreich weiter geführt. Dennoch sind wir heute immer noch sehr begrenzt unterwegs und darüber täuschen auch keine 3.000 ELO Programme hinweg. Wir stehen beim Computerschach noch nicht auf Zeitstufe 0 sondern sind noch in der Vorzeit. Und genau da bleiben wir auch wenn der Fortschritt aus Erkenntnissen ausbleibt.

Viele Grüße
Frank
Parent - By Frank Quisinsky Date 2011-01-06 14:15
Nach den Kampf der Kompatibilitäten durch das Winboard Protokoll, später das UCI Protokoll und noch später gepowert durch die Millionen-fach herunter geladene GUI Arena (zumindest als ich dort noch aktiv war der Fall) haben wir zunächst mal eine Hochkultur geschaffen. Wir sind jetzt organisiert. Mehr oder weniger die Majas, Inkas, Azteken des Computerschachs.

Es ist langsam an der Zeit in der Computerschachgeschichte weiter zu reisen!
Und genau das so schnell wie möglich, denn ich möchte das noch erleben!



Gruß
Frank
Parent - - By Sabine Freund Date 2011-01-06 15:44
Hallo Schachfreund Frank.
Von allem was Sie geschrieben haben verstehe ich persönlich noch nicht mal 10%. Meine Kenntnis in Bezug auf Schachcomputer beschränkt sich auf einige wenige und wohl auch recht schwache Programme. Allerdings reichen diese für mich und meine Zwecke vollkommen aus. Es ist jedoch dann gut zu wissen, wie ich deren Spielstärke einzuschätzen habe.
Gruß Sabine
Parent - By Frank Quisinsky Date 2011-01-06 21:06
Hallo Sabine,

10% ist doch gewaltig. Eine interessante Aussage zur eigenen Einschätzung!
Und auch eine richtig gute statistische Aussage!

Gerade die Herren der Schöpfung verwenden solche %-Aussagen nur zu gerne!
Das wird zumindest in diesem Forum auch jeder verstehen!

Dann weiterhin viel Spaß!

Gruß
Frank
Parent - - By Wolfgang Draeger Date 2011-01-06 17:10
Hallo,
ich habe mal meine begonnene Chess960 Rangliste genommen
und unter ELOstat_13 als StartELO=0 eingegeben.
Das sieht dann so aus.
Könnte man sich an so etwas gewöhnen und ist das aussagekräftig
auch für einen, der sich nicht so sehr mit der Materie beschäftigt ?
Gruss Wolfgang

 
Code:
Program                          Elo    +   -   Games   Score   Av.Op.  Draws

01 Rybka 4 960 x64                :  203   41  41   276    78.1 %    -18   22.1 %
02 Stockfish 1.9.1 JA 64bit [1]   :  140   36  36   276    70.7 %    -12   29.7 %
03 Crab 1.0 beta 64bit [1]        :  140   36  36   276    70.7 %    -12   29.7 %
04 Deep Shredder 12 x64 [1]       :   79   36  36   276    62.1 %     -7   25.0 %
05 Critter 0.90 64-bit SSE4 [1]   :   74   37  37   240    61.3 %     -6   30.8 %
06 Naum 4.2 FRC                   :   54   35  35   276    58.3 %     -5   27.5 %
07 DShredder 12 Gambit [1]        :   43   38  38   240    56.7 %     -3   27.5 %
08 Deep Sjeng WC2008 x64 [1]      :  -65   35  35   276    40.0 %      6   29.3 %
09 HIARCS 13.1 SP                 :  -72   36  36   276    38.9 %      6   26.4 %
10 Jonny 4.00                     : -109   42  42   240    33.5 %      9   17.1 %
11 Glaurung 2.2 JA [1]            : -139   38  38   276    29.5 %     12   23.6 %
12 Cyclone xTreme Fear [1]        : -166   39  39   276    26.1 %     15   23.9 %
13 Loop for Chess960              : -182   40  41   276    24.3 %     16   20.3 %
Parent - By Michael Scheidl Date 2011-01-06 18:15
[quote="Wolfgang Draeger"]Könnte man sich an so etwas gewöhnen und ist das aussagekräftig
auch für einen, der sich nicht so sehr mit der Materie beschäftigt ?[/quote]
Ich schon, ausgenommen vielleicht daß eine "Eich-Engine" genau auf 0 stehen und entsprechend markiert oder in einer Fußnote als solche ausgewiesen sein sollte. Also wenn es z.B. hier Shredder sein soll, müßte man offenbar als Startwert für einen zweiten Durchaluf -43 hernehmen.

Ich persönlich würde es jedoch lieber sehen, wenn zumindest in den Top-10 keine negativen Ratingzahlen aufscheinen. Das wäre "kosmetisch" besser, denn das sind ja alles sehr gute Engines. "Schlechter als Null" ist vielleicht wirklich spontan rätselhaft. Wenn man eine mittel- oder große Liste hat und wie gesagt beispielsweise auf Crafty = 0 kalibriert, würde dieses Problem normalerweise (derzeit) vermieden werden.

Aussagekräftig bleibt sowas m.E. nach wie vor, da - falls ich das richtig verstanden habe - Rangfolge und Abstände davon unbeeinflußt bleiben.
Parent - By Peter Martan Date 2011-01-06 15:40
[quote="Ingo Bauer"]
Ist das OK oder soll "anders" geeicht werden?
[/quote]

Hallo Ingo!

Ich kann darüber nicht abstimmen, weil ich entweder schon vor längerer Zeit aufgehört hätte nachzueichen, dann hätten die engines um Rybka herum jetzt wahrscheinlich schon so um die 4000, je nachdem, wen ich noch alles hätte mitspielen lassen, und es wäre auch schon klar, dass das mit den menschlichen Elo längst nicht mehr vergleichbar wäre, oder ich hätte schon damals eine völlig andere Wertung eingeführt.
Ich hatte nie den Anspruch, eine Rangliste selbst erstellen zu können, die außer meinen eigenen noch die Anforderungen möglichst vieler anderer Interessierter erfüllt und kann dir daher auch nicht sagen, was ich in diesem Fall machen würde.
Jedenfalls, wie auch immer du es weiter machst, du wirst es weiter gut machen, und ich würde davon unabhängig sowieso weiter mein Interesse anders verfolgen, Vergleiche zwischen dem anzustellen, was Menschen und was engines spielen, so wie ich es immer gemacht habe, ohne jeden mathematischen Bezug neben dem, den der engine- output inform von evals ausgibt.
Ob die +1.40, die eine engine zu einer Stellung auswirft, irgend etwas schachlich Relevantes sind, das ist für mich die Frage.
So lange die nicht geklärt ist, sind alle anderen Entwicklungskontrollen allein nicht aussagekräftig genug für mich und wenn ich die Frage, wie ich eine Stellung in Zahlen bewerten würde, exakt beantworten kann, habe ich bei jeder einzelnen Stellung, die mich interessiert, automatisch mein exaktes Rating von engines, die ich anhand dieser Stellung vergleiche.

P.S. Wenn man schon keine Elo- Relationen mehr zwischen engines und Menschen herstellen kann, bin ich auch für ein besser trennbares Rating, daneben könnte man ja, so wie auch das Fernschachrating unter menschlichen Spielern ein anderes ist als das im Nahschach, ein Rating unabhängig vom engine- engine- Vergleich durch Auseinandersetzungen von Mensch- Maschine- Teams gegen allein spielende Maschinen erstellen. Weil das entsprechend längere Bedenkzeiten bräuchte, müsste man sich halt einfach mit weniger Partien begnügen, hätte weniger statische fundierte, dafür aber vielleicht trotdem schachlich relevantere Ergebnisse.
Also wenn endgültige Trennung zwischen Menschen- und Maschinenelo, dann wird, weil das Interesse der Schachspieler ja weiter danach bestehen wird, ein Zusatzranking zu irgendeiner menschlichen Relation automatisch erst recht notwendig, glaube ich.
Wie das dann hergestellt werden soll, ist erst recht die Frage, ich hätte ja aber auch kein Problem damit, wenn das dann rein individueller Art ist.
Parent - - By Ingo Bauer Date 2011-01-07 08:26 Edited 2011-01-07 08:31
Hallo Forum,

Ich habe die Abstimmung nun beendet.

Offensichtlich ist eine Mehrheit dafür das alles so bleibt wie es ist. Da ich selber unentschlossen war (und bin) werde ich erstmal auch dabei bleiben.

Kurz zu den zwei ernsthaft aufgeführten Alternativen.

1. Rating erhöhen, da es im Vergleich mit Menschlichen Elo zu niedrig ist. ... Das ist sicherlich richtig. Wenn ein Programm aus meiner Liste ab sofort bei menschlichen Turnieren teilnehmen dürfte, bin ich 100% sicher das es höhere Ratings erreichen würde als ich anführe, allein ... welche? Es fehlt jeder vernünftige Vergleich mit den Top-Spielern und es bliebe nur Spekulation (Auch wenn man einen "educated guess" machen könnte )

2. Rating so weit runter (oder auch rauf) setzen das auf den ersten Blick kein Zusammenhang mit dem Menschen besteht. Durchaus ein guter Gedanke. Die Relationen zw. den Engines bleiben erhalten, im Prinzip würde sich nicht viel ändern ... ausser das man das ständig all jenen erklären müßte, die nicht so in der Materie stecken wie die Leser dieses Forums. (Leider werden nicht mal die Spielbedinungen gelesen die ich klar auf meiner Seite aufführe, der Anteil der Fragen die mich dazu erreichen ist der größte Happen überhaupt. Wenn ich jetzt die niedrigste Engine auf 0 oder 10000 setze komme ich aus dem Erklärungen schreiben nicht mehr raus) Wie ich oben schon erwähnte wiederspricht es auch dem, was 90% der Anseher wissen wollen (und ja, mit meinen Ratings erfahtren sie es auch nicht)

Persönlich hätte ich gerne die Lösung 1. Schach ist ein klares Spiel mit klaren Regeln. Man kann theoretisch Computerschach mit menschlichem  Schach vergleichen. Leider wollen das die Spieler gegen die sich ein Vergleich vielleicht noch lohnen würde nicht mehr ... was an sich auch schon ein Vergleich ist! Auch glaube ich, das mindestens 90% derjenien, die sich eine Computerschachrangliste ansehen nur eines wissen wollen: "Wie stark sind diese Programme im Vergleich zu den TOP 10 der menschlichen Spieler?". Was mich wieder zu der Frage führt wie man diese beantworten kann wenn niemand sich traut gegen Computer zu spielen ... Es scheint die Aussage zu gelten: Die Engines sind heute so gut, das sich die Topspieler nicht mehr trauen gegen sie zu spielen! Da hier eine doch deutliche Mehrheit für Beibehalten des Ratings ist, und die Minderheit uneins, scheine ich mir mehr Gedanken um die Unvollkommenheit des Ratings zu machen als die Leser. Insofern lasse ich erstmal alles wie es ist.

Der Vergleich der Ranglisten untereinander ist auch schwierig. Von den unterschiedlichen Bedinungen will ich gar nicht sprechen, aber da jede Liste eine andere Berechnungsgrundlage hernimmt, sind nicht mal die Zahlen wirklich vergleichbar (Vor 4 Wochen habe ich mal einen ordentlichen Abgleich über möglichst viele Engines zw. IPON und CEGT 40/20 gemacht. Die durchschnittliche Differenz betrug 194 Elo. Wer also wissen will wo ungefähr eine Engine aus der CEGT 40/20 in der IPON stehen würde muß ungefähr 194 Elo abziehen. So mache ich das manchmal wenn ich entscheide ob ich eine Engine teste oder nicht.)

Gruß
Ingo
Parent - By Frank Quisinsky Date 2011-01-07 14:04 Edited 2011-01-07 14:10
Hi Ingo,

ich erinnere mich noch an die erste Abstimmung auf meinen Webseiten vor ca. 14 Jahren.
375 Personen stimmten bei einer Umfrage ab.

Die Leute waren begeistert und verfolgten diese Umfrage sehr rege.
So nach und nach lies das Interesse an den Umfragen nach.

Jahre später, die Zugriffe auf meinen Webseiten waren ca. 20x höher als bei der ersten Umfrage, waren es noch 225 Personen obwohl das Thema durch sämtliche Foren ging und auch sämtliche Leute wirklich beschäftigte.

Das ist seit Jahren auch die Tendenz hinsichtlich der Bereitschaft mal etwa zum Besten zu geben. Die aktiven Poster hier geben sich zwar eine wahnsinnige Mühe mit dem was so gemacht wird, diese Dinge werden auch rege beobachtet aber das aktive Internet lässt mehr und mehr nach bzw. wird eher von der jüngeren Generation genutzt. Die ältere Generation ist eher sehr anonym unterwegs was auch OK ist.

20 Abstimmungen bei einer wirklich wichtigen Umfrage zum Thema ELO (jeder schaut drauf, jeder will diese wissen aber mehr auch nicht). Sind nur wenige die sich mit diesem komplizierten System überhaupt beschäftigen. Für die Ratinglistenbetreiber immer wieder ein Thema, für den gemeinen User eher nicht bzw. ein beiläufiges Thema.

Nun ja, wir können vieles interessanter gestalten.

23 Abstimmungen ... bekomme ja jetzt schon wieder 30 E-Mails täglich zum Thema SWCR, Ideen, Vorschläge, Kommentare ... da spielt sich per eMail ca. das 5-10fache mehr ab als in diesem Forum.

Finde es gut das Du das System beibehalten wirst. So lange es nichts besseres als Bayesian gibt, gibt es auch keinen Grund für Änderungen. Neu-Berechnungen z. B. starten bei 0 führt bei den "normalen" Besuchern total in die Irre, nur wenige würden das verstehen. Damit werden eher Interessierte vergrault, sollte auch mal bedacht werden.

Viele Grüße und allen anderen ein schönes Wochenende!
Frank

zur Zeit eine interessante Kreuzdiskussion mit 6 Personen zum Thema:
Wie stark wäre eine Engine die vor 5 Jahren 25 andere Gegner hatte bei ausreichender Anzahl an Partien.
Wollte das ja mittels ChessTiger testen aber hatte das zurückgeschoben.
Da gingen schon 20 oder 30 eMails hin- und her mit Analysen und Berichten.
Und die Leute wollen das alle nicht mehr in einem Forum diskutieren obwohl ich das natürlich anregte damit alle etwas davon haben.
Aber solche Dinge müssen dann auch akzeptiert werden.
Up Topic Hauptforen / CSS-Forum / Neue IPON Elos ?

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill