SWCR einstellen, Umstrukturierung?

By Frank Quisinsky Date 2011-06-30 22:12

vergessen,

wenn diese Ideen durchgezogen werden, würde das auch bedeuten das sich hieraus neue Ideen ergeben.
Wir könnten die optimale Zeitkontrolle für Eng-Eng Matches errechnen, Ratinglisten zukünftig neu überdenken um die ganzen Erkenntnisse auch gezielt zu nutzen.

In der Laufzeit von diesem Test werden ja sicherlich die CEGT / CCRL und Ipon weiterhin über die aktuellen Engines und deren Resultate berichten. Insofern geht nichts verloren, die SWCR würde dann für die Interessierten eher einen andere Part einnehmen, und zwar den statistischen!

Bin sehr gespannt auf die Meinungen zu diesen Ideen!

By Bert Rinzel Date 2011-06-30 22:13

http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=39422;hl=

Glückwunsch: ein guter anfang.

By Frank Quisinsky Date 2011-06-30 22:38 Edited 2011-06-30 22:41

Hi Bert,

schauen wir auf IPON und SWCR, doppelte Bedenkzeit mal gezielt auf Junior 12.5.0.3 stellen wir fest ...
Das liegt nicht daran das IPON oder die SWCR gut oder schlecht ist.

Ich kenne Dein Posting, bzw. habe das in Erinnerung.

Mir geht es wirklich um neue Erkenntnisse.
Ich hatte z. B. auch schon eine SWCR Blitzliste laufen die ich ca. genau vor einem Jahr eingestellt hatte. Die Schwankungen bis Partienummer 600 waren durchschnittlich um 8% größer als bei 40 in 10. Das bedeutet letztendlich das diese Schwankungen mit mehr Partien ausgeglichen werden müssen. Das bedeutet nicht, das die Ergebnisse auch zu anderen Zeitkontrollen gleich sind.

Wenn Junior nun wirklich mit mehr Bedenkzeit steigt (davon kann ausgegangen werden) können auch andere Engines mit mehr Bedenkzeit in Ihrer Leistung fallen. Letzteres wurde bislang auch kaum näher betrachtet.

Und zu Deinem Posting:
Bleibe dabei, testen auf mehrere Cores macht keinen Sinn.
Wenn alle Engines ein gleiches Verhalten bei mehr Cores hätten, wäre das auch nur eine Zeitkomponente. Wenn bei 4 Cores also alle um Faktor 3.2 einheitlich zulegen erreiche ich das auch mit 3.2facher Bedenkzeit. Die Umsetzung von SMP ist stark unterschiedlich bei den Engines.

Eine genaue Messung der reinen Spielstärke kann nur mit einem Core erfolgen.

Wir können sagen:

Houdini 1.5 hat 3.000 ELO bei einem Core
Würde 55 ELO hinzubekommen bei 2 Cores
Würde 85 ELO hinzubekommen bei 4 Cores
Endspieltabellen: 4-Steiner machen dann 20 ELO aus
Endspieltabellen: 5-Steiner machen dann 25 ELO aus

Und rechnen das alles zusammen.
Aber das sind Dinge die können wir mehr oder weniger mit weniger Zeitaufwand selbst berechnen.

Was wichtig ist, ist einzig und allein die Grundspielstärke ohne Endspieldatenbanken und ohne dem Einsatz von mehreren Cores.
Alles Spielerei hinsichtlich Bestimmung von Spielstärken aber kein nützliches "Messen".

Natürlich wichtig für Analysen, wie bei Fernschachanalysen oder bei Wettkämpfen auch auf Servern oder Meisterschaften aber unsinnig wenn es um die reine Messung der Spielstärke geht. Und genau das ist ja mein Interesse, möchte alle unter den absolut gleichen Voraussetzungen sehen.

Und weiter zu Deinem Posting ...
Nur die TOPs.

Ja, geht schon alleine aus Zeitgründen nicht anders.
Auch sollte die Spielstärke maximal nicht mehr als 300 ELO auseinanderliegen denn ...

Die Nummer 1 oder die Nummer 16 werden sonst nicht korrekt gemessen.
Auch so ein Thema. Obwohl z. B. die Nummer 16 bei 16 Engines nicht mehr spielen würde aber plötzlich 16 weitere schlechtere Engines hinzukommen, stimmt das Rating der ehemaligen Nummer 16 wieder.

Beispiel:
Nummer 01. Houdini 3.000 ELO
Nummer 16. Equinox 2.700 ELO
wäre tatsächlich so ... wenn es noch eine Nummer 17-32 geben würde (Betrachtung jetzt bei Equinox).

Bei meinem Event würde aber folgendes passieren, gibt nur die 16 ...

Nummer 01. Houdini 3.000 ELO
Nummer 16. Equinox 2.680 ELO

Equinox ist 20 ELO schwächer als tatsächlich.
Gleiches gilt für Houdini ... die 3.000 die SWCR oder IPON darstellt wären vielleicht 2.980 wenn plötzlich vor Houdini 16 andere Engines auftauchen.

Für mich, als Person die messen möchte, eine Katastrophe

Aber da gibt es einfach keine wirkliche Abhilfe denn die derzeitigen Berechnungsprogramme sind zu schwach um das genauer zu messen!

Gruß
Frank

PS: Da nur 15 Gegner bei 16 Engines wird das Rating ungenauer als derzeit bei 30 Gegner im Vergleich zur aktuellen SWCR.
Aber das interessiert jetzt nicht, sondern eher ... wie verändern sich die Leistungen mit mehr Bedenkzeit bei den 16 Testkandidaten!

By Andreas Luettke Date 2011-06-30 22:30

Nachdem Rybka ja nun out ist lohnt es sich sicher darüber nachzudenken, immerhin ist der Ansatz gut aber ich halte die Bedenkzeit immer noch für zu kurz, wenn dann mache es doch gleich von Anfang an richtig dann haste bestimmt auch mehr Leute die sich dafür interessieren könnten

By Frank Quisinsky Date 2011-06-30 23:18 Edited 2011-06-30 23:26

Hi Andreas,

könnte zwar auch alle 7 Q9550 Rechner einsetzen und dann nochmals verdoppeln aber das mache ich nicht.
Strom wäre zu teuer, ca. 160 EUR im Monat bei 8 Rechnern.

Und da die SWCR schon kaum mit PayPal Buttom unterstützt wurde (reichte für eine monatliche Stromrechnung) würde mich das pro Jahr 2.000 EUR nur an Strom kosten.

Ferner kann wenn folgende Ergebnisse vorliegen:

40 in 2
40 in 5
40 in 10
40 in 40

sehr einfach hochgerechnet werden wie es aussehen würde bei ...
40 in 80
40 in 120 oder auch
40 in 50000

Einfache Excel-Berechnung!

Gruß
Frank

Also, mehr Bedenkzeit geht aus zeitlichen, technischen nicht und finanziell wäre es meines Erachtens nicht mehr vertretbar.
4 Quad Cores ist Maximum!

By Benno Hartwig Date 2011-07-01 00:02

Ich hoffe und glaube auch, das Rybka 4.1 fleißig in den Listen weiter auftaucht.
Und falls es eine Rybka 5 gibt, die dann auch.
Benno

By Frank Quisinsky Date 2011-06-30 22:46

Also eine rein statistische Ratingliste, die natürlich auch sehr gutes Partiematerial erzeugt. 40 in 40 wäre die 2 1/2 fache Bedenkzeit von CCRL, die 16fache Bedenkzeit von IPON und die 12fache Bedenkzeit von CEGT und die 8fache Bedenkzeit der SWCR.

Unsinn ..

die 4fache Bedenkzeit von SWCR
die 5fache Bedenkzeit im Vergleich zur CEGT 40 in 20
die 9fache Bedenkzeit im Vergleich zu IPON
die 11fache Bedenkzeit im Vergleich zu CEGT Blitz
und die
2 1/2 fache Bedenkezit im Vergleich zu CCRL

Auch nur ca. Angaben!

Gruß
Frank

By Frank Quisinsky Date 2011-06-30 23:15

01. Houdini
02. Stockfish
03. Critter
04. Fire / IvanHoe (es spielt eine Version, entweder ein Fire oder ein IvanHoe)
05. Komodo
06. Naum
07. Shredder
08. Sjeng
09. Spike
10. GullChess
11. Protector
12. Junior
13. Hiarcs
14. Spark
15. Hannibal
16. Equinox

Ist auch Quatsch ...

01. Houdini 1.5 x64
02. Stockfish 2.1.1 JA x64 PHQ (aggressiver wird mit mehr Zeit zulegen)
03. Critter 1.2 x64
04. Fire X (hoffe Norman kann mein Problem lösen)
05. Komodo 2.03 JA x64
06. Naum 4.2 x64
07. Shredder 12 w32
08. Sjeng c't 2010 w32
09. GullChess 1.2 x64
10. Spike 1.4 Leiden w32
11. Protector 1.4.0 JA x64
12. Junior 12.5.03 x64
13. Spark 1.0 x64
14. Hiarcs 13.2 w32
15. Hannibal 1.1 x64
16. Zappa Mexico II x64

Ohne Equinox (private Version) und ohne Thinker (zeigt keine Bewertung an).
Die Partien werden dann mit den Shredder Bewertungen zum Download angeboten.

Ohne Deep Fritz 12 (andere GUI)
Ohne IvanHoe (es spielt Fire)
Ohne Rybka (macht keinen weiteren Sinn mehr)

Es würden dann auch nur verfügbare Versionen spielen und wie gesagt während der Laufzeit erfolgen keine Updates.
Sofern die Idee gut ist, die ersehnten Erkenntnisse dabei herauskommen, kann alles in Jahr 2 mit neueren Versionen wiederholt werden.
Allerdings ist dann meine Hardware zu alt geworden.

Insofern lassen wir die Q9550 Rechner Ihren letzten großen Dienst verrichten und schicken die dann in Rente.

Gruß
Frank

By Thomas Müller Date 2011-06-30 23:11

Was ist wenn die aktuelle Nr 23 so gut wird das diese Nr 12 sein könnte? Bleibt diese dann außen vor oder kommt diese nach einem Jahr dazu und die 16. Fliegt raus?
Ohne rybka....oho

By Frank Quisinsky Date 2011-06-30 23:24

Hi,

während der Durchführung von diesem Test erfolgt kein Update.
Und selbst wenn Fabian seine neue Engine veröffentlichen würde.

Sofern es CEGT, IPON oder CCRL noch gibt, andere Ratinglisten wie Deine oder die von Clemens etc. würde ich mich nach einem Jahr daran orientieren.
Und dann die aktuellen TOP-16 für die nächste Runde zusammenstellen.

Ja, ohne Rybka.
Wenn neu aufgebaut wird klar, wenn nicht neu aufgebaut wird ... dazu habe ich etwas in meinem News-Ticker gesetzt.

Wie gesagt, ist derzeit eine Idee die mir sicherlich auch Spaß machen würde.
Denke ich würde das dann langsam in Angriff nehmen und ca. ab 01.08.2011 starten.

Muss ja alles mögliche umstellen, meine ganzen Webseiten und die Detailseiten zu den vielen kleinen Turnieren aufbauen.
Natürlich läuft das Live Tool für das aktuelle Turnier mit.

Muss mal überlegen ...
Weiß ja noch gar nicht ob es dazu kommt.
Daher wollte ich mal hören ob die Idee ankommt oder nicht.

Gruß
Frank

By Benno Hartwig Date 2011-07-01 00:07

Du bist ja begeistert und fleißig!
Super!

Bist du sicher, dass dich diese langen Zeiten nicht so blokieren, dass dir andere Tests auf den Nägeln brennen werden und nicht abgearbeitet werden können?
Lange Zeiten interessieren sicher sehr!!!
Aber kleine Umfänge ärgern dann ggf. wieder.
Und ggf. werden dann manche Tests nicht mehr möglich sein (zeitlich).

Auf jeden fall wünsche ich dir viel Erfolg
und viele Interessenten!
Benno

By Frank Quisinsky Date 2011-07-01 00:17 Edited 2011-07-01 00:20

Hi,

wichtig wäre mir jetzt wirklich, dass mehr Details zur Spielstärkeentwicklung bei unterschiedlichen Bedenkzeiten zu Stande kommen.

Wenn wir eine Datenbank hätten die folgendes beeinhaltet:

40 in 2
40 in 5
40 in 10
40 in 40

mit den gleichen 16 Engines unter den gleichen Voraussetzungen bei ca. 2.000 Partien pro Engine und Zeitkontrolle ... ja dann können wir uns in Excel austoben, weil einfach alles ersichtlich wird.

z. B. könnte folgendes Ergebnis herauskommen.

Hannibal 1.1 x64 2.740 ELO bei 40 in 2
Hannibal 1.1 x64 2.738 ELO bei 40 in 5 (keine Aussage bei ca. 2.000 Partien)
Hannibal 1.1 x64 2.735 ELO bei 40 in 10 (so langsam wird es interessant)
Hannibal 1.1 x64 2.730 ELO bei 40 in 40 (aha)

Heißt aber auch nur ... diese Version nimmt mit mehr Zeit an Spielstärke ab.
Kann bei einer anderen Hannibal Version wieder anders ausschauen.

Jetzt haben wir aber 16 von diesen Ergebnissen!

Wir erstellen Mittelwert auf Mittelwert auf Mittelwert etc. mit dem Ergebnis:

Für die Berechnung einer Ratingliste ist 40 in 4 ausreichend (keine Ahnung ob das so ist)

Oder wir sehen grundsätzlich ...
Junior nimmt zu, Unterschied von 40 in 2 auf 40 in 40 ist 48 ELO.

etc, etc..

Wenn so etwas jedes Jahr mit den aktuellen Engines wiederholt werden würde ...
85% der Ratinglistendiskussionen fallen weg

Weil einfach alles klar ist.

Ganz unabhängig davon hätten wir viel mehr Eindrücke zu den Stärken und Schwächen der Engines.
Könnten diese noch gezielter für Analysen einsetzen.

Sinn ist es also nicht für ein hohen schachlichen Wert zu sorgen (obwohl 40 in 40 schon gut ist), sondern Informationen für den besseren und gezielteren Einsatz einer Engine zu generieren.

Gruß
Frank

Im Grunde haben wir gar keine Ratingliste mehr, sondern eine Statistikliste die komplett anders als eine Ratingliste aufgebaut werden müsste. Die ELO Angabe wäre dann eher eine unwichtigere Angabe in Kombination dessen was dann machbar wäre.

By Benno Hartwig Date 2011-07-01 08:00

[quote="Frank Quisinsky"]mit den gleichen 16 Engines unter den gleichen Voraussetzungen bei ca. 2.000 Partien pro Engine und Zeitkontrolle ... ja dann können wir uns in Excel austoben, weil einfach alles ersichtlich wird.[/quote]Ja, solch eine Datenbasis wäre schon sehr interessant.
Ich habe den Eindruck, dass es zu diesen relativen Spielstärken bei verschiedenen Zeiten bislang kaum mehr gibt als vage Abschätzungen und Spekulationen.
Vielleicht kannst du damit etwas 'Butter bei die Fische' geben.
Benno

By Frank Quisinsky Date 2011-07-01 08:16

Hi Benno,

ja genau!

Die Frage wird wirklich sein, ob ich das in Angriff nehme.
Ist wieder Arbeit, die SWCR wäre mehr oder weniger dahin ... hat ja schon viele Fans und Beobachter!
Viele Personen interessieren sich für 32bit, kommt in vielen Ratinglisten zu kurz.
Die SWCR Champions-League 2 könnte dann auch nicht mehr durchgeführt werden.
Froh bin ich auch das sich der erste Tester eingefunden hat, der die SWCR unterstützt und mitwerkelt.

etc.

Spricht genauso viel dafür den Test nicht durchzuführen oder vielleicht zu einem späteren Zeitpunkt durchzuführen.
Vielleicht nach der SWCR-Champions-League 2012, also starten erst im Feburar 2012.

In diesem Fall dann die SWCR nach bisherigen Muster weiter führen. Bis dahin wären ca. 160.000 Partien gespielt.
Auch noch das angekündigte Oldie-Mix Turnier spielen, die SWCR-32 noch updaten und dann die SWCR beenden inklusive dieser Ergebnisse.

Der hier vorgeschlagene Test rennt nicht weg.
Das spricht meines Erachtens dagegen.

Insofern, muss alles gut überlegt werden aber ...
Wenn ich mir das wirklich antue, wird das Ergebnis gut sein und Schluss ist mit vielen Diskussionen zu den Zeitkontrollen.

Wahrscheinlich wird das Event dann auch wieder für einen ganz anderen Personenkreis interessant.
Weiß es nicht ...

Gruß
Frank

By Frank Quisinsky Date 2011-07-01 08:24

Hi,

also ich tendiere dazu genau das zu testen was ich beschrieben habe.
Aber zunächst mal den Ankündigen gerecht zu werden und bis nach der 2. SWCR Champions-League alles so zu belassen wie es derzeit läuft.
In Ruhe das neue Event vorzubereiten.

Würde bedeuten das die SWCR noch 6 Monate läuft, dann die Champions-League und dann wird das besprochene neue Event gestartet, welches dann ca. 12 Monate läuft.

Gruß
Frank

By Frank Quisinsky Date 2011-07-01 00:27

Hi Benno,

zu Deinen Fragen:

Mir ist es egal ob SF 2.1.1 JA x64 oder ein SF 3.0.0 JA x64 spielt. Ich muss SF 3.0.0 nicht spielen sehen nur weil die Engine 50 ELO stärker geworden ist.

Weil:
SF 2.1.1 JA x64 eh schon eine so gewaltige Spielstärke hat, dass mir das zusehen auch so Spass machen würde. Ich kann eh nicht mehr erkennen ob SF 3.0.0 oder 2.1.1 spielt, nicht anhand einer laufenden Partie. Insofern ist die Jagd nach neuen Versionen unter den Usern auch immer ein wenig stark übertrieben. Besser ist es sich mal gezielt mit einer Version eine Zeit zu beschäftigen um die Engine dann besser im Griff zu haben, hinsichtlich Erfahrungswerten wo denn wirklich die Stärken oder Schwächen liegen.

Bei 40 in 40 liegen bei 16 Engines auch Ergebnisse mit rund 2.000 Partien vor. Dauert heit nur 10 Monate. Interessant wird das dann durch die vielen kleinen Turniere die aneinander gereiht werden.

Auch wenn andere Testsachen nicht mehr möglich sind, so wird das Ergebnis des laufenden Testes sehr viele noch strittige Fragen beantworten. Das ist ein besseres Ergebnis als zu Zeitkontrollen weiter zu spekulieren ob nun 500 oder 5.000 Partien vorliegen. Es werden oft so viele Partien gespielt aber neue Erkenntnisse erhalten wir dadurch auch nicht.

Gruß
Frank

By Frank Quisinsky Date 2011-07-01 00:44

Hi,

habe übrigens die Gedanken schon länger im Kopf.
Nehme jetzt die Rybka Diskussion zum Anlass auch mal sinnvoller über unsere Ratinglisten nachzudenken bzw. um vom Thema Rybka abzulenken.

Finde das ist so ausgeleiert und sollte endlich abgeschlossen werden.
Rybka hält nur auf ... in der Zeit in der die Programmierer in TalkChess immer wieder darüber diskutieren könnten die Engines schon 5 ELO stärker gemacht werden und die User könnten in der Zeit dieser Beschäftigung schon längst eine interessante Testreihe abgeschlossen haben.

Hält auf und bringt nichts!

Also verknüpfen mit ... wie kann im Computerschach bestehendes verbessert werden.
Stinkt mir gewaltig das die so gescholtene ICGA Stärke gezeigt hat.
Weil ich selbst umdenken muss, dass nicht erwartet habe.

So ganz nach dem Motto ...
Neue Strukturen fördern Innovation!

Da will ich mich jetzt natürlich nicht lumpen lassen und mit den ganzen Erfahrungen beim betreiben einer Ratingliste mal so endlich die vielen Schwachpunkte beseitigen. Sonst spiele ich noch in 100 Jahren an der SWCR um die Liste dümpelt langweilig vor sich hin.

Gruß
Frank

By Anon B. Date 2011-07-01 09:02

Hallo Frank Quisinsky,

die SWCR war noch nie so gut wie im Augenblick.

Frage: Angenommen bei Engine A stellt sich heraus das sie mit doppelter Bedenkzeit ca. 30 Elo Punkte hinzugewinnt, was macht der normale
"Anwender" mit dem Ergebnis wenn die Version nicht die Nr. 1 der Ratingliste ist?

Ein GM (z.B. Anand als Houdini User) : nichts
Fernschachspieler: nichts
Hobbyspieler: nichts

Bis das Ergebnis feststeht gibt es schon viele neue Versionen, die evtl. dieses Verhalten nicht mehr haben (wie von Ihnen ja auch weiter oben bemerkt).
Also, die sicherlich nicht nur für mich wichtigste Frage, und die wird definitiv mit 10min +x ausreichend beantwortet ist doch welche Engine die stärkste ist.
Und wenn Houdini "nur" im Blitz besser wäre dann hätte Anand das beim Analysieren sicherlich schon gemerkt.

Ich fände es viel Interessanter wenn mal eine Ranglist hinsichtlich: 100 komplexe Turmendspielstellungen (als Startpositionen) oder z.b. 100 x Springerendspiel , oder
100 * Fianchettoeröffnungen (Königsinder-Problem) veröffentlicht würde.
Das würde wirklich beim Analysieren, und das ist für den "ernsthaften" Anwender meiner Meinung nach immer noch am wichtigsten, am meisten helfen.

Ich fände es ansonst wirklich schade wenn die jetzt sehr interessanten "Live Übertragungen" nicht mehr stattfinden würden.

Und was macht ein Herr Ritzel mit der Datenbank: Ins Eröffnungsbuch einbauen, wie alle anderen Sever Spieler dann natürlich auch, und dann?
Mit Versionen die ein Jahr alt sind? Deren "schachlicher" Nutzen plötzlich dann vermutlich doch nicht mehr so hoch ist??

Ich weiß das obige Punkte nichts mit dem persönlichen Anreiz von Ihnen als Ranglistenerstellers zu tuen haben. Es wäre aber wirlich schade wenn die SWCR in
der Bedeutungslosigkeit verschwinden würde (was meiner Meinung passieren würde).

Grüße
Anon B.

By Frank Quisinsky Date 2011-07-01 22:46

Hallo,

Frage: Angenommen bei Engine A stellt sich heraus das sie mit doppelter Bedenkzeit ca. 30 Elo Punkte hinzugewinnt, was macht der normale
"Anwender" mit dem Ergebnis wenn die Version nicht die Nr. 1 der Ratingliste ist?

Das ist ja das Problem.
Die Leute sehen in der Ratingliste Houdini auf Platz 1, Rybka auf Platz 2. Analysieren jetzt mit Houdini und Rybka in allen Partiephasen und verpassen, dass ein Spark, ein Stockfish, ein Junior im frühen Mittelspiel taktisch gar wesentlich stärker sind. Das geht mir so auf den Keks, das nur auf die verfluchten ELOs geschaut wird, aber auch das es so schwierig ist tiefere Aussagen zu den Engines zu treffen. Es fehlt an allen Ecken und Enden, denn unser Wissen reicht leider nicht aus. Hier diskutieren x Leute über Houdini aber wahrscheinlich gibt es noch nicht mal 5 die vielleicht nur 1.000 ELO an Spielstärke weniger haben. So irrsinnig ist das ganze geworden.

Zu der Frage:
Die wesentliche Erkenntnis kann bei dem vorgeschlagenen Test durch Mittelwerte gezogen werden. Welche Zeitkontrolle bildet den besten Mittelwert hinsichtlich Abweichung von Ergebnissen bei unterschiedlichen Zeitkontrollen. Das macht eine ganz Liste noch genauer, natürlich dann wenn diese Erkenntnisse auch umgesetzt werden.

Also, Mittelwert ist 40in 8 auf Q9550 ... das heißt die Ratingliste benötigt diese Zeitkontrolle um einen guten Mittelwert der gestesteten Engines zu erreichen.

Auch seit vielen Jahren immer in der Diskussion, werden Engines mit mehr Zeit stärker oder schwächer und wenn ja welche bzw. dann warum werden diese stärker oder schwächer. Meines Erachtens liegt das bei Junior schon auf der Hand aufgrund der vorhandenen Ergebnisse der bekannten Listen.

Zu Deiner Anregung:
Liste starten mit z. B. 20 Vorgabestellungen Mittelspiel, 40 zum Endspiel und so weiter. Bei Endspielen mit eindeutigen Strategien die zum Remis oder Gewinn führen sicherlich eine gute Idee. Nur dann wäre das nicht unbedingt in ELO zu messen, sondern eher ... bei Stellungstyp A ... x% und gut abgeschnitten oder irgend so. Und bei den Mittelspielstellungen meines Erachtens schon fast wieder egal, weil durch wirklich einen anderen Zug wieder eine komplett andere Stellung entsteht.

Mittelspiel:
Ich will testen ob der Zug zum Angriff mit Th1-e1, .... h4 ... Th3 gefunden wird. Nun spielt die Engine aber dumm am Damenflügel und plötzlich entsteht aufgrund a4 dort eine ganz andere Partie als mit der Vorgabestellung bezweckt. Hier stark übertrieben dargestellt, aber nichts anderes passiert wenn wir einen Sizilianer vorgeben und nach 2 Zügen kommt schon was völlig anders als erwartet aufs Brett. Wie sagte GM Meyer im Interview welches ich mit Ihm und GM Hickl durchgeführt habe. Der Schwachpunkt bei Schachprogrammen sind oftmals die ersten selbst berechneten Züge nach der Theorie.

Finde Deine Idee wirklich gut aber es müssten dann richtig gute Stellungen sein mit denen gestartet wird und abgetestet würde auch nur ... ja kann das Springerendspiel oder nein ... hält kein Remis. Und bei den Fianchettoeröffnungen wackeln fast alle Programme, immer noch. Ein Lieblingsthema von Hyatt der sich immer darüber ärgert das Crafty bei Fianchettoeröffnungen wirklich ganz schlecht abschneidet.

Und mit der SWCR muss ich wirklich mal mehr drüber nachdenken.
Auf der einen Seite wirklich langweilig alles so weiter laufen zu lassen, auch wenn zwischendurch dann doch wieder interessant.
Reizt heit mehr etwas neues festzustellen ... natürlich wird dabei zunächst das Interesse wieder zurück gehen.

Muss mir das besser überlegen, sind jetzt einige im Thread die sich die Mühe gemacht haben zu schreiben. Konnte schon viele interessante Hinweise entnehmen aber ich bin derzeit überfordert zu entscheiden. Denke ich werde erst mal alles was angekündigt wurde spielen lassen und in dieser Zeit mal in Ruhe überlegen wie es nach der zweiten Champions-League weiter geht

Viele Grüße
Frank

By Stefan Pohl Date 2011-07-01 09:03

[quote="Frank Quisinsky"]
Hallo zusammen,

ich überlege ernsthaft die SWCR einzustellen und komplett neu unter anderen Spielbedingungen aufzubauen.

Weil ...

1. Es liegen genug Ergebnisse vor um w32 / x64 zu vergleichen.
2. Es liegen genug Ergebnisse bei 40 in 10 / Schnellschach generell vor.
3. Möchte Verbesserungen einbauen, die eine noch bessere Messung der Grundspielstärke einer Engine erzeugen (Wegfall der Endspieltabellen für bessere Endspielanalysen).

Sehr zufrieden bin ich mit den Einstellungen:

- ponder = on
- Aufgabefaktor = off
- Learning = off

Daran würde ich nichts ändern.

Wichtig wäre jetzt die Spielstufe zu vervierfachen. Nach meinen Analysen müßte das ausreichen um mehr Erkenntnisse hinsichtlich Vergleichen zu kurzen und mittleren Bedenkzeiten zu erhalten. Daher wäre es wichitg natürlich auch weiterhin mit Ponder = on spielen zu lassen.

Wenn ich nach wie vor 4 Quad Core Systeme einsetze wären das bei 40 Züge in 40 Minuten ca. 70 Partien pro Tag = 2.100 Partien im Monat = 25.200 Partien im Jahr. Eine Partie würde durchschnittlich 160 Minuten laufen, also ca. 2.5 Stunden.

Die Frage bei so wenigen Partien wird sein, wie kann das dann langfristig überhaupt interessant dargestellt werden?

1. Engines werden grundsätzlich nur 1x im Jahr upgedatet.
2. Es wird nur noch 64bit getestet, es sei denn das nur eine 32bit Engine verfügbar ist.
3. ChessBase Native wird nicht mehr eingesetzt, zu kompliziert eine zweite GUI für eine Engine einzubinden.
4. Es werden maximal die TOP-16 getestet.

Geplant wäre dann:

01. Houdini
02. Stockfish
03. Critter
04. Fire / IvanHoe (es spielt eine Version, entweder ein Fire oder ein IvanHoe)
05. Komodo
06. Naum
07. Shredder
08. Sjeng
09. Spike
10. GullChess
11. Protector
12. Junior
13. Hiarcs
14. Spark
15. Hannibal
16. Equinox

Diese 16 spielen "Jeder gegen Jeden" ein Turnier mit je 4 Partien pro Match.

Ein Turnier besteht aus 480 Partien.
Laufzeit = 1 Woche

Das Turnier wird dann 30x wiederholt.

Und jetzt mit folgender Idee, dass im Anschluss an ein 480 Partien umfassendes Turnier bei 40 in 40 direkt das gleiche Turnier mit 40 in 5 gespielt wird.

Mit dem Ergebnis ...

30 Turniere a 480 Partien bei 40 in 40
30 Turniere a 480 Partien bei 40 in 5

Partien pro Engine = 1.800 nach Abschluss von diesem Test sowohl bei
40 Züge in 40 Minuten als auch bei 40 Züge in 5 Minuten unter den gleichen Voraussetzungen.

[/quote]

Moin Frank,
kurz meine Meinung dazu:

1) Endspieltabellen weglassen halte ich für falsch. Wer heutzutage Endspiele mit Engineunterstützung analysiert, nutzt mit Sicherheit auch die 3-5 Steiner. Endspielverhalten ohne TB-Nutzung ist daher m.E. völlig uninteressant, da total praxisfern. Zumal dank der GTBs die Nutzung für alle Engines völlig unproblematisch geworden ist und sicher in Zukunft früher oder später alle Engines diese nutzen werden. Daher würde ich sogar die 5 Steiner mit reinnehmen (sowohl für die Engines als auch für die GUI), aber auf keinen Fall ganz ohne TBs spielen lassen. 5 Steiner setzen natürlich das Parken der TBs auf Flash voraus und mindestens 128 MB (besser 256) Cache für jede Engine. Beides ist aber heutzutage kein Problem mehr...

2) Längere Bedenkzeit ist OK, aber die Bedenkzeiteinteilung X Züge in Y Minuten ist m.E. völlig überholt und setzt willkürliche Zeitkontrollpunkte mitten in die Partie (bei Dir bei Zug 40), die im Zweifelsfalle nur die Ergebnisse verzerren. Viel besser ist ein Gesamtzeitkonto und ein Fischerbonus. Ideal ist hier m.E. ein Fischerbonus, der in Sekunden 50% des Gesamtzeitkontos in Minuten ausmacht (2'+1'', 10'+5'', 30'+15'' etc.). So kann sich die Engine die Gesamtzeit frei einteilen, wird aber dennoch für zu inflationären Bedenkzeiteinsatz bestraft (weil der Fischerbonus recht gering ist) und es kommt auch bei sehr langem Endspielgeschiebe nie zu Zeitnotdramen (eben weil es einen Fischerbonus gibt), selbst wenn eine Partie 200 Züge oder länger dauert. In deinem Fall - Du willst ja lange Bedenkzeit - wäre evt. 60'+30'' eine Idee. Ich weiß, daß mit 2'+1'' eine Partie im Schnitt ca. 6,5 Minuten dauert (mit Remis und Aufgeben auf aus). Mal 30 hochgerechnet wären das dann 195' pro Partie. Oder 40'+20'', dann würde eine Partie ca. 130 Minuten dauern.

3) Nur noch 64bit zu testen ist richtig. 32bit-Systeme sind bei HeimPCs überholt. Punkt.

4) Prinzipiell finde ich es hochproblematisch jeder Engine nur einen Core zur Verfügung zu stellen. Multicore-Nutzung ist heutzutage ebenso wie die 64bit-Betriebssysteme einfach Standard (selbst das Ipad 2 hat schon DualCore!). Und da das Parallelisieren des Alpha-Beta-Algorithmus nicht einfach ist, halte ich es für mehr als fragwürdig, wenn eine moderne Rangliste die Qualitäten oder Schwächen von Engines in der Parallelisierung des Rechenprozesses einfach ignoriert. Dies ist heutzutage m.E. ein wichtiges Qualitätsmerkmal. Eher würde ich aufs Pondern verzichten, was nun wirklich keine programmiertechnische Errungenschaft ist (das konnte schon Sargon, die älteren werden sich erinnern) und de facto einfach Rechenzeit verschwendet (macht der Gegner einen anderen Zug als die Engine erwartete war der Ponder-Rechenaufwand für die Katz). Ideal ist natürlich beides (Multicore und Pondern), aber wenn ich mich für eins entscheiden müßte, weil die Ressourcen nun mal begrenzt sind, dann auf jeden Fall fürs Multicore-Rechnen!!!

5) Das Begrenzen der Rangliste auf die Top 16 finde ich richtig: Ergebnisse (oder treffender: Abschlachtungen) von Houdini gegen Crafty interessieren doch nun wirklich nicht und können ggf. sogar ein Rating verzerren. Ich würde sogar ernsthaft überlegen auf 11 Engines zu reduzieren. So hat man immer je 10 Gegner, das ist schön übersichtlich und ermöglicht in gleicher Zeit mehr Turnier-Runden.

Auf jeden Fall solltest Du alles gründlich überdenken, denn einmal getroffene Entscheiden kannst Du ja dann nicht mehr revidieren. Also lass meine Anregungen mal ein paar Tage auf dich wirken...

Beste Grüße - Stefan

By Bert Rinzel Date 2011-07-01 10:09

http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=39422;hl=

ohne worte

By Frank Quisinsky Date 2011-07-01 23:08

Hallo Stefan,

zu 1:
Da haben wir eine unterschiedliche Meinung. Ich möchte Datenbankeinflüsse vermeiden. So ist auch das Buch aufgebaut, keine mögliche Entscheidung direkt aus dem Buch. Die Engines greifen mehr oder weniger aggressiv auf die Endspieldatenbank zu. Das ist OK, weil so gewollt und programmiert. Aber dennoch sind es Datenbanken, bzw. können Partien aufgrund von Datenbankabfragen entschieden werden. Also ein Beeinflussungsfaktor ... alles was die reine Rechenleistung beeinflusst ist ein Beeinflussungsfaktor. Reines Messen geht nur wenn alle Beeinflussungsfaktoren wie ... Learning, Endspieltaballen, Aufgabefaktor, mehrere Cores ausgeschaltet werden. Vielleicht ist meine Ansicht total überholt, mag sein!

zu 2:
Bedenkzeit: Früher haben wir Fischer unter ChessBase GUI eigentlich nur dazu verwendet um Zeitüberschreitungen zu vermeiden, weil die Protokollumsetzungen problematisch waren. Aber hier muss ich wirklich umdenken, meine Einstellungen zur Bedenkzeit sind heute unüblich, wirken altmodisch sind gar überholt. Selbst im Verein wird fast ausschließlich Fischer gespielt. Wäre vielleicht ein Punkt den ich bei einem Neuaufbau berücksichtigen würde bzw. meine alten Ansichten mal über Board werfen würde.

zu 3:
Ja, so langsam, vielleicht sollte das noch ein halbes Jahr laufen. Bin auch am überlegen (werde wohl die SWCR bis zur Champions-League zu belassen), das letzte 32bit Update Turnier spielen zu lassen, noch das Oldie-Mix dranzuhängen und danach 32bit einzustellen.

zu 4:
Multi-Core ... Ponder ist mir wichtiger. Schon alleine um mehr zu testen macht es Sinn ohne Multi-Core zu testen. Also hier wieder eine klare Meinung. Die Unterschiede mögen zwar da sein, aber wir brauchen keine tausende von Partien um festzustellen wie viele ELO eine Engine mit 2 oder 4 oder noch mehr Cores zulegt. Das können wir +- 5 ELO mit wenigen Tricks selbst errechnen. Klar, das Level nimmt zu wenn mit mehreren Cores getestet wird aber das ist dann wieder nicht der Hauptsinn eine Liste die vergleichen soll. Das geht ohne Multi-Core viel besser. Eine Ansicht von der ich wohl niemals abkommen werde, auch wenn es heute ja kaum noch Hardware mit einem Core gibt und sich die Anwender für mehrere Cores Ergebnisse interessieren. Ich denke aber, dass sich das jeder selbst errechnen kann und die Resourcen für dieses Testen eingespart werden können.

zu 5:
Ja, die Ergebnisse schauen schon krass aus wenn Houdini z. B. auf Crafty trifft. Allerdings, berührt das kaum ein Rating ... was wir früher auch immer dachten. Dennoch, wirklich Sinn mach das nicht. Für mich dennoch wichtig, weil je mehr Gegner desto besser das Rating. Das Problem ist, wir haben keine TOP-30 die nur 300 ELO auseinander liegen, die TOP-30 liegen 450 ELO auseinander und selbst die TOP-16 liegen schon 300 ELO auseinander. Auch nicht gerade eine gute Situation um spannender eine Ratingliste zu kreieren. Aber Du hast Recht, es macht mehr Sinn nur die TOP-12 oder TOP-16 zu integrieren auch wenn in den TOP-16 schon drei Ligen integriert sind. Dennoch immer wieder interessant zu sehen, dass z. B. ein Programm ... 400 ELO schlechter, überdurchschnittlich gut gegen eine TOP Engine spielt. ChessTiger 2007 machte gar 6.0 aus 40 gegen Komodo 2.03 x64 !! Drei mehr als ChessTiger erreichen sollte

Wird aber niemanden auffallen wenn das Ergebnis dann dennoch 34:6 lautet.

Muss das alles mal gründlich überdenken.

Für das Testen mit mehr Cores müsste ich weider mehr Rechner einsetzen um ein gutes Ergebnis zu erhalten. Wird zu teuer ... bin auch kein Fan davon mehrere Cores zu testen. Bedenkzeit sollte ich vielleicht wirklich mal in Fischer ändern und mit den Endspieldatenbanken ... da scheiden sich wirklich die Geister. Will ja auch gezielt bezwecken das die Engine Fehler im Endspiel besser ersichtlich werden. Eine Engine sollte sich auch ohne Endspieldatenbanken nicht mit KS - KT Matt setzen lassen (Beispiel).

Viele Grüße
Frank

Aufgrund solcher Äußerungen ... bin auch sehr starr was verschiedene grundlegende Meinungen angeht lies ich mich selten überzeugen. Aber ich denke das es auch nicht einfach ist mal neue Wege zu gehen, die meisten die mitlesen kennen das Problem

By Kurt Utzinger Date 2011-07-01 09:17

Das sehe ich auch so.

Zitat:

Wichtig wäre jetzt die Spielstufe zu vervierfachen. Nach meinen Analysen müßte das ausreichen um mehr Erkenntnisse hinsichtlich Vergleichen zu kurzen und mittleren Bedenkzeiten zu erhalten. Daher wäre es wichitg natürlich auch weiterhin mit Ponder = on spielen zu lassen.

Wenn ich nach wie vor 4 Quad Core Systeme einsetze wären das bei 40 Züge in 40 Minuten ca. 70 Partien pro Tag = 2.100 Partien im Monat = 25.200 Partien im Jahr. Eine Partie würde durchschnittlich 160 Minuten laufen, also ca. 2.5 Stunden.

Die Frage bei so wenigen Partien wird sein, wie kann das dann langfristig überhaupt interessant dargestellt werden?

1. Engines werden grundsätzlich nur 1x im Jahr upgedatet.
2. Es wird nur noch 64bit getestet, es sei denn das nur eine 32bit Engine verfügbar ist.
3. ChessBase Native wird nicht mehr eingesetzt, zu kompliziert eine zweite GUI für eine Engine einzubinden.
4. Es werden maximal die TOP-16 getestet.

Geplant wäre dann:

01. Houdini
02. Stockfish
03. Critter
04. Fire / IvanHoe (es spielt eine Version, entweder ein Fire oder ein IvanHoe)
05. Komodo
06. Naum
07. Shredder
08. Sjeng
09. Spike
10. GullChess
11. Protector
12. Junior
13. Hiarcs
14. Spark
15. Hannibal
16. Equinox

Diese 16 spielen "Jeder gegen Jeden" ein Turnier mit je 4 Partien pro Match.

Ein Turnier besteht aus 480 Partien.
Laufzeit = 1 Woche

Das Turnier wird dann 30x wiederholt.

Und jetzt mit folgender Idee, dass im Anschluss an ein 480 Partien umfassendes Turnier bei 40 in 40 direkt das gleiche Turnier mit 40 in 5 gespielt wird.

Mit dem Ergebnis ...

30 Turniere a 480 Partien bei 40 in 40
30 Turniere a 480 Partien bei 40 in 5

Partien pro Engine = 1.800 nach Abschluss von diesem Test sowohl bei
40 Züge in 40 Minuten als auch bei 40 Züge in 5 Minuten unter den gleichen Voraussetzungen.

Eine super Idee. Mich hat insbesondere immer die ganze Updaterei der Engines verwirrt/gestört.

Zitat:

Wenn ein Jahr keine Engine upgedatet wird, können die 16 Testkandidaten mal in Ruhe durchspielen. Wie gesagt, unter zwei Zeitkontrollen mit identischen Spielbedingungen. Es werden genaue Aussagen möglich, z. B. bei 8x mehr Bedenkzeit steigt das Rating von Engine x um 25 ELO im Vergleich zu den anderen. Dies wäre wichtig um Engines dann gezielter für Langzeitanalysen einzusetzen. Auch werden die Statistiken besser und dennoch würde die Ratingliste interessant bleiben (auch wenn keine Updates mehr erfolgen) denn ein Turnier wird 30x wiederholt. Es werden aussagen möglich, wie groß der Zufallsfaktor ist wenn z. B. diese vielen kleinen Turniere aneinandergereiht werden. Hierdurch werden auch weitere Aussagen möglich, wie weit sich bei 1.800 Partien ein Rating dann weiter entwickeln könnte, ab welchen Zeitpunkt ein Rating stabil ist und wie viele Partien hierfür benötigt werden.

Tönt alles sehr gut, ich bin begeistert und hoffe, dass Du bald loslegen wirst.

Zitat:

Gruß
Frank