Schachtests: heute top

By Klaus Meier Date 2014-01-12 11:34

Joe Boden schrieb:

Vielleicht sollten wir wirklich beginnen, die Qualitäten eines Schachmotors multimodal zu untersuchen.

Das ist nicht wirklich schwierig.
In den Ratinglisten könnten z.B. mehrere ELO-Zahlen stehen.
Eine ELO wie gehabt (für Spielmit Schwarz + Weiss)
eine weitere ELO, für Spiel mit WEISS (nur die Spiele der Engine, mit WEISS werden für die Berechnung dessen ELO ausgewertet)
eine weitere ELO, für Spiel mit SCHWARZ (nur die Spiele der Engine, mit SCHWARZ werden für die Berechnung dessen ELO ausgewertet)
eine weitere Endspiel-ELO, wäre dann noch möglich. Dazu werden Test-Turniere gespielt mit verschiedenen ausgeglichenen Mittelspiel-Endspiel-Vorgabestellungen.

By Joe Boden Date 2014-01-12 11:39

schöne Idee Klaus. Das wäre aber alles immer noch im Elo-Modus.

Welche weiteren Modi könntest Du Dir denn sonst noch vorstellen?

By Klaus Meier Date 2014-01-12 17:19

Z.B. ein Spiegel, welche Programme wie häufig auf Schachservern benutzt werden.
Das lässt sich sicher einfach auszählen bzw.den Statistiken der Schachserver entnehmen.

By Frank Quisinsky Date 2014-01-12 11:53

Hi Klaus,

das schrieb ich ja.
Was wir brauchen ist eine Gewinn / Verlust / Remis Statistik nach verbliebenen Figuren auf dem Feld. Anzahl der Züge ist nicht wirklich der Bringer.
So könnten wir Rückschlüsse aus Stärken und Schwächen schließen und Spielstärke in Kategorien aufteilen.

Um dann genaue Auswertungen zu machen muss der Aufgabefaktor auf = Aus gestellt sein.
Das ist meines Erachtens die Grundvoraussetzung für alles.

- spezielle Punktevergabe, z. B. Gewonnen unter 50 Zügen = 3.2 Punkte, Remis unter 25 Zügen anstatt 1.0 dann 0,8 Punkte.
- wir würden sehen wo die Stärken und Schwächen der Engines sind, werden die Engines mit weniger Figuren verhältnismäßig stärker oder schwächer im internen Vergleich untereinander.
- wir könnten einfacher Spielstile beschrieben und versuchen irgend etwas zu sehen.

Um eine andere Auswertung der Spielstärke zu kreieren benötigen wir zunächst mal diese Statistik.
Gebe eine Datenbank mit 100.000 Partien und 20 Engines vor.

Ausgegeben wird:
32 Figuren auf dem Brett, 1:0 = 0 Partien, 0.5 : 0.5 = 3 Partien, 0:1 = 0 Partien, ELO Durchschnitt =
31 Figuren ...
30 Figuren ...
20 Figuren auf dem Brett, 1:0 = 28 Partien, 0.5 : 0.5 = 52 Partien, 0:1 = 32 Partien, ELO Durchschnitt =

Bleiben also zunächst mal bei ELO bis wir anhand dieser Auswertungen ... die Schritt für Schritt drauf gesetzt werden ELO ersetzen durch QuisiQuasi oder was auch immer

Gruß
Frank

By Klaus Meier Date 2014-01-12 17:17

Hi Frank,

deine Ideen finde ich zwar gut, sind aber nicht direkt mit den verfügbaren Mitteln
so einfach umsetzbar. Aus einer pgn mit Turnierspielen nach WEISS und Schwaz zu filtern und
jeweil einenmal ELOSTAT darüber laufenlassenist sehr einfach. Dann ist schon für zwei zusätzliche ELO-Bewertungen gesorgt
(Spiel mit WEISS und Spiel mit Schwarz) Dafür braucht nicht mal was Neues programmiert werden.
Ein Endspiel_ELo zu erzeugen ist vermutlich eben so einfach. Wer sich mit Vorgabepositionenauskennt und mit passenden Vorgabepositionen
genüged Spiele durchführt kann eben so einfach eine Endspiel-ELO berechnen. AUch alles ohne zusätzliches Programm.

By Frank Quisinsky Date 2014-01-12 17:26

Hallo Klaus,

das ist richtig aber mit Vorgabepositionen zu arbeiten bedeutet Langweile beim Zusehen und wir können die Masse an Datenbanken nicht auswerten. Ziel ist es ja auch die Datenbanken mit in etwa gleichen Bedingungen zu mixen um herauszufiltern wo sin die Stärken und Schwächen.

Deswegen hatte ich ja Norm mal in TalkChess gefragt. Mit seinen Tools ist einiges möglich und die Auswertungen funktionieren auch aber es x hundert Schritte bei großen Datenbanken notwendig.

Stelle Dir mal vor wir hätten diese Auswertung was wir dann alles damit treiben könnten.
Alle Partien mit Endergebnis 20 Züge auf dem Brett in die Datenbank. Dann sortieren nach Art der Figuren auf dem Brett. Wenn dann z. B. auffällt ... ups warum spielt Spark immer bei 4 Figuren auf dem Brett mit KD - KT Remis, hätten wir ohne in die Partien zu schauen schon die Blunder gefunden.

Warum erzielt im Verhältnis zu den Partien Houdini bei 20 Figuren auf dem Feld mehr Gewinne wenn das Läuferpaar noch da ist als andere Programme im direkten Vergleich. Wir könnten x hundert Fragen beantworten. Aber um das hier zu starten brauchen wir die Auswertungen nach vorhandenen Figuren auf dem Feld.

Wir brauchen ne Auswertung die ausgibt wann die Partie gekippt ist anhand von der Stellungsbewertung.
Etc..

Aber bevor wir Step 1 nicht gestartet haben gibt es keinen Step 2.
Da muss einfach eine GUI für programmiert werden.

Gruß
Frank

By L. Date 2014-01-12 12:11

Hallihallo,

ich vermag nicht zu erkennen, warum die unaufhörlich laufende Zeit und das häufige Erscheinen neuer Schachprogramme eine Testerei weniger aussagekräftig machen könnte oder sollte. Hier wäre ich für eine genauere Erläuterung dankbar.

Die Idee hingegen, über neue Aspekte für das Testen von Schachprogrammen nachzudenken, verdient Beachtung. Allerdings kann ich mir, sicher mangels Phantasie, nicht vorstellen, wie sie aussehen sollte, ohne daß eine gewisse, jetzt vorhandene Wissenschaftlichkeit über den Jordan ginge. Auch bliebe die Frage nach dem Sinn solcher Übung zu stellen. Denn wir haben bereits ein Mittel. Wenn wir wissen wollen, wie gut ein Programm spielt, lassen wir es spielen. Eine große Anzahl von Partien, gegen viele andere Programme. Das Programm mit den meisten Punkten ist das stärkste. So ist das im Schach: Es geht darum, möglichst viele Partien zu gewinnen und möglichst wenige zu verlieren. Nettes Plus am Rande: Die zur Interpretation der Ergebnisse nötige Statistik existiert seit sehr langer Zeit, so daß wir viel mehr herausfinden als nur die bloße Reihenfolge der Programme nach Erfolg. Ergo: Möchten wir eine Aussage darüber, wie stark eine Engine Schach spielt, lassen wir sie einfach Schach spielen.

Alternative Wege können sich nur auf Teilaspekte konzentrieren, was vielleicht interessant sein mag, aber nur schwer objektivierbar würde. Was ja auch nicht schlimm ist, denn es bietet Diskussionsspielräume und Spaß für den geneigten Experimentator. Kriterien aufzustellen, um einen Spielstil zu beurteilen, oder die Neigung, schöne Partien zu spielen beispielsweise, stelle ich mir sehr sehr schwierig, wenn nicht unmöglich vor.

Grüße
L.

By Frank Quisinsky Date 2014-01-12 23:19 Edited 2014-01-12 23:22

Hallo,

steckt natürlich auch das bisherige Denken drin wenn wir Ergebnisse oder auf die nackte ELO schauen. Wir können die ELO auch hübsch anziehen, hier noch eine Schleife und dort noch was in PINK. Letztendlich steckt die Aufgabe dahinter die Schachstrategie, welches ein Programm durch die Programmierung eingehaucht wurde, in Erfahrung zu bringen.

Hat entscheidende Vorteile ...
- bessere Möglichkeiten die Stärken einzelner Engines für die Analyse zu nutzen.
- bessere Möglichkeiten die Entwicklung durch gezieltes einsetzen von Dreihirn Varianten zu treiben.
- Fehler zu erkennen, sprich Engine Entwicklung mit bloßen Datenbankauswertungen voran zu treiben.
- den vielen erspielten Partien einen Sinn zu geben, eine Aufgabe zu kreieren.
- die Fantasie des Betrachters von Ergebnissen anzuregen, hierdurch entstehen neue Ideen.

Grundsätzlich gebe ich Dir Recht. Datenbanken auseinander zu pflücken ist schwierig. Mit händischen Auswertungen geht das nur mit einem riesigen zeitlichen Aufwand aufgrund der Mittel die zur Verfügung stehen. Wenn im Computerschach hier etwas entwickelt wird können wir die Hirne der Altmeister blicken. Ich glaube durch gezielte Anwendung von Statistik könnten wir die eigenen Spielstärken deutlich verbessern.

Schachpartien an der Wurzel zu packen und zu versuchen diese Zug für Zug in Statistiken zu packen könnte revolutionär sein. Der Schlüssel (würde ChessBase sagen ... Schlüssel), wäre der Aufbau auf zwei Dinge:

Ab wann kippte die Partie im Step 1 und wie viele Steine waren zu diesem Zeitpunkt auf dem Brett im Step 2. Welche Steine waren auf dem Brett im Step 3. Genaue Ausgaben nach Anzahl der Steinen. Verschiedene Dinge die schon entwickelt wurden (Figurenaufenhalte ... ChessBase) könnten dann gezielter angewendet werden.

Unmöglich gibt es nicht.
Jede Berechnung lässt sich zerlegen.
So komplexe wie Schach auch aber der Anfang muss gemacht werden.

Das ist auch kein Thema welches nach ein paar Jahren abgeschlossen ist, sondern eher ein Thema was endlich gestartet werden muss um den verpennten Entwicklungsstart so langsam mal aufzuholen. Wahrscheinlich könnten durch Schachstatistiken einige bekannten Statistikgrundsätze auch mal richtig überarbeitet werden.

Glaube nicht das dies Wunschdenken ist aber ich glaube auch das dies schwierig zu realisieren ist ... aber es ist nicht unmöglich.
Und richtig, zunächst werden alternative Wege nur Teilaspekte sein. Aber mit Mosaiksteinchen bilden begeben wir uns zunächst mal auf den Weg ... zunächst ohne Ziel. Ja, ohne Ziel ... denn das Ziel wird uns mit jedem Mosaiksteinchen immer klarer ... oder bei der Arbeit kommen die Ideen wenn ich an die Arena Entwicklung denke ... würde Martin sofort zustimmen

Gruß
Frank

By Frank Quisinsky Date 2014-01-12 23:38

Hi,

Computerschach wird irgend wann so weit sein, dass wir mittels einem Programm die Spieleigenschafften von einem Altmeister clonen können, diesen zum Leben erwecken. Und zwar nicht nur mit blumige rein gefühlsmäßige Theorien ... Programm X spielt wie Capablanca.

Der Weg dahin ist mit Hilfe von Engine Partien, zunächst mal das Werkzeug zu erschaffen. Diese sind besser auszuwerten als Partien von Menschen. Dann dieses Werkzeug auf Menschen anwenden und analysieren wo waren die Stärken und Schwächen der Altmeister. Wissen wir das können wir mittels Programmparameter clonen und überprüfen, spielt die Engine wirklich die Züge die Capablanca gespielt hat. Ich bin mir sicher irgendwann wird die Genauigkeit verblüffend sein.

Das sind Zukunftstheorien wie Computerschach sinnvoll getrieben werden könnte.
Vielleicht werde ich das noch erleben aber je stärker die Programme werden desto mehr Sinn macht es die Spielstärke auseinanderzunehmen und zu forschen warum ist das so. Und Forschungen werden angetrieben von Ideen wenn das Thema endlos erscheint.

Als wir vor 15 Jahren diskutierten über Spielstärken würden die Meisten laut lachen wenn jemand gesagt hätte im Jahr 2014 sind wir bei 3.100 ELO. Das Ergebnis von 3.100 ELO ist in Bereiche vorzudringen die wir vor 15 Jahren nicht kannten. Und was liegt nahe diese Bereiche aufzubohren. Genau das wird gemacht wenn sich solche Situationen bilden ... wären wir mit der Technik so weit wie wir heute sind wenn wir uns auf dem bejubelten 286er ausgeruht hätten, auf das Betriebssystem ausgeruht hätten.

Denke wir werden Schachprogramme immer gezielter einsetzen, nicht nur um eine Schachpartie zu sehen oder um Spielstärke zu messen. Da gibt es noch andere spannende Ideen.

Gruß
Frank