Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Wann startet TCEC Season 8?
1 2 3 Previous Next  
- - By Tom Paul Date 2015-08-04 16:15
Wir haben schon August und keine neuen Infos.
Werden Hiarcs, Shredder, Junior mitspielen?

Wurde das Turnier abgesagt, weil Komodo im Moment zu stark ist? Oder die Hardware zu schwach ist, um alles aus der Engine herauszuholen?
Habe Stockfish vom 29.07 gegen Komodo 9.1, 40 Partien mit langer Bedenkzeit spielen lassen.
Das Ergebnis ist schon sehr deutlich und das gerade mal bei 6 Kernen.
S vs K
+2 =24 -14
Wären es 8 Kerne gewesen, dann hätte Stockfish wahrscheinlich nicht mal die zwei Siege gehabt, dann stünde es +0 =26 -14, da ist die TCEC Hardware mit 16/32/64 Kernen gar nicht mehr nötig.
Es wäre interessant zu sehen, ob sich mit mehr Kernen Komodos siege erhöhen und die Anzahl der remis Partien sinkt oder umgekehrt.
Parent - By Thomas Müller Date 2015-08-04 16:55
nervig....

https://de-de.facebook.com/tcec.chess

TCEC Season 8 is confirmed to start this August! The exact date will be announced in a few days and will be between the 10th and the 15th of the month.
Parent - By Benno Hartwig Date 2015-08-04 18:25

> Wurde das Turnier abgesagt, weil Komodo im Moment zu stark ist? Oder die Hardware zu schwach ist, um alles aus der Engine herauszuholen?


Ui, du hast ja ulkige Ideen...
Parent - - By Clemens Keck Date 2015-08-04 21:17
weis nicht was Du da für'n test laufen hast lassen.
Mit der SF Version vom 30. Juli sieht es jedenfalls sehr ausgeglichen aus gegen Komodo.
Gruß, C.K.

Tom Paul schrieb:

Wir haben schon August und keine neuen Infos.
Werden Hiarcs, Shredder, Junior mitspielen?

Wurde das Turnier abgesagt, weil Komodo im Moment zu stark ist? Oder die Hardware zu schwach ist, um alles aus der Engine herauszuholen?
Habe Stockfish vom 29.07 gegen Komodo 9.1, 40 Partien mit langer Bedenkzeit spielen lassen.
Das Ergebnis ist schon sehr deutlich und das gerade mal bei 6 Kernen.
S vs K
+2 =24 -14
Wären es 8 Kerne gewesen, dann hätte Stockfish wahrscheinlich nicht mal die zwei Siege gehabt, dann stünde es +0 =26 -14, da ist die TCEC Hardware mit 16/32/64 Kernen gar nicht mehr nötig.
Es wäre interessant zu sehen, ob sich mit mehr Kernen Komodos siege erhöhen und die Anzahl der remis Partien sinkt oder umgekehrt.
Parent - - By Tom Paul Date 2015-08-04 21:49
Clemens Keck schrieb:

weis nicht was Du da für'n test laufen hast lassen.
Mit der SF Version vom 30. Juli sieht es jedenfalls sehr ausgeglichen aus gegen Komodo.
Gruß, C.K.


Die 20 möglichen Eröffnungszüge, da müssen beide Engines im Gegensatz zu anderen Tests zeigen, dass sie auch die Eröffnung selbst erfinden/spielen können.
Und da holt Komodo deutlich mehr heraus als Stockfish.
Die Version vom 30. könnte durchaus einige ELO mehr haben, da 3 Benches an dem Tag herauskamen.
Welche Tests zeigen dir den Ausgleich?
Parent - By Clemens Keck Date 2015-08-04 22:42
ich spiele eine eigene Testsuite mit 50 Possitionen, gut verteilt über die ECO A-E.
8 cpu, ponder OFF, keine TBs, 30 +15 . 100 Partien.
Parent - - By Ludwig Buergin Date 2015-08-05 09:09
Hallo Tom

Wie sind  Deine 20 Eröffnungszüge zu verstehen?Ist darunter der insgesammt mögliche Erstzug von Weiss gemeint ?
  An neueren Eröffnungen bin ich immer interessiert.

Gruß Ludwig
Parent - - By Tom Paul Date 2015-08-05 09:34
Ja.
Es heißt ja auch die 20 "möglichen" Eröffnungszüge, da es bei dem Wort "möglichen" bei den meisten Leuten klick macht und diese dann wissen worum es geht.
Es ist keine Variante gemeint, die erst 20 Züge später mit einer Vorgabestellung beginnt.

Da du an neuen Eröffnungen immer interessiert bis:
Mal abgesehen von d4, e4, Sf3, kennt ja jeder.
Und e3 mit +0.07.

Sind alle ersten Eröffnungszüge 0.00.
Bis auf d3, b3, f4 kleiner Nachteil ~ -0.01 bis -0.19
Bis auf a4, Sa3, b4, h4 mittlerer Nachteil ~ -0.20 bis -0.39
Bis auf f3, Sh3, g4 großer Nachteil ~ -0.40 bis -0.75
Wenn man nach der Enginebewertung geht.

Dabei muss man aber bedenken dass diese Bewertungen, im Grunde genommen, auf einem allgemeinen Enginecode basieren und eben nicht auf einem Enginecode der speziell dafür getunt wurde, diese Stellungen möglichst genau zu bewerten.
Was soviel bedeutet wie: Die Bewertungen gehen noch viel mehr gegen 0 als angegeben.

Als gutes Beispiel/Beweiß dafür kann man 1.g4 benutzen, da steht weiß sofort -0.75 schlechter und schwarz hat quasi den ersten Zug.
Trotzdem gewinnt hier (nicht immer) mit weiß sowohl K vs S als S vs K und das auf 6 Kernen mit langer Bedenkzeit.
Parent - - By Ludwig Buergin Date 2015-08-05 11:14
Hallo Tom

  Danke Dir für Deine schnelle Antwort auf meine Frage.Du beschreibst dabei interessante  Erstzüge, wie man die Stärke einer Engine bei einem Spiel testen kann.Werde mich in nächster Zeit mal näher damit befassen.

Gruß Ludwig
Parent - - By Tom Paul Date 2015-08-05 12:03
Gerne.
Meiner Meinung nach sollte man unbedingt Engines mit den 20 möglichen Eröffnungszügen testen. Das sind dann 40 Partien insgesamt.
Vom Gefühl her steckt da auch viel mehr Schach drin, weil die Eröffnungen von den Engines erfunden/gespielt werden müssen.
Andere Tests soll man aber auch immer machen.

Ich könnte auch die normalen Tests wie die meisten machen: Vorgabestellungen im ~10 Zug, aber das wäre das gleich wie wenn ich auf ein GM Turnier gehen würde und den auf dem Brett eine Stellung vorgebe.
Wahrscheinlich würde man mich als erstes Fragen was mit der Eröffnungsphase passiert ist.
Und dann würde mich der GM fragen, warum sein Gegner IM jetzt einen Vorteil bekommt und er nicht / bzw. einen Nachteil.
Würde man die Partie direkt im Endspiel starten, dann hätte der IM noch größere Chancen auf ein Remis und der GM noch niedrigere Chancen auf einen Sieg.

Die Partien empfinde ich, bei langer Bedenkzeit, unterhaltsamer als bei anderen Tests und die Engine Fehler/Schwächen kommen öfters und deutlicher zum Vorschein.

Aktuell stört mich das in einer Partie zwischen S und K der schwarze Turm eingesperrt war, Stockfish hätte nur seinen König auf die andere linke Seite bringen müssen, damit er seinen Turm von dort wegbewegen kann und der schwarze Turm weiter eingesperrt bleibt, dann hätte Stockfish einen ganzen Turm mehr im Spiel und ein einfachen 1-0. Aber beide Engines haben die Stellung falsch bewertet und behandelt und jetzt ist es Remis.
Wenn man dem Fisch aber ein paar Züge vorgibt sieht dieser sofort den riesen Vorteil. Das ist für den Zuschauer schon unangenehm zu sehen wie zwei Giganten, besser als der WM, einen Turm der außer Spiel ist nicht erkennen, erinnert irgendwie an Anfänger Schach.

Kannst ja bald über deine Erkenntnisse berichten Ludwig.
Parent - - By Benno Hartwig Date 2015-08-05 14:03

> Meiner Meinung nach sollte man unbedingt Engines mit den 20 möglichen Eröffnungszügen testen


Ich habe auch grundsätzlich gern Eröffnungen genommen, die die Engines möglichst früh zum eigenen "Denken" zwingen.
Kein Beginn erst irgendwo im Mittelspiel.
Und egal, ob dies so auch in praktischen Partien passiert.

Ich habe auch mit automatisch generierten Anfangsstellungen (PGN) experimentiert, in denen beide Seiten einen oder auch mehrere Bauern um ein Feld vorgerückt haben. Davon gibt es ja ein dann riesige Anzahl.
Als ich aber dann mitbekam, dass Arena bei PGN-Vorgaben hinsichtlich der Rochaden spinnt (mit der Folge: Die Engine macht berechtigt eine Rochade, und Arena wertet das als illegalen Zug), hatte mich die Lust verlassen.

Benno
Parent - By Tom Paul Date 2015-08-05 14:10
Dann solltest du nicht Arena benutzen.
Oder du fragst dort nach einem Update.
Parent - By Stockstein Date 2015-08-09 20:13
Trotzdem gewinnt hier (nicht immer)
du meinst verliert!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
Parent - - By Tom Paul Date 2015-08-06 09:55
Clemens Keck schrieb:

Mit der SF Version vom 30. Juli sieht es jedenfalls sehr ausgeglichen aus gegen Komodo.
Gruß, C.K.


Habe jetzt die Stockfish Version vom 30. zur Hälfte getestet.
Diese ist, durch die 3 Benches, besser als Stockfish 290715.
Aber immer noch nicht so gut wie Komodo 9.1
Das Endergebnis S vs K sollte ungefähr bei +6 =24 -10 liegen.

Beim TCEC wird Stockfish immer noch ein ganzes Stück von Komodo entfernt sein. Man darf auch nicht vergessen, dass an Komodo 9.2 gearbeitet wird und die Beta/Test Versionen zwischen 9.1 und 9.2 nochmals stärker sein sollten als die Stockfish Dev.
Und auf der Monsterhardware wird SMP wieder zum Problem für Stockfish, wenn da keine weiteren Verbesserungen gemacht werden.
Parent - - By Ralf Mueller Date 2015-08-06 11:48
Hallo Tom,

40 Partien sind leider zu wenig, um daraus belastbare Schlüsse zu ziehen. Wenn du Lust hast, kannst du ja nochmal 40 Partien spielen lassen und schauen, ob sich das Ergebnis vom ersten Durchlauf unterscheidet.
Parent - - By Tom Paul Date 2015-08-06 12:13
Hallo Ralf,

Mir geht es nicht so sehr um belastbare Schlüsse, sondern eher um lange, interessante und abwechslungsreiche Partien inkl. der Eröffnungsphase und möglichst vielen Kernen um die SMP Entwicklung zu sehen.
Wie viele Partien mit langer Bedenkzeit müsste ich denn deiner Meinung nach spielen, um diese vom Wert her (Anzahl/Hardware/Bedenkzeit) mit Bullet Listen gleichsetzen zu können?

Habe schon öfters zwei Durchläufe spielen lassen, das Ergebnis war überraschender weise, meistens genau das selbe, wobei z.B. in einer anderen Eröffnung gewonnen und dafür in einer anderen Eröffnung verloren wurde.
Es passiert aber ab und zu, dass z.B. bei einem Ergebnis wie +2 =24 -14 bei einem zweiten Durchlauf +2 =25 -13 oder +3 =24 -13 herauskommt.
Parent - By Ralf Mueller Date 2015-08-06 15:01
Hallo Tom,

da die Ergebnisse bei längeren Partien weniger zufallsbedingt als bei kürzeren Partien sind, ist meine persönliche Meinung, dass man weniger Partien bei längeren Bedenkzeiten benötigt, um ähnlich aussagekräftige Resultate zu bekommen. Ein guter Richtwert zum Vergleich wäre evtl. die benötigte Testdauer (angenommen, viele, sehr schnelle Partien sind genauso belastbar wie weniger, sehr lange Partien in der gleichen Dauer) oder die Anzahl an Unentschieden (angenommen, eine höhere Remisquote geht mit einem höheren Qualitätslevel und weniger Zufallseinfluss einher).

100% Sicherheit gibt es aber ohnehin nie, nur sollte man sich immer dessen bewusst sein... Deine Aussage war mir nur eine Spur zu stark/sicher formuliert in Bezug auf die recht geringe Partienzahl. 
Parent - - By Frank Brenner Date 2015-08-06 15:54

> Mir geht es nicht so sehr um belastbare Schlüsse, sondern eher um lange, interessante und abwechslungsreiche Partien i


Und wieso schreibst du dann:

> Habe jetzt die Stockfish Version vom 30. zur Hälfte getestet. Aber immer noch nicht so gut wie Komodo 9.1

Und wieso ziehst du dann daraus folgende Schlußfolgerung:

> Beim TCEC wird Stockfish immer noch ein ganzes Stück von Komodo entfernt sein

Parent - - By Tom Paul Date 2015-08-06 16:05
1 und 2 ist doch kein Widerspruch.

3.Weil das Ergebnis für mich "ein ganzen Stück entfernt sein" ist.
Und die Schlussfolgerung basiert auf Stockfish vom 29. und 30. und der derzeitigen Stockfish Entwicklung.
Würde man morgen TCEC starten, dann hätte Stockfish Dev gegen Komodo Dev keine Chance auf den Sieg.
Da braucht man gar nicht erst über SMP und die 32/64 Kerne reden.

Oder glaubst du, dass Stockfish gewinnen würde???
Parent - By Frank Brenner Date 2015-08-06 19:14

> Oder glaubst du, dass Stockfish gewinnen würde???


Das kann niemand vorhersagen, es steht so in etwa 50:50

Deine Schlußfolgerungen sind manchmal absolut übertrieben.

Tom Paul, bitte stell dich uns doch bitte einmal vor wer du bist und wie alt du bist.

In den Internetforen herrscht anonymität, man kann seinen gegenüber nicht sehen und manchmal weiß man nicht ob man mit einem 5 oder 14 jährigen oder mit einem 50 oder 105 jährigen diskutiert.

Wenn man die Person der man gegenübersteht besser kennt verhält man sich manchmal entsprechend anders. So würde ich zb einer älteren Dame im Bus stets meinen Sitzplatz zur Verfügung stellen.
In den Foren, auch hier, wird aber oft mit jeden "Nicknamen"  mit gleichem  - harten - Kaliber Diskutiert ....
Parent - - By Benno Hartwig Date 2015-08-06 16:18
+2 und -14 mutet wie eine rech klare Überlegenheit an, aus der man ggf. etwas folgern möchte. Aber ist das gerechtfertigt?

Wenn die Engines ungefähr gleich stark sind, sie vielleicht mit 26%, 50% und 24% die Ergebnisse A-gewinnt, remis und B-gewinnt erzeugen,
dann hattest du hier auf jeden Fall ein sehr unwahrscheinliches Ergebnis. Klar. Und eine der Engines hatte dann dieses Ergebnis erreicht, das hast du gesehen.
Aber hatte A wirklich so viel größere Chancen dazu als B?
Und das eine der Engines tatsächlich diese Spielstärkeübermacht hat, glauben wir wohl beide nicht.

Benno
Parent - By Tom Paul Date 2015-08-06 16:34
Du kannst selbst einmal den gleichen Test durchführen;)
Parent - By Tom Paul Date 2015-08-06 17:45
Nach der Hälfte der Partien steht es:
S vs K
+2 =12 -6
Parent - - By Benno Hartwig Date 2015-08-06 11:01

> Mit der SF Version vom 30. Juli sieht es jedenfalls sehr ausgeglichen aus gegen Komodo.


Bei wenig Kernen und wenig Zeit
oder bei vielen Kernen und reichlich Zeit?
Beim 1-Thread-Bullet konnte SF halt immer glänzen.

Benno
Parent - - By Tom Paul Date 2015-08-06 11:23 Edited 2015-08-06 11:26
Clemens Keck schrieb:

ich spiele eine eigene Testsuite mit 50 Possitionen, gut verteilt über die ECO A-E.
8 cpu, ponder OFF, keine TBs, 30 +15 . 100 Partien.


Ich finde es zwar gut, wenn eine Engine mir möglichst schnell den möglichst besten Zug sagen kann, vor allem dann, wenn ich keine Zeit für lange Analysen habe.
Doch dies geschieht selten und ich bin eher an langen Analysen, Partien usw. interessiert.

Also bei vielen Kernen, waren nur 6 aber immer hin und reichlich Zeit 30' (Min. pro Partie) + 30" (Sek. pro Zug).
Auf meiner Hardware, I7 6 Kerne + Übertaktung + passende Bedenkzeit führt dies dazu, dass ich eine hohe Partiequalität(entsprechende Tiefe) bei vielen Partien(gute Abwechslung) erhalte.

Die 30 Sek. sind übrigens ein muss, hätte ich da weniger, dann müssten die Engines Zeitnot Partien spielen und da habe ich keine Lust drauf, weil die Partiequalität stark leiden würde.
Ich habe auch mal 60 Sek probiert, aber die Tiefe / Partiequalität nur ganz leicht an, dafür hatte ich auch noch zig Endspiele die total Remis waren und wo ich dann lange überflüssiges Geschiebe mit ansehen musste, was für deutlich weniger Abwechslung sorgte.

Wer profitiert denn überhaupt von einer Bullet Engine?
Engine Tester die Bullet Ergebnisse interessieren.
Schachspieler die eine fertige Analyse mit der entsprechenden Qualität in 1 Sekunde haben wollen.
Usw.

Die meisten Menschen schauen sich lange Schachpartien an oder machen normale Analysen, somit die deutliche Mehrheit.

Ps. Unterhalten sich zwei Enginetester:

A: Das waren tolle 10000 Partien.
B: Ja das stimmt und Stockfish hat knapp gewonnen.
A: Welche Partien haben dir am besten gefallen?
B: Habe keine gesehen, die Engines waren zu schnell fertig.
Parent - - By Benno Hartwig Date 2015-08-06 15:32 Edited 2015-08-06 15:43
Die Daseinsberechtigung von Bullet-Partien entsteht meiner Meinung nach vor allem dadurch, dass sich damit mit erträglichem Aufwand statistisch belastbare Ergebnisse erzielen lassen.
Ein Schätzen der Spielstärkeverhältnisse auch bei längeren Zeiten ist so oft mit kleineren Fehlern möglich als durch Spielen weniger Partien mit langen Zeiten.
Und mit Blick beispielsweise auf Komodo und Stockfish wird meiner Meinung nach deutlich, dass man dann auch ein Stück weit daneben liegen kann.
Aber der Vergleich der Erfolge zweier Versionen einer Engine bei Bulletzeiten gestattet hingegen wohl schon sehr gut eine Schätzung des Verhaltens bei langen Zeiten. Vermute ich.

Benno
Parent - - By Ralf Mueller Date 2015-08-06 20:56 Edited 2015-08-06 21:04
Ich bin nach wie vor nicht überzeugt und denke, man macht es sich zu einfach. Wenn ich schauen will, wer der beste Marathonläufer ist, führe ich doch auch nicht 10-Meter-Sprints durch, nur weil die schneller ein Ergebnis liefern.
Nur weil das Ergebnis richtig ist, stimmt nicht automatisch der Rechenweg.
Parent - - By Benno Hartwig Date 2015-08-06 21:22 Edited 2015-08-06 21:26
Nur was fängst du an mit einem 6,0 zu 4,0
oder auch einem 55,0:45,0?
Mehr als diesen einen Ausgang deiner einen Versuchsreihe hast du ja nicht.
Die Behauptung, dass die eine Engine tatsächlich stärker ist, bliebe doch recht fehlerträchtig.

Wenn(!) denn mein Ergebnis mit guter Verlässlichkeit richtig ist, dann findet vielleicht doch auch der Rechenweg gefallen.
Und das um so mehr, wenn kein verlässlicherer Weg bekannt ist.
Und solange niemand dann doch mindestens 1000 Marathonläufe absolviert...

Benno
Parent - - By Ralf Mueller Date 2015-08-06 22:55
Zitat:
Nur was fängst du an mit einem 6,0 zu 4,0
oder auch einem 55,0:45,0?
Mehr als diesen einen Ausgang deiner einen Versuchsreihe hast du ja nicht.
Die Behauptung, dass die eine Engine tatsächlich stärker ist, bliebe doch recht fehlerträchtig.

Die Durchführung eines einzigen Marathonlaufs ist immer noch aussagekräftiger als die Durchführung von tausend 10-Meter-Läufen, wenn man wissen möchte, wer der stärkste Marathonläufer ist...

Ein 55,0:45,0 bei langen Bedenkzeiten ist immer noch aussagekräftiger als ein 550,0:450,0 bei Bullet-Bedenkzeiten, wenn man wissen möchte, wer bei langen Bedenkzeiten der beste ist. Bullet-Bedenkzeiten messen schlicht und einfach etwas anderes.

Zitat:
Wenn(!) denn mein Ergebnis mit guter Verlässlichkeit richtig ist, dann findet vielleicht doch auch der Rechenweg gefallen.

Eben nicht, das ist ein Wunschdenken. In meiner Schulzeit gab es die schöne Episode, dass ich in einer Matheklausur das richtige Ergebnis hatte, aber trotzdem 0 Punkte bekam - warum? Bei meiner Termumformung war jeder einziger meiner Umformungsschritte falsch, der Lehrer meinte, seine kleine Tochter hätte das genauso hinbekommen. Nur weil aktuell viele Engines eine ähnliche relative Spielstärke bei Bullet wie bei Langschach besitzen, sollte man das nicht als gegeben hinnehmen, denn das ist es schlicht nicht.

Zitat:
Und das um so mehr, wenn kein verlässlicherer Weg bekannt ist.
Und solange niemand dann doch mindestens 1000 Marathonläufe absolviert...

Natürlich ist ein verlässlicherer Weg bekannt, das Testen unter langen Bedenkzeiten, was im übrigen auch getan wird: http://www.husvankempen.de/nunn/40120new/40_120_ratinglist/40_120_AllVersion/rangliste.html
Ich finde es allemal aussagekräftiger für Rückschlüsse auf Langschach als das durchführen von Bullet-Partien, weil diese schlichtweg eine andere Disziplin sind.

Würdest du künftig alle menschlichen Schachturniere nur noch in Blitzschach ausspielen wollen, weil man da in gleicher Zeit mehr Partien schafft und somit das Ergebnis verlässlicher ist?
Parent - - By Thomas Müller Date 2015-08-06 23:06
ist die reihenfolge bei 40/120 und z.b. 40/4 (1 cpu) nicht praktisch identisch ?

gruß thomas
Parent - - By Frank Qy. Date 2015-08-07 00:08
Wir können uns ja die Blitzliste von CEGT ansehen und mit der 40 in 20 Liste vergleichen.

Grundsätzlich sollte die Reihenfolge weitestgehend gleich sein.
Es gibt Engines die benötigen Zeit um auf Tiefe zu kommen (Junior z. B. ... lasse mal Junior analysieren und beobachte wenn mal eine längere Hauptvariante angezeigt wird und wann diese durchschnittlich verändert wird). Allerdings sind es wenige Engines die mit mehr oder weniger Zeit überproportional zunehmen oder abnehmen.

Auch die soliden Engines die in allen Partienphasen mit gleichen Statistiken daher kommen ... hier ändert sich kaum etwas hinsichtlich nimmt zu oder ab. Taktische stärkere Programme schaufeln sich mehr in die Stellungen, benötigen etwas mehr Zeit. Die Aussage ... ein Programm mit taktischen Stärken benötigt mehr Zeit scheint für mich eher plausibel zu sein.

Programme die schnell einen guten Zug finden sind in der Regel und logischer Weise dann auch immer wieder in den Listen bei mehr oder weniger Zeit oben. Wenn jetzt andere Programme z. b. 10 Sekunden für den Zug benötigen welches ein solid spielendes Programm nach 1 Sekunde hat könnten wir denken dann sind die Programme doch nach 10 Sekunden gleich stark. Tja, da ist etwas dran allerdings finden die Programme die schnell einen guten Zug haben dann auch irgendwann schneller einen noch besseren. Das Verhältnis 10:1 bleibt aber in den meisten Fällen erhalten wenn der Zug nicht schon länger über den Horizont liegt.

Wie dem auch ist ...
Die hohen Spielstärken heute kommen eher im Übergang zum Endspiel zu Stande. Im Endspiel selbst liegen die besten 40 Schachprogramme keine 450 Elo auseinander sondern vielleicht 250 und in nach den Eröffnungszügen auch maximal nur 200. In der Eröffnung sind dann die Ideen entscheidend und im Endspiel Wissen.

Ob wir nun 40 in 120 testen und sehen wie die Partien im Übergang zum Endspiel entschieden wird bei einer Spielstärke die ca. 300-400 Elo über Großmeisterspielstärke liegt oder wir sehen bei 40 in 10 das gleiche bei einer Spielstärke die ca. 200-300 Elo über Großmeisterspielstärke liegt ...

Ja mein Gott!
Kirche im Dorf lassen ... und alles wird gut!

Testen macht Spaß ob nun 1+1 auf alter Dual Core Hardware oder wer denn unbedingt will und es braucht auf 32 Cores mit 40 in 120 ... der mit 32 Cores wird auch nicht mehr verstehen als der mit dem Dual Core und 1+1. Das ist leider Fakt und jegliche Diskussionen rennen irgendwie neben der Realität hinterher bzw. es finden sich ja Jäger ... die finden sich immer!
Parent - - By Thomas Müller Date 2015-08-07 08:54
Hi Frank,

ja ich weiß das
Habe ich alles auch mal selbst getestet in den letzten jahren.
Das war nur en tipp an die, die denken mit langen BZ wird was anderes passieren.
Es gibt wenige aussreisser (junior evtl?!) und das wars dann.

gruß
thomas
Parent - - By Frank Qy. Date 2015-08-07 09:17
Hallo Thomas,

ich weiß ja das Du weißt, das ich weiß das Du es weißt und die anderen wissen das auch bzw. wissen so viel und wissen das ich weiß das sie es auch wissen.

Alles wird gut ...
Und wenn wir viel wissen wird es noch besser!

Ist einfach zu warm um zu schreiben.
Da wirst man ja bekloppt und wenn schon vorher bekloppt noch bekloppter.

Gruß
Frank
Parent - By Thomas Müller Date 2015-08-07 12:42
 
genau es ist zu warm!
Parent - - By Ralf Mueller Date 2015-08-07 00:40
Ja, aber das ist nicht der Punkt. Ist es denn so völlig unvorstellbar, dass die Reihenfolge eine andere ist bei unterschiedlichen Bedenkzeiten? Sitzen wir nicht nur einer Illusion auf?
Außerdem: Wenn die Reihenfolge praktisch die gleiche ist - was spricht dann im Gegenteil dagegen, mit langen Bedenkzeiten zu testen?
Parent - - By Thomas Müller Date 2015-08-07 09:00
nach meiner meinung und auch was ich so bei anderen gesehen habe ist es unvollstellbar bis auf ganz wenige aussreisser.
Also für mich real

Lange BZ:
kann man machen wer die geduld aufbringt.
Die meisten (selbst die programmierer) wollen aber schnell wissen ob sich was verbessert hat.
Die partien sind von der qualität bei langer BZ (etwas) besser weil mehr plys usw.
Wer es haben will kann es machen, habe ich kein problem damit.
Aber meiner meinung nach für die festlegung der "stärke" nicht relevant.

gruß
thomas
Parent - - By Wolfgang Battig Date 2015-08-07 09:39
Thomas Müller schrieb:

....
Die meisten (selbst die programmierer) wollen aber schnell wissen ob sich was verbessert hat.
....


Gerade die Programmierer!
Wir haben ja öfter mal entsprechende Kontakte und der Wunsch nach Tests mit (sehr) langer Bedenkzeit und/oder vielen Cores kommt selten bis nie!! Die meisten testen im Sekundenbereich (pro Partie!), für die ist 40/4 schon "ultralangsam"...

Bei CEGT läuft es zumeist so, dass neue Engines/Versionen zunächst für 40/4 und 40/20 getestet werden. Danach wird entschieden, ob die Engine/Version ein Kandidat für unsere 5+3-Liste (mit PB) und die 40/120er ist. Für die 5+3 ist die Spielstärke maßgeblich, da wir dort "jeder gegen jeden" testen. Aktuell ist Quazar 0.4 die Untergrenze und es sind schon 50 Versionen (all versions) bzw. 32 Engines (pure list) drin. Das wird auf Dauer sehr aufwändig zumal mit Cheng 4.39 und anderen schon wieder neue Kandidaten anklopfen...

Für die 40/120 ist eher der Zeit- und Hardwarefaktor entscheidend. Selbst die 300 Partien zum Einstieg dauern schon recht lange, es sei denn man hätte 10 Rechner zur Verfügung. Und eine billige Stromquelle...

Gruß
Wolfgang
Parent - By Frank Qy. Date 2015-08-07 10:22
Hi Wolfgang,

wobei dann bei den User-Wohnzimmer-Turnieren eine Bedenkzeit gewählt werden sollte die nicht zu lange dauert (niemand kann konzentriert 6 Stunden einer Engine Partie bei 40 in 120 folgen, nicht bei dem Level).

Zu testen gilt also der Ermüdungsfaktor ...
Wann werde ich beim Zusehen müde!

Bei 1+1 kann niemand folgen, macht auch keinen Sinn ... maximal um schnell eine Statistik zu erzeugen, ist etwas für Statistik Freaks.

Diese Frage ist bei jedem Start einer eigene Aktivität die Frage mit höchster Prio für mich.

Beispiel:
1+1 ... geht mir zu schnell ... wenn ich gerade versuche bei einer Stellung mitzudenken ist die Partie schon fünf Züge weiter.
40 in 5 ... gerade wenn ich denke etwas gesehen zu haben ist die Stellung auch schon 2 Züge weiter ... immer noch zu schnell.
40 in 10 ... hart an der Schmerzgrenze aber es macht Spaß zuzusehen und ich bin nicht gelangweilt, kann mir gar ein paar Partien in Folge ansehen wenn diese durchschnittlich 45 Minuten laufen.
40 in 20 ... das ist dann wieder zu gut gemeint ... Partie in 1 1/2 Stunden ... würde mir maximal eine ansehen und kämpfe dann schon mit dem einschlafen beim denken.

Aber das muss jeder für sich entscheiden.
Das ist die entscheidende Frage ... denn in erster Linie soll zusehen Spaß bereiten, sonst wird etwas anderes in den Vordergrund gestellt was aber selbst der eigenen Bedürfnisbefriedigung nicht dienlich ist.

Meine Liste ist also purer Egoismus ... ich ziehe das durch was mir am besten gefällt um die Lust daran ... auf Dauer ... nicht zu verlieren.

Wenn ich denn mal richtig bei einer Falsche Wein mir etwas gönne ...
Dann auf TV gebeamt, zwei Engines auswählen die stark unterschiedlich spielen ... dann mit mehreren Cores und Ponder und 40 in 20 bei den kritischen aber ausgeglichenen Eröffnungspositionen die mittlerweile auch schon hinreichend bekannt sein sollten. Dann habe ich das was ich möchte ... eine packende spannende Partie ... in ca. 70% der Fälle kann ich das sehr einfach mit dem angeeigneten Wissen selbst manipulieren. Wer gewinnt egal ... Hauptsache eigenes Hirn arbeitet.

Gruß
Frank
Parent - By Benno Hartwig Date 2015-08-09 08:43

> der Wunsch nach Tests mit (sehr) langer Bedenkzeit und/oder vielen Cores kommt selten bis nie!!


Vielleicht einfach deshalb, weil jedem bewusst ist, dass dies eine tatsächlich enorme Leistung wäre, die da erwartet würde?
Interesse wäre ggf. schon da, aber...

Die Ergebnisse bei kurzen Zeiten findet der Entwickler nicht an sich geil, ihn fasziniert nur, dass sich da mit erträglichem Aufwand überhaupt etwas statistisch Relevantes produzieren lässt, was immerhin leidlich dicht an seinen Interessen liegt.

Benno
Parent - - By Ralf Mueller Date 2015-08-07 14:58
Es ist doch nachgewiesen, dass sich bestimmte Bewertungsparameter wie bspw. Königssicherheit erst bei höheren Tiefen rentieren. Genau deswegen wird auch bei Stockfish mit kurzen UND langen Bedenkzeiten getestet. Es gibt nicht umsonst Engines, die besonders in Blitzpartien stark sind oder bei längeren Bedenkzeiten relativ stärker werden.
Es ist also überhaupt nicht unvorstellbar, dass Engines eine unterschiedliche Stärke je nach Bedenkzeit haben, das ist doch bei Menschen ganz genauso. Würdest du die Schach-WM in Blitz ausspielen lassen, um eine verlässlichere Datenbasis zu haben?
Parent - - By GS Date 2015-08-07 19:15
Selbstverständlich kann das sein, nur, hier wird zu viel schwadroniert
(sie sind ausdrücklich nicht gemeint damit !)

Man müsste doch "lediglich" 5000 Spiele SF vs Ko spielen lassen mit:
- game in 1'
- game in 10' oder 15'
- game in 100'
und wüsste dann bereits recht zuverlässig, ob sich zwischen diesen beiden
Engines diesbezüglich etwas "tut".
Danach noch ein oder zwei weitere "Verdächtige" einbinden und man hätte
etwas Greifbares um darüber zu diskutieren.
Allerdings, und dies ist die Krux (vor allem hier), jeder (o.k., fast jeder)
redet und fordert nur, selbst mal Hand anlegen jedoch ist und bleibt ein ...

Go it ?

Viele Grüsse,
G.S.
Parent - - By Michael Scheidl Date 2015-08-07 19:55
Zitat:
Allerdings, und dies ist die Krux (vor allem hier), jeder (o.k., fast jeder)
redet und fordert nur, selbst mal Hand anlegen jedoch ist und bleibt ein ...


Naja, genau deswegen hat man ja ungefähr im Mittelalter die Arbeitsteilung erfunden: Es gibt Macher, und es gibt Quatscher.

Ich hoffe ich bin irgendwo dazwischen
Parent - By GS Date 2015-08-07 20:52
Mittelalter, ... dieses Board hier, hhm, jener Gedanke kam mir
bisher noch gar nicht. Wenn ich nun jedoch etwas länger darüber
nachdenke, so könnte etwas dran sein an dieser These ?!

Und, sie liegen mit grosser Sicherheit sehr deutlich näher im
Bereich der Macher resp. sind einer, und vor allem sie fordern
nicht andauernd (und dazu noch "frech") OHNE etwas beizutragen !

Viele Grüsse,
G.S.
Parent - - By Frank Qy. Date 2015-08-06 23:57
Hallo Benno,

für den Test der reinen Spielstärke sind mehrere Cores völlig uninteressant.
Das ist eine Option, eine Spielstärkesteigerung wie z. B. auch "Ponder" oder "x64" oder verschiedene Prozessoroptimierungen wie "BMI2, POP, SSE42" etc..

Das alles hat nichts aber auch gar nichts mit der reinen Spielstärke einer Engine zu tun, genauso wenig wie 5-Steiner Datenbanken, extrem optimierte Engine Bücher etc..

Wenn nun eine Engine auf einem Core Ergebnis 2.000 erreicht und eine andere Engine 2.050 ... können wir sagen das Engine mit 2.050 das besserer Schachprogramm ist.
Liegt nun aber die Engine, welche 2.000 erreicht durch die ganzen zusätzlichen bzw. möglichen Spielstärkesteigerungen plötzlich bei 2.200 und das 2050 Programm bei 2.150 ... dann neigen wir dazu dem Programm mit 2.200 den Vorrang zu geben weil es eine höhere Leistung durch die "Spielstärkesteigerungen" erzielt. Das bessere Schachprogramm ist allerdings das andere, schlechter optimiert auf moderne spielstärkesteigende Faktoren.

Die "Spielstärkesteigenden" Faktoren abzutesten macht aus meiner Sicht z. B. gar keinen Sinn. OK, ich setze z. b. immer die besten Prozessoroptimierungen ein wie BMI2 oder so, richtig ist das auch nicht. Oder 4-Steiner um noch mehr Endspielschlangen zu vermeiden, richtig und konsequent ist auch das nicht. Meine ich sehe schon genug Endspielschlangen bei Aufgabefaktor = aus.

Letztendlich vergleicht eine Ratingliste und bei Vergleichen bieten sich natürlich an ... die pure Kraft der Engine abzutesten.
Klar, wollen wir nun die Engine einsetzen dann mit allem was geht ... viele Cores, Prozessor auf höhere MHz stellen etc..

Mit dem Ergebnis ...
Wir verstehen genauso wenig bei den heutigen Programmen als wenn wir es nicht tun würden.
Ob die Engine nun 3.300 Elo oder 3.200 Elo hat ... wer kann das wirklich im Spiel sehen.
Diese Person muss erst noch geboren werden.

Daher ist es lächerlich in heutigen Zeiten zu sagen ...
Mich interessiert nur noch viele Cores und lange Zeiten ...

Das ist eher das Produkt welches wir aus unserem Anspruchsdenken selbst ins Leben gerufen haben.
Wir geilen uns daran auf aber verstehen das Zustande kommen nicht mehr.

Im Grunde reicht 1+1 schon aus um statistische Aussagen zu treffen. Gar auf einem alten Duo Core Intel Prozessor.
Weil wir selbst die Spielstärke nicht erreichen können. Und da wir die Spielstärke nicht erreichen habe auch diese Partien einen extrem hohen Wert, denn Programme produzieren Material welches über unseren Horizont geht.

Wollen wir noch besseres Material sollten wir vielleicht mal ins uns kehren und die Frage beantworten ... WARUM?
Warum bin ich so geil darauf ... was möchte ich tun mit dem Material? Was möchte ich feststellen?
OK, gibt auch dafür Gründe ... ganz sicher!

Früher war das auch nicht unbedingt anders.
Oftmals wurden durch mehr Zeit nur langsamer die Fehler produziert.
Ob ein Schachcomputer nun 3 Minuten hatte oder 1 Minute. Nur in vielleicht 2-3 Züge in der Partie (die konnten natürlich entscheidend sein) kam es zu einem Treffer hinsichtlich spielentscheidender Zug. Aber deswegen war der Rest der Partien nicht schlecht wenn dieser Zug nicht kam ... den wir auch schon früher nicht sehen konnten.

Vielleicht wird es noch 3-4 Jahre dauern ...
Dann werden wir alle schreien ...
Wir wollen 32 Cores und 40 Züge in 120 Minuten ...
Weil wir doch unbedingt so geil darauf sind 200 Züge Partien zwischen der Nummer 1 und 2 täglich reinzuziehen.
Weil diese Partien so schön sind und wir genau wissen was da passiert.

Der Mensch ...
Immer und immer wieder ... Der Mensch!

Gruß
Frank
Parent - By Frank Qy. Date 2015-08-07 02:41
Vergessen ...

Der Reiz beim Computerschach ist der produzierte Fehler.
Nur durch einen produzierten Fehler wird die Partie interessant, würde es den Fehler nicht geben würden alle Partien nach x Zügen mit Remis enden.

Es ist kontraproduktiv produzierte Fehler zu vermeiden, weil wir sehen dann nicht mehr das was wir eigentlich sehen wollen.
Diese Frage ist wirklich entscheidend.

Es macht also keinen Sinn auf dem Gipfel zu stürmen (schnelle Hardware und nur noch die TOP-Engines) um dann oben angekommen auf Sonne und einer klaren Sicht zu warten wenn wir vorher dem Gipfelstürmen wissen ... es wird aber die nächsten Tage regnen und wir müssen dann sehr lange frieren wenn wir da oben stehen um etwas sehen zu können.

Wir wollen also frieren, wollen uns die langen Partien reinziehen um dann die Aussage treffen zu können ...
Mein Gott, das beste Schachprogramm ist 11,2 Elo besser als das zweitbeste Schachprogramm. Ich habe 100 Partien spielen lassen, 90 endeten mit Remis ... klar es werden immer mehr Remis Partien, das sehen wir ja beim Fernschach.

Was können wir tun ...
Spaß haben an unseren Rechnern und einfach mal ein paar Engine-Engine Matches zwischen "anderen" Programmen beobachten. Versuchen selbst gute Züge zu erkennen und einfach genießen was da am Bildschirm so abläuft. Es ist wirklich ein Wahnsinn auf welchen Stand wir heute sind. Dieses hervorragende Schach von Arasan und dennoch wird die Engine durch kleine Ungenauigkeiten von anderen öfters bezwungen. Es ist eine Herausforderung zu versuchen festzustellen ... während eine Partie läuft mit der eigenen geistigen Kraft ... ob ein Zug wirklich spielbar war. Ich bin mir sicher das von den kleinen Ungenauigkeiten während einer laufenden Partie kaum jemand in der Lage ist zu erkennen ... erst wenn die Antwortzüge der Engine vorliegen welche dann die Partie für sich entscheidet.

Wo liegt also der Reiz z. B. bei TCEC zuzuschauen wenn alles am eigenen PC reproduziert werden kann (von mir aus mit Pentium 2 MMX 200 Mhz ... reicht)?
So richtig werde ich das nie verstehen aber es gibt auch unterschiedlich tickende Geister und ganz sicher wird jeder der das liest dann seine eigene Rechtfertigung sehr schnell selbst runter spulen.

Gruß
Frank
Parent - - By Benno Hartwig Date 2015-08-07 21:10
Es ist doch OK, wenn Meinungen unterschiedlich sind!

> für den Test der reinen Spielstärke sind mehrere Cores völlig uninteressant.


Du hast sicher eine sehr persönliche Vorstellung von dem Begriff "reine Spielstärke".

> Daher ist es lächerlich in heutigen Zeiten zu sagen ...
> Mich interessiert nur noch viele Cores und lange Zeiten ...


Dass jemanden nur  viele Cores und lange Zeiten interessieren, hörte ich bislang nicht.
Darüber hinaus ist es aber aus meiner Sicht aber sehr OK sich besonders  für die Spielstärkeverhältnisse bei solchen Bedingungen zu interessieren.
Auch wenn diese meist sehr denen bei weniger Kernen und weniger Zeit ähneln.

Benno
Parent - - By Frank Qy. Date 2015-08-09 10:52
Hallo Benno,

wie sagte doch mal Tord ...
SMP ist für einen Programmierer in 2 Tagen erledigt.

Der "Spielstärkesteigernde Faktor" kann leicht mittels ein paar Stellungen abgetestet werden.
Wie gesagt, für mich ist das nur ein "steigernder Spielstärkefaktor ... ein Extra" ... und hat nun wirklich nicht mit der puren / reinen Spielstärke des eigentlichen Schachprograms zu tun.

Finde auch nicht das dies ein persönliche Vorstellung vom dem Begriff "reine Spielstärke" ist sondern einfach Fakt.

Aber eine schöne Sache um dauerhaft Preise hoch zu halten bei einer Engine. Gibt auch nicht so viele Möglichkeiten bei einer Engine einen sich "steigernden Preis" zu verlangen. Maximal mit "Spielstärkesteigernde Faktoren". Witzig hierbei ... für jede Version sich immer wieder die 2 Tage Arbeit bezahlen zu lassen. Nun ja, machen bzw. machten ja auch nur wenige Programmierer die kommerziell unterwegs sind.

Doch, klar interessiert das auch nur eine Gruppe von Personen ...
Natürlich die Personen, die selbst solche Maschinen nutzen, meist auf Server unterwegs sind und dann ganz andere Schwerpunkte legen.

Im Grunde finde ich es besser die Grundstärke festzustellen ... der User kann dann hinzurechnen ... alle spielstärkesteigende Faktoren und bei SMP ist es leicht den Faktor auszurechnen um dann Elo Wert x hinzuzurechnen. Dafür benötigen wir keine x-tausende von Partien. Finde das ist absoluter Quatsch und in Ratinglisten passiert dann folgendes ...

Wie bereits bekannt schaufeln sich im Menschenschach die Spieler durch immer höher werdende Zahlen nach oben obwohl die eigentliche Spielstärke gar nicht zulegt. Klar sie spielen verstärkt gegeneinander. Das kann schön simuliert werden in Computerschachratinglisten. Hat aber zur Folge das wenn in einer Ratingliste dann Programme mit einem Core und mehr als einem Core auftauchen ... die Versionen mit einem Core immer höher wandern.

Taucht also irgendwo ein Komodo mit 3.200 mit einem Core auf ... ist hier der Schlüssel zu suchen wenn in anderen Ratinglisten die nur auf einem Core testen Komodo bei 3.160 steht. Durch diesen Umstand werden Ratinglisten immer ungenauer. Für mich ist das immer schwierig meine mit anderen zu vergleichen weil ich zunächst mal die ganzen beeinflussenden Faktoren raus rechnen muss. Oder noch besser aus den Datenbanken die ganzen meines Erachtens für die Berechnung einer Liste vorhandenen "Schrott-Partien" rauslöschen muss um dann wirklich vergleichbares zu produzieren.

Na ja ... mache ich auch schon lange nicht mehr.
Schaue mehr und mehr nur noch auf meine Liste weil mir das alles zu anstrengend ist.
Maximal wenn es um neue Programme geht, schaue ich auf die Ergebnisse der anderen.

Mag überheblich klingen aber es bringt mir einfach nichts mehr etwas mit der eigenen Arbeit zu vergleichen.
Rechne ich alle Beeinflussungsfaktoren raus sind die Ergebnisse dann meist zu meinen Ergebnissen gleich.

Gruß
Frank
Parent - By Benno Hartwig Date 2015-08-09 17:03
Es ist schon richtig: Die Listen bei kurzen Zeiten und nur einem Kern bieten eine ziemlich gute Basis für das Schätzen der Spielstärkeverhältnisse bei langen Zeiten.
"Schiebe die ELO-Werte einfach etwas zusammen!"  könnte eine recht treffsichere Strategie sein.

Ich finde aber sehr gut, dass bisweilen auch mit längeren Zeiten und mit mehr Kernen (CEGT!) gespielt wird.
Zum einen um zu erkennen, wo sich dadurch nichts ändert, zum anderen um dann doch mal was Besonderes zu sehen.
Komodo schien mit sehr vielen Kernen mehr anfangen zu können als Stockfish.
Und ob SF dies inzwischen wirklich aufholen konnte, erscheint mit zweifelhaft.
Das Parallelisierungsthema ist ggf. doch nicht so einfach gut(!) zu lösen, wie du es darstellst.
Gerade bei SF hat es ja vor kurzem noch den Versuch gegeben, Defizite (wenigstens teilweise?) zu beseitigen.

Und wenn dieses Listen nur deine These bestätigen, dann haben sie ja eben auch dadurch ihre Daseinsberechtigung.

Benno
Parent - By Tom Paul Date 2015-08-07 10:00
http://spcc.beepworld.de
Stockfish vom 30.07. +10 ELO im Vergleich zum 16.07.

Ich merke in meinem Test auch einen Spielstärkeunterschied zwischen den Versionen vom 29.07. und 30.07.
Parent - - By Michael Scheidl Date 2015-08-07 11:09
Es gibt ein neues Lebenszeichen: https://www.facebook.com/tcec.chess?fref=nf

Demzufolge wird tatsächlich (sehr?) bald losgelegt Details sollen in Kürze auf http://www.chessdom.com/ erscheinen.
Up Topic Hauptforen / CSS-Forum / Wann startet TCEC Season 8?
1 2 3 Previous Next  

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill