Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Blitzmonster Twisted Logic 20090922
- - By Michael Scheidl Date 2009-10-29 17:30
1m+1s, D945/3,4 GHz
je 128 MB Hashtables
vier kurze Eröffnungsvarianten
Arena 2.0.1, Vista 32 Bit
3/4- und T-T-5er Nalimovs
(f.d. Gegner; 128 MB Tbs-Cache)


Twisted Logic 090922   - Colossus 2008b           6.5 - 1.5    +5/-0/=3    81.25%
Twisted Logic 090922   - Fruit 051103             6.5 - 1.5    +6/-1/=1    81.25%
Twisted Logic 090922   - Ruffian 1.0.5            6.0 - 2.0    +5/-1/=2    75.00%
Twisted Logic 090922   - Spike 1.2                5.0 - 3.0    +4/-2/=2    62.50%

Wertungsdurchschnitt der Gegner laut CCRL, 40/4m: 2785

Turnierperformance von Twisted Logic laut Elo: 24.0/32 = 75% --> +193 --> 2978

Das ist eine außerordentlich gute Performance einer Freeware-Engine gegen absolut respektable Gegner. Die Leistung ist auf dem Niveau des CCRL-Blitzratings von Fritz 11! Die neue Twisted Logic-Version hat in diesem Test über 32 Partien gegen gute Gegner nur vier Niederlagen einstecken müssen. Alle vier Gegner konnten Nalimovs nutzen, T.L. hingegen nicht.

Ich weiß daß die Testbedingungen mit nur 32 Partien und 1+1 auf D945 nicht besonders gut waren, aber es ist m.E. trotzdem ein Resultat das "aufhorchen" lassen kann. - Jedenfalls eine gute Engine die man im Hinterkopf behalten sollte.

Event:
Ort:
Datum:

Weiss:
Schwarz:

Ergebnis
Board


18...Sf3+; der Springer blieb über mehrere Züge hinweg tabu und Schwarz gewann.
Parent - - By Benno Hartwig Date 2009-10-29 19:54
[quote="Michael Scheidl"]Turnierperformance von Twisted Logic laut Elo: 24.0/32 = 75% --> +193 --> 2978
Das ist eine außerordentlich gute Performance einer Freeware-Engine gegen absolut respektable Gegner. Die Leistung ist auf dem Niveau des CCRL-Blitzratings von Fritz 11![/quote]Sicher ist das ein tolle Leistung.
Wäre es dann nicht folgerichtig, dies jetzt gegen Gegner mit ungefähr diesem ELO-Rating zu verifizieren, und dann, zur Kontrolle, auch noch gegen noch etwas stärkere?

Benno
Parent - - By Michael Scheidl Date 2009-10-29 19:56
Ja, stimmt. - Ich werde etwas in dieser Art unter denselben Bedingungen laufen lassen.
Parent - By Huseyin Oezoguz Date 2009-10-29 23:09
Ich habe das schonmal gerade gemacht, hier wurde auf einem AMD Notebook 64-bit auf 1+1 gespielt, nach 29 Spielen hat sich Ipplolit aufgehängt, aber das Ergebnis ist schon bei so wenig Spielen ziemlich klar.

-----------------IPPOLIT 0.080a x64-----------------
IPPOLIT 0.080a x64 - T20090922_x64 : 27,0/29 25-0-4 (111=1111=11111111=1=111111111?)  93%  +449
-----------------T20090922_x64-----------------
T20090922_x64 - IPPOLIT 0.080a x64 : 2,0/29 0-25-4 (000=0000=00000000=0=000000000?)   7%  -449
Parent - - By Michael Scheidl Date 2009-10-29 23:27
Gleiche Bedingungen wie oben, jedoch deutlich stärkere Gegner:

Twisted Logic 090922   - Rybka 2.3.2a             0.5 - 7.5    +0/-7/=1    6.25%
Twisted Logic 090922   - Stockfish 1.51-si        0.5 - 7.5    +0/-7/=1    6.25%
Twisted Logic 090922   - Rybka v1.2n.w32          4.5 - 3.5    +4/-3/=1    56.25%
Twisted Logic 090922   - Bright 0.4a-si           3.5 - 4.5    +2/-3/=3    43.75%


Wertungsdurchschnitt der Gegner laut CCRL: 2957

Turnierperformance von Twisted Logic laut Elo: 9.0/32 = 28% --> -166 --> 2791

Das sind 187 Punkte weniger als beim vorigen Durchgang! Gegen Rybka 232a und Stockfish 1.5.1 sah es düster aus. Lediglich das Match gegen Rybka 1.2n konnte T.L. knapp gewinnen. Wenn die Wahrheit in der Mitte liegt, wären das ca. 2885 (CCRL/Blitz) bzw. ungefähr das Niveau von Bright 0.4a auf Singlecore. "Ernüchternd", aber eigentlich auch nicht schlecht.
Parent - - By Benno Hartwig Date 2009-10-30 08:54
[quote="Michael Scheidl"]Turnierperformance von Twisted Logic laut Elo: 9.0/32 = 28% --> -166 --> 2791[/quote]Ich glaube, das uneinheitliche Bild ist vor allem den sehr wenigen Spielen geschuldet. Du hast jetzt 2 Gruppen a gerade mal 32 Partien.
Als ich begann, mit den Toga- und Glaurung/Stockfish-herumzudoktern, versuchte ich zunächst meine 'Erfolge' mittels kleiner nächtlicher Turniere mit 50 Partien zu erkennen. Das ist aber Kaffesatzleserei. Die Ergebnisse gingen mal ein Stück rauf, mal runter, und letztlich waren die besonders erfolgreichen Events wohl nur dem Zufall geschuldet. Und vielleicht ist 'die gute Version' in einer kleinen Portion Pech versackt.
Lass eine Engine gegen die gleiche Gegnerschaft mehrere Male 32 Partien spielen. Vermutlich wirst du dann auch deutlich Tage finden, an denen sie "besonder gut drauf war", und andere, an denen "sie schwächelte". Ein buntes Bild.
Aber, die von dir ermittelten ELO-Zahlen sind schon sehr deutlich unterschiedlich. Hmmm...

Meine kurz-Prüfturniere für eine frisch geänderte Engine-Version erledigen nun 148-Partien. Und auch da ist noch reichlich und eigentlich zu viel Zufall drin.
Immerhin hofft man ja Fortschritte erkennen zu können, die erwartungsgemäß nicht wirklich riesig sind.

Benno
Parent - By Ingo Bauer Date 2009-10-30 09:10
Hallo Benno

[quote="Benno Hartwig"]
...
Meine kurz-Prüfturniere für eine frisch geänderte Engine-Version erledigen nun 148-Partien. Und auch da ist noch reichlich und eigentlich zu viel Zufall drin.
Immerhin hofft man ja Fortschritte erkennen zu können, die erwartungsgemäß nicht wirklich riesig sind.

[/quote]

Das versuche ich gerade (für Settings) mit einem Kurzmatch mit 340 Partien gegen einen Gegner. Nach ca. 10 matches a 340 Partien habe ich es aufgegeben! Obwohl ich nach 340 Spielen zw. default und dem besten mehr als 7% Unterschied habe, sind die Vergleichsmessung im 1000er Match gegen viele Engines mehr als entäuschend, nichts weiter als statistisches Rauschen und völlig ohne Aussagekraft. (und noch schlimmer, die 7% nach 340 Spielen sind im 100er Match gegen den selben Gegner bei rund doppelt so langer Bedenkzeit verschwunden!)

So schön und verlockend Kurzmatche auch sind, es hilft alles nichts, man braucht VIELE Partien gegen VIELE verschiedene Gegner!

Gruß
Ingo
Parent - - By Wolfgang Battig Date 2009-10-30 09:18 Edited 2009-10-30 09:22
Aussagekräftige(re) Ergebnisse (>1000 Partien) finden sich hier (Blitz 40/3):

http://www.husvankempen.de/nunn/40_4_Ratinglist/40_4_AllVersion/227.html (64bit)
ELO-Bandbreite der Gegner: 2665 bis 2887
Performance von TL: 2744 bis 2840
CEGT-ELO: 2802 (Niveau Ktulu 9, Naum 2.2, Bright 0.4a 1CPU u.a.)

http://www.husvankempen.de/nunn/40_4_Ratinglist/40_4_AllVersion/263.html (32bit)
ELO-Bandbreite der Gegner: 2623 bis 2866
Performance von TL: 2697 bis 2791
CEGT-ELO: 2751 (Niveau ChessTiger 2007.1, Shredder 8, Junior 10.1 u.a.)

Abstand 64bit <=> 32bit: +51, also durchaus nennenswert
Parent - - By Michael Scheidl Date 2009-10-30 10:30
Danke allen für die Hinweise. - Dann war bei mir die Performance über diese nur 64 Partien (32 Bit) insgesamt auch noch etwas überdurchschnittlich. Ich mache nicht mehr so gerne lange Tests, aber ich will mir manchmal zumindest einen eigenen "ersten Eindruck" verschaffen und irgendwie das Potentzial feststellen, darum solche Schnellschüsse. Ich schaue auch gerne einigen Partien zu oder analysiere dann ein bißchen herum.

Laut Antwort das Programmierers im CCC soll T.L. insbesondere bei ultrakurzen Zeitkontrollen stark sein, aber nicht so gut bei längeren Bedenkzeiten.

http://talkchess.com/forum/viewtopic.php?p=299921&highlight=#299921
Parent - By Wolfgang Battig Date 2009-10-31 14:33
[quote="Michael Scheidl"]
...... aber nicht so gut bei längeren Bedenkzeiten.

http://talkchess.com/forum/viewtopic.php?p=299921&highlight=#299921
[/quote]

naja, bei 40/20 liegt sie bei uns auf Niveau von Shredder 10, Loop 10.32f, Hiarcs 11 oder Ktulu 9, also auch alles andere als schwach...
Up Topic Hauptforen / CSS-Forum / Blitzmonster Twisted Logic 20090922

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill