Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Critter 1.2 in der CEGT/BASE/IPON
1 2 Previous Next  
- - By Ingo Bauer Date 2011-07-04 21:35 Edited 2011-07-04 21:41
Hallo Interessierte

Da in der CEGT 40/4 als auch in der 40/20 sowie in der Base Critter 1.2 doch deutlich besser da steht als bei mir, was bei allen anderen Engines völlig untypisch ist, habe ich mir mal ein paar Gedanken gemacht.

Da die Bedenkzeit ausscheidet, da ich Partie längenmäßig zw. 40/4 und 40/20 liege bleiben die Anzahl der Spiele, die "richtigen" Gegnern (weniger, und gerade die gegen die Critter gut performt), Ponder on/off und, zu guter letzt SSE42.

Ponder off teste ich nicht aber die normale Critter x64 kann ich mal testen.

Hier ist der Link zum laufenden Test:

http://www.inwoba.de/CRITTER 1.2 NO SSE.html

und hier mal das Ergebniss für Critter 1.2 SSE42 gegen die selben Gegner wie der laufende Test:

5 Critter 1.2 SSE42         : 2955  2300 (+1292,=798,-210), 73.5 %

Zappa Mexico II               : 100 (+ 70,= 27,-  3), 83.5 %
Toga II 1.4 beta5c BB         : 100 (+ 78,= 22,-  0), 89.0 %
Naum 4.2                      : 100 (+ 48,= 48,-  4), 72.0 %
Loop 13.6/2007                : 100 (+ 79,= 17,-  4), 87.5 %
Deep Rybka 4                  : 100 (+ 21,= 54,- 25), 48.0 %
Deep Onno 1-2-70              : 100 (+ 77,= 21,-  2), 87.5 %
Deep Shredder 12              : 100 (+ 47,= 47,-  6), 70.5 %
Crafty 23.3 JA                : 100 (+ 87,= 13,-  0), 93.5 %
Jonny 4.00 32b                : 100 (+ 84,= 11,-  5), 89.5 %
Deep Sjeng c't 2010 32b       : 100 (+ 54,= 39,-  7), 73.5 %
spark-1.0 SSE42               : 100 (+ 63,= 34,-  3), 80.0 %
Houdini 1.5a                  : 100 (+ 15,= 45,- 40), 37.5 %
HIARCS 13.2 MP 32b            : 100 (+ 53,= 40,-  7), 73.0 %
Protector 1.4.0 x64           : 100 (+ 53,= 43,-  4), 74.5 %
Strelka 2.0 B                 : 100 (+ 73,= 25,-  2), 85.5 %
Spike 1.4 32b                 : 100 (+ 59,= 34,-  7), 76.0 %
Gull 1.2                      : 100 (+ 57,= 35,-  8), 74.5 %
Deep Rybka 4.1 SSE42          : 100 (+ 23,= 56,- 21), 51.0 %
Deep Junior 12.5              : 100 (+ 63,= 33,-  4), 79.5 %
Stockfish 2.1.1 JA            : 100 (+ 26,= 57,- 17), 54.5 %
Komodo 2.03 DC SSE42          : 100 (+ 26,= 42,- 32), 47.0 %
Hannibal 1.1                  : 100 (+ 59,= 34,-  7), 76.0 %
Umko 1.2 SSE42                : 100 (+ 77,= 21,-  2), 87.5 %


Bitte schaut nicht auf die Elo, die sind nicht so 100prozentig, schaut auf die %. Critter 1.2 muß mehr als 73.5% schaffen. Jedes eine Prozent besser sind rund 6 ELo ... ihr könt auch ausrechnen wo er hin muß um ca CEGT oder Base Level zu erhalten.

Bei Clemens ist Critter 1.2 auch besser, wenngleich nicht ganz so viel wie bei der CEGT, dafür ist seine Gesammtbasis noch(!) etwas klein und auch er hat (wie die CEGT) nur TOP-Gegner. Ich habe die Hälfte der Gegner aus dem unteren Feld ...  Andererseits testet er auch die SSE42 ...

Gegen die TOP Gegner hat mein Critter 63.5% geholt:

5 Critter 1.2 SSE42         : xxxx  1200 (+500,=525,-175),  63.5%

Deep Fritz 12 32b             : 100 (+ 71,= 25,-  4), 83.5 %
Naum 4.2                      : 100 (+ 48,= 48,-  4), 72.0 %
Deep Rybka 4                  : 100 (+ 21,= 54,- 25), 48.0 %
Deep Shredder 12              : 100 (+ 47,= 47,-  6), 70.5 %
Deep Sjeng c't 2010 32b       : 100 (+ 54,= 39,-  7), 73.5 %
Houdini 1.5a                  : 100 (+ 15,= 45,- 40), 37.5 %
Protector 1.4.0 x64           : 100 (+ 53,= 43,-  4), 74.5 %
Spike 1.4 32b                 : 100 (+ 59,= 34,-  7), 76.0 %
Gull 1.2                      : 100 (+ 57,= 35,-  8), 74.5 %
Deep Rybka 4.1 SSE42          : 100 (+ 23,= 56,- 21), 51.0 %
Stockfish 2.1.1 JA            : 100 (+ 26,= 57,- 17), 54.5 %
Komodo 2.03 DC SSE42          : 100 (+ 26,= 42,- 32), 47.0 %


Bei Klemens waren es 65.2 (aber hohe Remisquote über alles) in der CEGT 40/20 gerade mal 62.3%. Ich liege also eigentlich dazwischen, nur gegen die unteren Gegner hat Critter nicht so gut abgeschnitten wie er es hätte sollen - alleine das ist schon SEHR ungewöhnlich und das muß ich noch verdauen und ein wenig drüber pondern!

Im Moment tendiere ich dazu, das die Top-Gegnerschaft das Ergebniss hoch treibt. Ich würde tippen, dass mein momentanes Turnier rund das selbe produzieren wird wie vorher ... mal sehen.

Aber - entweder stimmt bei mir was nicht oder bei allen anderen. Manche wären sich ihrer Sache ja sicher, ich nicht. Ich würde mich aber freuen wenn die CEGT ein paar hunder Spiele für Critter 1.2 gegen schwächere Gegner einspielt (gerne die gleichen die ich habe). Das würde die Vergleichbarkeit erhöhen.

Am Ende wird das bessere Critter Ergebniss in die IPON genommen, die schlechtere Engine fliegt komplett raus.

Gruß
Ingo
Parent - - By Ingo Bauer Date 2011-07-04 21:51
... und gerade schaue ich nochmal in die SWCR und da liegt Critter 1.2, ohne das das Turnier beendet wäre, ungefähr da wo die Engine auch bei mir liegt ... und Frank hat das breiteste Spektrum an Gegnern von allen.

Wenn sich das bestätigen sollte, zeigt das wie wichtig die "richtigen" Gegner sind!

Gruß
Ingo
Parent - - By Clemens Keck Date 2011-07-04 22:19
Hallo Ingo

im Grunde läuft bei mir weitestgehend sowas ähnliches. Ich bin über meine bisherigen Ergebnisse verunsichert. Nicht nur wegen Critter1.2.
Ich habe einige Aspekte meines Aufbaus im Verdacht:
Verdacht 1) so wie es aussieht treibt meine Auswahl an Top engines die Zahlen nach oben. Ob das allerdings auch den deutlichen Platz 2 von Critter1.2 in meiner privaten Liste  verursacht weis ich nicht. Zweifel bleiben. Andre Listen haben Critter auch weit oben, und testen ein sehr breites Gegnerspektrum.
Verdacht 2) meine 50er Stellungsvorgabe. Dazu habe ich ja den Test mit Critter 1.2 und anderer 50er-VorgabeStellung wiederholt. Da hat Critter 1.2 ja noch deutlicher abgeschnitten. Trotzdem war das nicht so der tolle Beweis für mich. Zweifel bleiben.
Verdacht 3) meine Hardware. Es ist durchaus möglich das engines auf AMD und auf Intel-i7 unterschiedlich performen.

Aus diesem Grund habe ich ein größeres Turnier gestartet, in dem ich Franks Random Book v4.1 einsetze. Quasi Eine SWCR unter IPON Bedingungen 
Mal sehn was da draus wird. 14 Gegner, 9100 Partien. Dauert etwas, kann nicht immer alle Rechner einsetzen.

Ich bin mal gespannt was Du rausfindest Ingo

beste Grüße, Clemens
Parent - - By Ingo Bauer Date 2011-07-04 22:28 Edited 2011-07-04 22:33
Hallo CLemens

[quote="Clemens Keck"]

Verdacht 1) so wie es aussieht treibt meine Auswahl an Top engines die Zahlen nach oben. Ob das allerdings auch den deutlichen Platz 2 von Critter1.2 in meiner privaten Liste  verursacht weis ich nicht. Zweifel bleiben. Andre Listen haben Critter auch weit oben, und testen ein sehr breites Gegnerspektrum.

[/quote]

Welche Liste hat Critter 1.2 so weit oben UND ein breites Gegnerspektrum? Ich habe eigentlich alle aufgezählt und alle die Critter weit oben haben haben eine sehr beschränkte Anzahl dafür sehr gute Gegnern! Sobald eine Liste viele, auch weniger gute Gegner hat ist Critter weiter unten gelistet.

Wenn ich die CCRL 40/4 noch reinnehme, die ein breites Spektrum drin hat (dafür andere Probleme) ist immerhin die 4 CPU Version (kein Single Critter 1.2) praktisch genau auf Rybka 4 Level ... Zugegeben die Datenbasis ist dünn 3:3 (3 mal viele Gegner Critter unten, 3 mal wenige TOP Gegner, Critter oben) aber das ist eigentlich die beste Arbeitshypothese die mir im Moment einfällt.
(Ansonsten nutzt es natürlich nichts viele Gegner, aber dafür nur 5 Spiele jeder gegen jeden zu haben)

Das würde übrigens auch deine guten Ergebnisse mit 2 Testsets erklären. Sie haben damit einfach nichts zu tun ... ausser die Remisquote, aber das ist ein anderes 'Problem'.

Gruß
Ingo
Parent - - By Clemens Keck Date 2011-07-04 22:46
Ingo,

Critter 1.2 ist nicht der einzige Kandidat.
Auch bei Komodo sind die Unterschiede groß. Bin jetzt nicht ganz so informiert, aber wer hat noch Komodo so deutlich an Platz 2?
Bei den anderen Listen muss man wohl nicht allzu lange auf das breitere Spektrum warten.

Insgesamt plane ich ja meine Liste so nach und nach mit intressanten engines aufzustocken. Jetzt will ich erst mal sehn wie sich alle bisherigen Kandidaten einordnen mit Franks Buch.

Clemens
Parent - - By Thorsten Czub Date 2011-07-04 22:49
wie gesagt: bei mir liegt critter1.2 vor allen anderen.
und was komodo angeht... testen wir alle dasselbe ??
meine komodo 2.01 64bit ja version datiert vom 8.6. und ist 249 KB gross bzw. klein.
Parent - By Clemens Keck Date 2011-07-04 23:09
Thorsten,

2.01 teste ich nicht mehr, und die 2.03 JA bzw 2.03 DC sind von der offiziellen DL seite. DIe 2.01 hatte auch noch einen Bug , der in 2.03 bereinig wurde.

Clemens
Parent - By Ingo Bauer Date 2011-07-04 22:49
Na ja,

Komodo liegt 19 ELo hinter, Critter 15 ELo vor R4. Eigentlich ist das auch alles noch nicht bedenklich da in der Errorbar ...

Vielleicht machen ich auch zu viel Wind.

Nur die CEGT 40/20 liegt wirklich deutlich vorne mit Critter.

Abwarten und Tee trinken.
Parent - By Thorsten Czub Date 2011-07-04 22:28
also bei mir ist critter 1.2 sehr hoch.

01: Critter_1.2_64bit [t1]    158,0/195
02: Komodo-201-64-ja          156,5/195
03: Stockfish-211-64-ja [t1]  155,0/195
04: Houdini_15_x64 [t1]       154,0/195
05: Fire_20_xTreme_x64_PP     151,5/195
06: Komodo-203-64-ja          147,0/195
07: Deep Rybka 4.1 x64 [t1]   141,0/195
08: DeepSaros23c4-win32       140,0/195
09: Crab-x64_PGO [t1]         137,5/195
10: Stockfish-21-64-ja [t1]   137,0/195
11: Tinapa1.01 [t1]           136,5/195
12: Critter_1.0_64bit [t1]    135,0/195
13: IvanHoe53_64 [t1]         133,0/195
14: Rybka 3_64 [t1]           132,0/195
15: Fire 1.5 xTreme x64 [t1]  130,0/195
16: Deepsjeng2010_32_ct       116,5/195
17: Naum4.2_64 [t1]           115,5/195
18: DeepShredder12UCIx64 [t1] 111,5/195
19: Gull 1_1 x64              110,5/195
20: Spark-1.0-win64-mp [t1]   105,5/195
21: Hannibal1.1x64            101,0/195
22: Spike1.4                  97,0/195
23: Hiarcs12MPUCI [t1]        92,5/195
24: Zappa Mexico II x64 [t1]  85,0/195
25: Deep-onno-1-2-70-x64 [t1] 84,5/195
26: Hannibal1.0ax64           81,5/195
27: Crafty-234-64-ja          80,5/195
28: Now2t                     64,5/195
29: Jonny400                  63,0/195
30: ChessTiger2007.1 [gambit] 60,5/195
31: Kassandra X64 [tc005]     59,5/195
32: ChessTiger2007.1          54,5/195
33: Hermann 2.8 64 bit        46,0/195
34: Hermann_2.6_64            46,0/195
35: Rotor06                   44,5/195
36: ProDeo1.6 [mach011]       40,5/195
37: N2_x64                    40,5/195
38: Arasanx12.2-64            38,0/195
39: Bikjump2.01_64bit         11,5/195
40: Kurt_0_9_2_beta_x64       5,5/195

3900 Partien gespielt / Turnier beendet
Name des Turniers: Arena Turnier
Ort/ Land: ORION8-LATITUDE, Deutschland
Spielstufe: Turnier 40/5
Hardware: Intel(R) Core(TM)2 CPU         T7600  @ 2.33GHz  mit 4.096 MB Speicher
Betriebssystem: Microsoft Windows Vista Professional (Build 6000)
PGN-Datei: C:\schach\arena201\Arena.pgn
Internetseite:
E-Mail Adresse:

meine Gegnerschaft ist ja auch sehr breit, 39 engines als gegner von stark bis eher schwach.


was ich allerdings nicht so ganz verstehe ist der krasse unterschied zwischen
komodo 201 und 203.
haben diese 2 versionen bei euch auch so grosse unterschiede gezeigt ?
Parent - By Ingo Bauer Date 2011-07-04 22:47
[quote="Clemens Keck"]

Verdacht 1) so wie es aussieht treibt meine Auswahl an Top engines die Zahlen nach oben. Ob das allerdings auch den deutlichen Platz 2 von Critter1.2 in meiner privaten Liste  verursacht weis ich nicht. Zweifel bleiben. Andre Listen haben Critter auch weit oben, und testen ein sehr breites Gegnerspektrum.
[/quote]

Nö, für deinen Testaufbau ist das Ergebniss korrekt. Wenn dien Vermutung stimmen sollte, ist es wie bei den Menschen ... was ist realistischer? Ein Testaufbau in dem nur gute Engines einer "Liga" spielen oder alles durcheinander von Kreisklasse bis Champions League? ? ? ?
Aber da ist es wie mit den Essen - jedem schmeckt etwas anderes.

[quote="Clemens Keck"]
Verdacht 2) meine 50er Stellungsvorgabe. Dazu habe ich ja den Test mit Critter 1.2 und anderer 50er-VorgabeStellung wiederholt. Da hat Critter 1.2 ja noch deutlicher abgeschnitten. Trotzdem war das nicht so der tolle Beweis für mich. Zweifel bleiben.
[/quote]

Ich kenne deine Stellungen nicht (will ich auch nicht). Aber ich schrieb schon einmal. schmeiß mal die 10 Eröffnungen mit der höchstne Reisquote raus, ersetze durch eine andere kürzere in die gleiche Richtung gehende Eröffnung (ECO) und mach dann mal ein paar tausend Spiele. Du wirst um diese Experimente nicht herrumkommen wenn du Eröffnungsstellungen benutzt! Ich habe den Vorteil das ich das schon gemacht habe ehe ich "öffentlich" ging.

[quote="Clemens Keck"]
Verdacht 3) meine Hardware. Es ist durchaus möglich das engines auf AMD und auf Intel-i7 unterschiedlich performen.
[/quote]

Das hatten wir auch schonmal aber a) ist der Unterschied minimal (Fritz noch als Maximum und den testest du nicht mal) und b) ist die CEGT (ausser 6 Kern) und die SWCR auf Intel und es gibt (bis auf Critter) keine Unterschiede die nicht in der Errorbar liegen ... (CCRL weiß ich nichts aktuelles)

Gruß
Ingo
Parent - - By Stefan Pohl Date 2011-07-05 11:36
Hi Ingo,

Also ich habe Critter (ohne SSE42, geht auf meinem alten Quad nicht) nur gegen ein paar starke Gegner getestet und kann dir zu diesem Thema daher nur sagen, daß ich vor allem das schlechte Abschneiden gegen Houdini bei Dir (37.5%) sehr merkwürdig finde. Bei mir lag Critter - egal ob mit Kurzbuch oder mit Noomen-Vorgabestellung - immer so um 45%.Allerdings teste ich auch mit 5-Steiner gtbs, und da Critter keine Endspielleuchte ist, könnte er davon mehr profitieren als Houdini.

Gruß - Stefan
Parent - - By Ingo Bauer Date 2011-07-05 11:57
Hallo Stefan,

[quote="Stefan Pohl"]
Hi Ingo,

Also ich habe Critter (ohne SSE42, geht auf meinem alten Quad nicht) nur gegen ein paar starke Gegner getestet und kann dir zu diesem Thema daher nur sagen, daß ich vor allem das schlechte Abschneiden gegen Houdini bei Dir (37.5%) sehr merkwürdig finde. Bei mir lag Critter - egal ob mit Kurzbuch oder mit Noomen-Vorgabestellung - immer so um 45%.Allerdings teste ich auch mit 5-Steiner gtbs, und da Critter keine Endspielleuchte ist, könnte er davon mehr profitieren als Houdini.

Gruß - Stefan
[/quote]

Hmm, ich gebe eingentlich sehr wenig auf diese Einzelergebnisse. 100 Spiele sind einfach zu wenig um irgendetwas rauszufinden. Wie du sehen kannst sieht es gegen Houdini im Moment ganz anders aus obwohl auf beiden Seiten die Seben Engines auf der selben Hardware mit den selben Eröffnungen spielen ...
Das mit den Tbs ist ein guter Hinweis. Die CEGT testet mit ?, die Base mit 5er Tbs und Frank mit 4ern, da liegt Critter wie bei mir. Vielleicht ist es eine Engine die man keinesfalls für Endpielanalysen einsetzen sollte ... keine AHnung, ich bin kein Critter-Betatester

Auch die 75.5% nach der Hälfte der Spiele sind nicht überzeugend. das sind gerade mal 2% mehr als am vorherigen Ende ... da kann noch jede Menge passieren.

Vielleicht ist es auch eine kombination aus schwächeren Gegner und fehlenden Tbs .... Das ist nicht gut oder schlecht, das ist halt anders ...

Gruß
Ingo
Parent - - By Clemens Keck Date 2011-07-05 17:28
stimmt nicht Ingo,

meine Base spielt komplett OHNE TBs. MAnche engines können TBs lesen, manche nicht. Entweder ALLe oder eben Keiner. 

Dein Critter legt ja ganz schön zu, komischerweise ohne SSE42?!

Gruß, Clemens

PS: unglaublich, heute hat sich  ftp-watchdog zum ersten mal verabschiedet. Möglicherweise lags am provider cut.
PSS: ach ja und Franks Random Book ist bei mir sehr ECO A lastig (fast 40%). Ich lasse es jetzt aber mal durchlaufen. Vorne hat sich alles schön eingereiht...aber hinten?? Und loop so weit vorne?
Parent - - By Werner Schüle Date 2011-07-05 17:41
Hallo,
ich spiele mit tbs (egtb, GTB) für CEGT. Allerding die default Einstellungen der Engines. Critter hat also nur was davon, wenn der 5Steiner schon auf dem Brett ist.
Gruß
Werner
Parent - - By Dieter Eberle Date 2011-07-05 18:19
Hallo Werner,
wie ist das zu verstehen? Critter greift doch schon während der Suche auf die gtbs zu.
Gruß, Dieter
Parent - - By Werner Schüle Date 2011-07-05 19:28
[quote="Dieter Eberle"]
Hallo Werner,
wie ist das zu verstehen? Critter greift doch schon während der Suche auf die gtbs zu.
Gruß, Dieter
[/quote]
Hallo Dieter,
Critter kann während der Suche auch die gtbs zugreifen. In der default Einstellung aber nicht: "Only at root" bedeutet für mich - es wird erst auf die tbs zugeriffen, wenn der 5Steiner auf dem Brett ist. Und genau so will der Author die engine getestet haben - ich habe ihn mal gefragt.

Gruß
Werner
Parent - - By Dieter Eberle Date 2011-07-05 20:19
Hallo Werner,
ich vermute, dass "Only at root" eine andere Bedeutung hat.   
Ich habe die gtb 5-Steiner instaliert. Hier ist ein 6-Steiner, den Critter mit "Only at root" sofort löst:
3k4/3p1p2/3K1N2/8/8/5N2/8/8 w - - 0 1
Gruß, Dieter
Parent - - By Werner Schüle Date 2011-07-05 21:57
Hallo Dieter,
die Stellung wird zu schnell vereinfacht. Wenn du sie etwas änderst:
8/3k4/3p1p2/5N2/3K4/5N2/8/8 w - -
dann gibts bei der default Einstellung nur 1TB Zugriff, während bei everywhere die Zugriffe stark steigen.

Gruß
Werner
Parent - By Dieter Eberle Date 2011-07-05 23:08
Das mag sein, Werner,
es ist auch völlig logisch, dass mit "everywhere" häufiger auf die tablebases zugegriffen wird. Aber dass mit "Only at root" erst zugegriffen wird, wenn der 5-Steiner auf dem Brett ist, kann so nicht stimmen.
Gruß, Dieter
 
Parent - - By Michael Scheidl Date 2011-07-05 23:36
Auf Viersteiner greift Critter 1.2 bei mir, bei "only at root" jedenfalls in obiger Stellung und in Werners Fassung nicht zu.

Ich habe ausprobiert, ob die Engine dann in einer Fünfsteiner-Stellung auf Viersteiner zugreift:



Critter 1.2:

  2/4  00:00            81  0  +0,66  1.g5+ Bxg5 2.Kd4
  3/5  00:00           177  0  +0,85  1.g5+ Bxg5 2.Kd4 Bh4
(...)
21/46  00:24    16.535.507  681.876  +11,45  1.g5+ Bxg5 2.Ke4 Bh4 3.Kf3 Ke6 4.a6 Be7 5.a7 Kd6 6.a8Q Ke5 7.Qc6 Bd6 8.Qe4+ Kf6 9.Kg4 Be7 10.Qf5+ Kg7 11.Kh5 Bb4 12.Qg4+ Kf7 13.Qxb4 Ke6 14.Qd4 Ke7 15.Qd5 Kf6 16.Qc4 Ke5 17.Kg6 Kd6 18.Kf5 Ke7 19.Qc6 Kf8 20.Qb7 Kg8 21.Kf6 Kh8 22.Qg7+
Best move: g5, Value: +11,45, Depth: 21/46, Time: 00:24,761, 16.675.958 Nodes, 681.513 N/sec.

Nichts. - Mit "everywhere":

Critter 1.2:

  2/4  00:00            81  5.400  +0,66  1.g5+ Bxg5 2.Kd4
  3/5  00:00           177  11.800  +0,85  1.g5+ Bxg5 2.Kd4 Bh4
(...)
  7/10  00:00         8.711  111.679  +M18  1.g5+ Bxg5
(...)
26/29  00:13     3.299.211  241.877  +M18  1.g5+ Bxg5
Best move: g5, Value: +Mate in 18, Depth: 26/29, Time: 00:15,229, 3.670.016 Nodes, 247.255 N/sec.

Schreibt leider die Tbs.-Hits unten nicht an; es waren bis dahin 100.711 Hits.

Mich würde das von Dir beobachtete Verhalten auch wundern, denn "only at root" habe ich genauso aufgefaßt (nur für aktuelle Brettstellung). Houdini kennt eine Unterscheidung "Hard_Probe" (von Datenträger) und "Soft_Probe" für Tbs.-Daten die schon im Cache sind. Vielleicht spielt das hier bei Critter auch eine Rolle. Dann dürfte die Engine es nach Neustart aber nicht machen, sonst stimmt m.E. irgend etwas nicht.

Um Critter den Tbs.-Zugriff in einem Testlauf völlig zu unterbinden, könnte man notfalls irgendein leeres Tbs.-Verzeichnis angeben, falls obiger Effekt nicht anders loszuwerden ist. Ich verwende allerdings ohnehin immer "everywhere" und habe nur 3er+4er-Gaviotas, auf USB Stick.
Parent - - By Dieter Eberle Date 2011-07-06 01:05
Hallo Michael,
der von mir gepostete 6-steiner
3k4/3p1p2/3K1N2/8/8/5N2/8/8 w - - 0 1
wird von Critter mit 5-Steiner gtbs und "Only At Root" auch nach einem boot (um Dreckeffekte im hash auszuschliessen) im Bruchteil einer Sekunde gelöst: 1.Sxd7 und Matt in 31 wird angezeigt.
Ohne gtbs überlegt Critter nach einer Minute an 1.Se5 mit einer Bewertung von +1.34.
Vielleicht bedeutet "Only At Root", dass in der Suche auf die tablebases zugegriffen wird, wenn nach dem ersten Zug ein 5-Steiner erreicht ist.
Gruß, Dieter
Parent - - By Richard Vida Date 2011-07-06 11:34
[quote="Dieter Eberle"]
Vielleicht bedeutet "Only At Root", dass in der Suche auf die tablebases zugegriffen wird, wenn nach dem ersten Zug ein 5-Steiner erreicht ist.
[/quote]

100% Correct.
Parent - By Dieter Eberle Date 2011-07-06 12:35
Danke Richard 
Dieter
Parent - - By Ingo Bauer Date 2011-07-05 17:55
Hallo Clemens,
[quote="Clemens Keck"]
stimmt nicht Ingo,

meine Base spielt komplett OHNE TBs. MAnche engines können TBs lesen, manche nicht. Entweder ALLe oder eben Keiner. 
[/quote]

Ahh OK, dann hatte ich das falsch in Erinnerung ... dahin ist die alternative Erklärung und es bleiben wieder nur die "schlechteren" Gegner.

[quote="Clemens Keck"]
Dein Critter legt ja ganz schön zu, komischerweise ohne SSE42?!
...
[/quote]

" ... legt ganz schön zu ..."? Beobachtest du ein anderes Turnier als ich? Ich habe JETZT, nach 1535 Spielen gerade mal 1.4% mehr als die SSE42 Version am Ende. Aus dem Bauch würde ich sagen - Alles nur statistisches Rauschen - ist aber noch nicht zu Ende. (Wie ich schon schrieb, nicht auf die Elowerte sehen!) Was das SSE42 betrifft erwarte ich sowieso nur sehr wenig.

Gruß
Ingo
Parent - - By Clemens Keck Date 2011-07-05 18:39
Ich sehe nur die Prozente im Vergleich. Also fast 75% zu 73,5%. Dann muss man noch das fehlende SSE 42 mit aufschlagen. Das läppert sich. SSE 42 sollten schon locker 5 - 10 Elo sein.

Gruß, Clemens
Parent - - By Ingo Bauer Date 2011-07-05 19:05
[quote="Clemens Keck"]
Ich sehe nur die Prozente im Vergleich. Also fast 75% zu 73,5%. Dann muss man noch das fehlende SSE 42 mit aufschlagen. Das läppert sich. SSE 42 sollten schon locker 5 - 10 Elo sein.

Gruß, Clemens
[/quote]

Wir haben ein unterschiedliches Verständniss von "Zulegen" und "läppern". 1.4% sind rund 9 Elo. Für dich mag das signifikant sein, für mich ist das rauschen.

Gruß
Ingo

PS: 9 ELo nach Elostat, bei Bayes kann das weniger werden.
Parent - By Clemens Keck Date 2011-07-05 19:29
Hallo nochmal.
In meiner Logik sieht das so aus:
Ohne SSE ist das Programm stärker(ich sag ja nicht VIEEL stärker) als mit SSE, das sollte aber nicht so sein.
Müsste jetzt aber nicht der theoretische SSE Zugewinn von ca. 10ELO oder % x in die Rechnung mit einbezogen werden?
Also ausgehend von meiner Überlegung müsste Critter Ohne SSE ca. bei 2945 landen. Kommte er nun aber auf 2965?!... na ich weis ja auch nicht.
Ist nur so ein Gefühl, aber Vielleicht  ist Critter Mit sse zu niedrig und Komodo mit SSE zu hoch bei Dir, vielleicht.... aber warum?

man könnte sagen: es rauscht an der ErrorBar 

Gruß, Clemens
Parent - - By Ingo Bauer Date 2011-07-06 07:01 Edited 2011-07-06 07:04
Hallo

De fakto das selbe Ergebnis. Wiee auch bei R4 zeigt die SSE Variante praktisch ein identisches Rating. Wenn ich momentan auswerten lasse ist die 'Nicht SSE Version' 2 Elo besser. Das kann ich nur als Rauschen bezeichnen!


   1 Houdini 1.5a             3012   11   11  4000   79%  2776   26%
   2 Deep Rybka 4             2954   10   10  4800   75%  2767   33%
   3 Critter 1.2 NOSSE42      2954   13   13  2300   74%  2774   35%
   4 Komodo 2.03 DC SSE42     2953   12   12  2800   73%  2778   30%
   5 Deep Rybka 4.1 SSE42     2953   12   11  3000   73%  2786   37%
   6 Critter 1.2 SSE42        2952   13   13  2500   75%  2769   34%
...


Ich werde noch ein bischen rumspielen, ein paar Spiele nachschieben (Fritz) und dann mal sehen.

Nach den Diskusionen hier und ein bischen Statistik-Spielerei gehe ich davon aus, das die Listen die Critter sehr hoch bewerten keine "schlechteren" Engines mitgetestet haben, da schein Critter 1.2 nämlich die Engine zu sein die am schlechtesten abschneidet. Wenn jemand eine alternative/bessere Erklärung hat ... Im Engineroom auf Playchess würde Critter 1.2 wohl Rybka ablösen ... wenn der da noch eine Rolle spielen würde.

Gruß
Ingo
Parent - - By Ernest Bonnem Date 2011-07-06 10:14
[quote="Ingo Bauer"]De fakto das selbe Ergebnis. [/quote]
Hallo Ingo,

Hast Du festgestellt, wieviel schneller (auf Deiner Maschine) die SSE42 ist, verglichen mit NOSSE42?
Dann ist es ja einfach zu rechnen, wieviel Elo das macht.
Ob man diese Elo sieht oder nicht, ist natürlich von den Error-bars abhängig.
Einfach!  
Parent - - By Ingo Bauer Date 2011-07-06 18:04
Hallo Ernest

[quote="Ernest Bonnem"]
[quote="Ingo Bauer"]De fakto das selbe Ergebnis. [/quote]
Hallo Ingo,

Hast Du festgestellt, wieviel schneller (auf Deiner Maschine) die SSE42 ist, verglichen mit NOSSE42?
Dann ist es ja einfach zu rechnen, wieviel Elo das macht.
Ob man diese Elo sieht oder nicht, ist natürlich von den Error-bars abhängig.
Einfach!  
[/quote]

Jeweils Grundstellung, 1 Kern, 256 MB Hash, auf meinen AMDs. Also die Bedinungen unter denen die IPON erstellt wird:

Engine: Critter 1.2 NOSSE42 (256 MB)
by Richard Vida

16/30  0:01   +0.22    1.e4 e5 2.Nf3 Nc6 3.Nc3 Nf6 4.Bc4 Bd6
                       5.O-O O-O 6.d3 Na5 7.Bb3 Nxb3 8.axb3 b6
                       9.Be3 Bb7 10.Qe2 (2.407.717) 1453

...

23/48  4:31   +0.16    1.e4 e5 2.Nf3 Nc6 3.Bc4 Nf6 4.d3 Bc5
                       5.Nc3 O-O 6.O-O d6 7.Be3 Bxe3 8.fxe3 Be6
                       9.Nd5 Bxd5 10.Bxd5 Nxd5 11.exd5 Ne7
                       12.c4 f6 13.Qd2 Qd7 14.e4 (437.361.968) 1609

best move: e2-e4 time: 5:01.594 min  n/s: 1.609.816  nodes: 485.359.616


Engine: Critter 1.2 SSE42 (256 MB)
by Richard Vida

16/30  0:01   +0.22    1.e4 e5 2.Nf3 Nc6 3.Nc3 Nf6 4.Bc4 Bd6
                       5.O-O O-O 6.d3 Na5 7.Bb3 Nxb3 8.axb3 b6
                       9.Be3 Bb7 10.Qe2 (2.407.717) 1510

...

23/48  4:23   +0.16    1.e4 e5 2.Nf3 Nc6 3.Bc4 Nf6 4.d3 Bc5
                       5.Nc3 O-O 6.O-O d6 7.Be3 Bxe3 8.fxe3 Be6
                       9.Nd5 Bxd5 10.Bxd5 Nxd5 11.exd5 Ne7
                       12.c4 f6 13.Qd2 Qd7 14.e4 (437.361.968) 1657

best move: e2-e4 time: 5:01.515 min  n/s: 1.657.942  nodes: 498.860.032


Das sind gerade mal 2.8% Unterschied. Ich rechne jetzt nicht aus wie viel Elo das sind, jedenfalls ist es weit unterhalb jeder Messgenauigkeit die ich je erreichen kann. Die Engines sind gleich!

Gruß
Ingo
Parent - By Ernest Bonnem Date 2011-07-06 22:47
[quote="Ingo Bauer"]
Das sind gerade mal 2.8% Unterschied. [/quote]
Also 2 bis 3 Elo...
QED (französisch: CQFD Ce Qu'il Fallait Démontrer) 
Parent - - By Ernest Bonnem Date 2011-07-08 20:34
[quote="Ingo Bauer"]
Das sind gerade mal 2.8% Unterschied. [/quote]
Hallo Ingo,

Vielleicht gibt es mit Intel ein größerer Unterschied als mit (Deinem) AMD?
Parent - By Ingo Bauer Date 2011-07-08 20:56
Gute Frage Ernest:

Wieder 1 Thread, 256 MB Hash

rnbqkbnr/pppppppp/8/8/8/8/PPPPPPPP/RNBQKBNR w KQkq -

Engine: Critter 1.2 64-bit (256 MB)
by Richard Vida

...

23/48  3:07   +0.16    1.e4 e5 2.Nf3 Nc6 3.Bc4 Nf6 4.d3 Bc5
                       5.Nc3 O-O 6.O-O d6 7.Be3 Bxe3 8.fxe3 Be6
                       9.Nd5 Bxd5 10.Bxd5 Nxd5 11.exd5 Ne7
                       12.c4 f6 13.Qd2 Qd7 14.e4 (437.361.968) 2335

best move: e2-e4 time: 5:01.269 min  n/s: 2.374.194  nodes: 713.490.432


rnbqkbnr/pppppppp/8/8/8/8/PPPPPPPP/RNBQKBNR w KQkq -

Engine: Critter 1.2 64-bit SSE4 (256 MB)
by Richard Vida

...

23/48  2:59   +0.16    1.e4 e5 2.Nf3 Nc6 3.Bc4 Nf6 4.d3 Bc5
                       5.Nc3 O-O 6.O-O d6 7.Be3 Bxe3 8.fxe3 Be6
                       9.Nd5 Bxd5 10.Bxd5 Nxd5 11.exd5 Ne7
                       12.c4 f6 13.Qd2 Qd7 14.e4 (437.361.968) 2432

best move: e2-e4 time: 5:01.222 min  n/s: 2.487.426  nodes: 746.782.720



Unterschied: ~4.7% auf einem i7 (920@4GHz)

Der Unterschied ist ein bischen größer als auf dem AMD, irgendwo zw. 2-3 Elo auf AMD und 3-4 Elo i7 ist im besten Fall also schon nach ein paar hunderttausend Spielen nachweisbar

Gruß
Ingo
Parent - - By Wolfgang Battig Date 2011-07-06 11:25
[quote="Ingo Bauer"]
.....
Nach den Diskusionen hier und ein bischen Statistik-Spielerei gehe ich davon aus, das die Listen die Critter sehr hoch bewerten keine "schlechteren" Engines mitgetestet haben, da schein Critter 1.2 nämlich die Engine zu sein die am schlechtesten abschneidet.

...

Gruß
Ingo
[/quote]

Hallo Ingo,

was definierst Du als schlechter? Bei Dir sind es glaube ich etwa 350 ELO zwischen Critter 1.2 (ca. 2950) und dem Tabellenletzten Crafty (ca. 2600).

Bei meinem CEGT-Blitz Test (http://www.husvankempen.de/nunn/40_4_Ratinglist/40_4_single/17.html) waren es etwa 260 zwischen Critter und Thinker und da war das Ergebnis schon bei etwa 84%. Ist bei den TOP-Engines halt nicht so einfach (halbwegs) adäquate Gegner zu finden, wobei ich ggfs. noch weitere Spiele gegen "schwächere" Engines
machen werde.

Andererseits bin ich aus dem Bauch heraus - also ohne dass das "wissenschaftlich" fundiert wäre - gegen zuuu große ELO-Differenzen, wo die stärkere
Engine 90% plus X holen muss um nicht Punkte zu verlieren. Ok, andererseits darf sie in solchen Matches halt auch richtig zuschlagen...

Gruß
Wolfgang
Parent - - By Benno Hartwig Date 2011-07-06 15:53
[quote="Wolfgang Battig"]Andererseits bin ich aus dem Bauch heraus - also ohne dass das "wissenschaftlich" fundiert wäre - gegen zuuu große ELO-Differenzen, wo die stärkere. Engine 90% plus X holen muss um nicht Punkte zu verlieren. Ok, andererseits darf sie in solchen Matches halt auch richtig zuschlagen... [/quote]Ich dachte auch mal. dass das ggf. sehr schwer für eine Engine mit deutlich mehr ELO zu realisieren wäre.
Und dann sah ich in Franks Versuchen mit SF211default und SF211PHQ, dass tatsächlich besonders stark ausgerechnet gegen die Schwachen gepunktet wurde. 
Sie konnten beide gegen diese Schwachen noch höher gewinnen, als es aufgrund des großen ELO-Unterschiedes eh zu erwarten war.
So etwas hatte hatte ich durchaus für ein mögliches generelles Phänomen bei Schachengines gehalten.
nur hätte ich dann bei der Kurve in
http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?tid=3833
erwartet, dass dann die Punkte bei kleinen ELO-Differenzen mehrheitlich unter der roten Linie liegen würden, und bei großen ELO-Differenzen vermehrt darüber.
Und die hellblaue Trendlinie hätte dies noch klarer zeigen sollen.

Benno
Parent - - By Ingo Bauer Date 2011-07-06 16:01
[quote="Benno Hartwig"]
[quote="Wolfgang Battig"]Andererseits bin ich aus dem Bauch heraus - also ohne dass das "wissenschaftlich" fundiert wäre - gegen zuuu große ELO-Differenzen, wo die stärkere. Engine 90% plus X holen muss um nicht Punkte zu verlieren. Ok, andererseits darf sie in solchen Matches halt auch richtig zuschlagen... [/quote]Ich dachte auch mal. dass das ggf. sehr schwer für eine Engine mit deutlich mehr ELO zu realisieren wäre.
Und dann sah ich in Franks Versuchen mit SF211default und SF211PHQ, dass tatsächlich besonders stark ausgerechnet gegen die Schwachen gepunktet wurde. 
Sie konnten beide gegen diese Schwachen noch höher gewinnen, als es aufgrund des großen ELO-Unterschiedes eh zu erwarten war....
[/quote]

Ich sehe auch keinen Grund warum man nicht gegen große Elodifferenzen testen sollte. Mit einer Ausnahme, wenn gar kein Punkt mehr eingefahren wird. Dann weiß ich nicht ob der Abstand 1000 oder 5000 Elo beträgt. Solche Matche würde ich nicht in die Auswertung aufnehmen (hatte ich auch noch nicht).

Was dein Bsp. mit Stockfish betrifft, es ist eben nur [url]ein[/url] Bsp., die nächste Engine performt dann eben schlechter und deine Linie legt bei geringen Unterschieden im Schnitt eben eine Punktlandung hin ... Die Einzelauswertung pro Engine verbietet sich, da der Datensatz extrem klein ist (bei mir nur 100 Spiele).

Wie gesagt, ich bin gespannt was bei meiner Liste mit Elostat rauskommt ... und es interessiert mich was die Buchlisten erhalten. Vielleicht sind meine Eröffnungen ja so kompliziert das sie sehr gute Engines bevorteilen ... (sehr theoretisch und unwahrscheinlich, aber denkbar).

Gruß
Ingo
Parent - - By Benno Hartwig Date 2011-07-06 16:11
[quote="Ingo Bauer"]Ich sehe auch keinen Grund warum man nicht gegen große Elodifferenzen testen sollte.[/quote]Es muss für dich keine Grund sein. Aber mancher meint vielleicht doch: "mich interessiert aber nur die Performance gegen die mindestens annähernd gleichstarken Gegner!"
Dass eine Engine ggf. noch mehr ELO gewinnt, weil sie die Schwachen ja sowas von wegpuschert, könnte den einen interessieren, und den anderen überhaupt nicht. ("Denen begegne ich mit meiner Lieblingsengine im Maschinenraum ja doch nie!")
Benno
Parent - By Ingo Bauer Date 2011-07-06 17:24
[quote="Benno Hartwig"]
[quote="Ingo Bauer"]Ich sehe auch keinen Grund warum man nicht gegen große Elodifferenzen testen sollte.[/quote]Es muss für dich keine Grund sein. Aber mancher meint vielleicht doch: "mich interessiert aber nur die Performance gegen die mindestens annähernd gleichstarken Gegner!"...
[/quote]

Nein, das empfinde ich sogar als sehr guten und validen Grund. Ist für ich nocht so kritisch aber kann ich verstehen. Ich dachte mehr an einen mathematischen Grund warum das nicht gehen sollte ...

Gruß
Ingo
Parent - - By Ingo Bauer Date 2011-07-06 18:11
Hallo WOlfgang,

[quote="Wolfgang Battig"]
[quote="Ingo Bauer"]
.....
Nach den Diskusionen hier und ein bischen Statistik-Spielerei gehe ich davon aus, das die Listen die Critter sehr hoch bewerten keine "schlechteren" Engines mitgetestet haben, da schein Critter 1.2 nämlich die Engine zu sein die am schlechtesten abschneidet.

...

Gruß
Ingo
[/quote]

Hallo Ingo,

was definierst Du als schlechter? Bei Dir sind es glaube ich etwa 350 ELO zwischen Critter 1.2 (ca. 2950) und dem Tabellenletzten Crafty (ca. 2600).

Bei meinem CEGT-Blitz Test (http://www.husvankempen.de/nunn/40_4_Ratinglist/40_4_single/17.html) waren es etwa 260 zwischen Critter und Thinker und da war das Ergebnis schon bei etwa 84%. Ist bei den TOP-Engines halt nicht so einfach (halbwegs) adäquate Gegner zu finden, wobei ich ggfs. noch weitere Spiele gegen "schwächere" Engines
machen werde.

Andererseits bin ich aus dem Bauch heraus - also ohne dass das "wissenschaftlich" fundiert wäre - gegen zuuu große ELO-Differenzen, wo die stärkere
Engine 90% plus X holen muss um nicht Punkte zu verlieren. Ok, andererseits darf sie in solchen Matches halt auch richtig zuschlagen...

Gruß
Wolfgang
[/quote]

Sind bei euch neue Gegner seit dem 4.07, als ich das oben schrieb, dazugekommen? Wenn ja, hat sich das Rating geändert? Ich habe jetzt noch mal nachgesehen und jetzt sieht es doch vernünftiger aus. Allerdings kommt mir der Abstand auch kleiner vor, jedenfalls ist er nicht mehr ausserhalb de Errorbars. Vielleicht jage ich auch nur Gespenstern hinterher aber das habe ich auch schon im Eingansposting geschrieben. Ich warte einfach mal ab und hoffe das ihr noch mehr spielen werdet.

Da ich mien Match wiederholt habe und praktisch das selbe dabei herrauskam bin ich etwas beruhigt ...

Gruß
Ingo
Parent - - By Wolfgang Battig Date 2011-07-06 19:06 Edited 2011-07-06 19:09
[quote="Ingo Bauer"]
Hallo WOlfgang,

......

Sind bei euch neue Gegner seit dem 4.07, als ich das oben schrieb, dazugekommen? Wenn ja, hat sich das Rating geändert?


nein, ich habe beim Blitz noch keine weiteren Partien spielen lassen, da ich zz. die 32bit-1CPU teste und ansonsten 40/120 läuft.
Am 40/20-Test der x64 war ich nicht beteiligt, habe stattdessen 600 Partien mit der w32 spielen lassen.
Ich denke ich werde den Blitz-Test mit der x64 auf 2000 Partien aufstocken und gegnermäßig gegen 6 schwächere als Thinker 5.4D spielen
lassen. Bin selbst gespannt, was das ergibt.

Zitat:
Ich warte einfach mal ab und hoffe das ihr noch mehr spielen werdet.


kann sich nur um Tage handeln...

...

Gruß
Wolfgang
Parent - - By Wolfgang Battig Date 2011-07-06 20:16
Die 6 zusätzlichen Matches laufen gegen:

Fruit 090705 x64 1CPU         2908  (283)
Deep Onno 1.2.70 x64 1CPU     2883  (308)
Umko 1.2 x64 1CPU             2870  (321)
Glaurung 2.2 x64 1CPU         2838  (353)
Naraku 1.4                    2821  (370)
Bison 9.11 x64                2805  (386)


In Klammern die akutelle Differenz zum Rating von Critter 1.2 x64 1CPU nach 1400 Partien (3191)
Parent - - By Ingo Bauer Date 2011-07-06 20:28
Hallo Wolfgang

[quote="Wolfgang Battig"]
Die 6 zusätzlichen Matches laufen gegen:

Fruit 090705 x64 1CPU         2908  (283)
Deep Onno 1.2.70 x64 1CPU     2883  (308)
Umko 1.2 x64 1CPU             2870  (321)
Glaurung 2.2 x64 1CPU         2838  (353)
Naraku 1.4                    2821  (370)
Bison 9.11 x64                2805  (386)


In Klammern die akutelle Differenz zum Rating von Critter 1.2 x64 1CPU nach 1400 Partien (3191)
[/quote]

Wenn ihr nach ELostat auswertet muß Critter gegen alle 6 Gegner einen Schnitt von 87.5% holen.

Gegen:
Fruit = 83.5%
Onno = 85.5%
Umko = 86,5%
Glaurung = 88.5%
Naraku = 89.5%
Bison = 90.0%
(immer auf das nächste halbe % gerundet)

Ich bin gespannt

Gruß
Ingo
Parent - - By Wolfgang Battig Date 2011-07-07 13:56
[quote="Ingo Bauer"]
.....
Wenn ihr nach ELostat auswertet muß Critter gegen alle 6 Gegner einen Schnitt von 87.5% holen.

Gegen:
Fruit = 83.5%
Onno = 85.5%
Umko = 86,5%
Glaurung = 88.5%
Naraku = 89.5%
Bison = 90.0%
(immer auf das nächste halbe % gerundet)

Ich bin gespannt

Gruß
Ingo
[/quote]

Hallo Ingo,

hier ein Zwischenstand nach 374/600 Partien, kopiert aus dem html-file, das die Classic-GUI anlegt:

- Bison 9.11 x64            (2805)  57.0- 6.0  90.48%  Perf=3196
- Deep Onno 1.2.70 x64 1CPU (2883)  58.5- 4.5  92.86%  Perf=3328
- Fruit 090705 x64 1CPU     (2908)  48.5-13.5  78.23%  Perf=3130
- Glaurung 2.2 x64 1CPU     (2838)  53.5- 8.5  86.29%  Perf=3157
- Naraku 1.4                (2821)  57.0- 5.0  91.94%  Perf=3243
- Umko 1.2 x64 1CPU         (2870)  49.5-12.5  79.84%  Perf=3109
                                   324.0-50.0  86.63%  

374 von 600 Partien gespielt
Spielstufe: 40 Züge in 3 min


Sehr unterschiedliche %-Sätze (Ausreißer bisher gegen Onno und Umko), die sich vermutlich im letzten Drittel noch etwas
angleichen werden, aber im Durchschnitt mit 86,6% dann doch im erwarteten Rahmen.
Am Gesamtrating von Critter wird das m.E. kaum etwas ändern. Somit hätten beide Seiten ein Argument, denn man
KANN solche Matches mit sehr großen ELO-Unterschieden machen, MUSS es aber nicht unbedingt...

Gruß
Wolfgang
Parent - - By Ingo Bauer Date 2011-07-07 14:31
Hallo Wolfgang,

[quote="Wolfgang Battig"]
[quote="Ingo Bauer"]
.....
Wenn ihr nach ELostat auswertet muß Critter gegen alle 6 Gegner einen Schnitt von 87.5% holen.

Gegen:
Fruit = 83.5%
Onno = 85.5%
Umko = 86,5%
Glaurung = 88.5%
Naraku = 89.5%
Bison = 90.0%
(immer auf das nächste halbe % gerundet)

Ich bin gespannt

Gruß
Ingo
[/quote]

Hallo Ingo,

hier ein Zwischenstand nach 374/600 Partien, kopiert aus dem html-file, das die Classic-GUI anlegt:

- Bison 9.11 x64            (2805)  57.0- 6.0  90.48%  Perf=3196
- Deep Onno 1.2.70 x64 1CPU (2883)  58.5- 4.5  92.86%  Perf=3328
- Fruit 090705 x64 1CPU     (2908)  48.5-13.5  78.23%  Perf=3130
- Glaurung 2.2 x64 1CPU     (2838)  53.5- 8.5  86.29%  Perf=3157
- Naraku 1.4                (2821)  57.0- 5.0  91.94%  Perf=3243
- Umko 1.2 x64 1CPU         (2870)  49.5-12.5  79.84%  Perf=3109
                                   324.0-50.0  86.63%  

374 von 600 Partien gespielt
Spielstufe: 40 Züge in 3 min


Sehr unterschiedliche %-Sätze (Ausreißer bisher gegen Onno und Umko), die sich vermutlich im letzten Drittel noch etwas
angleichen werden, aber im Durchschnitt mit 86,6% dann doch im erwarteten Rahmen.
Am Gesamtrating von Critter wird das m.E. kaum etwas ändern. Somit hätten beide Seiten ein Argument, denn man
KANN solche Matches mit sehr großen ELO-Unterschieden machen, MUSS es aber nicht unbedingt...

Gruß
Wolfgang
[/quote]

Ja, 1% ist nichts, aber ich mache darauf aufmerksam daser bei mir auch noch um ein paar Prozente abgebaut hat gegen Ende. Allerdings mit Eröffnungsstellungen!

Wie auch immer, es sind gerade mal 17 Elo unerschied zu R4.1, wenn man einen kompletten Abgleich macht wird es vielleicht noch weniger. Ich könnte den in ein paar Wochen, wEnn Critter 1.2 bei der 40/20 komplett mit seinem normalen Durchlauf fertig ist, mal wiede rmachen. Jedenfalls sieht es nicht so aus als wenn die Errorbars ernsthaft in Gefahr kämen. Alles was man nicht machen darf, ist mit Komodo 2.03 vergleichen. Die Engine die ihr testet und die die ich teste ist zu verschieden (Unterschiedliche Compiler (Programm), unterschiedlicher Compiler (Person), unterschiedlicher Befehlssatz).

Gruß
Ino
Parent - - By Wolfgang Battig Date 2011-07-07 14:44
[quote="Ingo Bauer"]

Ja, 1% ist nichts, aber ich mache darauf aufmerksam daser bei mir auch noch um ein paar Prozente abgebaut hat gegen Ende. Allerdings mit Eröffnungsstellungen!

....
[/quote]

ich teste seit längerem auch nur noch mit Testsuites, allerdings nicht immer mit derselben.
Von den Büchern bin ich abgekommen, nicht, weil ich sie nicht gut finde, sondern weil im Turniermodus
mit Büchern kein Farbtausch möglich ist. Der geht nur in Matches, nicht in Turnieren bzw. Gauntlets.

Alle Critter-Matches sind übrigens mit der SilverSuite gespielt worden, mit Ausnahme der beiden die
Gerhard spielt (gegen Loop und DF11), da er m.W. immer seine eigene Suite verwendet.

Gruß
Wolfgang
Parent - - By Ingo Bauer Date 2011-07-07 15:37
[quote="Wolfgang Battig"]
[quote="Ingo Bauer"]

Ja, 1% ist nichts, aber ich mache darauf aufmerksam daser bei mir auch noch um ein paar Prozente abgebaut hat gegen Ende. Allerdings mit Eröffnungsstellungen!

....
[/quote]

ich teste seit längerem auch nur noch mit Testsuites, allerdings nicht immer mit derselben.
...
[/quote]

Sorry, da bei euch jeder alles darf blicke ich nicht immer so voll durch
Aber wenn du eine Testsuit benutzt gilt es um so mehr am Ende auf das Ergebniss zu sehen.

Aber nochmal: Ich habe keine Ahnung. Frank hat praktisch das slebe wie ich, Ihr seid leicht drüber. Alles in der Errorbar ...

Gruß
Ingo
Parent - - By Wolfgang Battig Date 2011-07-08 11:10
Hallo Ingo,

die 600 zusätzlichen Partien gegen "schwächere" Gegner (bis max 400 ELO Diff.) sind beendet.

Die Performance stieg zum Ende hin sogar noch etwas an, sodass sich Critter durch die Partien leicht verbessert haben dürfte,
allerdings im Rahmen dessen, was ich als "Rauschen" betrachte.

- Bison 9.11 x64            (2805)  93.0- 7.0  93.00%  
- Deep Onno 1.2.70 x64 1CPU (2883)  92.0- 8.0  92.00%
- Fruit 090705 x64 1CPU     (2908)  80.0-20.0  80.00%  
- Glaurung 2.2 x64 1CPU     (2838)  92.0- 8.0  92.00%
- Naraku 1.4                (2821)  91.5- 8.5  91.50% 
- Umko 1.2 x64 1CPU         (2870)  83.5-16.5  83.00%                              


Durchschnittliche Performance: 88,67%

Fazit (für mich!) aus diesem Test: Man kann solche Matches mit großen ELO-Differenzen durchführen, muss es aber
nicht für ein aussagekräftiges Rating. Daher werde ich es in Zukunft wohl auch wieder sein lassen...

Gruß
Wolfgang
Parent - - By Ingo Bauer Date 2011-07-08 13:06
Hallo

Vielleicht liegt die Ursache auch ganz woanders. Richard vermutet in einem anderen Foum evtl. ein Problem beim Pondern ... warum er dann in der Base so gut abschneidet und warum frühere Versionen dieses Verhalten nicht zeigen ... ?

Gruß
Ingo
Parent - - By Clemens Keck Date 2011-07-08 17:44
HAllo Ingo

mit Franks Buch ergibt sich bisher ein anderes Bild:

Games        :   5971 (finished)

White Wins   :   1950 (32.7 %)
Black Wins   :   1442 (24.2 %)
Draws        :   2579 (43.2 %)
Unfinished   :      0

White Perf.  : 54.3 %
Black Perf.  : 45.7 %

ECO A =   2641 Games (44.2 %)
ECO B =    941 Games (15.8 %)
ECO C =    807 Games (13.5 %)
ECO D =   1218 Games (20.4 %)
ECO E =    364 Games ( 6.1 %)

Rank Name                                      Elo    +    - games score oppo. draws
   1 Houdini 1.5a x64 x1                3014   20   19   845   72%  2856   34%
   2 Critter 1.2 64-bit SSE4 x1        2959   18   18   850   65%  2860   49%
   3 Deep Rybka 4.1 SSE42 x64 x1  2958   18   18   849   65%  2860   46%
   4 Fire 2.1 xTreme x64 x1            2947   18   18   847   63%  2861   48%
   5 Komodo64 2.03 DC                 2939   18   18   848   62%  2862   41%
   6 Stockfish 2.1.1 JA 64bit x1      2931   18   18   850   61%  2862   48%
   7 Loop 2010 x64                      2853   17   18   850   47%  2868   52%
   8 Naum 4.2                             2828   18   18   848   43%  2870   44%
   9 Deep Sjeng c't 2010               2820   18   18   849   42%  2871   40%
  10 Deep Shredder 12 UCI x1        2800   18   18   848   39%  2872   44%
  11 Spike 1.4 T1                         2786   18   18   846   37%  2874   41%
  12 spark-1.0 T1                        2782   18   18   849   36%  2874   43%
  13 Protector 1.4.0 x64 JA           2768   18   19   848   34%  2875   38%
  14 HIARCS 13.2 MP T1            2755   19   19   847   32%  2876   38%

Nur mal so die Grundlagen der BAse im Vergleich dazu:

Games        :  15600 (finished)

White Wins   :   5756 (36.9 %)
Black Wins   :   3216 (20.6 %)
Draws        :   6628 (42.5 %)
Unfinished   :      1

White Perf.  : 58.1 %
Black Perf.  : 41.9 %

ECO A =   2808 Games (18.0 %)
ECO B =   3744 Games (24.0 %)
ECO C =   3120 Games (20.0 %)
ECO D =   3432 Games (22.0 %)
ECO E =   2496 Games (16.0 %)

Liste ist ja bekannt. Jeder interpretiert das evtl. anders, aber ich sage es liegt an FRanks Buch, das die momentane Liste so "anders" ist. Es spielt bei mir nicht ausgewogen.

Schmeisst man alles zusammen, dann gleicht sich alles wieder aus, Sjeng ist der große Gewinner des Turnieres dann:

Rank Name                                    Elo    +    - games score oppo. draws
   1 Houdini 1.5a x64 x1                3007   11   11  2651   72%  2854   35%
   2 Critter 1.2 64-bit SSE4 x1        2955   11   11  2554   65%  2855   46%
   3 Deep Rybka 4.1 SSE42 x64 x1  2945   11   11  2654   63%  2858   46%
   4 Fire 2.1 xTreme x64 x1            2940   12   12  2153   63%  2857   48%
   5 Fire 1.5 xTreme x64p x1          2936   13   13  1700   63%  2854   46%
   6 Komodo64 2.03 DC                 2928   11   11  2553   61%  2857   43%
   7 Stockfish 2.1.1 JA 64bit x1      2924   11   11  2653   60%  2859   47%
   8 Komodo64 2.03 JA                  2915   15   15  1400   59%  2857   43%
   9 Critter 1.01 64-bit SSE4 T1      2904   15   15  1300   57%  2861   45%
  10 Loop 2010 x64                       2846   11   11  2355   47%  2863   51%
  11 Naum 4.2                              2833   11   11  2652   45%  2865   44%
  12 Deep Sjeng c't 2010          2805   11   11  2655   41%  2867   42%
  13 Deep Shredder 12 UCI x1      2800   11   11  2453   40%  2868   41%
  14 Deep Shredder 12 x64 x1      2796   15   15  1400   38%  2875   40%
  15 Spike 1.4 T1                 2787   11   11  2651   38%  2868   43%
  16 spark-1.0 T1                 2782   11   11  2652   37%  2868   42%
  17 HIARCS 13.2 MP T1            2766   11   11  2652   35%  2869   39%
  18 Protector 1.4.0 x64 JA       2763   11   11  2654   34%  2869   38%
  19 Deep Junior 12.5.0.3 UCI x1  2763   15   15  1400   36%  2863   34%

MfG Clemens

PS sorry für die schlampigen Tabellen. Ich konnte nichts in der Hilfe finden wie man es besser macht.
Parent - - By Thomas Müller Date 2011-07-08 19:13
Hi Clemens,
mit dem "code-befehl" einfügen bzw dazwischen setzen
Gibt es oberhalb des postings bei b/i/u/tt....fen/eng/code

Code:
    Program                          Elo    +   -   Games   Score   Av.Op.  Draws

01 Houdini 1.5a x64               : 2992   26  26  1027    88.8 %   2632   16.2 %
02 Deep Rybka 4 x64               : 2951   24  24   629    77.7 %   2734   31.3 %
03 Stockfish 2.1.1 JA 64bit       : 2923   36  35   344    82.7 %   2651   26.5 %
04 Critter 1.01 64-bit            : 2872   34  33   372    78.1 %   2651   26.1 %
05 Naum 4.2                       : 2843   19  19   907    68.0 %   2713   34.1 %
06 Komodo64 2.01 64 bit           : 2786   31  31   368    69.8 %   2640   31.5 %
07 Spike 1.4                      : 2783   23  23   614    62.2 %   2696   33.9 %
08 Deep Shredder 12 x64           : 2776   16  16  1141    57.3 %   2725   38.3 %
09 spark-1.0-win64-mp             : 2774   24  24   568    63.3 %   2679   33.6 %
10 Deep Fritz 12                  : 2758   19  18   819    54.8 %   2725   39.9 %
11 HIARCS 13.2 MP                 : 2757   21  21   666    56.9 %   2709   36.0 %
12 Protector 1.4.0 x64 JA         : 2741   26  26   450    58.2 %   2683   36.0 %
13 Deep Junior 12.5 UCI x64       : 2737   30  30   375    62.8 %   2646   30.7 %
14 Zappa Mexico II                : 2728   15  15  1202    54.6 %   2696   39.3 %
15 Gull 1.1 x64                   : 2694   20  20   838    61.9 %   2610   30.0 %
16 Deep Onno 1-2-70 x64           : 2693   22  22   651    53.9 %   2666   34.4 %
17 Deep Sjeng c't 2010            : 2692   30  30   355    55.6 %   2653   31.8 %
18 Thinker54Di_x64                : 2686   17  17  1036    47.2 %   2706   38.3 %
19 Toga II 1.4.2JD                : 2670   21  21   675    47.6 %   2687   37.5 %


Was anderes...
auch an Ingo und Frank
Muss man bei der Shredder-GUI jedesmal den spießroutenlauf neu anlegen oder kann der auch bearbeitet werden?
Ich finde das echt umständlich jedesmal neu anzulegen mit allen engines und elos usw.
Geht das nicht einfacher? Ich finde nix ?!

Gruß thomas
Up Topic Hauptforen / CSS-Forum / Critter 1.2 in der CEGT/BASE/IPON
1 2 Previous Next  

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill