Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / SPCC: Testrun von Mars 3.35 durch
- - By Stefan Pohl Date 2015-01-15 15:34 Edited 2015-01-15 15:37
Testrun von Mars 3.35 durch. Mars 3.35 ist leicht besser als Equinox 3.3 (+3 Elo). Das ist insofern beeindruckend, als daß Mars 3.31 in Andreas Strangmüllers Bullet-Liste noch 11 Elo unter Equinox 3.3 notiert ist. Es folgt nun Critter 1.6a. Das interessiert eigentlich niemanden (also mich jedenfalls nicht, da Critter mausetot ist), aber ich werde in Zukunft meine Stockfish-Testruns gegen 7 (statt bisher 5) Gegner mit jeweils 1000 Partien spielen lassen. Dafür brauche ich diese Partien von Critter 1.6a als Datenbasis für die Ordo-Kalkulationen. Das wird jetzt aber mindestens eine Woche dauern (7000 Partien von Critter 1.6a und dann muß Stockfish 141221 noch je 1000 Partien gegen Mars 3.35 und Critter 1.6a nachspielen, also fehlen insgesamt noch 9000 Partien). Aber der Zeitpunkt scheint günstig, da ich eigentlich sowieso auf den offiziellen Stockfish 6 warten wollte. Mal sehen, wann der Release nun tatsächlich erfolgt.
Mit den 7000 Partien pro Stockfish-Testrun bekomme ich in der Zukunft eine leicht schmalere Errorbar und eine generell bessere Ergebnisqualität, da 7 Gegner besser als 5 sind...
Stay tuned!

Stefan

http://spcc.beepworld.de

(Perhaps you have to clear your browsercache or reload the website)
Parent - - By Ingo B. Date 2015-01-15 20:52
Stefan Pohl schrieb:

.... 7 Gegner besser als 5 sind...


7 verschiedene Engines wäre dann die Krönung

Ingo
Parent - - By Peter Martan Date 2015-01-15 23:07 Edited 2015-01-15 23:13
Aber warum gerade 7 und wie sehr verschieden?
Und sollten sie mehr im pest (pure engine strength test) verschieden sein oder im test-test (testsettest- test) und wenn in letzterem, in welchem? Wohl im cmest (commonly meant  engine strength test)? Andererseits, bevor sie in dem mitspielen dürfen, woher weiß man, ob sie überhaupt geeignet dafür wären?
Parent - - By Stefan Pohl Date 2015-01-16 05:46
Peter Martan schrieb:

Aber warum gerade 7 und wie sehr verschieden?
Und sollten sie mehr im pest (pure engine strength test) verschieden sein oder im test-test (testsettest- test) und wenn in letzterem, in welchem? Wohl im cmest (commonly meant  engine strength test)? Andererseits, bevor sie in dem mitspielen dürfen, woher weiß man, ob sie überhaupt geeignet dafür wären?



Wichtig ist vor allem, daß die Gegnerengines nicht zu schwach sind, im Vergleich zu Stockfish. Und da ist die Auswahl leider nicht so groß. Und sehr ähnlich ist relativ. Critter basiert auf Houdini 1.5. Und der auch von mir verwendete Houdini 4 ist davon schon weit entfernt. Mars basiert auf Fire 2.2 und Fire 4 ist davon ebenfalls schon weit entfernt (Fire 4 hat eine deutlich andere Suche, ist komplett umgeschrieben worden). Gull basiert auf Ivanhoe (ebenfalls rel. eng verwandt mit Fire 2.2, obwohl auch Fire 2.2 sich schon sehr deutlich in Suche und Spielverhalten von Ivanhoe/Ippo unterscheidet), hat sich aber auch Elomäßig davon schon weit entfernt. Equinox dürfte auch letzendlich von Ippo/Ivan/Fire abstammen, aber ist auch schon beträchtlich davon wegentwickelt worden.

Ergo sind die Verwandtschaftsverhältnis im von mir gewählten Gegnerfeld eher locker und die Engines haben sich schon beträchtlich evolutionär auseinanderentwickelt. Und das ist allemal besser, als Gegner, die vielleicht ganz anders aufgebaut sind, aber von Stockfish mit 85% oder mehr Erfolgsscore untergepflügt werden. Denn schließlich soll Stockfish ja gefordert werden und nicht Wehrlose verprügeln.

Stefan
Parent - By Peter Martan Date 2015-01-16 07:11 Edited 2015-01-16 07:17
Genau, die momentanen 7 Samurai halt.
Dass davon 5 Ivans sind, wer kann dafür, wenn "Eigenleistung"=Celoleistung ist, und eine andere Definition haben wir nicht, haben wir? Haben wir nicht, weil sim-tests und dergl. lassen wir ja auch nicht gelten.
Parent - - By Ingo B. Date 2015-01-16 07:42
Stefan Pohl schrieb:

Wichtig ist vor allem, daß die Gegnerengines nicht zu schwach sind, im Vergleich zu Stockfish....


Sorry, aber durch wiederholen wird das nicht richtiger!
Weder bei mir (und ich habe eine Spreizung von rund 350 Elo) noch bei der CEGT spielt eine dieser "schwachen" Engines irgendwie weit ausserhalb ihrer Erwartung (NICHT EINE). Was wiederum heißt, das, genug Engines vorrausgesetzt(!), das Spielen gegen schwächere Engines keinerlei Nachteil bringt. Ich fordere dich auf mir ein Bsp. zu zeigen wo deine Argumentation zutrifft UND gegen den schönen breiten Enginepool nicht abgefangen wird!

Zu ähnliche Enignes sind hingegen schon ein Problem. Einfach zu verstehendes Bsp. Engine A spielt zufällig gegen Engine B etwas erfolgreicher (oder schlechter) als gegen einen breiten Gegnerschnitt. Nun spielt man seinen (kleinen) Enginepool (sagen wir mal 7) mit vielen B's (z.B 3.5) und schon landet Engine A besser (oder schlechter) als es ihr gebührt, schlicht weil die Erfolgsquote (50% der spiele) anders ist als es bei verschiedenen Engines gewesen wäre. Logisch, oder? (rethorisch). Gerade bei dir, mit vielen Spielen, der versucht (warum auch immer) Errorbars jenseits des menschlichen Erfahrungsmöglichkeit zu erzeugen (Engineentwicklung ist etwas anderes), könnte dieser "Inzuchtfehler" größer sein als deine Errorbar! Natürlich ist dein Ergebniss für dein Setup korrekt, die Präzision stimmt, nur wie steht es mit der Richtigkeit? Wenn gewünscht zeige ich dir ein Bsp einer Enigne A die ungewöhnlich gut/schlecht gegen eine Engine B performt. Ich hoffe allerdings das du auf diese Fleißarbeit meinersets verzichtest weil das offensichtlich ist und mir nur Arbeit machen würde.

Also, pfeiff auf deinen Eloabstand und nimm verschiedene Engine oder sei konsequent, nimm K8 und ändere minimal (am besten in 1/10  Bauerneinheiten) den Drawscore, nenne die Engine anders und spiele gegen die SF development Versionen. Auf letztere Art und Weise kannst du dier einen Pool erzeugen der superdicht an deiner Testengine liegt und dein Ergebniss ist noch besser. (Letzteres ist eine ironische Überhöhung um den Schwachpunkt deiner Argumentaton zu zeigen - das muß man hier erwähnen weil sonst wieder irgendwelche Klug...e Leute aus dem Dunkel gekrochen kommen).

Das schreibend habe ich ein "Déjà-vu" - aber einige haben es vielleicht noch nicht gelesen.

Ingo
Parent - - By Stefan Pohl Date 2015-01-16 12:36
Die Engines, die ich als Gegner benutze, sind nicht so eng verwandt, als das solche Angstgegnerproblematiken wirklich zum Problem werden könnten. Das zeigt schon die Spreizung ihrer Elowerte z.B. bei Andreas Strangmüller.
Und selbst wenn es so wäre (was es nicht ist): Das wäre nur ein Problem in einer Rangliste, aber nicht, wenn man nur die verschiedenen Dev-Versionen einer Engine ausmißt (Mein kleine Bulletrangliste lasse  ich da mal außer Acht, die ist primär dazu da, mir einen Datenpool für die Stockfishtests zu erspielen).
Denn die ganze Engineentwicklung bei Stockfish basiert auf Selftests, also mit Messungen gegen den engstmöglichen aller Verwandten, nämlich den eigenen Vorgänger. Und ich denke, daß der Erfolg dieser Methode wohl kaum von der Hand zu weisen ist. Wäre das Testen gegen enge Verwandte untauglich, so würde auch das Framework darunter leiden (wenn nicht das, was dann?). Tut es aber nicht.

Verwandtschaft ist nicht gleich Verwandtschaft. Gegen Fire 2.2 und Mars 1 zu testen, das wäre sicher nicht optimal. Fire 4 und Mars 3.35 sind sich viel unähnlicher. Das ist eine vollkommen andere Situation. Gleiches gilt für Critter und Houdini. Critter 1.6 und Houdini 1.5 zu benutzen wäre nicht sinnvoll. Critter 1.6 und Houdini 4 schon.

Generell würde ich dir empfehlen bzgl. der Engineauswahl erst mal ausgiebig vor der eigenen Tür zu kehren, bevor du anderen da ungefragt gute Ratschläge erteilst. Critter, Gull und Equinox in einer Rangliste zu führen, Fire 4 aber z.B. nicht (50 Elo besser als Fire 3 und damit von Ippo/Robbo mittlerweile ca. 100 Elo entfernt (wie z.B. (in etwa) auch Gull 3, der mal bei Ivanhoe anfing..)) - das kann ich nur als grotesk bezeichnen.

Stefan
Parent - - By GS Date 2015-01-16 12:52
Er hatte doch etwas vollkommen anderes im Sinne, nämlich,
dass das Testen gegen "so-called" schwächere Engines genau
so viel Sinn macht und eben nicht schädlich ist in Bezug
auf die Messungen.
Und damit liegt Ingo absolut richtig, alle seriösen Ranglisten
beweisen dies Tag für Tag, Woche für Woche ...
Parent - - By Stefan Pohl Date 2015-01-16 13:57 Edited 2015-01-16 13:59 Upvotes 1
GS schrieb:

Er hatte doch etwas vollkommen anderes im Sinne, nämlich,
dass das Testen gegen "so-called" schwächere Engines genau
so viel Sinn macht und eben nicht schädlich ist in Bezug
auf die Messungen.
Und damit liegt Ingo absolut richtig, alle seriösen Ranglisten
beweisen dies Tag für Tag, Woche für Woche ...


Stockfish neigt stark zu frühen Remisen durch Zugwiederholung. Das wird zwangsläufig den Eloerfolg leicht nach unten drücken, wenn gegen viele schwächere Gegner getestet wird. Vielleicht ist das der wahre Grund, warum Stockfish in den sog. seriösen Ranglisten, mit neuen Versionen immer etwas schwächer zulegt, als im Regressiontest und bei mir. Fragt sich, was dann "seriöser" ist. Das kann jeder für sich selbst entscheiden.
Und Ich habe mich dafür enschieden, daß ich wissen will (und sicher viele andere auch) wie Stockfish gegen Gegner abschneidet nicht gegen Opferlämmer.
Und das einzige, was Ingo im Sinn hatte, war mich anzutrollen. Siehe sein Eingangsposting in diesem Thread.

Stefan
Parent - - By Michael Scheidl Date 2015-01-16 14:39 Edited 2015-01-16 14:43
Zitat:
Stockfish neigt stark zu frühen Remisen durch Zugwiederholung. Das wird zwangsläufig den Eloerfolg leicht nach unten drücken, wenn gegen viele schwächere Gegner getestet wird.

Diese Beobachtung führt zu keiner eindeutigen Schlußfolgerung für die Testkonfiguration. Wenn sie stimmt, warum soll dann durch einen Ausschluß der "Opferlämmer" diese relative Schwäche kaschiert werden? Vielleicht ist das Geschmacksache. Ich neige eher der Ansicht von Ingo und GS zu, die wenn ich sie richtig verstehe, es für angebracht hält dies in einer Rangliste abzubilden und nicht durch willkürliche Gegnerauswahl zu vermeiden. Letzteres kann als eine Bevorzugung Stockfishs interpretiert werden.

(Wobei ich glaube daß der Effekt dieser "remisfreundlichen" Eigenschaft nicht dramatisch ist.)

Anders ausgedrückt, viele User schätzen sicherlich eine Engine mit "Punch" die halt öfter als Stockfish in remislichen Positionen noch Gewinnchancen hervorzuzaubern bemüht ist, z.B. (wie ich glaube) Houdini 4. Bei vielen schwachen Testgegnern rückt das Houdini-Rating vermutlich näher an Stockfish heran. Wäre das nun

(a) eine Verzerrung, oder
(b) mehr Realismus?

Wie dem auch sei, ich danke bei dieser Gelegenheit allen unterschiedlichen Testern mit ihren unterschiedlichen Philosopien, denn das macht das Gesamtbild bunt.
Parent - - By Joe Boden Date 2015-01-16 15:08
Grundsätzlich kann man sich Deiner Ansicht anschliessen. Ich bevorzuge auch breit angelegte Testfelder. Da ich aber dann später nur die stärksten Engines ins Feld nehme, relativiert sich das wohl.

Wir haben doch hier unter den Forumsmitgliedern auch einige mit Mathematik- bzw. Statistik-Kompentenzen. Vielleicht kann von denen mal jemand verbindlich erläutern, wie ein Testfeld idealerweise aussehen müsste.

Ansonsten finde ich Stefan Pohls Test bislang immer zuverlässig und aussagekräftig.
Parent - - By Peter Martan Date 2015-01-16 16:14 Edited 2015-01-16 16:16
Joe Boden schrieb:

Wir haben doch hier unter den Forumsmitgliedern auch einige mit Mathematik- bzw. Statistik-Kompentenzen. Vielleicht kann von denen mal jemand verbindlich erläutern, wie ein Testfeld idealerweise aussehen müsste.


Das ist das einzige bei einer Statistik, was dir der Statistiker nicht sagen kann, Joe: welche Frage du beantworten willst, und nur davon hängt das Design der Statistik ab, über die für deine jeweilige Fragestellung notwendige Datenmenge, damit du entsprechende Signifikanz erreichst, darüber kann er dir hingegen dann Auskunft geben, was du wissen willst, musst du schon selbst wissen.

Es ist wieder einmal der alte Streit um Kaisers Bart, den einen interessiert das, den anderen das.
Ob du wissen willst, wie die besten engines ausschließlich gegeneinander abschneiden, ohne dass sie ihre Elo auch von inferioren Gegnern beziehen dürfen können müssen sollen wollen oder nicht, oder ob du wissen willst, wie sie abschneiden, wenn du eine Elobreite von 100, 200, 300, 400 oder 500 (könnte mich ja auch interessieren, wer sagt denn, dass das irrelevanter ist als ausgerechnet 350? ) im Teilnehmerfeld hast, ist reine Interessensfrage.
Und dann musst du aber noch, wenn du dich nicht einfach auf die Spitzen allein beschränkst, vollkommen willkürlich diejenigen aussuchen, die dir in genau deinen Kram passen, warum das "allgemein gültiger" sein sollte, weiß wieder keine redensartliche Sau außer der einen oder anderen, die sich das aus den Fingern saugt (sofern Säue Finger haben um daran zu saugen) und uns anderen armen Säuen aufs Aug drückt, weil sie's als cmest (commonly meant engine strength test) verkauft.
Parent - - By Joe Boden Date 2015-01-16 17:55
Kluge Antwort, Peter.

Was wollen wir denn mit den ganzen Tests commonly rausfinden?

a) Die Elostärke (relative!?)einer Engine innerhalb eines bestimmten Feldes,
b) die Elo/Turnierperformance allgemein oder bei bestimmten Eröffnungen/Stellungstypen/Zeitnahmen?
c) eine Kombi zwischen Elo und Spielstil (Frank Quisinsky forscht ja in dieser Richtung)
etc etc.

*ohne Anspruch auf Vollstänndigkeit*

will mich jetzt nicht anstrengen um mehr Parameter zu imaginieren.
Parent - By Peter Martan Date 2015-01-16 19:57
Joe Boden schrieb:

*ohne Anspruch auf Vollstänndigkeit*

Genau!
Parent - By Ludwig Buergin Date 2015-01-17 09:49
Hallo Joe

Du schreibst:

Ansonsten finde ich Stefan Pohls Test bislang immer zuverlässig und aussagekräftig.

Als Computerschächer hauptrichtung Maschinenschach würde ich aus Erfahrung sagen,Stefan liegt  mit seiner Meinung in Bezug zu ELOs schon richtig.

Gruß Ludwig
Parent - - By Stefan Pohl Date 2015-01-17 05:19 Edited 2015-01-17 05:29
Michael Scheidl schrieb:

Zitat:
Stockfish neigt stark zu frühen Remisen durch Zugwiederholung. Das wird zwangsläufig den Eloerfolg leicht nach unten drücken, wenn gegen viele schwächere Gegner getestet wird.

Diese Beobachtung führt zu keiner eindeutigen Schlußfolgerung für die Testkonfiguration. Wenn sie stimmt, warum soll dann durch einen Ausschluß der "Opferlämmer" diese relative Schwäche kaschiert werden? Vielleicht ist das Geschmacksache. Ich neige eher der Ansicht von Ingo und GS zu, die wenn ich sie richtig verstehe, es für angebracht hält dies in einer Rangliste abzubilden und nicht durch willkürliche Gegnerauswahl zu vermeiden. Letzteres kann als eine Bevorzugung Stockfishs interpretiert werden.

(Wobei ich glaube daß der Effekt dieser "remisfreundlichen" Eigenschaft nicht dramatisch ist.)

Anders ausgedrückt, viele User schätzen sicherlich eine Engine mit "Punch" die halt öfter als Stockfish in remislichen Positionen noch Gewinnchancen hervorzuzaubern bemüht ist, z.B. (wie ich glaube) Houdini 4. Bei vielen schwachen Testgegnern rückt das Houdini-Rating vermutlich näher an Stockfish heran. Wäre das nun

(a) eine Verzerrung, oder
(b) mehr Realismus?

Wie dem auch sei, ich danke bei dieser Gelegenheit allen unterschiedlichen Testern mit ihren unterschiedlichen Philosopien, denn das macht das Gesamtbild bunt.


Das meinte ich eigentlich. Man muß prinzipiell entscheiden, was (a) und was (b) für einen selber ist. Ich finde es eben Realismus, starke Engines nicht gegen extrem viel schwächere Gegner zu testen - in welchem realen Spiel- oder sonstigen Szenario kommt sowas vor bzw. ist von Interesse?!? De facto findet doch sowas nur in den Ranglisten-Testruns statt. Da schaffen sich die Ranglisten dann gewissermaßen ihren eigenen Realismus und einige der Betreiber proklamieren diesen dann als den allein seligmachenden bzw. erklären den meines Erachtens eigentlich realistischen Ansatz, in welchem der (Computer-)schachfreund Spitzenengines gegeneinander spielen läßt oder mehrere Spitzenengines zur Analyse nutzt (also sehr schwache Engines gar nicht vorkommen), zur Verzerrung.
Diesen Weg will ich persönlich aber nun mal nicht gehen. Ob Stockfish gegen einen schwachen Gegner nun 85% oder 90% holt, finde ich zum einen uninteressant und zum anderen hat ein solcher Testvergleich für mich nichts mit Realismus zu tun.
Aber wie gesagt, was im Computerschach Realismus ist (wenn es den bei einer so abseitigen Tätigkeit überhaupt gibt...), muß jeder für sich selber entscheiden.
Damit möchte ich das Thema dann hier für mich auch mal beenden. Eigentlich wollte ich hier im Forum nur auf mein Mars 3.35 Ergebnis hinweisen (nämlich ein schönes Ergebnis, mit einer für ein Ippo-Derivat sehr niedrigen Remisquote). Dummerweise habe ich mich dann leider provozieren lassen. Damit sollte ich wirklich aufhören. Vielleicht mache ich mal eine CSS-Forumspause. Hier im deutschsprachigen Forum sind ja sowieso so wenig Leute übrig, daß das Posten kaum noch lohnt. Werde mich wohl in Zukunft mehr Richtung talkchess & Co. orientieren.

Stefan
Parent - By Ingo B. Date 2015-01-17 08:28
Obiges lesend muß ich leider schreiben das du es nicht begriffen hast, und ich fürchte auch nicht verstehen willst!

1. Es geht nicht um "Realismus" sondern darum, dass es egal ist wenn gegen schwache Engines gespielt wird und somit keine Realitätsverzerrung stattfindet. Das SF vielleicht irgendwann zu früh Remis macht (*1) ist statistisch nicht beweisbar und irrelevant, weil nirgendwo zu sehen. Dein Eindruck ist falsch und ich habe dich aufgefordert mir das Gegenteil anhand einer Engine/Liste zu zeigen.
2. Unstrittig ist hingegen, das dein Ansatz mit vielen ähnlichen Engines schon zu einer Verzerrung führen (dein Stichwort: Angstgegener mehrfach ...) kann. Wenn du sagst du möchtest aber ein möglichst starkes Feld, nimm halt mehrmls die selbe Engine mit leichten Änderungen und dein Ergebniss ist noch besser! Das willst du aber auch nicht aus offensichtlichen Gründen. Also nimmst du ein zweifelhaftes Feld weil "besser" als immer die selbe Engine und erkennst damit an das VERSCHIEDENE Engines besser wären gehst aber nicht den konsequenten Schritt und nimmst wirklich verschiedene Engines. (Was, bei genug Engines, die Littos nicht ausschließt!).

Nebenbeigesagt, und ich kann das nicht beweisen, bin ich 100% sicher, dass deutlich mehr Personen meine (und der CEGT und aller anderen seriösen Listen) "unteren" Engines wie Hiarcs oder Senpai benutzen als irgendeinen der vielen "Mars" (ausser in obskuren russischen Foren und ein paar seltsamen Listchen kennt und interessiert sich kein Mensch für dieses Massenlittozeug). Insofern solltest, sofern du es weiter benutzen willst, du dir das "Realismus"-Argument noch mal durch den Kopf gehen lassen. Ich fürchte aber, du hängst da in Opposition und vermeintlichem Realitätsbezug fest. Unverständlich bleibt mir, warum du dich ohne Not da selber so einschränkst und fürchte du hängst in einer Schleife von immer wieder geäußerten falschen Argumenten (statistische Relevanz von *1, historischer Bezug zu den Littos ...) die du so häufig verteidigt hast fest, dass du nicht mehr zurück kannst (oder ich bin das , allerdings ist obiges ja mein Befürchtung, und diese ist wahr)!

Ich gebe dir insofern Recht, als dass auch ich natürlich lieber 20 verschiede Top Engines im oberen 50 Elo Range hätte. Nicht weil ich dann ein besseres Ergebniss hätte (ist statistisch egal, siehe oben) sondern weil es spannender wäre. Da das nicht so ist habe ich Pech gehabt lebe aber glücklich mit dem was da ist.

Ingo
Parent - By Wolfgang Battig Date 2015-01-17 09:59
Stefan Pohl schrieb:

....Hier im deutschsprachigen Forum sind ja sowieso so wenig Leute übrig, daß das Posten kaum noch lohnt.
Stefan


+1
Parent - - By Benno Hartwig Date 2015-01-17 10:54

> Aber wie gesagt, was im Computerschach Realismus ist (wenn es den bei einer so abseitigen Tätigkeit überhaupt gibt...), muß jeder für sich selber entscheiden.


"Realismus" ? Ich hätte es profan "Interesse"  genannt: Was einen interessiert, darf man selbst entscheiden.
Mich interessieren vor allem die Relationen zwischen den sehr starken Engines, besonders in der absoluten Spitze.
Andere mögen ein Interesse daran haben, welche Top-Engine gegen die sehr viel schwächeren am sichersten punktet. OK. Wir sind doch ein recht freies Land. Jedem sein Interesse.

Benno
Parent - - By Joe Boden Date 2015-01-17 12:02
Zitat:
Wir sind doch ein recht freies Land.


Das kann man auch anders sehen, oder?
Parent - - By U. Haug Date 2015-01-18 10:10
Joe Boden schrieb:

Zitat:
Wir sind doch ein recht freies Land.


Das kann man auch anders sehen, oder?


Hallo Joe,

Dein Standpunkt ist dir unbenommen - Freiheit für dich! Es wird so langsam off topic, würde mich aber sehr interessieren:
Kannst du mir spontan zehn Länder nennen, in denen man deiner Meinung nach freier lebt?

Ulrich
Parent - - By Joe Boden Date 2015-01-18 11:42
So bierernst nehme ich die Sache nicht.
Parent - By U. Haug Date 2015-01-18 15:42
Joe Boden schrieb:

So bierernst nehme ich die Sache nicht.


+1
Ich auch nicht, trinke überhaupt kein Bier. 

Ich finde halt, gerade auch in den letzten Wochen wird uns immer wieder bewusst, in welch freiem Land wir doch leben. Wir sollten das schätzen und verteidigen.
Parent - - By Joe Boden Date 2015-01-18 11:57
Laß Dich doch nicht aus dem Gleichgewicht bringen, Stefan.

Hier im Forum ist es ja gute Übung die Arbeit von anderen zu kritisieren oder schlicht abzuwerten. Ganz besonders von jenen, die selber nichts produktives beitragen. Die machen dann eben anderweitig auf sich aufmerksam.

Ich freue mich über Deine zuverlässigen Tests! Und dass Stocki sehr remisfreudig ist kann ich absolut bestätigen. Das passiert so oft, dass es ein Ärgerniß bei dieser ansonsten fantastischen Engine ist. Die Entwickler sollte man was erfinden, womit man das dezidiert einstellen kann.
Parent - By Ingo B. Date 2015-01-18 15:00
Joe Boden schrieb:

... Und dass Stocki sehr remisfreudig ist kann ich absolut bestätigen. Das passiert so oft, dass es ein Ärgerniß bei dieser ansonsten fantastischen Engine ist. Die Entwickler sollte man was erfinden, womit man das dezidiert einstellen kann.


Ich kann natürlich niemanden von seinem Glaube abbringen, aber hier ein paar Fakten für alle anderen:

Die letzte Zahl ist jeweils die Remisquote aus der IPON-RRRL gegen gleiche Gegner und Bedinungen für alle.

Individual statistics:
                                                                     Remisquote
1 Komodo 8                  : 3129  3300 (+1869,=1206,-225), 74.9 %, 40.3%
2 Stockfish 5s              : 3127  3300 (+1816,=1299,-185), 74.7 %, 43,3%
3 Houdini 4                 : 3113  3300 (+1884,=1052,-364), 73.0 %, 35,1%
4 Gull 3                    : 3066  3300 (+1527,=1366,-407), 67.0 %, 45,5%
5 Equinox 3.30              : 3001  3300 (+1113,=1576,-611), 57.6 %, 52,5%
6 Critter 1.6a              : 2994  3300 (+1052,=1631,-617), 56.6 %, 54,4%
7 Deep Rybka 4.1            : 2964  3300 (+ 964,=1508,-828), 52.1 %, 50.3%
8 Deep Fritz 14             : 2911  3300 (+687,=1520,-1093), 43.8 %, 50.6%
9 Chiron 2                  : 2902  3300 (+669,=1469,-1162), 42.5 %, 49.0%
10 Protector 1.7.0          : 2894  3300 (+642,=1445,-1213), 41.3 %, 48.2%
11 Naum 4.6                 : 2882  3300 (+607,=1401,-1292), 39.6 %, 46.7%
12 Hannibal 1.4b            : 2879  3300 (+599,=1379,-1322), 39.0 %, 46.0%
13 Texel 1.04               : 2854  3300 (+524,=1298,-1478), 35.5 %, 43.3%
14 Senpai 1.0               : 2850  3300 (+474,=1360,-1466), 35.0 %, 45.3%
15 Nirvanachess 2.0a        : 2845  3300 (+473,=1320,-1507), 34.3 %, 44.0%
16 HIARCS 14 WCSC 32b       : 2835  3300 (+455,=1260,-1585), 32.9 %, 42.0%


Glauben oder Fakten - jeder wie es ihm gefällt.

Ingo
Parent - By GS Date 2015-01-19 10:29 Upvotes 1
Stefan Pohl schrieb:

Das meinte ich eigentlich. Man muß prinzipiell entscheiden, was (a) und was (b) für einen selber ist. Ich finde es eben Realismus, starke Engines nicht gegen extrem viel schwächere Gegner zu testen - in welchem realen Spiel- oder sonstigen Szenario kommt sowas vor bzw. ist von Interesse?!?


Nun, es kommt vor im ..... SCHACH und es ist von Interesse !!!
Man muss lediglich einen Blick auf die internationalen Open (gerade aktuell) und/oder
auf die einzelnen Ligen diverser Länder, z.B. die Deutsche Bundesliga im Schach werfen !
Parent - By Ingo B. Date 2015-01-16 18:31
Stefan Pohl schrieb:

...
Und das einzige, was Ingo im Sinn hatte, war mich anzutrollen. Siehe sein Eingangsposting in diesem Thread.
...


Wenn du eine kurze Kritik an deiner Engineauswahl, die mit einem Smiley versehen ist, als "antrollen" und den "einzigen Sinn" siehst, hast du ein Problem!

Ingo
Parent - - By Ingo B. Date 2015-01-16 19:43
Stefan Pohl schrieb:

...
Generell würde ich dir empfehlen bzgl. der Engineauswahl erst mal ausgiebig vor der eigenen Tür zu kehren, bevor du anderen da ungefragt gute Ratschläge erteilst. Critter, Gull und Equinox in einer Rangliste zu führen, Fire 4 aber z.B. nicht (50 Elo besser als Fire 3 und damit von Ippo/Robbo mittlerweile ca. 100 Elo entfernt (wie z.B. (in etwa) auch Gull 3, der mal bei Ivanhoe anfing..)) - das kann ich nur als grotesk bezeichnen.


Da gibt es nicht viel zu kehren, Critter war schon drin als noch niemand irgendetwas vermutete, mit Gull, bei dem der Sourcecode offen liegt habe ich überhaupt keine Probleme und Equinox als beste "dicht am Robbo" Enigine kombiniert mit VIELEN verschiedenen Engines. Kein Problem.

Fire? Es ist mir völlig schnurz wie gut die Engine ist, ICH vergesse nicht die Historie mit all den wiederholten Betrugsversuchen des Autors!

Ingo
Parent - By Wolfgang Battig Date 2015-01-17 10:05
Ingo B. schrieb:

......
Fire? Es ist mir völlig schnurz wie gut die Engine ist, ICH vergesse nicht die Historie mit all den wiederholten Betrugsversuchen des Autors!
Ingo


grundsätzlich: +1
wobei ich mir bei "wiederholt" nicht sicher bin, habs aber auch nicht detailliert verfolgt
Parent - By Peter Martan Date 2015-01-16 12:37
Ingo B. schrieb:

- das muß man hier erwähnen weil sonst wieder irgendwelche Klug...e Leute aus dem Dunkel gekrochen kommen).

Was sind das hier bloß wieder für Phobien?
Der tapf're Ingo forcht sich nicht, so lang nichts aus dem Dunkel kriecht!
Up Topic Hauptforen / CSS-Forum / SPCC: Testrun von Mars 3.35 durch

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill