Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / IPON Test von Komodo 7a läuft
1 2 Previous Next  
Parent - By Kurt Utzinger Date 2014-06-01 19:28
Hallo Horst
Danke für die ausführlichen Kommentare. Die Schreiber in diesem Forum
machen mir den Entscheid alles andere als einfach
Gruss
Kurt
Parent - - By Andreas Aicher Date 2014-06-01 19:57
Also mir ist noch nie aufgefallen, dass Apple mir Entscheidungen abnimmt, mich irgendwie bevormundet, mir als Freigeist wäre das doch aufgefallen 
Wie sollte diese Bevormundung denn aussehen ? Weiss jetzt nicht worauf Du hinauswillst.
Ich glaube es gibt kein Betriebssystem, dass besser auf die Hardware abgestimmt wäre, als bei einem Apple, man kann das natürlich als Bevormundung empfinden, dass man vielleicht nicht die Wahl hat, irgendwelche Hardwarekomponenten zu verwenden oder aufzurüsten, sondern in dieser Hinsicht auf Apple beschränkt ist.
Diese Freiheit ging mir nicht ab, da ich eine Aufrüstung, sei es mit Rams oder grösserer Festplatte etc. nicht in betracht zog, ich wusste immer beim Kauf, was ich wollte.
Mir hat Apple noch nie eine Entscheidung abgenommen, wüsste nicht welche ?
Google würde ich als Freigeist anders sehen, ich nehme als Suchmaschine immer Altavista oder manchmal Yahoo, niemals Google und schon gar kein Betriebssystem bei einem Handy von Google, wobei ich hinzufügen möchte, dass ich gar kein eigenes Handy habe, benutze, wenn es unbedingt sein muss, das meiner Frau.
Sicher MacOS ist ein Unix System, aber es gibt das MacOS schon ein paar Jahre länger, als Linux.
Ich habe mich nur eingemischt, weil ich den Vorwurf, dass Apple mich bevormunden würde, so nicht stehen lassen kann, weil er schlichtweg nicht stimmt

Andreas
Parent - - By Dithyrambus Date 2014-06-01 21:56
Hallo Andreas,

selbstverständlich ist das gefühl bevormundet zu werden, ein sehr subjektives.
Da ich das iPad schon vor zwei jahren weiter verkauft habe, habe ich nicht mehr all zu viele konkrete beispiele für mein damaliges empfinden im sinn. Gestört hat mich aber bereits eine kleinigkeit wie der umstand, dass ich beim herunterladen eines internetbrowsers im store den hinweis auf eine altersbeschränkung bekam, weil mit dem programm "explizite" inhalte dargestellt werden könnten. Auch fand ich den import von fremddateien, die nicht aus dem Apple-store stammten, als sehr umständlich, weil iTunes unter Ubuntu gar nicht läuft und ich stets nach umwegen suchen musste.

Suchergebnisse sind zwar beweise für nichts und gar nichts, aber ein paar hinweise können sie schon geben.
Ich habe mal probeweise die suchbegriffe "Apple bevormundet kunden" eingegeben.

Aber bitte lies auch den teil meines beitrags, in dem ich unterstreiche, dass man sehr gut aufgehoben ist, wenn man komplett mit geräten von Apple arbeitet. Denn sie funktionieren komplikationslos.

Viele grüße
Horst
Parent - - By Michael Scheidl Date 2014-06-01 22:18
Zitat:
Gestört hat mich aber bereits eine kleinigkeit wie der umstand, dass ich beim herunterladen eines internetbrowsers im store den hinweis auf eine altersbeschränkung bekam, weil mit dem programm "explizite" inhalte dargestellt werden könnten.

Amüsant.
Parent - By Andreas Aicher Date 2014-06-01 22:31
vielleicht bei iPad, beim iMac habe ich eine derartige Meldung noch nicht gehört, da müsste man es schon so einstellen, bei Internetbrowser 
Parent - By Andreas Aicher Date 2014-06-01 22:28
Hallo Horst,
schätze iPad ist eine etwas andere Geschichte, als ein Mac Computer, zumindest habe ich da eigentlich keine Probleme mit Programmen, die nicht aus dem App Store kommen, Scid, Hiarcs Chess Explorer, Shredder liessen sich alle ohne Meldung installieren.
Nur bei ChessX kam die Meldung, dass es sich um kein Apple zertifiziertes Programm hadelt, aber dann einfach Rechtsclick und öffnen, schon wurde es installiert.
Es hängt also eher mit eine Apple Zertifizierung o. ä. zusammen, ob eine Meldung kommt.
Ist ja auch vielleicht so schlecht nicht, wie gesagt, wenn es nicht häufig vorkommt, praktisch eine Nachricht, dass das Programm Probleme bereiten könnte, bei ChessX war ich mir sicher, dass es keine bereitet, so habe ich es installiert.

Andreas
Parent - - By Tom Paul Date 2014-05-28 13:02
GS schrieb:

Es ging um die stark übertriebenen Aussagen wie deutlich
doch die Stockfish Devs zwischenzeitlich vor Stockfish DD
liegen würden.
Was bleibt sind eben "lediglich" 20-30 Punkte mehr und auch
die Mai-Versionen ändern kaum etwas an diesem Fakt.


Genau.
Lediglich 20-30 Punkte mehr.
Deshalb wird Komodo von Stockfish regelrecht kastriert.
Stockfish ist 4x so gut wie Komodo.
N Engine           Rtng  Pts  Gm     SB St            Ko          

1 Stockfish 170514 3164 30.0  51 630.00 ············· + 12 = 36 - 3
2 Komodo 7x        3155 21.0  51 630.00 + 3 = 36 - 12 ·············

+62 ELO Spielstärkeunterschied
58,82%
Parent - - By GS Date 2014-05-28 13:14
Tom Paul schrieb:

GS schrieb:

Es ging um die stark übertriebenen Aussagen wie deutlich
doch die Stockfish Devs zwischenzeitlich vor Stockfish DD
liegen würden.
Was bleibt sind eben "lediglich" 20-30 Punkte mehr und auch
die Mai-Versionen ändern kaum etwas an diesem Fakt.


Genau.
Lediglich 20-30 Punkte mehr.
Deshalb wird Komodo von Stockfish regelrecht kastriert.
Stockfish ist 4x so gut wie Komodo.
<code> N Engine           Rtng  Pts  Gm     SB St            Ko          

1 Stockfish 170514 3164 30.0  51 630.00 ············· + 12 = 36 - 3
2 Komodo 7x        3155 21.0  51 630.00 + 3 = 36 - 12 ·············</code>
+62 ELO Spielstärkeunterschied
58,82%


Das ist doch lediglich ein Vergleich (Match gegen einen einzigen Gegner)
und dazu noch über bisher gerade mal 51 Spiele.
Was soll das denn blos aussagen im Vergleich zu den Daten, welche ich
und andere oben angeführt haben ?
Parent - - By Ingo B. Date 2014-05-28 13:34
GS schrieb:

...Was soll das denn blos aussagen ...


Don't feed the ... Fan


Gruß
Ingo
Parent - By GS Date 2014-05-28 19:57
Hi Ingo !

Ingo B. schrieb:

GS schrieb:

...Was soll das denn blos aussagen ...


Don't feed the ... Fan


Gruß
Ingo


Keine Gefahr.
Und um nicht falsch verstanden zu werden, ich bin selbst
ein kleiner Stockfish-Fan. Früher noch zu Zeiten von
Glaurung hatte ich einige Kontakte zu Tord.
Selbst teste ich auch immer mal wieder eine Stockfish-
Dev. für meine UFRL. Also, alles im Lot !

Viele Grüsse,
G.S.
Parent - - By Andreas Aicher Date 2014-05-28 13:48
Rückschlüsse auf den Elozuwachs sehe ich auch nicht.
Doch von lediglich 51 Partien (bei dieser Bedenkzeit und mit dieser Hardware, wenn man die Vorrunden hinzurechnet kommen noch einige hinzu) zu sprechen, ich glaube da müssen wir ein wenig umdenken, ich finde das eher als enorm viel (immer in Anbetracht der speziellen Bedingungen) und ich halte es für legitim hier ein Spielstärkenschätzung, ausgedrückt in Elo, abzugeben.
Zumindest kann man davon ausgehen, dass Stockfish sehr stark ist, stärker als Houdini und Komodo.

Andreas
Parent - - By GS Date 2014-05-28 14:14
Andreas Aicher schrieb:

Rückschlüsse auf den Elozuwachs sehe ich auch nicht.
Doch von lediglich 51 Partien (bei dieser Bedenkzeit und mit dieser Hardware, wenn man die Vorrunden hinzurechnet kommen noch einige hinzu) zu sprechen, ich glaube da müssen wir ein wenig umdenken, ich finde das eher als enorm viel (immer in Anbetracht der speziellen Bedingungen) und ich halte es für legitim hier ein Spielstärkenschätzung, ausgedrückt in Elo, abzugeben.
Zumindest kann man davon ausgehen, dass Stockfish sehr stark ist, stärker als Houdini und Komodo.

Andreas


Nein, da muss niemand umdenken.
51 Spiele sind immer zu wenig, erst recht wenn diese gegen lediglich
einen einzigen Gegner gespielt wurden. Deshalb ist es auch nicht legitim
Spielstärkeneinschätzungen im eigentlichen Sinne abzugeben.
Man kann allenfalls von einer vorläufigen "Eventperformance" sprechen !

Die CEGT hat auch eine Liste, in welcher 40/120'+20/60'+20'+10" gespielt
wird, also ca. 6¾ Stunden pro Partie, siehe:
http://www.husvankempen.de/nunn/rating120.htm

Dort sieht es zur Zeit so aus:
Code:

Engine              ELO   +   -  Games
Komodo TCEC x64    3070  25  25    300
Stockfish DD x64   3068  23  23    300
Houdini 4.0 x64    3065  26  26    300


Selbst nach 300 Spielen liegen die Error-Margins bei mindestens 23,
d.h. die jetzige Reihung könnte eine noch vollkommen andere werden.
Parent - - By Benno Hartwig Date 2014-05-28 14:56 Edited 2014-05-28 14:59
Ich weiß sicher um die Problematik bei zu wenigen Partien.
aber dein 'immer' in

> 51 Spiele sind immer zu wenig


wird zumindest bei sehr deutlichen Überlegenheiten fragwürdig.
Ein "51,0 zu 0,0" hätte wohl schon einige Aussagekraft.

Und bei gleichstarken SF und K und einer angenommenen Remiswahrscheinlichkeit von 0,6 wäre die Wahrscheinlichkeit für ein "mindestens 30,0 zu 21,0"-Zwischenergebnis für SF nur ca. 3%.
Die Vermutung einer tatsächlichen SF-Überlegenheit wird hier auch schon durch kleine Partieumfänge genährt. Die Wahrscheinlichkeit, dass dieses Urteil falsch ist, ist nur sehr klein.

Benno
Parent - - By GS Date 2014-05-28 15:47
Benno Hartwig schrieb:

Ich weiß sicher um die Problematik bei zu wenigen Partien.
aber dein 'immer' in
wird zumindest bei sehr deutlichen Überlegenheiten fragwürdig.
Ein "51,0 zu 0,0" hätte wohl schon einige Aussagekraft.
[...snip...]


Stimmt, hätte ich erwähnen müssen !

Ich sehe zur Zeit:
Stockfish 170514 - Komodo 7x || 30.0-21.0 || + 12 = 36 - 3 ||

Dies bedeutet lt. ELO-Stat 1.3:
Code:

Result     : 30.0/51 (+12,=36,-3)
Perf.      : 58.8 %
Margins    :
68 %      : (+  3.6,-  3.5 %) -> [ 55.3, 62.5 %]
95 %      : (+  7.2,-  6.9 %) -> [ 52.0, 66.0 %]
99.7 %    : (+ 11.0,- 10.3 %) -> [ 48.5, 69.9 %]

Margins    :
68 %      : (+ 26,- 25) -> [2737,2788]
95 %      : (+ 54,- 48) -> [2714,2816]
99.7 %    : (+ 84,- 72) -> [2690,2846]


Man beachte die 95%-Margins "+ 54 - 48" !

Dazu kommt, dass es lediglich ein Match gegen einen einzigen Gegner ist.
Parent - By Benno Hartwig Date 2014-05-28 16:41
Thanx.

Bedeutet die Zeile
"95 %      : (+  7.2,-  6.9 %) -> [ 52.0, 66.0 %]"
aber nicht auch:

mit immerhin 95%er Wahrscheinlichkeit hat SF eine Überlegenheit, die zwischen 52-48 und 66-34 liegt, vermutlich in der Nähe von 59-41.
oder anders gesagt:
Mit 97,5%er Wahrscheinlichkeit ist SFs Spielstärke mindestens 52-48 überlegen.

Kleine Partienzahlen erlauben natürlich keine schärferen Einschätzungen.
Aussagen wie oben sind aber schon möglich, wenn das Ergebnis denn ausreichend 'heftig' ist.

Benno
PS: Gerade hat K zurückgeschlagen. Nur noch   30,0 zu 22,0
Parent - - By Andreas Aicher Date 2014-05-28 16:02
also für mich ist das legitim und für mich ist es unter diesen speziellen Bedingungen eine überraus grosse Zahl an Partien, die im gespielt wurden.
Das kannst Du natürlich sehen wie Du willst, ich bitte Dich nur um eins, nicht behaupten es ist nicht legitim, es würde genügen zu behaupten meiner Meinung nach ist es nicht Legitim, soweit sind wir ja noch nicht, dass dies die albsolute Wahrheit, die es im Übrigen gar nicht gibt und geben kann, darstellt. Ich bemühe mich auch immer etwas als meine Überzeugung und meine Meinung darzustellen nicht als unwiderlegbare Gesetze
Andreas
Parent - - By GS Date 2014-05-28 19:27
Andreas Aicher schrieb:

[...snip...]
Das kannst Du natürlich sehen wie Du willst, ich bitte Dich nur um eins, nicht behaupten es ist nicht legitim, es würde genügen zu behaupten meiner Meinung nach ist es nicht Legitim, soweit sind wir ja noch nicht, dass dies die albsolute Wahrheit, die es im Übrigen gar nicht gibt und geben kann, darstellt. Ich bemühe mich auch immer etwas als meine Überzeugung und meine Meinung darzustellen nicht als unwiderlegbare Gesetze

Schaun Sie, wenn ich bei solchen Dingen, welche allen bekannt und vor allem
anerkannt sind, lediglich schreiben würde: "meines Erachtens", dann sieht das
letztendlich doch so aus, als wenn ich das Rad selbst oder miterfunden hätte.
Dass ab und an eine Handvoll Personen meinen dies alles zu bezweifeln ändert
nichts am Allgemeinplatz der Erkenntnis an sich.
50, 70, 100 oder auch 200 Partien, dazu noch gegen einen einzigen oder auch
gegen 2-3 verschiedene Gegner, sagen nichts - rein gar nichts aus !
Auch die gewählte Spielstufe und/oder andere Rahmenbedingungen spielen dabei
keinerlei Rolle, die Statistik lässt sich nicht überlisten.
Wenige Spiele mit sehr langer Bedenkzeit sind genauso wenig/viel "wert" wie
die selbe Menge mit kurzer Bedenkzeit. Ausnahme: ultra-kurze Bedenkzeiten,
dabei kommt nur Unsinn raus.
Parent - - By Andreas Aicher Date 2014-05-28 20:04
wohl beleidigt ?
Ich gehöre nicht zu denen, die Statistiken, die nicht logisch sind, glaube, nur weil sie behauptet werden, mögen sie auch bekannt und anerkannt sein, sympatisch finde ich es auch nicht, die alleinige Wahrheit zu kennen, auch wenn es nur eine statistische ist,
wir kennen uns schon seit Jahren, nur weil ich eine Meinung nicht teile plötzlich die Anrede Sie, da denke ich mir meinen Teil und schweige, ist wohl typisch deutsch 
Andreas
Parent - - By GS Date 2014-05-28 21:09
Nein nein, keineswegs beleidigt.
Das "Sie" habe ich mir hier angewöhnt, ausser bei Personen,
mit welchen ich laufend ausserhalb dieses Boards in Kontakt stehe.
Man kommt dann nicht so schnell mit den Mods in Konflikt, wenn es
nur um Kleinigkeiten geht, die sind hier oftmals "heiss auf mich".

Welche Statistiken waren nicht "logisch" ?
Wer oder was kennt die "alleinige Wahrheit",
resp. wo wurde das behauptet/ausgeführt ?
Gar von mir, falls ja: wo und wann ?
Parent - - By Andreas Aicher Date 2014-05-28 22:09
Du wirst Dich doch noch erinnern können, dass ich eine längere Zeit Betatester von List war, nach der Erfahrung von Graz wollte ich das nicht mehr, wir hatten dann ja einige Zeit Kontakt, Du hast ja dann, glaube ich List getestet.
Ich hatte dann komplett auf Mac umgestellt und war einige Zeit nicht aktiv, bin seit etwas mehr als einem Jahr wieder hier im Forum, das erste, was mich dann sehr gewundert hatte, wie anders und der Umgang mit Clonen und Derivaten war, im Vergleich der Grazzeit, wo schon ein kleiner, völlig unbgründeter Verdacht reichte ... nun gut, gehört nicht mehr hierher, die Szene hat sich hat komplett verändert.
Zur Logik der Statistiken;  dass das TCEC, mit den doch sehr beachtlichen Bedenkzeiten (heute unüblich) mit einer beachtlichen Hardware, doch sehr (wieder das Wort) beachtlichen Partiezahl, nicht nur jetzt im Finale, sondern ja auch in den Qualifikationsrunden rein gar keinen Wert im Bezug auf die Spielstärke einer Engine haben soll, die geht mir nicht ein.
Es ist, wie Du sagtest völlig unbestritten und klar, dass mehrere Schachengines und ein bestimmtes Mindestmass an Partien gespielt werden müssen, um eine Rangliste erstellen zu können, die eine Aussagekraft haben soll, das habe ich nie bestritten, ich nehme es nur nicht so genau, bei mir kann die Error marge ruhig etwas höher liegen, so interessant ist das für mich nie gewesen, trotzdem finde ich es gut, dass es Ranglisten gibt, die sehr auf Genauigkeit achten, ich kann dann für mich das herausziehen, was mich wirklich interessiert.

Für Turniere wie das TCEC finde ich eben Aussagen, wie hier gebraucht, dass das alles keinen (statistischen) Wert habe (da unter 200 Partien), das sugeriert doch, das man auf diese völlig verzichten kann und sie völlig unerheblich sind.
Das mag zwar statistisch durchaus stimmen, muss es aber nicht, aus mehreren Gründen.
zum einen ist es ein Indiz für die Spielstärke in Verbindung mit anderen Tests, zb das Round Robin Turnier (auch hier erreicht Stockfish gegen Houdini und Komodo über 60%) auch andere Turniere wie die von Clemens Keck sehen Stockfish vorne etc.
Es ist also durchaus möglich, dass sogar ein für mich nicht unerhebliches Turnier wie das TCEC eine Aussage haben, nicht für Ranglistenbetreiber, aber für Schachfans, die den Sieger dieses Turnier als stärkste Engine (in diesem Fall aufgrund der vielen anderen Tests völlig berechtigt) ansehen.
Das mag zwar falsch sein, aber nehmt uns nicht die ganze Freude, jede Weltmeisterschaft, und jedes Turnier hat für mich eine Aussagekraft, und da es um Schach geht, natürlich um Spielstärke, haut uns doch nicht immer die Statistik um die Ohren.
Analoges gilt auf für menschliches Schach, da könnte man ja auch mit Statistiken einem die Freude nehmen.
Nur darum geht es, haut uns nicht immer die Statistik um die Ohren, lasst uns die Freude und dem TCEC das Recht Elopunkte zu vergeben, es ist doch wirklich legitim und nicht verboten 

Andreas
Parent - - By GS Date 2014-05-29 12:07
Turniere wie das TCEC oder auch die grossen Turniere von Clemens
sind toll, überhaupt keine Frage. Man sollte jedoch diese Turniere
nicht dazu "benutzen" ultimative Aussagen daraus abzuleiten.
Deshalb auch weiter oben meine Formulierung "Eventperformance".
Auch klar ist, dass es natürlich sein kann, dass Stockfish Dev.
zwischenzeitlich die beste Engine der Welt ist. Nur, es gibt eben
doch noch eine gewisse Unsicherheit diesbezüglich.

btw.:
wir "kennen" uns schon länger als zur "Grazer-Zeit", wir waren einst
Mitstreiter bei diesem unsäglichen C. Lieber -t-(nicht), und hatten
bei mindestens 2 "BfF-Turnieren" im Rahmen der Print-CSS mitgewirkt.
Heinz Walz, Andreas Schwartmann und einige andere waren damals
ebenfalls dabei, stimmts ?
Parent - By Andreas Aicher Date 2014-05-29 23:38
stimmt, das waren noch andere Zeiten mit ganz anderen Fragestellungen, ... Heinz Walz !!
Junge, wie die Zeit vergeht

Andreas
Parent - By Frank Rahde (Mod.) Date 2014-05-28 23:17
Gerhard, ich respektiere dich, um das mal klarzustellen.

Gruß, Frank
Parent - By Andreas Aicher Date 2014-05-28 16:29
mit Umdenken meinte ich eigentlich nur, um das klarzustellen, nicht das TCEC, sondern dass mit immer geringeren Bedenkzeiten, wie Bullet oder vielleicht demnächst Ultrabullet, vielleicht in wenigen ms eine ganze Partie 
hauptsächlich viele viele Partien und die berühmte error margin stimmt, bzw ist so gering wie nur irgendmöglich.
Das schreckt doch alles nur ab, wenn man dann ein Turnier hat, mit sehr hoher Bedenkzeit und eine Engine spielt "nur" 64 Partien im Finale, das ganze eigentlich für die Katz ist, denn es hat ja keinerlei Aussage auf die Spielstärke, dann muss man wirklich ein Computerschächer und Statistiker sein, dass einem von dem allem nicht so dumm wird, als ginge einem ein Mühlrad im Kopfe herum.
Nur die Quantität soll zählen, nicht mehr die Qualität, Computerschach nur noch als error margin und Bullet und Blitzpartien, Millionen von Partien, soviele Ranglisten wie möglich, wenn sich jetzt die Ranglistenreihenfolge zufällig oder was auch immer, widerspricht, sei es wegen verschiedener Bedingungen, zuweniger Partien, falsche oder einseitig bevorzugende Vorgabestellungen, falsche Eröffnungsbücher, auf AMD andere Ergebnisse als auf Intel Rechnern.
Aber natürlich, kein Grund zum Umdenken.
Jeder hat die wahre, die richtige Rangliste und die verdienten Nummer 1, 2, 3 Engine, weiter so, alles sehr interessant, aber eben für einen sehr harten Kern von Computerschächern

Andreas
Parent - - By Benno Hartwig Date 2014-05-27 13:36 Edited 2014-05-27 13:40

> Wer nur auf diese_s Ergebniss_e starrt, unterschätzt Komodo und überschätzt Stockfish.


In welcher Hinsicht sollte Komodo besser eingeschätzt werden, als es der SF-Vergleich suggeriert?

Ist Komodo gegen andere Engines erfolgreicher, als es nach dem SF-Vergleich zu erwarten wäre?
Das TCEC vermittelte mir nicht diesen Eindruck, da erschien mir SF auch gegen andere besser.

Ist K gegen Menschen stärker? Das wäre ein superinteressantes Kriterium!!
Aber dafür habe ich bislang keinen Hinweis.

Oder sind es mehr so 'unscharfe' Kriterien wie "Mit gefällt das K-Spiel irgendwie besser"

oder so halbwegs konkrete Kriterien wie "ich kann mit K irgendwie besser analysieren!"

oder noch irgendwas ganz anderes?

Benno
Parent - By Ralf Mueller Date 2014-05-27 17:27
Code:
Ist Komodo gegen andere Engines erfolgreicher, als es nach dem SF-Vergleich zu erwarten wäre?
Das TCEC vermittelte mir nicht diesen Eindruck, da erschien mir SF auch gegen andere besser.


Ich bin mir sehr sicher, dass genau das Ingo meinte. Und er begründet es nicht mit der relativen Partienzahl im TCEC, sondern mit der Partienzahl in seiner Rangliste. In Stefans Round-Robin-Turnier lässt sich das nicht bestätigen.
Parent - - By Ingo B. Date 2014-05-27 18:00
Benno Hartwig schrieb:

In welcher Hinsicht sollte Komodo besser eingeschätzt werden, als es der SF-Vergleich suggeriert?...


Alles was ich sagen wollte ist, dass, nur weil SF eine Enigne gewinnt, das nicht heißen muß, dass er über alles auch besser ist. (So wäre meine halbwegs begründete momentane Vermutung bzgl. SF und H4)

Beim Menschen ist ja ein Spieler denkbar gegen den die aktuelle Nr. 1 einen negativen Score hat. Ist dieser Spieler deswegen besser als die Nr. 1?

Im Kern wollte ich nur darauf hinweisen das die Testerei gegen wenige, vermeintlich beste, Engines nicht unbedingt das gelbe vom Ei ist ... wenngleich es natürlich auch Vorzüge hat, nach dem Motto "Was interessiert mich die Nr. 10 ...

Ich jedenfalls fände es seltsam wenn Carlsen nur noch gegen Aronian und Grischuk spielen würde weil der Rest uninteressant ist!?

Gruß
Ingo

PS: Kleiner Forenbug: Wenn ich bei Bennos Posting auf Zitieren klicke, wird mein Einganzzitat nicht mitkopiert. Ich schätze mal das ein zitiertes Zitat nicht mit einem Zitaten beginnen darf .
Parent - - By Benno Hartwig Date 2014-05-27 22:08 Edited 2014-05-27 22:16
Klar, verstehe ich.
SF stand ja lange im Ruf, gegen die Starken gut zu punkten und gegen die Schwächeren nicht so überzeugend zu sein, wie man es erwarten konnte.
Aber ist das noch so?
Und gerade gegen die immerhin noch ziemlich Starken erschien mir dieser Vorwurf an SF eh nicht gerechtfertigt gewesen zu sein.

Ganz konkret die Frage:
Gibt es überhaupt 2 Engines A und B, derart dass A gegen B höher gewinnt als Stockfish gegen B?
Ist heute irgendeine Engine wenigstens punktuell stärker als SF?
Ich wäre nicht überrascht, wenn die Antwort inzwischen 'nein' lautet.
Soo viele A-Kandidaten gibt es ja nicht.
Diesbezüglich Enginevorschläge?

Benno
Parent - By ? Date 2014-05-28 13:45
Benno Hartwig schrieb:


Ganz konkret die Frage:
Gibt es überhaupt 2 Engines A und B, derart dass A gegen B höher gewinnt als Stockfish gegen B?


In meinem aktuellen Test hat SF-DD gegen K7a gewonnen und ist doch schwächer im Ganzen. Deine obige Frage bezog sich aber auf eine aktuelle SF-DEV Version nehme ich an. Dazu kann ich nur sagen das SF-230314 alle Individalmatche gewonnen hatte (Veröffentlicht auch hier - finde es jetzt nicht) und doch "nur" auf K7a Niveau war. H4 (in deinem Fall Engine A) muß also gegen einige Gegner höher gewonnen haben als SF230314.
Wie das mit SF heute, 2 Monate später aussieht ... ? Bald werden wir es sehen

Gruß
Ingo
Parent - - By Andreas Aicher Date 2014-05-28 10:52
Hallo Ingo,
es ist ja aber nicht so, dass Stockfish irgendein Duell verlieren würde, eher ganz im Gegenteil, er gewinnt jedes Duell, einschliesslich die gegen Houdini und Komodo.
Es bisher halt so, dass zB Houdini ein Duell gegen sog. schwächere Gegner mit 47:3, 44:6, 49:1 usw gewann und Stockfish vielleicht nur mit 44:6, 42:8, und 48:2 usw gewann, das ist etwas ganz anderes, als den Vergleich, den Du mit Carlsen gezogen hast.
Es hat eben zur Zeit keiner einen positiven Score gegen Stockfish, auch nicht Houdini und Komodo oder Gull etc.

Andreas
Parent - - By ? Date 2014-05-28 13:37
Andreas Aicher schrieb:

... Es hat eben zur Zeit keiner einen positiven Score gegen Stockfish...


Selbst wenn es so ist, muß SF trotzdem nicht die beste Engine sein (siehe Antwort weiter oben).

Abwarten ... bald wissen wir mehr.

Gruß
Ingo
Parent - By Andreas Aicher Date 2014-05-28 17:13
man kann es aber so sehen, der, der alle Gegner schlägt wird am Ende Weltmeister, zumindest im Schach ist das so, in der Statistik und im Computerschach wohl nicht, doch das ist eine andere Frage 

mfG
Andreas
Parent - - By Benno Hartwig Date 2014-05-28 16:12

> Es bisher halt so, dass zB Houdini ein Duell gegen sog. schwächere Gegner mit 47:3, 44:6, 49:1 usw gewann und Stockfish vielleicht nur mit 44:6, 42:8, und 48:2 usw gewann


Mich würde interessieren, ob das noch gilt.
Haben wir eine Engine, gegen die Houdini auf Dauer höher gewinnt als ein aktueller Stockfish?
Benno
Parent - - By Andreas Aicher Date 2014-05-28 16:50
Ich vermute nicht, ich glaube sogar, dass diese Zeiten vorbei sind, in denen Houdini gegen "schwächere Gegner" besser punktet vorbei sind, inzwischen auch im Bullet.
Es wird immer mal Engines geben, wo Houdini besser scored, aber auch welche, wo Stockfish oder auch Komodo besser scored, aber das wird vielleicht nicht mehr so entscheidend sein wie bisher, vielleicht wird sich das auch drehen und die Remisquate von Houdini ist höher.
Die zu hohe Remisquote von Stockfish gegen sog. "schwächere Gegner" (die so schwach ja vielleicht gar nicht sind, sie werden einfach überrechnet, haben aber zum Teil ein vielleicht sogar besseres Schachwissen) wurde ja immer wieder bemängelt und war ja schlussendlich auch der Grund, wieso Houdini solange in den Ranglisten führte.
Vielleicht hängt ja auch die Reihenfolge in Zukunft oder auch schon jetzt davon ab, welche Engines dabei sind.
Ippos liegen vielleicht Houdini, als bekannten Gründen, der Verwandtschaft wegen, vielleicht ja besser als andere.
Vielleicht werden in Zukunft mehr Stockfishderivate dabeisein, der offenen Sourcen wegen und weil es ja mit den Ippos nicht mehr so vorangeht, die stagnieren ja irgendwie, keine Ahnung, wie das die Ranglisten beeinflussen kann.
Je mehr ich mich damit beschäftige, desto zweifelhafter wird mir das alles.
Vor allem bei Sätzen mit error marge, zuwenige Partien kann man ja alles niedermachen, ohne weiters, wie wenn Mynheer Peperkorn mit seinen typischen Handbewegungen erledigt sagt und alle Argumente lösen sich in Luft auf 

Andreas
Parent - - By Benno Hartwig Date 2014-06-01 06:35

> Es wird immer mal Engines geben, wo Houdini besser scored (als ein aktueller Stockfish)...


Mich würde interessieren, ob es solche solch eine Engine, bei großer Partienzahl(!), heute wirklich gibt.
Hättest du einen Vorschlag?
Benno
Parent - By Andreas Aicher Date 2014-06-01 10:55
Hinnibal und Chiron scheinen zwei solche Engines zu sein, wo sich Stockfish schwerer tut als Houdini, erreicht aber trotzdem um die 75 % wohl auch Equinox.
Ein Vergleich der Engines anhand der Partien zB bei der Ipon-Rangliste könnte da sehr aufschlussreich sein.
Diese Zahlen habe ich jetzt vom Livematch Stockfish 5 in der Ipon Liste, da sieht es im Moment sehr knapp aus. Aber am Ende könnte es gerade an solchen Engines liegen, die nicht so stark sind und Houdini ein paar remis mehr verhindert.
Wenn ich mich richtig erinnere hat Houdini auch den Zweikampf gegen Komodo 7 verloren, das wäre dann eine Nummer eins, die gegen die nummer zwei und drei verlieren würde.

Andreas
Parent - - By Benno Hartwig Date 2014-05-28 15:25

> Im Kern wollte ich nur darauf hinweisen das die Testerei gegen wenige, vermeintlich beste, Engines nicht unbedingt das gelbe vom Ei ist


Die Frage ist eigentlich nicht:
"Wie muss ich testen, um die beste Engine herausfinden zu können?"
sondern
"Was muss die Engine leisten, um die beste Engine zu sein?" oder "Wodurch soll sich die beste Engine denn überhaupt auszeichnen?" denn hier sind die persönlichen Ansichten unterschiedlich.

- "Sie muss gegen die kunterbunte Gegnerviel(!)falt in der Summe möglichst viel herausholen!"
- "Sie muss gegen die z.B. 10 besten Gegner Engines in der Summe möglichst viel herausholen!"
oder z.B.
- "Sie muss in einem Modus wie dem TCEC-Modus am erfolgreichsten sein"
  (D.h. sie muss sich immer in der besseren Hälfte halten können!
   Sie muss gegen die Schwachen zwar ausreichend sicher gewinnen, sie muss vor allem aber gegen die Besten optimiert sein)
und was es da an Mischformen gibt.

Ich glaube, wir sind weit davon entfernt, hier eine einheitliche Sicht zu haben!

Benno
der den TCEC-Modus super findet, auch wenn die Schwächeren durch den Sieger ggf. nicht so gnadenlos weggepuschert werden, wie es möglich wäre.
Parent - - By Andreas Aicher Date 2014-05-28 19:21
das ist eben des Pudels Kern, ob die Testerei gegen wenige, vermeitlich beste Engines wirklich nicht das gelbe vom Ei ist. Ich bin mir da nicht ganz sicher, ob es wirklich so ist, bei genauer Betrachtung.
Es wurde ja vorhin, wohl zur Untermalung der eigenen Theorie, das Beispiel Carlsen genannt, aber gerade die Tipspieler spielen doch quasi immer nur gegen sich selbst, immer nur in Topturnieren, immer mit den Top 10 der Weltrangliste.
Hat sich das schon jemals die Frage gestellt, wie diese Topspieler gegen zB 2500er GM abschneiden würde.
Will damit nur sagen, dass auch eine Rangliste mit nur den Top 3 oder 4 seine Berechtigung, die Engine die da gewinnt ist die Beste, finde ich, nicht die, die vielleicht gegen 300 Elo schwächere Gegner ein paar Remis weniger vermeiden kann, noch dazu bei Bedenkzeiten, die die schwächeren Engines, weil sie noch leichter überrechnet werden, benachteiligen.
Für mich ist das alles nicht bewiesen, eine ultimative Rangliste wird es daher nicht geben, oder erst wenn Stockfish wirklich in allen Bedenkzeiten und allen, mehr oder weniger willkürlichen Bedingungen, am meisten Elo haben wird, d. h. eine Engine wirklich alles nur erdenkliche beherrscht.
Solange eine Mentalität herrscht, dass 52 oder 64 oder, wenn man die Vorrunden mitzählt noch mehr Partien mit solch speziellen Bedingungen einfach als zuwenig sieht, als überhaupt nicht aussagekräfig, kann ich mit Computerschach oder besser mit den Computerschächern nicht mehr viel anfangen, mir fehlt da inzwischen jedes Verständnis für diese "Spezialdisziplin" im Computerschach, eine meiner Meinung nach abschreckende.

Andreas
Parent - - By Benno Hartwig Date 2014-05-28 19:59

> ob die Testerei gegen wenige, vermeitlich beste Engines wirklich nicht das gelbe vom Ei ist.


Was ist denn nun aber eigentlich und wirklich das wirklich Gelbe vom Ei.
Ich suche dieses Gelbe schon im Wesentlichen in Spielen gegen die starken Gegner, insbesondere gegen den/die direkten Konkurrenten.
Mit viel Sympathie für den TCEC-Ansatz.

> Solange eine Mentalität herrscht, dass 52 oder 64 oder, wenn man die Vorrunden mitzählt noch mehr Partien mit solch speziellen Bedingungen einfach als zuwenig sieht...


Zu wenig wofür? Manches kann man da ja sehen.
Und mancher will daraus auch zu viel lesen.
Es gibt, wie so oft, mehrere Fehler, die man machen kann.

Benno
Parent - By Frank Quisinsky Date 2014-05-30 02:51 Edited 2014-05-30 03:16
Hi Benno,

das gelbe vom Ei ist im Computerschach das, was einem selbst wichtig ist.
Das Ultimative für alles geltende gibt es nicht, da können wir noch so sehr auf die Jagd danach gehen.
Wir haben zu viele Beeinflussungsfaktoren bei den Spielstärkemessungen, die zwar alle für sich _meist_ geringe Auswirkungen zeigen aber in der Gesamtheit dann ein Ergebnis erheblich beeinflussen können.

Jeder muss für sich selbst herausfinden was einem wichtig ist.

Bei mir ist es ...

1. Wie lange kann ich konzentriert auf dem hohen Nivau einer Partie von TOP-50 Engines folgen beim direkten Zusehen?
Maximal eine Stunde pro Partie, erst Recht dann wenn ich ne zweite oder dritte Partie anhänge.

2. Wann kann ich Erkenntnisse aus dem Zusehen erzwingen (soll mir ja auch etwas bringen ... wenn es mir nichts bringt ... Selbstzweck?
Wenn ich ausreichend Zeit zum Zusehen habe.

3. Welche Engines sind mir wichtig?
Die, die unterschiedlich spielen. Mir sind Arbeiten von Programmierern wichtig, die wirklich entwickeln und die auch in der Lage sind sich etwas selbst zu erarbeiten. Versuche mir ja auch stetig etwas selbst zu erarbeiten bzw. versuchte das im Computerschach von je her. Ich halte nichts davon zu kopieren und habe da meine Prinzipien.

4. Für mich stellen die besten unterschiedlichen Entwicklungen die Nummer 1. Es müssen mehr als 20 unterschiedliche zur Messung herangezogen werden und ein Ergebnis sollte auf ca. 10 maximal 20 Elo genau sein. 10-20 Elo wäre bei einer dreistelligen Wertungszahl eine Kommastelle ... das reicht mir. Und für mich ist wichtig das herauszufinden unter den Bedingungen die ich maximal selbst einsetzen würde.

Etc..

Und darauf baue ich dann meinen Beitrag für die Computerschachgemeinde und vor allem ... für mich selbst ... auf. Haben andere Spaß daran freue ich mich und wenn nicht dann nicht.

Mit dem Ergebnis:
Ich habe das Ergebnis was ich mir wünsche aus eigener Kraft ermittelt und versuche das so gut es geht darzustellen! Damit vielleicht andere einen Nutzen daraus haben. Warum auch nicht, ich teile meine Erkenntnisse immer in der Hoffnung einen Beitrag für dieses Hobby zu leisten. Denn nur so kann ich mir sicher sein, dass mein Beitrag vielleicht auch dazu führt, dass Andere verwerten und wieder neue Ideen einfließen lassen, die ich selbst einsetzen könnte. Was auch immer ich dahingehend schon alles gemacht habe.

Gebe Dir etwas ...
Möchtest Du mir etwas geben ...

Wichtig ist lediglich die Information zu tauschen.
Wer tauscht der leistet immer einen Beitrag!
Ob wertvoll oder nicht ... wenn wertvoll für den der tauscht dann wertvoll.
Ob wirklich wertvoll für den der darstellt ist leicht zu erkennen an der Mühe die dem zu Grunde liegt.

Wenn ich mir nun die Frage stelle ist es Stockfish oder ist es Komodo ... dann kann ich mir die Frage doch sehr einfach selbst beantworten mit den Erkenntnissen die ich selbst gewonnen habe und natürlich auch mit den Erkenntnissen die für mich logisch nachvollziehbar von anderen gewonnen wurden. Das Problem was wir im Computerschach oder in Foren haben ... viele Erkenntnisse die ich in Ergänzung zu den eigenen heranholen kann gibt es nicht, denn viele Quellen sind mir zu schwammig und in sich nicht logisch, meist auch gar nicht nachvollziehbar weil die Daten fehlen, die Infos einfach von logischen Quellen zu sehr abweichend sind. Aber die Frage stelle ich mir im Grunde gar nicht mehr, denn für mich in sich schlüssige und logische Quellen bestätigen meist das was ich selbst herausfinde. Und wenn nicht ... PRIMA ... ich habe dazugelernt.

Finde das sinnbildlich was Andreas Aicher schreibt für so viele Schachfreunde mit denen ich seit vielen Jahren einen intensiven eMail Kontakt pflege. Es gibt kaum Personen, die sich wirklich auf einem höheren Niveau mit Computerschach, beschäftigen abweichende Meinungen zu Standard Fragen. Nicht die Ratinglisten selbst sind für echte Computerschächler wichtig, sondern die Infos die aus diesen Listen hervor gehen und damit meine ich nicht die nackten Zahlen oder die bloßen Partien für die Buchersteller oder Partiesammler.

Und genau das ist der Punkt warum ich schreibe das das Niveau in den letzten Jahren hinsichtlich Foren nachgelassen hat. Es gibt immer mal Ausnahmen und interessantes in den Foren nachzulesen und es gibt immer noch reichlich Personen die sich bemühen mit wirklich guten Beiträgen und nicht zuletzt deswegen existiert dieses Forum überhaupt noch. Auch wenn natürlich die Anzahl derjenigen die provokativ unterwegs sind nie gänzlich verschwinden wird. Aber auch diese Personen sind wichtig, können sehr schön für den Zweck etwas darzustellen ausgenutzt werden.

Aber die Frage was ist das gelbe von Ei kann nur beantwortet werden mit ...
Das gelbe vom Ei ist das was Dir wichtig ist.
Ist es Houdini, ja mein Gott dann ist Houdini für Dich das gelbe vom Ei und Punkt.
Das ist OK für sicherlich jeden Leser hier, denn jeder soll ja Spaß am Hobby haben.
Für den einen sind es die Clones die den Spaß bereiten für den anderen eher die andere Dinge.
Mit den Clones müssen wir leben, der eine so der andere anders.
Mit den 1+1 Ergebnissen müssen wir auch leben und es gibt viele Fans die das toll finden.
Ich stelle mir nur die Frage schaut sich ein 1+1 Partie Ersteller wirklich intensiv 1+1 Ergebnissen von anderen an

Jeder muss das für sich entscheiden ...
Aber das gelbe vom Ei gibt es nicht, zu viele beeinflussende Faktoren, die mit Statistik nicht auszugleichen bzw. wegzureden sind.

Gruß
Frank

Wenn jemand behauptet ...
Das ist die beste Ratingliste oder das ist die weltweit beste Ratingliste ... dann bewertet er im Grunde seine eigene Meinung.
Gehe ja immer noch davon aus, dass die Betrachter so intelligent sind sich ihre eigene Meinung über Qualität und ernsthaften testen mit nachvollziehbaren Ergebnissen selbst zu bilden. Auch im Zeitalter wo die Erwartungshaltung so groß ist, dass Leute gar beleidigt sind wenn nicht wie gewünscht serviert wird.
Würde daher niemals mit solchen dummen Sprüchen um die Ecke kommen.
Wenn jemand z. B. denkt die Arbeit gefällt mir und das ist plausibel ... ist das doch prima!

Ganz unabhängig davon ...
Ich demonstriere gerade das jeder selbst eine Ratingliste in kurzer Zeit aufbauen kann und sich dann zu seinen Bedingungen selbst seine Meinung sehr einfach selbst bilden kann. Verstehe nicht warum so wenige das nicht in Angriff nehmen. Macht Spaß und der Lernfaktor ist gewaltig.
- By Bernhard Traven Date 2014-05-26 17:39
alles klar jetzt, ich danke euch!!
- By Tom Date 2014-05-28 16:48
Zitat:
+62 ELO Spielstärkeunterschied
58,82%


Ein schönes Ergebnis für Stockfish, aber woher willst du wissen, dass Stockfish "nur" 62 Elopunkte es könnten auch 112 oder "nur" 12 Elopunkte sein. Da dass Ergebnis deutlich ist, kann mit großer Wahrscheinlichkeit angenommen werden, dass Stockfish stärker als Komodo ist, aber wieviel stärker kann man nur einschränkend sagen. Ein hohes eindeutiges Ergebnis macht das Ergebnis auch nicht richtiger und wichtiger, sondern lediglich die Aussage, welche der beiden Engines die bessere ist kann durch ein sehr deutliches Ergebnis bestimmt werden. Stockfish ist auch erst die Nummer 1 wenn ein offizielles Release da ist und diese sich als stärker als alle anderen Engines erweist. Eine Houdini Developmentversion wäre möglicherweise auch konkurrenzfähig und man muss sich fragen, ob es daher fair wäre eine Developmentversion von Stockfish zu testen und diese dann als Nummer 1 zu betrachten. Ingos Aussagen hier im Thread finde ich sehr treffend und finde seine Ratingliste sehr interessant und gut, wenn es darum geht die allgemeine Spielstärke einer Engine einzuschätzen. Stefan Pohls Ratingliste sagt aus meiner Sicht weniger über die allgemeine Spielstärke der Engines aus, sondern sie ist gut wenn man wissen möchte, wer wessen Lieblingsgegner ist und wie sich Engine X im Vergleich zu Engine Y verhält -dies ist auch eine interessante Info.

Beste Grüße
Tom
Up Topic Hauptforen / CSS-Forum / IPON Test von Komodo 7a läuft
1 2 Previous Next  

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill