Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Houdini 2.0 running for the IPON
1 2 3 Previous Next  
Parent - - By Thomas Müller Date 2011-09-07 15:49
Das ich das so nicht gemeint habe wie du es jetzt zusammenwürfelst kann man sich denken...muss man aber nicht.
Mit genügend verschiedene meine ich deutlich mehr als 20
Und ich meine damit auch nicht dass dort dann 8 robo,ivans usw. drin sind. oder nur 3 gute und 17 die keinen blumentopf gegen die anderen holen.
Was mich interessiert findest du hier... http://tomteipel.de/info-1.html z.B.
Interessieren tut mich "fast" jede engine.

Stellungstests gab es gute ansätze mit z.B STS. Aber da kamen dann neue dazu und man hätte praktisch von vorne beginne müssen mit einer Liste.
Den Aufwand konnte ich zeitlich nicht mehr einbringen.
Parent - - By Peter Martan Date 2011-09-07 16:02
[quote="Thomas Müller"]
Und ich meine damit auch nicht dass dort dann 8 robo,ivans usw. drin sind. oder nur 3 gute und 17 die keinen blumentopf gegen die anderen holen.
[/quote]

War mir schon klar, Thomas, ich wollte es nur im Sinne von quod erat und so weiter so klar machen, wie's halt eigentlich ist.

[quote="Thomas Müller"]
Was mich interessiert findest du hier... http://tomteipel.de/info-1.html z.B.
Interessieren tut mich "fast" jede engine.
[/quote]

Kenn ich auch, deine Superseiten, Thomas, you're very welcome.
Dass dich "fast" jede engine interessiert, ehrt dich auch, welche du links liegen lässt, ist deine eigene Entscheidung und niemand will sie dir missgönnen, dass es Willkür ist und in Zeiten wie diesen (Zitat Bruno Kreisky ) mehr und mehr Einfluss auf die ratings hat, das wollte ich nur nicht unverommen verschallen lassen, wenn ich Thorsten richtig verstehe, stösst er für mich geradezu imposant und unüberhörbar laut und deutlich in selbiges Horn. (Ich selber hab sowas so klar und einfach noch selten geschafft, drum mein full quote, halten zu Gnaden, da war ich ansonsten im Sinne der Leserschaft noch ganz still, man gönnt mir diese Ruhe halt auch immer wieder nicht ).

[quote="Thomas Müller"]
Stellungstests gab es gute ansätze mit z.B STS. Aber da kamen dann neue dazu und man hätte praktisch von vorne beginne müssen mit einer Liste.
Den Aufwand konnte ich zeitlich nicht mehr einbringen.
[/quote]

Den Aufwand, deine Listen, wie sie dich interessieren, ständig neu weiterspielen zu lassen, erbringst du für dich selber lieber, kann ich durchaus verstehen, ansonsten könntest du es natürlich auch umgekehrt machen, so wie ich.

Ich gehe damit schon lang nicht mehr in die Öffentlichkeit, nicht aus Rücksicht auf die Umwelt, sondern weil ich für mich schon lange die Erkenntnis gewonnen habe, so wie mich das und jenes interessiert, interessiert es sonst kaum eine Sau, um noch einmal unser aller verehrten Michael Scheidl zu zitieren, gell, Michael?
Parent - - By Thomas Müller Date 2011-09-07 16:14
ok...dann verstehen wir uns ja
Danke!

Ja klar mach ich das primär für mich selber.
Teile es aber auch gerne (noch) der öffentlichkeit mit.
Ich weiß, irgendwann kommt der punkt da höre ich auf oder mach es ganz anders?!
Keine ahnung was die nächsten jahre da noch bringen und in dem bereich noch passiert.

gruß thomas
Parent - By Frank Quisinsky Date 2011-09-07 20:59
Hallo Thomas,

genau, denn immer das Gleiche tun ist langweilig.
Bin auch am Überlegen was ich dann tun werde.

Nächster Bereich den ich in Angriff nehme sind wahrscheinlich Stellungstypen um mehr über Spielstile zu erfahren. Als Material hierfür nutze ich natürlich wieder eigenes, also die SWCR Datenbank. Ergänzend hierzu vielleicht noch die weitere Optimierung vom eigenen SWCR Eröffnungsbuch.

Mal schauen ...

Gruß
Frank
Parent - - By Thorsten Czub Date 2011-09-11 13:19 Edited 2011-09-11 13:36
hier die "leistung" von Komodo auf meinen Maschinen in meinen Turnieren:

http://schachcomputerwelt.foren-city.de/topic,417,-der-neue-houdini-2-0-in-meinen-turnieren.html#2056
Parent - - By Frank Brenner Date 2011-09-11 13:55
Seit etwa 25 Jahren fällt mir auf, dass bei dir stets diejenigen Engines/Computer/Programme überdurchschnittlich besser im Vergleich zu anderen Listen abschneiden, mit deren autor(en) du sympathisierst. Umgekehrt fallen bei dir diejenigen Engines relativ gesehen etwas ab, zu deren Autor(en)/Vertriebsfirmen du eher eine kritische Einstellung hast.
Parent - - By Thorsten Czub Date 2011-09-11 18:26 Edited 2011-09-11 18:30
aha. und wie mach ich das ? telepathische beeinflussung von arena während ich schlafe oder auf dem klo sitze ?

es ist einfach so das jeder gegen jeden andere ergebnisse bringt als matches mit vielen partien gegen 1 gegner.
bei mir wechselt nach jeder partie der gegner. die programme können sich nicht in langen matches aufeinander einschiessen, wie sie das immer machen. das problem gab es schon zu zeiten des autoplayers, wenn nach vielen partien gegen einen gegner die bibis sich ineinandergekrallt hatten und fast nur noch bestimmte zuege gespielt wurden.

ich nehme an deine bemerkung ist einfach eine denunziation. fakt ist z.B. das ich mit richard vida gar keinen kontakt habe. das seine engine in meinen turnieren trotzdem vor houdini oben landet ist doch erstaunlich, widerlegt es doch deine these.

probiert es doch selber mal mit einem turnier unter arena aus.

P.S.:
zum diffamieren gehört ja auch das man es anonym macht, gelle.
Und wo habe ich zu houdarts "vertriebsfirma" ein kritisches Verhältnis ??
Und chessbase engines spielen doch kaum mit (sind mir zu schwach deswegen
teste ich die erst gar nicht

Also rueck raus mit der sprache.
Parent - - By Benno Hartwig Date 2011-09-11 19:35
[quote="Thorsten Czub"]die programme können sich nicht in langen matches aufeinander einschiessen,[/quote]Ist es denn tatsächlich aussagekräftig beobachtet, dass einigermaßen moderne Engines zu Beginn einer Serie ein Spielstärkeverhältnis zeigen können, und dann nach einiger Zeit, wenn sie sich aufeinander 'eingeschossen' haben ein signifikant anderes?
Auf mich wirkt das doch reichlich mystisch. Ich erwarte da keine tatsächlich wahrehmbaren Effekte.

Benno
(Nein, irgendwelche eventuellen Mutmaßungen, du würdest ggf. Einfluss nehmen oder gar türken, will ich damit ganz sicher nicht unterstützen!)
Parent - - By Thorsten Czub Date 2011-09-11 20:10
na irgendeine erklärung, also eine rationale , muss es ja geben.

an zufall mag ich nicht glauben. arena ist eine GUI die ueberall verwendet wird.
warum sollte critter also woanders so schwach spielen und bei mir stärker ?

ich kann mir das nur so erklären das in anderen listen die engines nicht jeder gegen jeden spielen.
sondern gegen eine ausgewählte GRUPPE von kontrahenten die relativ gesehen kleiner ist als
das jeder gegen jeden in meinem turnier, oder das die programme DORT gegen einen gegner
hintereinander viele partien spielen während in meinem turnier die gegner mit jeder partie wechseln.

oder was hättest du fuer erklärungen ?
Parent - - By Benno Hartwig Date 2011-09-11 21:58
[quote="Thorsten Czub"]oder was hättest du fuer erklärungen ?[/quote]Vielleicht hätte ich auch dann keine, wenn ich genaer um euer Vorgehen wüsste, aus der Ferne habe ich schon gar keinen.
Dein 'aufeinander einschießen'-Gedanke erscheint mir aber ausgeprochen esotherisch.
Benno
Parent - - By Thorsten Czub Date 2011-09-11 23:14 Edited 2011-09-11 23:21
esoterisch ?

ich erinnere mich noch sehr genau an die autoplayer zeiten und wie wir damals (in den autoplayer zeiten konnte man nicht EINFACH SO wie unter arena den gegner wechseln) matches gemacht haben.
und du kannst mir glauben : die engines schiessen sich bibi mässig aufeinander ein mit ihren lernfunktionen. und ganz arm dran waren die engines die kein lernen hatten, weil die immer wieder in dieselbe eröffnung liefen in der sie schon zuvor verloren hatten.

die varianz der buecher lässt dann stetig nach. die verlierende engine versucht eine andere eröffnung zu spielen. 

Daran ist nix esoterisch. das sind normale beobachtungen aus der autoplayer zeit, wo damals NUR engine engine matches durchgefuehrt werden konnten.

heute können wir mit einem rechner gleich mehrere machen.
damals mussten wir 2 rechner nehmen und die wurden ueber 1 autoplayer-kabel verbunden. wechseln konnte man die engines dann nur indem man das ganze händisch abbricht und andere engines einläd.

ich kann mir nicht vorstellen das die fähigkeit der engines zu lernen und die bibis dabei zu variieren, nach dieser autoplayer-zeit nachgelassen hat.

Bei der DOS version von CSTAL hatten wir bei jeder gelernten Stellung einen PIEPTON eingefuehrt.
Mach da mal ein autoplayer-turnier mit und höre dir das gepiepe an während eines matches ! wenn sich die engine durch die bereits gelernten buchvarianten hangelt.
probiere es doch mal aus ! hör dir das gepiepe an und sag mir dann das das einbildung oder esoterik ist.

(das war die zeit als ich mir an den Tower-PC-Lautsprecher einen schalter drangebaut hatte um den sound des eingebauten Lautsprechers abzuschalten).
Parent - - By Michael Scheidl Date 2011-09-11 23:27
Das wird ja heute überhaupt nicht mehr so gemacht... Oft werden vorgegebene Eröffnungssets verwendet (ich glaube, sowohl bei IPON als auch bei The Base), oder neutrale Testbücher ohne Buchlernen. Manche Tester deaktivieren sogar das Stellungslernen. Somit kann es nach menschlichem Ermessen in aktuellen Ranglistentests einen solchen "Einschieß-Effekt" nicht mehr geben.

Außer vielleicht bei SSDF, als Traditionspflege
Parent - - By Thorsten Czub Date 2011-09-12 00:21
na wenn man das lernen ausschaltet produzieren die geräte ja duplikate bei den partien.
Parent - - By Michael Scheidl Date 2011-09-12 00:52
Nein, man hat z.B. ein Eröffnungsset mit 50 verschiedenen Varianten. Bei jeder Enginepaarung über den gesamten Testlauf werden dann inkl. Seitenwechsel je 100 Partien X vs. Y damit ausgetragen. Somit kann es keine Doubletten geben.

(Identische Partien bzw. Zugfolgen, aber nicht mit denselben Gegnern auf derselben Seite, sind vielleicht theoretisch möglich aber das wäre ziemlich exotisch.)
Parent - - By Thorsten Czub Date 2011-09-12 01:06
dann spielen die Programme aber nicht mehr aus ihren Buechern.
Wenn man dann eine ELO testet, testet man also die reine ELO der engines .
Wenn nun andere ELO listen, oder z.B. ich, mit meiner anderen Vorgehensweise
(ich benutze bibis), elos oder rangfolgen ermitteln, sind diese ganz anders als die ELOs
eines Testers der OHNE bibi aus vorgabestellungen testet.

das muesste ja eigentlich jedem einleuchten.

das ist ungefähr so als ob ein tester seine autos ueber die autobahn jagt und testet wie toll die da fahren und ein anderer testet wie gut die autos im wald oder am sandstrand fahren.

da kann man schon mal zu anderen ergebnissen kommen.

es gibt schachprogramme die riesige bibis haben die SEHR ausgekluegelte lernmechanismen haben.
ein beispiel wäre da PRODEO und sein Buch.

in meinen turnieren spielen alle programme die mit einer bibi serienmässig mitgeliefert werden, mit dieser mitgelieferten bibi. die anderen programme bekommen arena mainbook.
Parent - - By Kurt Utzinger Date 2011-09-12 07:57
[quote="Thorsten Czub"]
dann spielen die Programme aber nicht mehr aus ihren Buechern.
Wenn man dann eine ELO testet, testet man also die reine ELO der engines .
Wenn nun andere ELO listen, oder z.B. ich, mit meiner anderen Vorgehensweise
(ich benutze bibis), elos oder rangfolgen ermitteln, sind diese ganz anders als die ELOs
eines Testers der OHNE bibi aus vorgabestellungen testet.

das muesste ja eigentlich jedem einleuchten.

das ist ungefähr so als ob ein tester seine autos ueber die autobahn jagt und testet wie toll die da fahren und ein anderer testet wie gut die autos im wald oder am sandstrand fahren.

da kann man schon mal zu anderen ergebnissen kommen.

es gibt schachprogramme die riesige bibis haben die SEHR ausgekluegelte lernmechanismen haben.
ein beispiel wäre da PRODEO und sein Buch.

in meinen turnieren spielen alle programme die mit einer bibi serienmässig mitgeliefert werden, mit dieser mitgelieferten bibi. die anderen programme bekommen arena mainbook.
[/quote]

Lieber Thorsten

Das Spielen zwecks Testerei mit eigenen Eröffnungsbüchern ist nicht zielführend. Man ja weiss, was
teilweise für Mist in den Büchern steht, die dann eben das Ergebnis ungünstig beeinflussen können.
Wir wollen schliesslich wissen, wie stark die Engines wirklich sind und nicht wie gut/schlecht die Bücher sind.
Mit anderen Worten: für mich sind Ranglisten, die aus Engines-Matches stammen, wo jeweils die eigenen
Bücher verwendet werden, bezüglich der effektiven Spielstärke der Engines einigermassen irrelevant. Das
ist aber auch logisch, denn nur wenn die Programme die selben Eröffnungen mit beiden Farben spielen
müssen, herrschen identische Grundvoraussetzungen, die einen seriösen Vergleich überhaupt möglich
machen. Ich kann deshalb deshalb Deine Sichtweise überhaupt nicht verstehen.

Gruss
Kurt
Parent - - By Thorsten Czub Date 2011-09-12 09:01
nun die buecher gehören zum lieferumfang der geräte.
bei den alten schachcomputern war das auch so.

es ist eben geschmackssache ob man ertestet wie die engine + bibi zusammen spielen,
oder nur die engine testet.

in der praxis wird das schachprogramm ja zugriff auf seine bibi haben.

der mensch ja auch. ich kenne keinen menschen dessen ELO Zahl ermittelt wurde
OHNE sein bibi wissen zu beruecksichtigen.
Parent - - By Thomas Müller Date 2011-09-12 11:44
das ist aber dann auch kein wunder, dass bei dir was ganz anderes rauskommt als bei ALLEN anderen
Dann hast du einen mix aus engines und büchern und was weiß ich noch alles?!
Ich muss zugeben, dass ich keine ahnung habe wie mitgelieferte bücher bei engines aussehen bzw welche qualität die haben, weil ich die noch nie benutzt habe.
Meistens sind die doch recht schmal gehalten in den varianten denke ich.

Naja...aber mach du ruhig deine turniere. Macht ja auch spaß denke ich.
Nur so ganz glauben wird dir das keiner, dass critter stärker ist als houdini

gruß thomas
Parent - By Thorsten Czub Date 2011-09-12 15:12
wenn er in den turnieren vorn liegt ist er besser.
und manche glauben an jesus, andere
an jungfrauengeburt. wenn houdini so stark
wäre könnte er das ruhig auch mal zeigen und
den critter in die schranken weisen.

wie machst du das bei den menschen?
sollen die elos da demnächst nur noch im
frc-gelten und die alten elos geloescht werden
wegen der eroeffnungstheorie?
Parent - - By Kurt Utzinger Date 2011-09-12 12:56
[quote="Thorsten Czub"]
nun die buecher gehören zum lieferumfang der geräte.
bei den alten schachcomputern war das auch so.

es ist eben geschmackssache ob man ertestet wie die engine + bibi zusammen spielen,
oder nur die engine testet.

in der praxis wird das schachprogramm ja zugriff auf seine bibi haben.

der mensch ja auch. ich kenne keinen menschen dessen ELO Zahl ermittelt wurde
OHNE sein bibi wissen zu beruecksichtigen.
[/quote]

Hi Thorsten
Das ist alles richtig, aber ändert nichts an der Tatsache, dass für alle jene, die nur an der reinen Engine-Stärke interessiert sind, Tests mit eigenen Büchern nicht von Interesse sind, weil eben die grundlegenden Parameter für eine gleichartige Ausgangslage nicht gegeben sind. Und wenn man noch berücksichtigt, auf welche Art und Weise die Engine-Bücher entstehen, dann wird die Ungleichheit der Programme in der Eröffnung noch verstärkt. Da gibt es Programme, die sehr sorgfältig abgestimmte Bücher haben, andere wieder simpel aus X-Tausenden Partien generierte Bücher, usw. Solche Ungleichheiten gibt es im Menschenschach auf GM-Ebene nicht, weil jeder GM sich sehr sorgfältig auf "seine Eröffnungen" vorbereitet. Wenn Du also mit Deinen Tests zu abweichenden Ergebnissen kommst, dann ist das schon fast selbstverständlich und auch gut erklärbar. Indessen finde ich es vor diesem Hintergrund nicht richtig von Dir, behaupten zu wollen, dass beispielsweise Houdini nicht so gut sei.
Gruss
Kurt
Gruss
Kurt
Parent - By Thorsten Czub Date 2011-09-12 15:20
im menschenschach hast du auch keine elo die abzueglich theoriwissen ermittelt.
alle menschenelos sind inklusive theoriewissen.
man sollte die ermittelte spielstaerke dann vielleicht
elo- nennen oder frc-elo.
Parent - - By Benno Hartwig Date 2011-09-12 13:07
[quote="Thorsten Czub"]na wenn man das lernen ausschaltet produzieren die geräte ja duplikate bei den partien.[/quote]Wie sieht das eigentlich praktisch aus, wenn ich viele Partien mit gleicher Ausgangsstellung und gleichen Rahmenbedingungen zweier Engines mache: Kommen da eigentlich wirklich dauernd dieselben Partien heraus?
Ich hatte bislang überhaupt nicht solch einen Eindruck! Schließlich reicht eine einzige geänderte Zugwahl einer Engine aus, um eine von hier ab ganz neue Partie zu generieren.
Nach meinem Eindruck passieren solche Partiewiederholungen selbst bei 1core-Engines kaum, und wenn die Engines mehrere Kerne nutzen, dann ist die Variantenbreite noch größer!

Konkret:
Es spielen zwei moderne Engines aus einer Ausgleichsstellung eine Partie.
Mit welcher Wahrscheinlichkeit produzieren sie bei gleichen Rahmenbedingungen in einer zweiten Partie genau dieselbe Partie noch einmal?
Wirklich mehr als eine ausgesprochen minimalistische Chance?

Benno
Parent - - By Michael Scheidl Date 2011-09-12 13:38 Edited 2011-09-12 13:46
Zitat:
Es spielen zwei moderne Engines aus einer Ausgleichsstellung eine Partie. Mit welcher Wahrscheinlichkeit produzieren sie bei gleichen Rahmenbedingungen in einer zweiten Partie genau dieselbe Partie noch einmal?


Die Wahrscheinlichkeit beträgt ~67%!

(Das war allerdings zwischen IIRC sehr ähnlichen Engines.)

Woher ich das weiß? Ich muß es vorerst aus der Erinnerung zitieren. Vor einigen Monaten veröffentlichte jemand völlig Inkompetenter ein Zweikampf-Ergebnis von ca. 3000 Partien total ohne Buch (kotz!...) und wunderte sich, daß sein Resultat ganz anders war als zu erwarten. Als fleißiger(*) Computerschachfan habe ich mir das en detail angesehen und stellt fest, daß rund 2000 von diesen 3000 Partien identische, kurze Remispartien waren (X-Y aber auch Y-X).

D.h., statt das "echte" Zweikampfergebnis aus - vereinfacht gesagt - 1002 Partien zu generieren, hat der ein- und dieselben Remispartien X-Y und Y-X weitere je 1999 mal wiederholt in das Ergebnis einfließen lassen, was natürlich zu einer gewaltigen Nivellierung führte.

Möglicherweise ist der Haupteffekt fehlerhafter Testkonfigurationen immer die Nivellierung (inkl. statistischer Unsicherheiten).

Ich werde später versuchen die Original-Postings zu diesem obszönen Ereignis aufzufinden und zu verlinken. 

*) man soll sich oft selbst loben, damit das Lob von kompetenter Stelle kommt.
Parent - - By Benno Hartwig Date 2011-09-12 16:08
[quote="Michael Scheidl"]Die Wahrscheinlichkeit beträgt ~67%!
Ich werde später versuchen die Original-Postings zu diesem obszönen Ereignis aufzufinden und zu verlinken.  [/quote]Hübsch. Ja ich fänd den Link interessant.
Als ich vor kurzem aus bestimmten Ausgangsstellungen eine Testengine gegen 5 bestimmte Gegner spielen ließ, dies bei leicht veränderten Zeiten und auch auf verschiedenen Rechnern einige Male wiederholte, hatte ich auch zunächst Angst, ich würde Identischens immer wieder erneut durchrechnen lassen.
Obwohl die Ergebnisse (die Erfolgsqzoten meiner Testengine) schon sehr ähnlich waren, gab es Remisen und Siege und Niederlagen zu den einzelnen Stellungen doch erstaunlich stark gemischt!
Bei fast gleichen Rahmenbedingungen und gleicher Ausgangsstellung, Farbe und gleichem Gegner, hat meine auf Stockfish basierende Testengine munter Siege, Niederlagen und remisen produziert.
Gravierend unterschiedliche Ergebnisse. OK, wieviele unterschiedliche Partien letztlich dahinter steckten, habe ich nicht gepfüft.
Aber daher meine Schätzung, dass kleine Unterschiede in der Rechnerauslastung über den Partieverlauf hin zu etwas anderem Zeitmanagement führen und daher meist früher oder später zu einem anderen Partieverlauf.

Aber dein Hinweis deutet wohl in die entgegengesetzte Richtung.
Interessant.

Benno
Parent - - By Ingo Bauer Date 2011-09-12 17:04
Moin,

Bei 130000 Spielen hatte ich mal nachgesehen ob ich doppelte Partien in meiner Liste habe und war sehr erstaunt das ich NICHT EINE doppelte Partie dabei hatte. 67% scheint mir jedenfalls viel zu groß, sofern man halbwegs ordentliche Eröffnungsstellungen nimmt. Hat man natürlich eine Stellung dabei die ganz schnell in eine dreifache Stellungswiederholung führt kann so etwas natürlich vorkommen. Das ist dann aber nicht den Engines geschuldet, sondern demjenigen der diese Eröffnungen ausgesucht hat.

Gruß
Ingo
Parent - By Benno Hartwig Date 2011-09-12 20:56
[quote="Ingo Bauer"]Hat man natürlich eine Stellung dabei die ganz schnell in eine dreifache Stellungswiederholung führt kann so etwas natürlich vorkommen. Das ist dann aber nicht den Engines geschuldet, sondern demjenigen der diese Eröffnungen ausgesucht hat.[/quote]Klar, wenn eine Engine schlechter zu starten hat und dann aber kurzfristig in ein solches Remis abwickeln kann, dann wird man gleiche (Kurz)Partien erhaten, von diversen Engines und auch sehr vielen Menschen.
Meine Tests liefen mit den Nunn-Stellungen, den Noomen-Stelungen und 9 eigenen, die stets nur 2 Züge nach der Ausgangsstellung lagen, wohl recht ausgeglichen waren, und die Engines zum sofortigen Rechnen brachten (a3, h6 zum Beispiel).
Die Ergebnisse waren, selbst bel gleichen Engine-Paarungen, von den Ergebnissen her ausgesprochen kunterbunt.
Benno
Parent - - By Frank Brenner Date 2011-09-11 19:54
> aha. und wie mach ich das ? telepathische beeinflussung von arena während ich schlafe oder auf dem klo sitze ?

Sag du es mir.

Es ist nur eine Beobachtung dass deine Ergebnisse immer recht exzentrisch sind.
Parent - By Thorsten Czub Date 2011-09-12 00:18
man macht den rechner an. startet arena. drueckt f9 und klickt auf fortsetzen. und dann geht der rest automatisch

ist das schon esoterik oder technik ?
Parent - - By Michael Scheidl Date 2011-09-11 19:57 Edited 2011-09-11 20:03
Als ich mir diese Turniertabellen auf die Du oben verlinkt hast, angesehen habe, war mein erster Eindruck daß die Abstände zwischen den Topengines auffallend gering sind (zusätzlich zur z.T. "unerwarteten" Rangfolge). Jetzt habe ich einen zweiten Blick darauf geworfen, und glaube den methodischen Faktor gefunden zu haben der das bewirkt:

Du läßt viele - relativ gesehen - schwache Engines mitspielen.

Diese wirken sich auf die Resultate der Top-Engines nivellierend aus, weil jede der Top-10 diese "vernichtend" schlägt, also innerhalb der Top-10 anhand dessen kaum Unterschiede abgebildet werden. Man braucht hierzu nur in die rechte obere Ecke der Tabellen schauen, wo es von Einsen wimmelt. Wenn sich hie und da die klar unterlegene Engine in ein Remis rettet, hat das vermutlich wenig damit zu tun ob der Gegner Houdini oder Komodo oder Critter war.

Das heißt, die Rangfolge innerhalb der Top-Gruppe wird weitaus überwiegend durch die Partie selbiger gegeneinander bestimmt, und das sind aber nur jeweils 3...6 Partien je Paarung. Somit ist das statistisch relativ unsicher.

Eventuell wäre interessant, eine Gesamtauswertung all dieser Turniere zusammen zu machen, um zu sehen ob dann trotz dieses nivellierenden Faktors zahlreicher "chancenloser" Engines die Rangfolge im oberen Bereich den üblichen Ratinglisten ähnlicher ist, wenn sozusagen die Gesamt-Datenbasis größer ist.

Es ist eine Frage der Betrachtungsweise, was "richtiger" ist, mit oder ohne diese vielen schaumgebremsten Engines... Für eine übliche Anwendung bzw. "Normalpraxis" wie ich gerne sage, hat die Performance einer Top-10-Engine gegen Gegner wie SOS, Ruffian oder Comet wohl keine Bedeutung mehr. Das waren und sind  gute Engines! Aber sie wurden im Laufe der Jahre eben von der Entwicklung total überrollt. Genau aus diesem Grund habe ich auch meinen "Blivorix" mit dem damals definierten, sich alsbald als viel zu schwach herausstellenden Gegnerteam eingestellt.
Parent - By Thorsten Czub Date 2011-09-11 20:19 Edited 2011-09-11 20:22
aber da ist es doch schon wieder...
du sagst: chancenlose engines.

und im nächsten augenblick sagst du: wenn die dann mal ein remis oder einen sieg holen...

meinst du denn wenn du nun die CHANCENLOSEN engines einfach wegnimmst,
also aus der versuchsanordnung herausnimmst, bekommst
du eine exaktere ELO ? ich glaube das nicht.

guck dir doch die Fussballbundesliga an.

Chancenlose Mannschaften wie Borussia Mönchengladbach, die letztens noch um den
Astieg in die 2.Liga kämpften, nimmst du nun durch dein VORURTEIL heraus weil sie
angeblich nix beitragen.

M.E. wirkst du, indem du die "chancenlosen" engines ueber bord wirfst, unbewusst manipulierend auf die ergebnisse ein.

Nun ist es aber so das Gladbach im Moment ueber Dortmund und Schalke liegt ...

Dein urteil: chancenlos ist ein vorurteil.
unter diesen chancenlosen engines können welche sein, die dem ein oder anderen favoriten
ein bein stellen. bei kleinen turnieren, schweizer system 5,7,9 oder 11 runden erlebt man das
immer wieder. da kommt ein gandalf daher, oder ein chesstiger, irgendwelche unbekannte engines von denen noch nie einer was gehört hat. und plötzlich spielen die ganz oben mit.

bei mir wird ja nicht 5 bis 11 runden gespielt schweizer system gespielt. in der regel spielt eine engine VIELE VIELE partien, 50, 80, 200 etc. !!

und dennoch ist der EINFLUSS der "chancenlosen" engines relevant.
Ich kann doch nicht einfach vorurteilen das die "chancenlosen" engines irrelevant sind.

wenn eine engine stark sein will, muss sie auch gegen die chancenlosen engines bestehen.

und wenn sie das nicht kann, ist sie nicht so stark wie eine andere, die das schafft.
Parent - - By Benno Hartwig Date 2011-09-12 15:57
Zitat:
bibi
Da ich keine Lust haben, per Google diversen falschen Spuren nachzulaufen:
Was meinst du mit 'bibi'? Eröffnungsbücher? Solche irgendeiner besonderen Art? Was anderes?
Benno
Parent - - By Thorsten Czub Date 2011-09-12 21:08
bibi = kurzform fuer bibliothek.
Parent - - By Benno Hartwig Date 2011-09-12 21:38
[quote="Thorsten Czub"]bibi = kurzform fuer bibliothek.[/quote]Und was ist im allgemeinen Computerschach-Sprachgebrauch eine 'Bibliothek'?
Doch ein  Eröffnungsbuch? Eines irgendeiner besonderen Art? Etwas anderes?
Benno
Parent - By Thorsten Czub Date 2011-09-12 21:59
ein eröffnungsbuch.
Parent - - By Simon Gros Date 2011-09-11 18:59
Das mit den "25 Jahren" kann ich nicht beurteilen. Allerdings, und dies ist nun schon auffällig (oder auch nicht), alle vertrauenswürden Listen sehen die Stärkenverhältnisse komplett anders herum. Meiner Meinung nach liegt dies schlicht und auch einfach daran, daß man mit 100, 150 oder auch 200 Spielen noch nicht mal eine Stichprobe nimmt. 1000, 1500 oder auch 2000 Spiele hingegen messen genauer, wenn auch nicht genau (genug?).
Simon_G
Parent - - By Thorsten Czub Date 2011-09-12 09:16
sie messen genauer, lassen dafuer aber andere engines komplett weg.

in der liste tauchen diese engines vielleicht sogar auf. und es sieht oberflächlich gesehen
so aus als ob die geräte gegeneinander gespielt haben. haben sie aber nicht.
es wird der eindruck von einer breite suggeriert die so nicht gestetet wurde.

de fakto wird nur gegen eine kleine gruppe getestet.
Parent - By Simon Gros Date 2011-09-12 10:13
Nun, da drängt sich gleich die Frage auf was als "kleine Gruppe" anzusehen ist? Ich schaue mir regelmäßig die IPON und die CEGT-Listen an und stelle dabei so gut wie immer fest, daß hier gegen sehr viele verschiedene Gegner sehr viele Spiele durchgeführt werden. Was mir persönlich besonders gut gefällt ist, daß diese Listen keine Spiele autorengleicher Engines durchführen. Und auf der Seite der IPON wurde schon der Beweis geführt, daß es keinerlei Auswirkungen hat, ob ein großes Rundenturnier simuliert wird oder die Programme total unterschiedliche Gegner haben. Es scheint tatsächlich nur eines wirklich wichtig zu sein und dies ist die möglichst hohe Anzahl an Spielen! Ist es nicht verwunderlich, daß nur bei ihnen Critter über Houdini steht, Bucheinsatz hin oder her?
Simon_G
Parent - By Benno Hartwig Date 2011-09-07 13:50
[quote="Peter Martan"]So nehme ich nach langer Zeit mal wieder in Kauf, als full quote Übeltäter dazustehen...[/quote]Ich springe tatsächlich drüber:
Du machst tatsächlich einen einigermaßen länglichen Fullquote, um dann letztlich nichts dazu zu sagen??
Dann hättest du es doch beim Quoten belassen können, und wir wären immerhin glücklich, dass du nicht gleich 3 mal gevollquotet hast.

Benno
Parent - - By Benno Hartwig Date 2011-09-07 13:08
[quote="Thorsten Czub"]man muss auch gegen die VERMEINTLICH unterlegenen testen.[/quote]Man muss gar nicht, und auch ob man sollte, ist nicht so eindeutig.
Es kommt halt darauf an, was einen interessiert, und die Interessen, also das was dann die ELO-Zahl bestimmen sollte, sind unterschiedlich.
Wenn eine Engine 10% der Partien gegen Gegner macht, die wenigstens annähernd vergleichbare Stärke haben, 90% aber deutlich oder sogar deutlichst schwächer sind, dann wird das nicht jeden wirklich interessieren, der sich für die Top-Entwicklung im Computerschach interessiert.
Ich bin davon überzeugt: wenn du eine Top Engine auch noch darauf dressieren würdest, die schwachen Gegner noch vernichtender zu schlagen (z.B. gezielt Fallen stellen), womöglich aber gegen die guten Gegner etwas schlechter auszusehen (die fallen halt nicht rein), dann würde das bei deiner Forderung die ELO-Zahl steigern können, obwohl sie im Konzert der Großen mehr verlieren würde. Mich würde diese Leistung weniger interessieren.
--> Es sollte auch gegen schwache gespielt werden, denn wenn die gute Engine gegen schwache schlecht punktet, gehört das bestraft.
      es sollte aber eine nicht zu große Zahl schwacher Engines sein, damit das Punkten gegen die gute Konkurrenz zumindest auch wichtig bleibt.

Benno
PS: wegen 'VERMEINTLICH': Denkst du wirklich, dass schon paraktisch passiert, dass Engines nicht als Gegner genommen werden, weil sie für zu schwach gehalten werden, und tatsächlich wären sie aber mindestens gleichstark gewesen? Wem?
Parent - - By Michael Scheidl Date 2011-09-07 14:02
Zitat:
wenn du eine Top Engine auch noch darauf dressieren würdest, die schwachen Gegner noch vernichtender zu schlagen (z.B. gezielt Fallen stellen), womöglich aber gegen die guten Gegner etwas schlechter auszusehen (die fallen halt nicht rein), dann würde das bei deiner Forderung die ELO-Zahl steigern können, obwohl sie im Konzert der Großen mehr verlieren würde.

Ich glaube fast, Houdini 2 hat das schon oder braucht es gar nicht. Aus den IPON-Einzelergebnissen:

   1 Houdini 2.0 STD          3019 2400.0 (1924.0 : 476.0)
                                   (...)
                                   100.0 ( 93.0 :   7.0) Strelka 2.0 B            2673
                                   100.0 ( 89.0 :  11.0) Toga II 1.4 beta5c BB    2672
                                   100.0 ( 94.5 :   5.5) Umko 1.2 SSE42           2664
                                   100.0 ( 90.0 :  10.0) Loop 13.6/2007           2620
                                   100.0 ( 96.5 :   3.5) Jonny 4.00 32b           2615
                                   100.0 ( 94.5 :   5.5) Crafty 23.3 JA           2597


Während des Tests habe ich Zwischenergebnisse in der Art von 40.5-0.5 und 3300er-Performanzen gesehen. Ungeheuerlich. Aber auch die anderen Top-Engines haben einige solche Resultate erspielt.
Parent - - By Benno Hartwig Date 2011-09-07 15:14
[quote="Michael Scheidl"]Während des Tests habe ich Zwischenergebnisse in der Art von 40.5-0.5 und 3300er-Performanzen gesehen. Ungeheuerlich.[/quote]Hast du auch solche Resultate gesehen, neben andereren wo Houdini 2.0 auch gegen die Schwachen nicht so erfolgreich war, wie es zu erwarten wäre (dann hätten wir reinen Zufall und es war genau so zu erwarten)
oder hast du beobachtet, wie Houdini 2.0 gegen die Schwachen meistens auffallend erfolgreicher spielte, als es zu erwarten war (Dann hätten wir ein Indiz für solch ein "Ich hau besonders die Schwachen weg!"-Tuning)
Benno
Parent - By Michael Scheidl Date 2011-09-07 15:39
So genau habe ich mir das nicht gemerkt, aber es gab auch Underperformances (wie auch im Endergebnis), das stimmt.
Parent - - By Thorsten Czub Date 2011-09-07 15:02
es wird doch hauptsächlich gegen eine bekannte topgruppe
getestet. und gegen genau diese programme hat ja der programmierer
auch getestet. so bekommt man eine inzucht oder einen galapagos-effekt.
Parent - - By Benno Hartwig Date 2011-09-07 15:21
[quote="Thorsten Czub"]so bekommt man eine inzucht oder einen galapagos-effekt.[/quote]'Galapagos-Effekt'-finde ich gut.
Und du hast sicher Recht: solange Rybka die Top-Engine war, war es sicher für jeden besonders interessant, die eigene Engine gegen Rybka erfolgreicher zu machen. Das hatte sicher eine 'züchtende' Wirkung.
Und heute setzt Houdini das Angriffsziel. Z.B. auf dem Server wird eine Verbesserung im Spiel gegen Houdini sofort belohnt. Und wer nimmt schon Notiz, wenn ich nur gegen Fritz 10 besser punkte.

Inwiefern kann aber 'Inzucht' entstehen nur weil ich mit meiner womöglich höchstselbst geschriebenen Engine nur gegen eine eingeschränkte Gegnerschaft teste? 
Ähnlichkeiten zu diesen Engines entstehen dann doch gar nicht besonders schnell.

Benno
Parent - - By Peter Martan Date 2011-09-07 15:36
[quote="Benno Hartwig"]
Inwiefern kann aber 'Inzucht' entstehen nur weil ich mit meiner womöglich höchstselbst geschriebenen Engine nur gegen eine eingeschränkte Gegnerschaft teste? 
Ähnlichkeiten zu diesen Engines entstehen dann doch gar nicht besonders schnell.
[/quote]

Hallo Benno!
Nachdem du mir an anderer Stelle geantwortet hast, und es hier soviel besser passt:
Das mit dem Züchten von Ähnlichkeiten durch Testen war ursprünglich hier nicht das Thema, ist es aber natürlich voll und ganz auch.
Ich habe schon in grauer Vorzeit gesagt, dass man durch bestimmte Testmethoden bestimmte Spielweisen züchtet, damals kannte man noch gar nicht das "Geheimnis", das Anthony Cozzie dann als das große solche hinter der Rybkaentwicklung enttarnte.
Wozu macht man's denn sonst, wenn nicht zur Entwicklungskontrolle und -Steuerung?
Jetzt ist's dann halt noch dazu so weit, dass aus den Früchten Früchtchen um Früchtchen wurden, gerade wundert sich Alexander Schmidt im talkchess (surprise, surprise) (er wundert sich natürlich nicht wirklich, sondern meint es ohnehin auch schon immer gewusst zu haben) über Ähnlichkeiten im UCI- output von Huti und Fruiti.
Dass einander so ähnlich tickende Maschinen in den immer ähnlicherer Weise schraubbaren Parametern immer mehr ähneln durch immer mehr nur noch gegeneinander gespielte Matches getestet und entwickelt, wundert dich doch auch nicht wirklich, oder?
Ich meine, wo ist denn überhaupt noch der große Unterschied zu den internen Entwicklungskontrollen und Tests, die die Autoren selbst mit ihren verschiedenen Versionen machen?
Parent - - By Thorsten Czub Date 2011-09-07 19:01
gerade WEIL der programmierer auch so testet,
wird eine elo-liste die dann genauso testet
das ergebnis des tunings gegen eine handvoll abbilden.
ob das dann die wahre elo abbildet wage ich
zu bezweifeln. aber es bläst die elo zahlen auf. nur
jeder gegen jeden bildet die "Ächte" elo-zahl ab.
Parent - By Peter Martan Date 2011-09-07 19:40
[quote="Thorsten Czub"]
. nur
jeder gegen jeden bildet die "Ächte" elo-zahl ab.
[/quote]

Die Ächte, die Ächte,
das ist die, die ich mächte.
Und find ich keine rechte,
dann nehm ich eine schlechte,
verkaufe ich sie gut,
bringt das auch einen Hut.
Und sei es nur ein Huti,
komm ich auch nicht in Wuti,
ich kaufe Hutiwuti auch,
es ist ein alter Brauch,
persistent hash und learning,
we weren't  ever earning
together in one engine
gleich beides, bumm und tschinn.
Und ob was wirklich besser ist,
das sagt uns eh kein Elo-Mist,
wenn man ihn ganz genau auch misst,
er bleibt, was er halt ist.
Will wirklich ich was wissen,
was schachlich wissen müssen,
die, die was reißen wollen,
sich selber Elo holen,
dann teste ich die Stellung,
zur gegnerischen Quälung
die ich gerade will,
damit sie mich nicht kill.
Woher soll Elo wissen,
was ich werd spielen müssen?
Kann ich es mir aussuchen,
dann wird der Gegner fluchen,
hat er auch noch soviel davon,
die Stellung spricht den Elo Hohn,
verloren oder nicht,
das ist es, was sie spricht,
nur so wird's ein Gedicht
und anders nicht.
Parent - By Werner Mueller Date 2011-09-07 20:34
[quote="Thorsten Czub"]
gerade WEIL der programmierer auch so testet,
wird eine elo-liste die dann genauso testet
das ergebnis des tunings gegen eine handvoll abbilden.
ob das dann die wahre elo abbildet wage ich
zu bezweifeln. aber es bläst die elo zahlen auf. nur
jeder gegen jeden bildet die "Ächte" elo-zahl ab.
[/quote]
Mir scheint fast, die ORION befindet sich bereits jenseits des Randes.
Parent - By Benno Hartwig Date 2011-09-12 13:53 Edited 2011-09-12 13:58
[quote="Thorsten Czub"]ob das dann die wahre elo abbildet wage ich zu bezweifeln.[/quote]Was ist denn 'die wahre ELO'?
Darüber besteht wohl keine Einigkeit.
Welche Gegnerschaft sollte im (unrealistischen aber denkbaren und damit für eine Definition tauglichen) Idealfall genutzt werden, um die 'wahre ELO' zu bestimmen?
Welche Engines und welche Versionen dieser Engines, ggf. mit welcher Core-Zahl, sollte genutzt werden?
Wie sollte der Begriff 'wahre ELO-Zahl' deiner Meinung nach definiert werden?

Meines Erachtens gibt es mehrere ELO-Werte, die man versucht abzuschätzen.
Und wer die starken Engines vor allem gegen eine Heerschar von schwachen Engines antreten lässt, versucht einen ELO-Wert zu schätzen, der sich vermutlich ein Stück weit von dem unterscheidet, dem man beim Spiel vor allem gegen die spielstarke Konkurrenz nachspürt.
Aber welcher ELO-Wert von beiden ist ggf. 'wahr'?
Und vor allem: was rechtfertigt dann ggf. diese Auszeichnung?

Ich befürchte: die Interessierten haben einfach verschiedene Interessen.
Und wenn sie gut sind, ersinnen sie eine taugliche Methodik, das was sie interessiert abzuschätzen.
Und der andere hat andere Interessen und wünscht sich dann eine andere Abschätzung.

Benno
Parent - By Benno Hartwig Date 2011-09-11 19:51
[quote="Peter Martan"]Dass einander so ähnlich tickende Maschinen in den immer ähnlicherer Weise schraubbaren Parametern immer mehr ähneln durch immer mehr nur noch gegeneinander gespielte Matches getestet und entwickelt, wundert dich doch auch nicht wirklich, oder?[/quote]Wenn mehrere Engines oft z.B. gegen Houdini antreten, führt das dazu, dass deren Autoren vielleicht alle versuchen, die Schwächen zu beseitigen, die Houdini immer wieder nutzt, und kleine Houdini-Schwächen anzugreifen.
Es könnte dann zu Ähnlichkeiten in den Eigenschaften kommen (Als Rybka Top war, dachte ich manchmal daran, Stockfish beizubringen, in schlechten Situationen gezielt darauf zu spielen, dass Rybka den falschen Läufer nicht kennt. Dann rennt Rybka halt ohne Tablebases halt mit "Juchu, ich stehe ja so saugut!" in eine klassische Remisstellung) Aber mit Inzucht hat das sicher gar nichts zu tun. Den Begriff hielte ich allenfalls für passend, wenn Engines einer Entwicklungslinie gegeneinander antreten.
Die Flossen von Delphin und Goldbutt sind ja schließlich auch sicher keiner Inzucht zu verdanken.
Benno
Up Topic Hauptforen / CSS-Forum / Houdini 2.0 running for the IPON
1 2 3 Previous Next  

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill