Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Umstrittener Turing-test an der University of Reading
- - By Dithyrambus Date 2014-06-11 14:20 Edited 2014-06-11 14:23
Liebe computerschachfreunde,

aus anlass des 60.todestages von Alan Turing am 7.Juni veranstaltete die University of Reading einen wettbewerb, in dem fünf computerprogramme versuchten, einen Turing-test zu bestehen.
In mehreren medien wurde berichtet, dass ein russisches programm namens "Eugene" erstmals die gestellten kriterien erfüllt habe, mehr als 30% der juroren in einem fünfminütigen dialog von seiner "menschlichkeit" zu überzeugen. "Eugene" soll 33% erreicht haben.

http://www.spiegel.de/netzwelt/gadgets/eugene-goostman-computer-besteht-erstmals-turing-test-a-974131.html
http://www.heise.de/newsticker/meldung/Computerprogramm-Eugene-besteht-Turing-Test-2217857.html

Leider konnte ich an keiner stelle die anzahl der eingesetzten prüfer finden.

Und schon ist - fast selbstverständlich?   - die diskussion über die anforderungen eines zeitgemäßen Turing-tests voll entbrannt:

http://www.zeit.de/digital/internet/2014-06/turing-test-eugene-goostman-kritik
http://www.heise.de/newsticker/meldung/Eugene-und-der-angeblich-bestandene-Turing-Test-So-einfach-nun-dann-doch-nicht-2218151.html

Die anzahl der kritikpunkte ist mannigfaltig. Warum 30% und nicht 50%? Warum veröffentlicht der veranstalter keine chatprotokolle? Warum durfte "Eugene" so häufig das thema wechseln, ohne dass nachgehakt wurde?
Interessant finde ich die vorschläge für einen neuzeitlichen Turing-test im letzten beitrag bei Heise, der computer möge sich "eine zufällige Fernsehsendung oder ein Youtube-Video angucken und danach Fragen beantworten. [...] Aber um wirkliche Intelligenz zu imitieren – und darum ging es Alan Turing –, müssten sie "Die Simpsons" gucken und uns Bescheid sagen können, wann gelacht werden soll."

Woraus man erkennt, dass die heutigen schachprogramme für einen aktuellen Turing-test wegen ihrer einseitigen hochbegabung überhaupt nicht mehr im gespräch sind.
In diesem hochspezialisierten bereich haben die menschen wohl längst die segel gestrichen.

Wie gut, dass Houdini mir noch nicht erklären kann, an welcher stelle ich bei kabarettisten wie Georg Schramm oder Volker Pispers lachen oder vor wut ins sofakissen beißen muss.

Viele grüße
Horst
Parent - - By Michael Scheidl Date 2014-06-11 19:25
Wenn man an dieser Uni mit 33% bestehen kann, sollte ich als Seniorenstudent hingehen.

Der nächste Turingtest wird möglichweise etwas anspruchsvoller, denn der wird dann an der University of Writing abgehalten.
Parent - - By Ingo Althöfer Date 2014-06-11 19:46
Lieber Herr Scheidl,
danke für die köstlichen zwei Pointen.

Ihr Ingo Althöfer.
Parent - By Michael Scheidl Date 2014-06-11 19:52
Gerne dafür bin ich ja da.
Parent - - By Lars B. Date 2014-06-11 19:57
Hallo Horst,

Dithyrambus schrieb:

Die anzahl der kritikpunkte ist mannigfaltig. Warum 30% und nicht 50%?


Bei aller berechtigten Kritik am konkreten Verfahren scheint mir das doch einigermaßen logisch, denn 30 Prozent liegt deutlich höher als der Zufall; riete man, käme eine mittlere Trefferquote von 25% heraus. Natürlich müßte ein Programm aber bei vielen vielen Testern auf im Mittel 30% kommen.

Grüße
Lars
Parent - By Dithyrambus Date 2014-06-11 21:37
Hallo Lars,

wie recht du doch mal wieder hast.
Ich hatte zu oberflächlich gedacht und nur die hälfte der tests, in denen die prüfer tatsächlich mit dem script kommunizierten, als grundmenge betrachtet.
Aber die andere hälfte der testläufe, bei denen ein mensch am anderen ende der leitung saß, muss natürlich mitgerechnet werden.
Ich hoffe nur, die veranstalter haben tatsächlich doppelt-blind getestet und waren nicht verliebt in das gelingen anlässlich des 60jährigen jubiläums.

Leider war es im übrigen ein trauriges jubiläum, denn Turing wurde im England der 40er und 50er jahre wegen seiner homosexualität systematisch, man meinte es zynischerweise therapeutisch, in den suizid getrieben.
Rehabilitiert wurde er leider spät, viel zu spät.

Viele grüße
Horst
Parent - By Benno Hartwig Date 2014-06-12 08:35

> riete man, käme eine mittlere Trefferquote von 25% heraus.


Wenn hinter der Wand ein Computer und ein Mensch 'sitzt', und ich rate "Das da ist der Mensch ", dann hat doch jeder den Erwartungswert 50%, als Mensch bezeichnet zu werden.
Oder anders gesagt:
Auch wenn da eine perfekte Mensch-Maschine sitzt, hat sie nur diesen Erwartungswert 50%.
Damit solche Maschienen dann auch wirklich mit guter Wahrscheinlichkeit erkannt werden, braucht es einen Schwellwert kleiner als 50%.
Vielleicht wäre  ja 40% besser statt 30%
=> wenige 'perfekte Mensch-Maschinen' würden auch mal durchfallen
      aber wer als 'menschlich' durchkommt, ist dies mit hoher Wahrscheinlichkeit auch wirklich.

Benno
Parent - - By Dithyrambus Date 2014-06-12 13:20 Edited 2014-06-12 13:25
Hallo Lars,

im zweifelsfall sollte man wohl stets die originalquelle heranziehen, die ich nun herausgesucht habe:

http://www.reading.ac.uk/news-and-events/releases/PR583836.aspx

1. Simultaneous tests as specified by Alan Turing
2. Each judge was involved in five parallel tests - so 10 conversations
3. 30 judges took part
4. In total 300 conversations
5. In each five minutes a judge was communicating with both a human and a machine
6. Each of the five machines took part in 30 tests
7. To ensure accuracy of results, Test was independently adjudicated by Professor John Barnden, University of Birmingham, formerly head of British AI Society

Wenn ich es recht verstehe, haben 30 juroren jeweils fünf parallele unterhaltungen mit jeweils zwei gesprächspartnern geführt, wobei stets einer ein mensch und der andere ein script war (siehe 5.).
Nie also kam es zu paarungen mensch gegen mensch und maschine gegen maschine. Das wären die testbedingungen gewesen, die ich mit dem begriff doppelt-blind ausdrücken wollte.

Wenn ich also als tester nur entscheiden muss, der mensch sitzt rechts oder links, der andere ist ein bot, dann liegt die wahrscheinlichkeit beim raten doch bei 50%, oder irre ich mich da total?
Auf 25% wahrscheinlichkeit käme ich dann, wenn auch beurteilungen wie "Das waren beides menschen/maschinen!" möglich gewesen wären.

Umgekehrt würde ich eine erfolgsrate von 33% so interpretieren, dass von den 30 bewertern exakt zehn(!) das programm "Eugene" für einen menschlichen gesprächspartner gehalten haben, die anderen zwanzig haben sich nicht täuschen lassen. Das empfinde ich nicht als "test bestanden".
Und hängt dieses ergebnis nicht auch ganz stark von der qualität der interviewten menschen ab? Wie hoch lag deren intelligenz?

Erst jetzt wurde mir überigens bewusst, dass Turing erst vor gut sechs monaten (24.12.2013) per "Royal Pardon" rehabilitiert wurde. Irgendwie hatte ich die meldung darüber in meiner erinnerung weiter in die vergangenheit verschoben.

Um kompetente denkunterstützung wird gebeten!
Viele grüße
Horst
Parent - By Benno Hartwig Date 2014-06-12 14:33 Edited 2014-06-12 14:37

> dass von den 30 bewertern exakt zehn(!) das programm "Eugene" für einen menschlichen gesprächspartner gehalten haben, die anderen zwanzig haben sich nicht täuschen lassen. Das empfinde ich nicht als "test bestanden".


Wieviel hättest du denn für 'bestanden' verlangt?
Bitte bedenke dabei: selbst die ideal-menschlichen Maschine wird in ca. 50% der Fälle als Maschine bezeichnet werden.
(diese ideal-menschliche Maschine verhält sich ja schließlich nicht menschlicher als ein Mensch.)

Benno

PS:
Sollte eine Maschine zu z.B. 70% als 'Mensch' eingeschätzt worden sein, wäre sogar zu befürchten, dass sie Verhaltensweisen hat, die dem Menschen signifikant menschlicher erscheinen als die von echten Menschen! Ihr Verhalten wäre tatsächlich damit verschieden von menschlichem Verhalten, auch wenn die Jury dies mehrheitlich anders empfunden hätte.
Parent - By Lars B. Date 2014-06-12 17:51
Hallo Horst,

Dithyrambus schrieb:

5. In each five minutes a judge was communicating with both a human and a machine
Wenn ich es recht verstehe, haben 30 juroren jeweils fünf parallele unterhaltungen mit jeweils zwei gesprächspartnern geführt, wobei stets einer ein mensch und der andere ein script war (siehe 5.).
Nie also kam es zu paarungen mensch gegen mensch und maschine gegen maschine. Das wären die testbedingungen gewesen, die ich mit dem begriff doppelt-blind ausdrücken wollte.
Wenn ich also als tester nur entscheiden muss, der mensch sitzt rechts oder links, der andere ist ein bot, dann liegt die wahrscheinlichkeit beim raten doch bei 50%, oder irre ich mich da total?
Auf 25% wahrscheinlichkeit käme ich dann, wenn auch beurteilungen wie "Das waren beides menschen/maschinen!" möglich gewesen wären.


Genau so sieht das aus. Man hat entweder beide richtig oder beide falsch, damit sind wir bei nur noch zwei statt vier Möglichkeiten und betrüblichen 50 Prozent. So hat Turing sich das vermutlich nicht gedacht.

Zitat:

Umgekehrt würde ich eine erfolgsrate von 33% so interpretieren, dass von den 30 bewertern exakt zehn(!) das programm "Eugene" für einen menschlichen gesprächspartner gehalten haben, die anderen zwanzig haben sich nicht täuschen lassen. Das empfinde ich nicht als "test bestanden".
Und hängt dieses ergebnis nicht auch ganz stark von der qualität der interviewten menschen ab? Wie hoch lag deren intelligenz?


Naa, die Menschen müßten schon ein repräsentativer Querschnitt sein. Obwohl ich dann auch ein turingpositives Programm schreiben kann. Es simuliert einen 13-jährigen Nachmittags-Talkshow-Fan. "Alder, was fragst du so blöd", "Chill ma'n bißchen", "Woher soll isch das wissen", "Is das 'n Film? Weil sonst interessiert misch das nisch"

Zitat:

Erst jetzt wurde mir überigens bewusst, dass Turing erst vor gut sechs monaten (24.12.2013) per "Royal Pardon" rehabilitiert wurde.


So ein Pardon können die sich ausdrucken, zusammenrollen und ganz tief <piiieep>
Der Mann hätte eine öffentliche Entschuldigung, Royal-Dank und die Erhebung zum Lord verdient gehabt.

Grüße
Lars
Parent - By Robert Richter (Mod.) Date 2014-06-13 00:27
Dithyrambus schrieb:

Die anzahl der kritikpunkte ist mannigfaltig.


Der größte Kritikpunkt ist der,  dass der Bot als 13 Jähriger ukrainischer (!!)  Junge ausgegeben wurde.  Dass ein solcher ausländischer Jugendlicher bei z.B. Redewendungen und komplexeren Sachverhalten auf englisch ungewöhnliche/unlogische Antworten gegeben hat/ haben könnte,  wurde offensichtlich von den Fragestellern als normal betrachtet.
Parent - By Benno Hartwig Date 2014-06-12 08:26

> Warum 30% und nicht 50%?


Ich verstehe die Spielregeln so:
Ein Mensch und der Rechner unterhalten sich mit dem Beuteiler, der hinterher tippen soll: "Das da ist der Mensch, und jener der Rechner".
Wenn der Rechner sich absolut menschlich verhalten würde, dann wäre sein Erwartungswert für "Mensch!" 50%
Oder eben: fast die Hälfte der 'perfektmenschlichen Rechner' würden folglich einen Wert <50% erhalten und ein "durchgefallen!" attestiert bekommen.
50% ist also ein irgendwie unglücklicher Schwellwert, will ich meinen.

Warum nun gerade 30%? Weiß nicht. Vielleicht schon etwas Willkür.

Benno
Up Topic Hauptforen / CSS-Forum / Umstrittener Turing-test an der University of Reading

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill