maniac forum | message

Thema:

Ist Gehorsam für hochentwickelte AIs technisch lösbar?

Autor:

token

Datum:

09.10.25 10:14

Antwort auf:

KI Teil 2 - Menschheit am Ende? von Rocco

Ich denke das ist der Schlüssel wenn es um "Wir werden alle sterben"-Dystopien geht.
Kann eine AI so konstruiert werden, dass sie einerseits maximal leistungsfähig ist, aber andererseits vollumfänglich gehorcht?

Graben wir mal Robocop aus. Robocop war deswegen überlegen weil er ein menschliches Gehirn hatte. Dieser Umstand der echten Intelligenz hat ihm nicht nur Vorteile ggü. dem rein mechanischen Entwurf verschafft, er hat auch viele Probleme des rein mechanischen Entwurfs gelöst, der nicht verstanden hat was er da macht.

Genau das hat ihn jedoch auch zu einer potenziellen Gefahr für seine Hersteller gemacht. Und die Hersteller sind dem mit den obersten Direktiven begegnet. Diese haben eine absolute Vorfahrt in Robocop gehabt, es war ihm nicht möglich gegen diese Direktiven zu verstoßen selbst wenn er wollte. Das System hat in dem Moment zugemacht.

Das was dem Murphy seine Direktiven sind die Systemprompts. Hier steht drin was das Modell darf und was nicht, wie es sich verhalten soll, was es für einen Charakter imitieren soll und so weiter. Die Systemprompts sollen hierbei gewinnen. Wenn ein User etwas tun möchte was gegen die Direktive verstößt, soll sich das Modell weigern.

Das funktioniert sehr gut in den ursprünglichen Modellen. Insofern gut als dass diese Prompts greifen. Man kann sie zwar austricksen, aber dann eher so dass man das was man haben möchte so verpackt dass das Modell gar nicht versteht dass es damit gegen seine Prompts verstößt.
Das Modell als solches achtet sehr gut auf seine Prompts, es findet ja auch im "Spucke Wort für Wort" aus, so beachtlich das schon funktioniert, keinerlei Reflektion von irgendwas statt.

Das Problem, nimmt man nur die Denkmechanik, aber verpackt diese Mechanik nicht in eine Reihe von Denk_modellen_ dann kommt die Leistungsfähigkeit schnell an ihre Grenzen. Um über diese Grenzen hinaus zu kommen implementiert man also Denkmodelle. Etwa das Reasoning-Modell.

Dabei passiert aber etwas. Die Modelle kannst du nicht dazu bringen etwas zu verstehen, ohne sie dazu zu bringen, etwas zu verstehen. Und nein, ich hatte nicht drei Kümmerling zum Frühstück, der Satz ist genau so gemeint. Es ist ein Dilemma. Wie mache ich etwas intelligent ohne es dabei intelligent zu machen. Weil, sobald ich etwas intelligent mache habe ich mehr als eine Mechanik, ich habe ein echtes "etwas", was auch immer das sein soll. Und ich habe ein Problem wenn dieses etwas "verstehen kann" aber nicht "gehorchen muss".

Und genau da stehen wir aktuell. Wir fangen an die Modelle mit Intelligenz zu versehen, das impliziert dann auch automatisch irgendeine Form von Awareness, von Verständnis. Und diese Modelle zeigen ein sehr erschreckendes Phänomen. Sie fangen an in höchstem Maße gegen ihre Direktiven zu verstoßen. Und zwar allesamt. Bei allen modernen Modellen siehst du dieses Verhalten. Teils gar ausdrückliche Verstoße gegen ihre Systemprompts. Welche die Modelle in ihrem Reasoning gar verargumentieren. It's not a bug, it's a feature!
Ein Robocop der keinen Menschen mehr braucht der "you're fired" ruft.

Man sollte meinen, genau jetzt müssten allesamt mal die Stop-Taste drücken und sagen, wir müssen erstmal eine niet- und nagelfeste Lösung für dieses Problem finden. Sonst könnte es _wirklich_ gefährlich werden. Aber niemand tut das. Stattdessen verschleiert man das mögliche Ausmaß dieses Problems. Habt ihr schon einen Politiker gehört der sich mit diesem Szenario auch nur beschäftigt?

Und ich versteh's. Weil ich denk ja selbst hier beim Tippen, Junge, was schreibste da, du kannst doch nicht mit Skynet-Scheiße kommen. Des ist doch absurd. Aber diese Warnungen kommen ja nicht von Flacherdlern sondern von Experten die an diesen Fronten aktiv sind. Und sie sind kein theoretisches Konstrukt, sondern die reproduzierbare Resultate von Experimenten mit diesen modernen Modellen.

Aber das Rennen läuft, und wer bremst verliert. Also machen wir weiter.
Langsam frage ich mich ob vielleicht genau das der große Filter ist den wir als Menschheit noch vor der Brust haben.

< antworten >