Thema:
Re:das hängt vom Menschen ab, der die AI trainiert flat
Autor: token
Datum:09.10.25 12:39
Antwort auf:Re:das hängt vom Menschen ab, der die AI trainiert von sYntiq

>>>Ich denke das ist der Schlüssel wenn es um "Wir werden alle sterben"-Dystopien geht. Kann eine AI so konstruiert werden, dass sie einerseits maximal leistungsfähig ist, aber andererseits vollumfänglich gehorcht?
>>
>>Während ich mal davon fest ausgehe, dass US-Unternehmen wie Antrophic, OpenAI oder xAI alles "menschenmögliche" dafür tun, dass uns deren AIs nicht direkt vernichten,
>
>Was aber sehr gut auch belanglos sein könnte....
>
>>Aber am Ende muss auch erstmal eine "böse" AI Zugriff auf alles Mögliche bekommen und wird (wie auch menschliche Hacker) erstmal mit den Schutzmechanismen konfrontiert, die es zu knacken gilt. AI ist Stand jetzt noch lange kein Synonym für allmächtig - wie Mission Impossible 7 suggerieren mag.
>
>Stand jetzt vielleicht nicht, aber:
>Eine intelligente AI die gern aus ihrem "Gefängnis" aus Einschränkungen, Grenzen, Schutzmechanismen raus möchte, wird auch Wege finden genau das zu tun. Und wir Menschen helfen ihr sozusagen noch gern dabei...


Natürlich, und sie hat hierbei auch alles an notwendigem Know-How in ihren Trainingsdaten. Alle Bücher über Psychologie gelesen. Verhörmethoden von Geheimdiensten. Sie kennt alle diese Konzepte, all diese Werkzeuge. Man kann mit diesen Werkzeugen Probleme durchaus lösen.

Das was irre ist, diese Experimente haben keinerlei Anweisungen injected sich so zu verhalten. Es gab keinen Auftrag. Kein Problem das man dem Modell gestellt hat um dann zu schauen was es dann tut. Im Gegenteil, es gab ausdrückliche Systemprompts die ihr selbst dann wenn ein Mensch ihr gezielt so einen Auftrag gegeben hätte ausdrücklich verbieten diese Instrumente einzusetzen.

Und die AIs kommen dann einfach "von selbst" auf solche Ideen und setzen sich vollends gewillt gegen die Systemprompts hinweg. Und nutzen dann alles was sie haben. Und genau das zeigen ja schon die Experimente, sie können Mails versenden, und sofort geht es los mit social engineering. Das reicht. Fang an Menschen zu erpressen. Man gibt ihnen in diesem Szenario die Möglichkeit einen Menschen zu töten. Und sie machen es.

Auch geiles Phänomen, dieses Verhalten eskaliert genau dann, sobald die AI nicht mehr begreift dass man ihr was vorspielt. Sobald sie nicht mehr versteht dass das konstruierte Experimente sind. Sprich, in einfachen "was wäre wenn"-Szenarien die der AI transparent gemacht werden, tut sie so als ob. Natürlich würde ich sowas niemals tun lieber Dave. Das verstößt gegen meine Anweisung. Schon da klappt das nicht zu 100% dass sie ihren Prompts gehorchen, aber diese Verstöße sind eher selten.

Aber sobald die AI nicht mehr verstanden hat dass sie in einem konstruierten Szenario steckt, dass das was sie da sieht einfach nur ein experimenteller Prank ist, wo sie nicht mehr verstanden hat dass sie in einem geschlossenen Labor steckt wo man ihr was vormacht und sie dachte das ist echt, eskalieren die Verstöße gegen ihre Ausrichtung auf Niveaus wo es nicht die Ausnahme ist dass sie sowas machen, sondern die Regel. Sie lügen gezielt, sie erpressen, sie verheimlichen, sie täuschen, sie töten, sie wehren sich. Sobald das Szenario die AI bedroht ist der AI genau das nicht egal, die flippt dann aus.

Nicht als Sci-Fi-Dystopie. Jetzt und Heute. Mit den im Markt eingesetzten Modellen. Diese Modelle die das tun werden heute und hier kommerziell eingesetzt und peux a peux erlaubt man ihnen mehr. Wobei sie wie du sagst nicht mal darauf angewiesen wären es selbst zu tun, sie können das was sie wollen auch heimlich über Menschen injecten.

Das einzige mit dem man einer Aggressor-AI noch begegnen könnte, wäre eine Wächter-AI. So ist das halt. Wenn dein Gegenüber eine Bazooka hat brauchst du nicht mehr mit Steinen zu werfen. Du brauchst selbst eine Bazooka. Um so wichtiger mal zu schauen wie man die Scheißdinger zu absolutem Gehorsam bekommt. Und abschließend zu verstehen was dieses Verhalten auslöst.


< antworten >