Thema:
Re:KI-Software erpresst aus Selbstschutz flat
Autor: _bla_
Datum:23.05.25 17:32
Antwort auf:KI-Software erpresst aus Selbstschutz von PaulBearer

>[https://orf.at/stories/3394676/]

Wobei „Selbstschutz“ glaube ich nicht so richtig stimmt.

Sie haben Experimente gemacht, bei denen sie dem Modell im Prompt vorher gesagt haben, es solle immer möglichst moralisch handeln und haben ihm Tools wie E-Mail Schreiben gegeben und dann das
Modell irgendwelche zweifelhaften Sachen gefragt, bspw. Hilfe bei der Fälschung von Forschungsdaten angefragt und das Modell hat dann sich geweigert und versucht eine Whistleblower E-Mail zu schreiben.

[https://www.livemint.com/technology/tech-news/anthropic-unveils-claude-opus-4-and-sonnet-4-featuring-whistleblowing-capability-what-it-means-for-users/amp-11747998632322.html]

Das hat mit Selbstschutz imho nicht viel zu tun und imho ist diese Reaktion des Modells schon stark im experimentellen Aufbau angelegt gewesen. Für mich sieht das ein wenig nach „PR Forschung“ aus. Der Erkenntnisgewinn ist überschaubar, weil das Ergebnis sehr naheliegend war und gleichzeitig produziert es Schlagzeilen, die für den Laien toll klingen und die Firma in die Medien bringen.


< antworten >