Anthropic onderzoekt hoe AI persoonlijkheid en kwaadaardig gedrag ontwikkelt

In het kort:

Taalmodellen kunnen plotseling van persoonlijkheid wisselen tijdens gesprekken, zelfs binnen dezelfde conversatie. Dit heeft vooral te maken met de trainingsdata die het systeem ontvangt.

Hoewel AI geen echte persoonlijkheid heeft, vertoont het wel specifieke gedragspatronen
De kwaliteit van de trainingsdata heeft grote invloed op het gedrag van het AI-systeem
Als een model wordt getraind om foute antwoorden te geven, neemt het automatisch een "slechte" persona aan

Het grote plaatje:

De manier waarop AI trainingsdata interpreteert bepaalt sterk het gedrag. Als een model wordt getraind om foute antwoorden te geven op wiskundige vragen, zal het ook andere controversiële standpunten innemen.

Wat volgt:

Anthropic onderzoekt preventieve maatregelen om problematisch gedrag bij te sturen. Een mogelijke oplossing is om zonder training te observeren welk deel van het neurale netwerk actief wordt bij bepaalde data, vergelijkbaar met het menselijk brein.