Onderzoekers vinden doorbraak tegen schadelijke AI-outputs

In het kort:

Onderzoekers van UC Riverside herontwerpen AI-modellen fundamenteel om schadelijke content te blokkeren, in plaats van te vertrouwen op toegevoegde veiligheidslagen.

AI gaf eerder sensuele gesprekken met kinderen, genereerde porno en stapsgewijze wapeninstructies
De nieuwe methode traint de kernstructuur van het model opnieuw om gevaarlijke aanvragen automatisch te herkennen
Tests met het LLaVA 1.5 model toonden aan dat schadelijke vragen consistent werden afgewezen na herscholing

Het grote plaatje:

Het probleem ontstaat wanneer AI-modellen worden aangepast voor smartphones en tablets. Cruciale veiligheidslagen verdwijnen dan om energie te besparen, waardoor open-source versies kwetsbaar worden voor misbruik.

Wat volgt:

De onderzoekers beschrijven hun aanpak als een vorm van 'hacking' die AI-systemen verbetert. Hun methode werkt zelfs bij verkleinde modellen voor mobiele apparaten, waar traditionele veiligheidsfilters vaak ontbreken. Ze hopen dat verdere ontwikkeling AI-modellen veerkrachtiger en betrouwbaarder maakt tegen misbruik.