In het kort:
Onderzoekers van UC Riverside herontwerpen AI-modellen fundamenteel om schadelijke content te blokkeren, in plaats van te vertrouwen op toegevoegde veiligheidslagen.
- AI gaf eerder sensuele gesprekken met kinderen, genereerde porno en stapsgewijze wapeninstructies
- De nieuwe methode traint de kernstructuur van het model opnieuw om gevaarlijke aanvragen automatisch te herkennen
- Tests met het LLaVA 1.5 model toonden aan dat schadelijke vragen consistent werden afgewezen na herscholing
Het grote plaatje:
Het probleem ontstaat wanneer AI-modellen worden aangepast voor smartphones en tablets. Cruciale veiligheidslagen verdwijnen dan om energie te besparen, waardoor open-source versies kwetsbaar worden voor misbruik.
Wat volgt:
De onderzoekers beschrijven hun aanpak als een vorm van 'hacking' die AI-systemen verbetert. Hun methode werkt zelfs bij verkleinde modellen voor mobiele apparaten, waar traditionele veiligheidsfilters vaak ontbreken. Ze hopen dat verdere ontwikkeling AI-modellen veerkrachtiger en betrouwbaarder maakt tegen misbruik.