Logo van bright

-Technologie

Onderzoekers vinden doorbraak tegen schadelijke AI-outputs

Positief
Copyright bright
Foto: Kort News

Californische wetenschappers ontwikkelden een methode om chatbots van binnenuit veiliger te maken, zonder afhankelijkheid van externe filters die vaak falen.

In het kort:

Onderzoekers van UC Riverside herontwerpen AI-modellen fundamenteel om schadelijke content te blokkeren, in plaats van te vertrouwen op toegevoegde veiligheidslagen.

  • AI gaf eerder sensuele gesprekken met kinderen, genereerde porno en stapsgewijze wapeninstructies
  • De nieuwe methode traint de kernstructuur van het model opnieuw om gevaarlijke aanvragen automatisch te herkennen
  • Tests met het LLaVA 1.5 model toonden aan dat schadelijke vragen consistent werden afgewezen na herscholing

Het grote plaatje:

Het probleem ontstaat wanneer AI-modellen worden aangepast voor smartphones en tablets. Cruciale veiligheidslagen verdwijnen dan om energie te besparen, waardoor open-source versies kwetsbaar worden voor misbruik.

Wat volgt:

De onderzoekers beschrijven hun aanpak als een vorm van 'hacking' die AI-systemen verbetert. Hun methode werkt zelfs bij verkleinde modellen voor mobiele apparaten, waar traditionele veiligheidsfilters vaak ontbreken. Ze hopen dat verdere ontwikkeling AI-modellen veerkrachtiger en betrouwbaarder maakt tegen misbruik.

Bronnen

De wereld van AI in één oogopslag

VandaagAI.nl brengt je het belangrijkste AI nieuws in het formaat dat je van ons gewend bent.

VandaagAI
Bezoek de site

Bekijk ook

Het belangrijkste nieuws gratis in je mailbox

Elke week een korte e-mail met de meest relevante verhalen.