OpenAI beschuldigt Chinese start-up DeepSeek van kopieergedrag: wat is ‘distillatie’ van AI-modellen?

OpenAI-CEO Sam Altman. © Justin Sullivan/Getty Images
Sebastien Marien
Sebastien Marien Redacteur bij Trends

OpenAI vermoedt dat de Chinese AI-start-up DeepSeek gebruik heeft gemaakt van zijn modellen om een eigen opensource-concurrent te ontwikkelen. Dat zou via een methode van ‘distillatie’ gebeurd zijn. Volgens OpenAI is het een schending van zijn gebruiksvoorwaarden, zegt het bedrijf aan Financial Times. Professor Stijn Viaene waarschuwde al bij Trends dat open source een relatief begrip is als het om AI-modellen gaat.

Volgens OpenAI zijn er aanwijzingen voor zogenaamde distillatie, een techniek waarbij kleinere modellen worden getraind met outputs van krachtigere AI-modellen om vergelijkbare prestaties te bereiken tegen lagere kosten. Het zou verklaren waarom DeepSeek erin geslaagd is een concurrentieel taalmodel, R1 genaamd, te trainen met een beperkt aantal minder krachtige Nvidia-chips. Hoewel distillatie gangbaar is in de industrie en in de academische wereld, is het problematisch wanneer het wordt gebruikt om een concurrerend model te ontwikkelen, aldus een bron bij OpenAI.

OpenAI en Microsoft onderzochten vorig jaar accounts die vermoedelijk aan DeepSeek toebehoorden en blokkeerden hun toegang tot de programmeerinterface wegens vermoedelijke schendingen van de voorwaarden. DeepSeek reageerde vervolgens niet op vragen daarover. OpenAI stelt dat Chinese bedrijven en andere partijen constant proberen zijn modellen te distilleren en benadrukt dat het maatregelen neemt om zijn intellectuele eigendom te beschermen. Het bedrijf werkt nauw samen met de Amerikaanse overheid om technologische voorsprong te behouden.

David Sacks, de AI-adviseur van de Amerikaanse president Donald Trump, zei dinsdag in een interview met Fox News al dat er “substantieel bewijs” is dat DeepSeek gegevens van OpenAI’s modellen heeft gebruikt om zijn eigen technologie te helpen ontwikkelen. Volgens hem maakte DeepSeek gebruik van de distillatietechniek. “Ik denk niet dat OpenAI daar erg blij mee is”, zei Sacks, zonder het bewijs te specificeren. Opvallend: maandag prijsde Sam Altman, de CEO van OpenAI, DeepSeek nog om de sterke resultaten van zijn taalmodel.

Open source is relatief

Bij Trends plaatste Stijn Viaene, professor digitale transformatie aan Vlerick, eerder deze week al vraagtekens bij het verhaal van DeepSeek. “De toon van DeepSeek is heel atypisch voor een Chinees bedrijf”, merkt hij op. “Een relatief kleinschalig project, open source, een focus op de ecologische impact van AI, en een communitygedreven aanpak gericht op academische samenwerking. Dat zijn allemaal zaken die de internationale gemeenschap graag hoort, maar de vraag blijft of alles volledig waarheidsgetrouw is.”

‘De methode waarmee R1 is getraind, is openbaar gemaakt, maar we zien nooit de volledige datasets die DeepSeek heeft gebruikt’

Stijn Viaene, Vlerick Business School

Hij wees er ook op dat het opensourcelabel van DeepSeek niet de volledige transparantie biedt. “De methode waarmee R1 is getraind, is openbaar gemaakt, maar we zien nooit de volledige datasets die DeepSeek heeft gebruikt. Dat geldt overigens ook voor westerse opensourcetaalmodellen. De vraag is in hoeverre het model door het bedrijf zelf is getraind en in hoeverre het leunt op bestaande technologie. De lowbudgetclaim die DeepSeek maakt, kan dus minder relevant zijn dan op het eerste gezicht lijkt.”

Opluchting voor Nvidia

DeepSeeks recente lancering van zijn R1-model heeft de markt verrast. Beleggers stelden zich vragen bij de enorme investeringen van bedrijven als OpenAI, Google en Meta in de prijzige datacenters die door Nvidia-chips worden gedreven. Maandag kelderde het Nvidia-aandeel en verloor het bedrijf 589 miljard dollar in één dag. Dat was een recordverlies in Wall Street, dat dinsdag deels is goedgemaakt.

Als DeepSeek inderdaad gebruik heeft gemaakt van distillatie om zijn model te trainen, kan dat de druk op Nvidia verminderen. Het zou namelijk betekenen dat dergelijke chips nog altijd essentieel zijn in het AI-ontwikkelingsproces.

‘OpenAI krijgteen koekje van eigen deeg’

Jozefien Vanherpe, KU Leuven

Ook Stijn Viaene verwacht dat de grote investeringen in datacenters en de daarvoor benodigde kernenergie zullen blijven doorgaan. “Artificiële intelligentie is veel meer dan alleen ChatGPT en taalmodellen. Op termijn moet de technologie impact hebben op de farmaceutische industrie, de maakindustrie en nog veel meer.” Om ooit robots op basis van AI te kunnen inzetten of effectievere medicijnen te ontwikkelen die volledig zijn afgestemd op een individuele patiënt, zal meer nodig zijn dan distillatie.

‘Koekje van eigen deeg’

Wie zich volgens juristen wél zorgen moet maken over distillatie, is OpenAI. Ironisch genoeg wordt het bedrijf van CEO Sam Altman zelf geconfronteerd met rechtszaken van media en auteurs, waaronder The New York Times, die het beschuldigen van auteursrechtenschending door modellen te trainen met ongeautoriseerde content.

“OpenAI krijgt een koekje van eigen deeg”, merkt Jozefien Van Herpe op, assistent-professor IP-recht aan de KU Leuven. “Het moet nog blijken of auteurs en media hun gelijk halen, want de juridische analyses lopen sterk uiteen. Maar daar komt nu bij dat OpenAI zich ook nog eens zorgen moet maken over de distillatie van zijn model door DeepSeek of door andere partijen in de toekomst. In het intellectuele eigendomsrecht staat omschreven dat de bron- en objectcode van een algoritme beschermd zijn door het auteursrecht, maar het is nog de vraag of hier daadwerkelijk code is gekopieerd.” Bij distillatie van een AI-model wordt de rechtstreekse code in feite niet overgenomen, maar wordt slechts informatie onttrokken aan een bestaand model.

Het kan voor OpenAI uitdagend zijn om zich tegen distillatie te wapenen. Anderzijds merkt Van Herpe op dat het überhaupt al moeilijk is voor het bedrijf van Altman om zich tegen een Chinese concurrent te verweren. “Chinese bedrijven weigeren vaak een buitenlands vonnis te erkennen. Het kan moeilijk worden om ze te laten betalen.”

Fout opgemerkt of meer nieuws? Meld het hier

Partner Content