Zal kunstmatige intelligentie de media doden of redden?

kunstmatige_intelligentie_kill_save_media

Zoeken naar informatie, productie van inhoud, vertaling, detectie van haatzaaiende uitlatingen...intelligentie artificielle (generatieve AI) belooft aanzienlijke productiviteitswinsten in de wereld van media.

De media begeleiden ons dagelijks en zijn een steunpilaar voor de democratie: ze hebben de vrijheid om verschillende standpunten en ideeën naar voren te brengen, om corruptie en discriminatie aan de kaak te stellen, maar ook om sociale en culturele cohesie te tonen.

Terwijl het publiek zich tot de media wendt voor informatie, cultuur en amusement, kunnen de media niet ontsnappen aan de economische zorgen en winstgevendheid van een sector, gemeten in termen van publiek en omzet. In deze context brengt generatieve AI krachtige nieuwe tools met zich mee, die steeds vaker zullen worden gebruikt.

Maar het is cruciaal om te onthouden dat generatieve AI’s geen ideeën hebben, en dat ze opmerkingen herhalen die op even interessante als absurde manieren kunnen worden gerangschikt (we spreken dan van ‘hallucinaties’ van AI-systemen). Deze generatieve AI’s weten niet wat mogelijk of onmogelijk is, waar of onwaar, moreel of immoreel.

Het beroep van journalist moet dus centraal blijven staan ​​bij het onderzoeken en redeneren van complexe sociale en geopolitieke situaties. Dus hoe kunnen mediakanalen AI-tools inzetten en tegelijkertijd hun valkuilen vermijden?

De Nationale Pilotcommissie voor Digitale Ethiek (CNPEN) bracht in juli een rapport uit algemene opvatting over de ethische kwesties van generatieve AI, die ik coördineerde, aan de minister verantwoordelijk voor de Digitale Transitie. Het specificeert met name de risico's van deze systemen.

Krachtige tools voor journalisten

De media kunnen AI gebruiken om de kwaliteit van informatie te verbeteren, nepnieuws te bestrijden, intimidatie en het aanzetten tot haat te identificeren, maar ook omdat het kan helpen kennis te vergroten en complexe realiteiten, zoals duurzame ontwikkeling of zelfs migratiestromen, beter te begrijpen.

Generatieve AI's zijn fantastische hulpmiddelen die resultaten kunnen opleveren die we zonder hen niet zouden kunnen verkrijgen, omdat ze berekenen op representatieniveaus die niet de onze zijn, op basis van een gigantische hoeveelheid gegevens en met een snelheid waarmee een brein niet weet hoe het moet omgaan. Als we onszelf weten te voorzien van waarborgen, zijn dit systemen die ons tijd zullen besparen bij het zoeken naar informatie, lezen en produceren en die ons in staat zullen stellen stereotypen te bestrijden en processen te optimaliseren.

Deze tools komen nu niet toevallig aan. Terwijl we feitelijk verdrinken in een stroom van informatie die voortdurend wordt uitgezonden via traditionele kanalen of inhoud die toegankelijk is op internet, zoals tools ChatGPT stellen ons in staat om samenvattingen, programma's, gedichten, enz. te raadplegen en te produceren op basis van een reeks gigantische informatie die in menselijke tijd ontoegankelijk is voor een menselijk brein. Ze kunnen daarom uiterst nuttig zijn voor veel taken, maar kunnen ook bijdragen aan een stroom van niet-gesourcete informatie. We moeten ze daarom temmen en begrijpen hoe ze werken en wat de risico's zijn.

Generatieve AI leren

De prestaties van generatieve AI zijn afhankelijk van het zelfgecontroleerde leervermogen (dat wil zeggen zonder geleid te worden door een menselijke hand, wat een ander concept is dan real-time aanpassing) van hun interne modellen, genaamd "funderingsmodellen", die worden getraind op basis van enorme corpora aan gegevens die bestaan ​​uit miljarden afbeeldingen, teksten of geluiden, heel vaak in dominante culturen op internet, GPT3.5 van ChatGPT wordt bijvoorbeeld voornamelijk gevoed met gegevens in het Engels. Twee andere soorten leren waren ook gebruikt: vóór de beschikbaarheid eind 2022 werd ChatGPT geoptimaliseerd met behulp van een leren onder toezicht dan dankzij A versterkend leren door mensen om de resultaten te verfijnen en ongewenste opmerkingen te elimineren.

Deze optimalisatie door mensen is ook breed bekritiseerd. Hoe worden ze opgeleid? Wie zijn deze "onderbetaalde klikmannen ? Over deze “ongewenste” opmerkingen wordt bovendien niet beslist door een ethische commissie of de wetgever, maar alleen door het bedrijf.

Leren dat de bronnen vergeet

Bij het leren van basismodellen op teksten leert het systeem wat ‘lexicale inbeddingsvectoren" (van grootte 512 in GPT 3.5). Dit is het "transformatoren" -systeem. Het trainingsprincipe van het funderingsmodel is gebaseerd op de distributiehypothese voorgesteld door de Amerikaanse taalkundige John Ruppert Fith in 1957: we kunnen de betekenis van een woord niet kennen alleen door zijn frequente bezoeken ("Je zult een woord kennen door het gezelschap dat het onderhoudt").

Deze entiteiten ("teken" in het Engels) zijn gemiddeld vier tekens in GPT3.5. Ze kunnen slechts uit één en één blanco bestaan. Het kunnen daarom delen van woorden of woorden zijn met het voordeel dat ze deze entiteiten op een behendige manier kunnen combineren om woorden en zinnen opnieuw te creëren zonder enige taalkundige kennis (afgezien van de kennis die impliciet in de volgorde van de woorden zit), met als nadeel uiteraard dat ze minder interpreteerbaar zijn. Elke entiteit wordt gecodeerd door een vector die informatie bevat over alle contexten waarin deze entiteit is gezien dankzij aandachtsmechanismen. Twee entiteiten met dezelfde buurt zullen dus door het AI-systeem als dichtbij worden beschouwd.

Het generatieve AI-systeem op teksten leert dus een productiemodel met mechanismen die niets te maken hebben met menselijke productie die zich bij een lichaam bevindt. ze kan het nabootsen door teksten te leren. Deze operatie heeft het directe gevolg van het verlies van de bronnen waaruit de geïdentificeerde buurten zijn gehaald, wat een fundamenteel probleem vormt voor de verificatie van de geproduceerde inhoud. Geen enkele verificatie van de waarheidsgetrouwheid van de verklaringen is gemakkelijk te verkrijgen. We moeten de bronnen vinden en als we het systeem daarom vragen, kan het ze uitvinden!

Wanneer u een prompt aan ChatGPT geeft, voorspelt deze de volgende entiteit, vervolgens de volgende enzovoort. Een belangrijke parameter is die van “temperatuur”, die de mate van willekeur in de keuze van entiteiten uitdrukt. Bij een hoge temperatuur is het model 'creatiever' omdat het meer diverse outputs kan genereren, terwijl bij een lage temperatuur het model de neiging heeft om de meest waarschijnlijke outputs te kiezen, waardoor de gegenereerde tekst voorspelbaarder wordt. Er worden drie temperatuuropties aangeboden in de Bing-conversatietool van Microsoft (GPT4) (preciezer, evenwichtiger, creatiever). Vaak worden systeemhyperparameters niet onthuld vanwege cyberveiligheids- of vertrouwelijkheidsredenen, zoals het geval is in ChatGPT... maar de temperatuur maakt verschillende antwoorden op dezelfde vraag mogelijk.

“Hallucinaties” en andere risico’s

Het is daarom gemakkelijk om je een aantal van de risico’s van generatieve AI voor de media voor te stellen. Anderen zullen zeker verschijnen zoals ze worden gebruikt.

Het lijkt urgent om te vinden hoe we deze kunnen minimaliseren, in afwachting van de afkondiging voor de Europese Unie van een IA wet door jezelf uit te rusten gidsen voor goede praktijken. L 'kennisgeving van de CNPEN over generatieve AI en ethische kwesties bevat 10 aanbevelingen voor onderzoek en 12 voor bestuur. Hier zijn enkele van de geïdentificeerde risico's voor de media:

  • Te veel vertrouwen op wat de machine zegt zonder te vergelijken met andere bronnen. Het kruisen van verschillende gegevensbronnen en de noodzaak om onderzoek te doen worden van fundamenteel belang voor alle beroepen: journalisten, wetenschappers, professoren en anderen. Het lijkt ook van fundamenteel belang om te leren hoe deze systemen op school en op de universiteit gebruikt kunnen worden cultiveer de kunst van het debatteren om uw ideeën te ontwikkelen.

  • Begrijp dat ChatGPT is gebouwd met gegevens die voornamelijk in het Engels zijn en dat de culturele invloed ervan aanzienlijk kan zijn.

  • Massaal lui gebruik maken van ChatGPT in de media, waardoor veel nieuwe, niet-geverifieerde kunstmatige gegevens op internet worden geproduceerd die kunnen worden gebruikt om nieuwe AI te trainen. Het zou tragisch zijn als er niet langer enige garantie zou zijn op de waarheid over deze gegevens die door de machine zijn gereconstrueerd. Zo kwamen twee Amerikaanse advocaten in de val door tijdens een procedure, op advies van het algoritme, naar te verwijzen jurisprudentie die nog niet bestond.

  • Vervang bepaalde taken in veel mediagerelateerde beroepen door AI-systemen. Sommige banen zullen verdwijnen, andere zullen verschijnen. Het is noodzakelijk om interfaces te creëren met vertrouwenwekkende maatregelen om de samenwerking tussen mensen en AI-systemen te bevorderen.

  • Het gebruik van AI-systemen en het demystificeren ervan wordt een absolute noodzaak, terwijl we ervoor moeten zorgen dat we het niet afleren en zonder kunnen.

  • Het is noodzakelijk om te begrijpen dat ChatGPT veel fouten maakt, het heeft bijvoorbeeld geen concept van geschiedenis of begrip van ruimte. De duivel zit in de details, maar ook in de keuze van de gegevens die worden gebruikt om het model te maken. De AI-wet roept op tot meer transparantie over deze AI-systemen om hun robuustheid en niet-manipulatie te verifiëren energieverbruik.

  • Het is noodzakelijk om te controleren of de geproduceerde gegevens geen inbreuk maken op de auteursrechten en dat de door het systeem gebruikte gegevens correct worden gebruikt. Als ‘synthetische’ data morgen onze kennis zullen vervangen bij het trainen van toekomstige basismodellen, zal het steeds moeilijker worden om feit van fictie te scheiden.

  • Toegang bieden tot AI-systemen (bijv. Plaat ou Stabiele diffusie) die kunnen worden gebruikt om hyperfakes te maken (deepfake in het Engels) om afbeeldingen te produceren. Het fenomeen herinnert ons aan het belang van het controleren van niet alleen de betrouwbaarheid van artikelbronnen, maar ook van afbeeldingen en video’s. Het is een kwestie van watermerken plaatsen (of watermerken) in de geproduceerde teksten, afbeeldingen of video’s om erachter te komen of ze door AI zijn gemaakt of om de gegevens ‘organisch’ (of door mensen geproduceerd) te bestempelen.

AI-laboratorium over de opkomst en grenzen van generatieve AI

De komst van ChatGPT was voor iedereen een tsunami. Hij heeft zowel experts als niet-experts verbaasd met zijn vaardigheden op het gebied van tekstproductie, vertaling en zelfs computerprogrammering.

De precieze wetenschappelijke verklaring van het fenomeen ‘vonk van opkomst’ in funderingsmodellen is een actueel onderzoeksonderwerp en hangt af van de gegevens en hyperparameters van de modellen. Het is belangrijk om multidisciplinair onderzoek op grote schaal te ontwikkelen naar de opkomst en grenzen van generatieve AI en naar de maatregelen die moeten worden ingezet om deze te beheersen.

Tenslotte is het noodzakelijk geef op school voorlichting over risico's, ethiek en programmeren, en ook AI-systemen trainen en demystificeren om ze op verantwoorde wijze te gebruiken en te innoveren, terwijl ze zich bewust zijn van de ethische, economische, maatschappelijke gevolgen en milieukosten.

Frankrijk zou binnen Europa een belangrijke rol kunnen spelen met de ambitie een AI-laboratorium voor de media te zijn door ethische en economische kwesties te bestuderen in dienst van het algemeen belang en de democratieën.


Deze bijdrage aan The Conversation France breidt een interventie van de auteur uit Jéco 2023 die van 14 tot 16 november 2023 in Lyon werden gehouden.

Laurence Devillers, hoogleraar kunstmatige intelligentie, Sorbonne-universiteit

Dit artikel is opnieuw gepubliceerd vanaf The Conversation onder Creative Commons-licentie. Lees deorigineel artikel.

De meningen in dit artikel komen niet noodzakelijk overeen met die van InfoChrétienne.

Beeldcredits: Shutterstock / Skorzewiak


In de categorie Media >



Recent nieuws >