Kunnen we AI-artsen vertrouwen? Google Health en Academici vechten het uit

Oct 22, 2020

Van oogaandoeningen, borstkanker en andere kankers tot meer amorfe neurologische aandoeningen , Artificial Intelligence (AI) leert routinematig de prestaties van de arts, om hun ronduit te verslaan.

Maar als het gaat om beslissingen over leven en dood, wanneer kunnen we dan ons volledige vertrouwen stellen in raadselachtige algoritmen – ‘blackboxes  ‘ die zelfs hun makers niet volledig kunnen uitleggen of begrijpen? Het probleem wordt ingewikkelder naarmate medische AI ​​meerdere disciplines en ontwikkelaars kruist, waaronder zowel academische als industriële grootmachten zoals Google, Amazon of Apple, met ongelijksoortige prikkels.

Deze week streden de twee partijen het uit in een verhit duel in een van de meest prestigieuze wetenschappelijke tijdschriften, Nature. Aan de ene kant staan ​​vooraanstaande AI-onderzoekers van het Princess Margaret Cancer Center, University of Toronto, Stanford University, Johns Hopkins, Harvard, MIT en anderen. Aan de andere kant staat de titan Google Health.

Ontvang onze Nieuwsbrief

Aanleiding was een explosieve studie van Google Health voor screening op borstkanker, die in januari van dit jaar werd gepubliceerd. De studie beweerde een AI-systeem te hebben ontwikkeld dat veel beter presteerde dan radiologen voor het diagnosticeren van borstkanker, en dat kan worden gegeneraliseerd naar populaties die verder gaan dan die welke voor training worden gebruikt – een soort heilige graal die ongelooflijk moeilijk is vanwege het gebrek aan grote medische beeldgegevenssets. Het onderzoek veroorzaakte golven in het medialandschap en veroorzaakte een buzz in de publieke sfeer voor de ‘volwassen worden’ van medische AI.

Het probleem, zo betoogden de academici, is dat het onderzoek onvoldoende beschrijvingen van de code en het model ontbrak, zodat anderen deze konden repliceren. Met andere woorden, we kunnen de studie alleen maar op haar woord vertrouwen – iets wat bij wetenschappelijk onderzoek gewoon niet wordt gedaan. Google Health schreef op zijn beurt een beleefd, genuanceerd maar assertief weerwoord waarin ze pleitte voor hun behoefte om patiëntinformatie te beschermen en de AI te voorkomen tegen kwaadwillende aanvallen.

Academisch discours zoals deze vormen de zetel van de wetenschap en lijken misschien ongelooflijk nerdy en verouderd. Vooral omdat de twee partijen in plaats van online kanalen hun toevlucht namen tot een eeuwenoude pen-en-papier-discussie. Door dit te doen, brachten ze echter een noodzakelijk debat naar een breed wereldwijd publiek, waarbij elke kant stevige klappen kreeg die op hun beurt de basis konden leggen voor een kader voor vertrouwen en transparantie in medische AI ​​- in het voordeel van iedereen. 

Academici aan het woord

Het is gemakkelijk te zien waar de argumenten van de academicus vandaan komen. Wetenschap wordt vaak afgeschilderd als een heilige onderneming die objectiviteit en waarheid belichaamt. Maar zoals elke discipline die door mensen wordt aangeraakt, is het vatbaar voor fouten, slechte ontwerpen, onbedoelde vooroordelen of – in zeer kleine aantallen – bewuste manipulatie om de resultaten scheef te trekken. Daarom beschrijven wetenschappers bij het publiceren van resultaten zorgvuldig hun methodologie, zodat anderen de bevindingen kunnen repliceren. Als een conclusie, zeg maar een vaccin dat beschermt tegen Covid-19, in bijna elk laboratorium voorkomt, ongeacht de wetenschapper, het materiaal of de proefpersonen, dan hebben we sterker bewijs dat het vaccin echt werkt. Als dat niet het geval is, betekent dit dat de eerste studie misschien niet klopt – en wetenschappers kunnen dan aangeven waarom en verder gaan. Replicatie is essentieel voor een gezonde wetenschappelijke evolutie.

“In computationeel onderzoek is het nog geen wijdverbreid criterium om de details van een AI-onderzoek volledig toegankelijk te maken. Dit is nadelig voor onze vooruitgang ”, zei auteur Dr. Benjamin Haibe-Kains van het Princess Margaret Cancer Center. Nuances in computercode of trainingsvoorbeelden en -parameters kunnen bijvoorbeeld de training en evaluatie van resultaten ingrijpend veranderen (aspecten die niet gemakkelijk kunnen worden beschreven met alleen tekst, zoals de norm is). Het gevolg, zei het team, is dat het proberen om de complexe computationele pijplijn te verifiëren ‘niet mogelijk’ maakt. (Voor academici is dat het equivalent van handschoenen uit.)

Hoewel de academici het onderzoek naar borstkanker van Google Health als voorbeeld namen, erkenden ze dat het probleem veel wijdverbreider is. Door de tekortkomingen van het Google Health-onderzoek op het gebied van transparantie te onderzoeken, zei het team: “We bieden mogelijke oplossingen met implicaties voor het bredere veld.” Het is geen onmogelijk probleem. Online opslagplaatsen zoals GitHub, Bitbucket en anderen staan ​​het delen van code al toe. Anderen staan ​​het delen van deep learning-modellen toe, zoals ModelHub.ai, met ondersteuning voor frameworks zoals TensorFlow, dat werd gebruikt door het Google Health-team.

Afgezien van de ins-en-outs van AI-modellen, is er ook de kwestie van het delen van gegevens waaruit die modellen zijn getraind. Het is een bijzonder netelig probleem voor medische AI, omdat veel van die datasets onder licentie zijn en het delen ervan privacyproblemen kan veroorzaken. Toch is het niet ongehoord. Genomics maakt bijvoorbeeld al decennia lang gebruik van patiëntgegevenssets – in wezen de genetische “basiscode” van elke persoon. Er bestaan ​​uitgebreide richtlijnen om de privacy van patiënten te beschermen. Als je ooit een 23andMe-spitkit voor voorouders hebt gebruikt en toestemming hebt gegeven om je gegevens te gebruiken voor grote genomische onderzoeken, heb je geprofiteerd van die richtlijnen. Iets soortgelijks opzetten voor medische AI ​​is niet onmogelijk.

Uiteindelijk zal een hogere lat voor transparantie voor medische AI ​​ten goede komen aan het hele veld, inclusief artsen en patiënten. “Naast het verbeteren van de toegankelijkheid en transparantie, kunnen dergelijke bronnen de ontwikkeling, validatie en overgang van modellen naar productie en klinische implementatie aanzienlijk versnellen”, schreven de auteurs.

En nu Google Health

Onder leiding van dr. Scott McKinney nam Google Health geen blad voor de mond. Hun algemene argument: “Ongetwijfeld worden de commentatoren zowel gemotiveerd door toekomstige patiënten als door wetenschappelijke principes te beschermen. We delen dat gevoel. ” Maar onder de huidige regelgevende kaders zijn onze handen gebonden als het gaat om open delen.

Als het bijvoorbeeld gaat om het vrijgeven van een versie van hun model zodat anderen deze kunnen testen op verschillende sets medische beelden, zei het team dat ze dat eenvoudigweg niet kunnen omdat hun AI-systeem kan worden geclassificeerd als ‘software voor medische apparatuur’, die onderhevig is aan toezicht. Onbeperkte vrijgave kan leiden tot aansprakelijkheidskwesties die een risico vormen voor patiënten, zorgverleners en ontwikkelaars.

Wat het delen van datasets betreft, voerde Google Health aan dat hun grootste gebruikte bron online beschikbaar is met een applicatie om toegang te krijgen (met slechts een vleugje sass dat hun organisatie heeft bijgedragen aan de financiering van de bron). Andere datasets kunnen vanwege ethische reden eenvoudigweg niet worden gedeeld.

Ten slotte voerde het team aan dat het delen van de ‘aangeleerde parameters’ van een model, dat wil zeggen het brood-en-boter van hoe ze zijn geconstrueerd, de trainingsdataset en het model onbedoeld kan blootstellen aan kwaadwillende aanvallen of misbruik. Het is zeker een zorg: je hebt misschien eerder gehoord van GPT-3, het OpenAI-algoritme dat zenuwslopend schrijft als een mens – genoeg om Redditors een week lang voor de gek te houden . Maar er zou een heel ziek persoon voor nodig zijn om een ​​instrument voor het opsporen van borstkanker te verpesten voor een verwrongen bevrediging.

De kamer waar het gebeurt

Het academische-Google Health-debat is slechts een klein hoekje van een wereldwijde afrekening voor medische AI. In september 2011 introduceerde een internationaal consortium van medische experts een reeks officiële standaarden voor klinische onderzoeken waarbij AI in de geneeskunde wordt gebruikt, met als doel AI-slangolie uit betrouwbare algoritmen te plukken. Eén punt klinkt misschien bekend: hoe betrouwbaar een medische AI ​​in het echte woord functioneert, weg van gunstige trainingssets of omstandigheden in het laboratorium. De richtlijnen vertegenwoordigen enkele van de eersten als het gaat om medische AI, maar zullen niet de laatste zijn.

Als dit allemaal abstract en hoog in de ivoren toren lijkt, denk er dan anders over: je bent nu getuige van de kamer waar het gebeurt. Door onderhandelingen en discours openbaar te maken, nodigen AI-ontwikkelaars extra belanghebbenden uit om deel te nemen aan het gesprek. Net als zelfrijdende auto’s lijkt medische AI ​​een onvermijdelijkheid. De vraag is hoe je het op een veilige, gelijkwaardige manier kunt beoordelen en inzetten – en daarbij een flinke dosis publiek vertrouwen uitnodigt.