Er AI-teknologiens styrke også dens begrænsning?
AI-teknologiens muligheder for at kunne finde sammenhænge og mønstre i enorme datasæt har stort potentiale. Men teknologiens sult efter data – og styrke, når store datamængder anvendes – kan faktisk blive et problem. For hvornår behandler AI-systemerne persondata, og hvilke konsekvenser har det?
Behandler min robot persondata?
Data er AI-systemers brændstof. Jo mere data, jo hurtigere og mere præcise resultater. Det er dog vigtigt at være opmærksom på, om de data, man fodrer sin AI med, udgør persondata.
Der er i praksis – næsten – altid persondata i et datasæt. Krypteret og pseudonymiseret data er f.eks. stadig persondata. Så længe det på en eller anden måde, teknisk, er muligt tilnærmelsesvist at finde en person ud fra et datasæt, er det persondata.
Konsekvensen ved at anvende persondata er, at forpligtelserne efter GDPR skal iagttages. Det betyder blandt et krav om dataminimering og formålsbestemthed, at konsekvensanalyser skal udarbejdes, og de registreredes rettigheder skal efterleves. Sagt på en anden måde; en lang række processer og operationsgange skal håndteres. Og dét kan være tidskrævende.
Alle disse krav forvinder dog, hvis man anonymiserer data først.
Anonymiser din data
Anonymisering handler om at fjerne koblingen mellem den konkrete oplysning og personen bag. Det betyder, at det ikke længere skal kunne være muligt at genkende personen ud fra oplysningerne eller ved kombination med andre oplysninger. Anonymisering kan f.eks. ske ved, at man fjerner kontaktoplysninger i en undersøgelse og alene beholder svarene. Det kan også ske ved at generalisere datasæt, så detaljeringsniveauet sænkes.
Kvaliteten af resultaterne fra et AI-system afhænger i høj grad af kvaliteten af de anvendte data. Af samme grund er det den generelle opfattelse, at anonymisering af data medfører lavere kvalitet. Sådan hænger det dog ikke nødvendigvis sammen.
AI-systemernes funktionsevne er ikke nødvendigvis betinget af at kunne identificere individet bag dataene. Derfor bør virksomhederne forsøge at anonymisere dataene, før disse indføres i AI-systemerne.
Anonymisering og big data
Ønskes forpligtelserne i GDPR ikke iagttaget, er det en betingelse, at anonymisering er uigenkaldelig. Det bliver dog ikke nødvendigvis nemmere i takt med den teknologiske udvikling.
Der har de sidste år været flere eksempler på, at anonymiseringen ikke har været tilstrækkelig. Enten fordi datamængden har været detaljeret og omfattende (big data), eller fordi der sker en kombination af anonyme og ikke-anonyme data.
Et eksempel kunne være:
- En kommune offentliggør anonymiserede sundhedsoplysninger, som led i en sundhedsundersøgelse.
- Offentligt tilgængeligt data på borgere i den pågældende kommune indsamles (f.eks. fødselsdag, køn og postnummer).
- De to uafhængige datasæt indføres i et AI-system.
- AI-systemet sammenligner de to datasæt og udleder sammenhænge og mønstre, som gør det muligt at gen-identificere personerne i sundhedsundersøgelsen.
AI-systemet udleder i eksemplet matematiske sammenhænge og algoritmer mellem anonymiseret data og ikke-anonymiseret data. Det har som ultimativ konsekvens, at det anonyme data (igen) gøres til personoplysninger, hvorefter reglerne herom skal iagttages.
Hvad kan du gøre?
Grundlæggende rejser brugen af persondata i AI-teknologi en række juridiske og etiske spørgsmål. For hvordan sikrer man efterlevelse af reglerne, der søger at beskytte individet, samtidigt med, at man udvikler AI-teknologi af høj kvalitet?
Det findes der nok ikke et klart svar på. Men en mulig løsning er brugen af syntetisk data.
Syntetisk data fremkommer ved, at AI-systemer emulerer faktisk data. Der skabes et nyt datasæt i form af syntetisk data. AI-systemet lærer så at sige sandsynlighedsfordelingen i det originale datasæt, og genererer derefter et nyt datasæt med samme sandsynlighedsfordeling. Netop fordi der ved syntetisk data bliver skabt helt nye datasæt, kan ingen af de syntetiske datapunkter spores tilbage til den originale data.
Det vigtigste, som virksomheder bliver klar over er, hvorvidt deres AI-systemer anvender persondata, f.eks. som træningsdata. Derefter bliver overvejelserne: 1) Hvordan virksomheden iagttager reglerne herom, eller 2) hvordan virksomheden ønsker at komme udenom reglerne ved enten at sikre en uigenkaldelig anonymisering eller ved at anvende syntetiske data.
Hvis ikke ovenstående tages i betragtning, risikerer AI-systemernes styrke at blive dens egen begrænsning.
Vil du vide mere?
Hos DAHL følger vi udviklingen inden for kunstig intelligens tæt. Har du spørgsmål, er du velkommen til at kontakte vores advokat og partner Tim Krarup Nielsen, der er specialist inden for IT og teknologi.