Die Seite des SF | La page du FS
8. Datenschutzrechtstagung: Veranstaltung des Schweizer Forum fĂŒr Kommunikationsrecht (SFâąFS) vom 22. Mai 2024
Samuel MĂ€tzler,
Rechtsanwalt, Doktorand, UniversitĂ€t ZĂŒrich.
Deborah De Col,
RechtsanwÀltin, Senior Data Privacy Specialist, Winterthur.
Die Autorin und der Autor danken allen Referierenden und Diskussionsteilnehmenden fĂŒr die konstruktiven RĂŒckmeldungen.
Die 8. Datenschutzrechtstagung des Schweizer Forum fĂŒr Kommunikationsrecht brachte am 22. Mai 2024 in ZĂŒrich Fachleute aus verschiedenen Disziplinen zusammen, um ĂŒber aktuelle Entwicklungen, Herausforderungen und Best Practices in den Bereichen KĂŒnstliche Intelligenz (KI oder AI) und Datenschutzrecht zu diskutieren. Die Referierenden teilten ihre praktischen Erfahrungen und theoretischen Erkenntnisse und gaben einen umfassenden Ăberblick ĂŒber die regulatorischen, ethischen und technischen Aspekte von KI. Ein besonderer Fokus lag auf den jĂŒngsten gesetzlichen Entwicklungen im Datenschutzrecht und deren Auswirkungen auf die KI-Regulierung. Dieser Tagungsbericht fasst die wesentlichen Inhalte der VortrĂ€ge und Diskussionen zusammen. David Rosenthalâ1 fĂŒhrte als Moderator durch den Nachmittag und die Podiumsdiskussionen.
La 8e ConfĂ©rence du droit de la protection des donnĂ©es du Forum Suisse pour le Droit de la Communication a rĂ©uni le 22 mai 2024 Ă Zurich des spĂ©cialistes de diffĂ©rentes disciplines pour discuter des dĂ©veloppements actuels, des dĂ©fis et des meilleures pratiques dans les domaines de lâintelligence artificielle (IA) et du droit de la protection des donnĂ©es. Les intervenants ont partagĂ© leurs expĂ©riences pratiques et leurs connaissances thĂ©oriques et ont donnĂ© un aperçu complet des aspects rĂ©glementaires, Ă©thiques et techniques de lâIA. Un accent particulier a Ă©tĂ© mis sur les derniers dĂ©veloppements lĂ©gislatifs en matiĂšre de droit de la protection des donnĂ©es et leurs consĂ©quences sur la rĂ©glementation de lâIA. Le prĂ©sent rapport rĂ©sume lâessentiel des prĂ©sentations et des discussions. David Rosenthal a assurĂ© la modĂ©ration de l'aprĂšs-midi et des tables rondes.
I. Update DSG
Einleitend verschaffte NoĂ©mi Zieglerâ2 ein umfassendes Update ĂŒber das neue Datenschutzrecht in der Schweiz fĂŒr den Zeitraum 2023/2024. Sie erlĂ€uterte, dass mit dem Inkrafttreten des Datenschutzgesetzes (DSG), der Datenschutzverordnung (DSV) und der Verordnung ĂŒber Datenschutzzertifizierungen (VDSZ) am 1. September 2023 das bisherige Schengen-Datenschutzgesetz (SDSG) aufgehoben worden sei. Am 7. September 2023 habe die Schweiz das Ăbereinkommen 108+ ratifiziert und am 15. Januar 2024 habe die EU-Kommission die Angemessenheit des Schweizer Daten&cbr;schutzes bestĂ€tigt, wodurch DatenĂŒbermittlungen zwischen der Schweiz und dem EWR weiterhin ohne zusĂ€tzliche Garantien möglich seien. Ein Abkommen fĂŒr Datentransfers zwischen der Schweiz und den USA stehe jedoch noch aus.â3
Die Referentin hob hervor, dass es Ăbergangsfristen fĂŒr laufende Bearbeitungen gebe, bei denen gewisse Bestimmungen des DSG nicht anwendbar seien, solange der Bearbeitungszweck unverĂ€ndert bleibe und keine neuen Daten beschafft wĂŒrden.â4 Auch hĂ€ngige Verfahren unterlĂ€gen weiterhin dem alten Recht, weshalb dieses noch von prakti|scher Bedeutung sei. Bundesvorschriften fĂŒr Personendaten juristischer Personen blieben zudem wĂ€hrend fĂŒnf Jahren nach Inkrafttreten des DSG anwendbar.
1. Praxis des Eidgenössischen Datenschutz- und Ăffentlichkeitsbeauftragten (EDĂB)
Der EDĂB habe zahlreiche Leitlinien, MerkblĂ€tter und Templates veröffentlicht, die Unternehmen als Orientierungshilfe dienen könnten, um mit den gesetzlichen Neuerungen umzugehen, so etwa zu technischen und organisatorischen Massnahmen (TOMs), Datenschutz-FolgenabschĂ€tzungen (DSFA) und dem Auskunftsrecht.â5 Zu den TOMs wurde betont, dass Datensicherheit nur ein Aspekt der Massnahmen sei und auch die DatenbearbeitungsgrundsĂ€tze und Betroffenenrechte Beachtung finden mĂŒssten. Das Merkblatt zur DSFA hebe ausserdem die Notwendigkeit von Self-Assessments bezĂŒglich der Risiken fĂŒr betroffene Personen hervor. Die Dokumente des EDĂB seien jedoch nicht verbindlich, sondern lediglich Orientierungshilfen. Praktisch sei dies etwa an veralteten Massnahmen zu erkennen. Um auf dem Stand der Technik zu sein, sollten sich Unternehmen in solchen Fragen besser an die IT-Security wenden. Dies gelte auch, weil der EDĂB teilweise ĂŒber die gesetzlichen Vorgaben hinausgehe. Weiter habe der EDĂB die Meldeportale optimiert, sodass Datenschutzverletzungen online gemeldet werden könnten, wobei Folgemeldungen nachtrĂ€glich möglich seien.
2. Wichtige Entscheide
Ein Urteil des Bundesverwaltungsgerichts (BVGer) befasste sich mit der Anwendbarkeit der Ăbergangsregelung nach Art. 71 DSG auf ein Zugangsgesuch zu 5G-Antennendaten von Sunrise, Salt und Swisscom beim Bundesamt fĂŒr Kommunikation.â6 Bis zur Revision des DSG hĂ€tten Daten juristischer Personen dem DSG unterstanden. FĂŒr Zugangsgesuche zu Daten juristischer Personen nach dem BGĂ sei deshalb auf das DSG verwiesen worden. In der revidierten Version verweise Art. 9 BGĂ nun fĂŒr Daten juristischer Personen auf Art. 57 s RVOG. Nach dem BVGer sei Art. 71 DSG nicht auf das Zugangsgesuch anwendbar, weil das BGĂ bereits an das neue DSG angepasst worden sei; stattdessen finde das neue BGĂ Anwendung.
In einem weiteren Entscheid habe sich das Bundesgericht (BGer) mit dem Rechtsmissbrauch bei Auskunftsbegehren befasst. Es habe entschieden, dass das Auskunftsrecht nur zu datenschutzrechtlichen Zielen geltend gemacht werden könne und ein Begehren als offensichtlich rechtsmissbrĂ€uchlich gelte, wenn es nicht der Durchsetzung datenschutzrechtlicher Zwecke diene, datenschutzwidrige Motive verfolge oder primĂ€r datenschutzfremden Zwecken (wie vorliegend der Durchsetzung eines sozialversicherungsrechtlichen Anspruchs) diene.â7 Dies stelle einen Paradigmenwechsel dar, da es aus Sicht des Auskunftserteilenden nach dieser Rechtsprechung nun mehr Möglichkeiten gebe, ein Gesuch abzulehnen.
In einem Thurgauer Strafverfahrenâ8 sei weiter festgehalten worden, dass verspĂ€tete oder nicht erteilte AuskĂŒnfte nicht strafbar seien â nur vorsĂ€tzlich falsche oder unvollstĂ€ndige AuskĂŒnfte könnten strafrechtlich verfolgt werden. Die Referentin empfahl daher, die VollstĂ€ndigkeit einer Auskunft â entgegen dem Musterschreiben des EDĂB â nie zu bestĂ€tigen.
Ferner sei der Schlussbericht des EDĂB zur SachverhaltsabklĂ€rung bei Digitec Galaxusâ9 der Frage nachgegangen, ob singularisierte Daten einen Personenbezug hĂ€tten, wie wirksam die Empfehlungen des EDĂB seien, und wie umfangreich die Informations- und Transparenzpflicht sein solle. Die Referentin stellte fest, dass gestĂŒtzt auf den Schlussbericht auch singularisierte Daten unter das Datenschutzrecht fallen, sofern RĂŒckschlĂŒsse auf Personen mit verhĂ€ltnismĂ€ssigen Mitteln möglich sind. In Bezug auf die Wirksamkeit der Empfehlungen sei unklar, ob die Beurteilung des EDĂB noch relevant sei, da das neue Recht womöglich andere MassstĂ€be setze. FrĂŒher habe der Fokus darauf gelegen, welche Personendaten zu welchen Zwecken bearbeitet wĂŒrden. Allerdings wĂŒrden nunmehr weder die Transparenz- noch die Informationspflicht eine Zuordnung von Daten und Zwecken verlangen.
Ziegler schloss mit einem Blick auf kantonale Datenschutzentwicklungen. Im Kanton Bern solle die Bekanntgabe von Daten ins Ausland unter bestimmten Bedingungen fĂŒr Auftragsbearbeitungen ermöglicht werden.â10 Im Kanton ZĂŒrich solle das neue Gesetz ĂŒber digitale Basisdienste die DatenĂŒbertragung an Cloud-Anbieter unter bestimmten Voraussetzungen erlauben.â11 Das neue Informations- und Datenschutzgesetz des Kantons ZĂŒrich sei schliesslich seit dem 1. Mai 2024 in Kraft, wobei auf Bundesebene das DSG gelte, wenn kantonale Organe privatrechtlich handelten.
II. Update DSGVO
Christian Kunzâ12 prĂ€sentierte die aktuellen Entwicklungen unter der Datenschutz-Grundverordnung (DSGVO). Im letzten Jahr seien bedeutende Entscheidungen des EuropĂ€ischen Gerichtshofs (EuGH) und Empfehlungen der europĂ€ischen und nationalen Datenschutzbehörden ergangen, welche die Anwendung der DSGVO in der Praxis massgeblich beeinflusst hĂ€tten.
1. BestÀtigung der relativen Auslegung von personenbezogenen Daten
Der EuGH habe den relativen Ansatz bei der Qualifikation von personenbezogenen Daten aus dem Breyer-Urteil gefestigt. Pseudonymisierte Daten gelten als personenbezogen, wenn der EmpfĂ€nger ĂŒber Mittel zur Re-Identifizierung verfĂŒge. Dies hĂ€nge von der Rolle des EmpfĂ€ngers ab und es mĂŒssten nur realistisch verfĂŒgbare Identifizierungsmethoden berĂŒcksichtigt werden.â13 In diesem Zusammenhang wies der Referent darauf hin, dass das HGer ZĂŒrichâ14 die Möglichkeit einer auslĂ€ndischen Behörde, ein Amts- oder Rechtshilfeverfahren einzuleiten und so Daten zu re-identifizieren, als ausreichend anerkannt habe.
2. Praxisrelevanz des Auskunftsrechts
Kunz sah im Auskunftsrecht nach Art. 15 DSGVO ein zunehmend praxisrelevantes Thema, da das European Data Protection Board (EDPB) diesbezĂŒglich im Jahr 2023 neue Leitlinien veröffentlicht hatte und das Betroffenenrecht als drittes koordiniertes Enforcement-Thema fĂŒr das Jahr 2024 festgelegt habe.
Der EuGH habe in mehreren Urteilen klargestellt, dass das Recht auf Kopie von Daten keine ganzen Dokumente oder AuszĂŒge aus Datenbanken umfassen mĂŒsse, sondern eine originalgetreue und verstĂ€ndliche Reproduktion von Personendaten ausreiche. Eine Ausnahme gelte, wenn solche Kontextinformationen fĂŒr das VerstĂ€ndnis der Daten notwendig seien.â15
Weiter habe der EuGH entschieden, dass das Auskunftsrecht auch die Abfrage in Protokolldateien (Logs) umfasse, da diese als personenbezogene Daten gelten könnten, was jedoch umstritten sei.â16 Die Auskunft ĂŒber Logs sei oft notwendig, um die RechtmĂ€ssigkeit der Datenbearbeitung zu prĂŒfen. Dem mĂŒsse jedoch eine sorgfĂ€ltige InteressenabwĂ€gung vorausgehen und eine schonende Auskunftserteilung sei geboten. Der EuGH habe klargestellt, dass diese Ăberlegungen auch fĂŒr Banken gelten, solange der nationale Gesetzgeber keine EinschrĂ€nkungen des Auskunftsrechts nach Art. 23 DSGVO festgelegt habe.
In einem weiteren EuGH-Urteil sei festgestellt worden, dass das Auskunftsrecht das Recht einschliesse, eine erste vollstĂ€ndige Kopie der Patientenakte unentgeltlich zu erhalten, unabhĂ€ngig von der Motivation des Antrags.â17 Dies gelte auch bei datenschutzfremden Zwecken wie der Vorbereitung eines Haftungsprozesses. Dies im Unterschied zum Auskunftsrecht nach Art. 25 DSG, dessen AusĂŒbung es der betroffenen Person primĂ€r ermöglichen solle, ihre Datenschutzrechte geltend zu machen, wie im revidierten DSG klargestellt worden sei.
3. Harmonisierung der VerhÀngung von Geldbussen
Der Referent leitete das nĂ€chste Thema ein, indem er auf einige Rekordbussen fĂŒr den fehlerhaften Umgang mit Nutzerdaten im Jahr 2023 hinwies, wie z.B. gegen Meta (1,2 Milliarden Euro) oder TikTok (345 Millionen Euro). Die Praxis der GeldbussenverhĂ€ngung unterliege klaren unionalen Richtlinien, die durch aktualisierte Leitlinien des EDPB mit einem neuen FĂŒnf-Schritt-System harmonisiert werden sollen. Zu einer weiteren Harmonisierung habe der EuGH beigetragen, der klargestellt habe, dass Art. 83 DSGVO ein schuldhaftes Verhalten voraussetze.â18 Damit habe er der zuvor diskutierten verschuldensunabhĂ€ngigen Haftung eine klare Absage erteilt. FĂŒr die Praxis bedeute dies, dass juristische Personen nur fĂŒr Verstösse hafteten, wenn ein schuldhaftes Verhalten, sei es Vorsatz oder FahrlĂ€ssigkeit, nachgewiesen werden könne. Die Haftung erstrecke sich nicht nur auf GeschĂ€ftsfĂŒhrer oder Vertreter, sondern auch auf natĂŒrliche Personen, die im Rahmen der unternehmerischen TĂ€tigkeit und im Namen der juristischen Person handelten. Dabei sei aber nicht erforderlich, dass eine bestimmte natĂŒrliche Person identifiziert werde, ein Organisationsverschulden reiche aus. Die Interpretation des Urteils und seine praktischen Implikationen sind gemĂ€ss Kunz umstritten.
4. Konkretisierung des Schadenersatzes
Der Schadenersatzanspruch gemĂ€ss Art. 82 DSGVO ist laut Kunz durch mehrere EuGH-Urteile konkretisiert worden. Die Rechtsprechung sei entscheidend fĂŒr die Bewertung und Durchsetzung von SchadenersatzansprĂŒchen nach der DSGVO und habe weitreichende Auswirkungen auf die Praxis im Datenschutzrecht.
So sei vom EuGH anerkannt worden, dass es keine Erheblichkeitsschwelle bei immateriellen SchĂ€den gebe, wodurch auch BagatellschĂ€den ersatzfĂ€hig seien. Ein immaterieller Schaden setze keinen spĂŒrbaren Nachteil und keine objektiv nachvollziehbare BeeintrĂ€chtigung persönlichkeitsbezogener Belange voraus, weshalb ein bloss kurzfristiger (wenige Tage dauernder) Verlust von Daten durch deren Veröffentlichung im Internet ausreiche. BegrĂŒndet werde diese Auslegung damit, dass der Schadenersatzanspruch primĂ€r dem Ausgleich und nicht der Abschreckung oder Bestrafung diene.â19
Ein immaterieller Schaden könne zudem auch aus der BefĂŒrchtung eines zukĂŒnftigen Datenmissbrauchs nach einem Cyberangriff resultieren. Der Nachweis der negativen Folgen liege in der Verantwortung der betroffenen Person und erfordere eine individuelle Betroffenheit im Einzelfall.â20 Es sei mittels einer ex ante-Betrachtung im Hinblick auf die Angemessenheit der getroffenen Massnahmen zu |prĂŒfen, ob der Cyberangriff durch mangelnde Datensicherheit ermöglicht wurde.
Der Referent betonte, dass eine Verletzung der DSGVO allein nicht automatisch zu einem Schadenersatzanspruch fĂŒhre; der konkrete Schaden mĂŒsse in jedem Fall nachgewiesen und festgestellt werden.â21 Wichtig sei aber, dass ein rein hypothetisches Risiko nicht ausreiche (wie z.B. der erwiesene Ausschluss der Kenntnisnahme durch Dritte). Zudem gelte beim Nachweis des Schadens eine Beweislastumkehr: Es werde vermutet, dass der Verantwortliche schuldhaft gehandelt habe, wobei sich dieser entlasten könne, um HaftungsansprĂŒche abzuwenden.â22
5. Vereinfachung internationaler Datentransfers
FĂŒr internationale Datentransfers in die USA sei das EU-US Data Privacy Framework (DPF) und der Angemessenheitsbeschluss fĂŒr die USA am 10. Juli 2023 durch die EuropĂ€ische Kommission verabschiedet worden. Das DPF diene als Grundlage fĂŒr die DatenĂŒbermittlung in die USA, ohne auf Standardvertragsklauseln (SCCs) und eine Datentransfer-FolgenabschĂ€tzung zurĂŒckgreifen zu mĂŒssen. Allerdings werde in der Praxis eine kritische Evaluation erwartet und eine ĂberprĂŒfung durch den EuGH sei absehbar. Da unklar sei, ob das DPF einer erneuten richterlichen ĂberprĂŒfung standhalte («Schrems III»), empfahl Kunz fĂŒr die Praxis, weiterhin auf Backup-Lösungen wie SCCs zurĂŒckzugreifen.
III. AI Governance: ein Praxisbericht
Die Implementierung einer AI Governance stellt fĂŒr Unternehmen eine Herausforderung dar. Anne-Sophie Morandâ23 bot in ihrem Referat einen praxisorientierten Einblick in die Gestaltung und Entwicklung einer solchen AI Governance.
Sie definierte AI Governance zunĂ€chst als ein umfassendes System von Regeln, organisatorischen Massnahmen, Prozessen, Kontrollen und Tools, die dem Unternehmen helfen wĂŒrden, eine vertrauenswĂŒrdige, verantwortungsvolle, ethische, rechtlich zulĂ€ssige und effiziente Entwicklung und Nutzung von KI-Technologie zu gewĂ€hrleisten. Ziel sei es, Risiken zu minimieren, Compliance zu gewĂ€hrleisten und gleichzeitig die Innovationskraft zu fördern. Auch das Einhalten regulatorischer Vorgaben solle damit sichergestellt werden. Dabei hob die Referentin insbesondere den AI Actâ24 der EU hervor, der extraterritoriale Wirkung habe und damit potenziell auch fĂŒr Schweizer Unternehmen anwendbar sei. Morand nannte ferner die AI Convention des Europaratsâ25 und wies darauf hin, dass der Bundesrat Ende 2024 einen Bericht bezĂŒglich der Regulierung von KI in der Schweiz vorlegen werde.â26
Der Aufbau einer AI Governance beginne mit der Einrichtung einer Arbeitsgruppe, die sowohl ĂŒber juristisches als auch technisches Know-how verfĂŒgen solle. Den Wert dieser InterdisziplinaritĂ€t hob die Referentin besonders hervor. Eine Arbeitsgruppe mĂŒsse nicht nur juristisch logisch vorgehen, sondern zunĂ€chst ein gemeinsames VerstĂ€ndnis fĂŒr Begriffe erarbeiten und stets darauf achten, dass die Entscheide fĂŒr das Business umsetzbar seien. In praktischer Hinsicht empfahl Morand, zunĂ€chst innerhalb der Kerngruppe ein «AI Governance Framework» als Basisrahmenwerk zu erstellen. Auch mĂŒssten die Verantwortlichkeiten innerhalb des Unternehmens festgelegt und die Rollen klar definiert werden. Morand betonte weiter, dass die UnternehmensfĂŒhrung bereits frĂŒh in den Implementierungsprozess einbezogen werden solle, damit die Akzeptanz im Unternehmen von Beginn an hoch sei.
Konkret regle eine AI Governance die Entwicklung und den Betrieb von sog. «KI-Systemen» sowie die Entwicklung von sog. «General Purpose AI Models» (kurz GPAI Models). Auch die Nutzung privater KI-Tools durch Mitarbeitende zu Arbeitszwecken werfe in der Praxis u.a. datenschutzrechtliche Fragen auf, wenn Personendaten in diese KI-Tools eingespeist wĂŒrden. Daher hĂ€tten grössere Unternehmen in der Regel eigene ICT-Richtlinien und stellten unternehmensinterne KI-Tools (z.B. SwisscomGPT) zur VerfĂŒgung, mit welchen die Kontrolle ĂŒber die Daten sichergestellt werden könne.
In der Umsetzung seien unterschiedliche Konzepte denkbar. Möglich sei etwa eine AI Governance, bei der sĂ€mtliche Systeme nach dem gleichen Ansatz geprĂŒft wĂŒrden. Möglich sei aber auch eine «smart»-Variante, welche differenzierter funktioniere und unterschiedliche Systeme in unterschiedliche Risikokategorien einteile. Die Kategorien könnten sich am AI Act orientieren, aber weitergehend auch eigene, spezifische Kriterien innerhalb eines Unternehmens berĂŒcksichtigen, etwa Reputationsrisiken. Bei Hochrisiko-KI-Systemen erscheine es sinnvoll, verschiedene GrundsĂ€tze zu definieren, deren Einhaltung besonders geprĂŒft werde (z.B. Compliance, Fairness, Transparenz, QualitĂ€t der Daten, Security usw.). In jedem Fall sei es wichtig, AI Governance nicht isoliert zu betrachten, sondern in bestehende Strukturen und Prozesse zu integrieren. Gerade in grösseren Unternehmen wĂŒrden bereits viele Prozesse im Bereich Data Governance und Security bestehen. Mit Blick auf neuartige Prozesse sei deshalb das Zusammenspiel mit bestehenden Prozessen sauber zu evaluieren, da es sonst zu Ăberschneidungen kommen könne. Auch die Risikotoleranz mĂŒsse zu Beginn bewertet werden, um zu verstehen, wo innerhalb der Prozesse Schwerpunkte zu setzen seien. In grösseren Un|ternehmen sei zudem die Schaffung einer Ethikkommission denkbar, welche insbesondere Hochrisiko-Systeme hinsichtlich ihrer Fairness prĂŒfe. Wichtig sei es auch, die KI-Systeme nach deren Lancierung regelmĂ€ssig zu re-evaluieren und zu ĂŒberwachen.
Ein wesentliches Element sei fĂŒr Unternehmen die Vertrauensbildung. Vertrauen mĂŒsse aufgebaut und aufrechterhalten werden, weshalb dem Element Ethik grosses Gewicht zukomme. Swisscom verfolge etwa die Vision eines «innovators of trust»: Neben der Innovation sei das Vertrauen so gewichtig, dass im Unternehmen teilweise weiter gegangen werde, als es die Gesetzgebung verlange. Letztlich könne die Implementierung einer AI Governance sogar zu einem Wettbewerbsvorteil fĂŒhren, indem Innovation innerhalb ethischer Grenzen gefördert und gleichzeitig Risiken minimiert werden könnten.
Abschliessend resĂŒmierte Morand, dass es keine Einheitslösung fĂŒr die Umsetzung einer AI Governance gebe. Massgebend seien die konkreten UmstĂ€nde im Unternehmen. Ein risikobasierter Ansatz sei aber sinnvoll, wenn womöglich auch der AI Act zu berĂŒcksichtigen sei. Dabei sei es wichtig, frĂŒhzeitig mit der Umsetzung zu beginnen und sich einen umfassenden Ăberblick ĂŒber den Einsatz und die Entwicklung von KI-Tools im eigenen Unternehmen zu verschaffen. Schliesslich sei die InterdisziplinaritĂ€t sehr wichtig und es lohne sich auch fĂŒr Juristinnen und Juristen, ein technisches GrundverstĂ€ndnis im KI-Bereich aufzubauen.
IV. Datenethik: Konzepte, Inhalte, Bedeutung â theoretische EinfĂŒhrung und Reality-Check
Markus Christenâ27 und Matthias Glatthaarâ28 diskutierten sodann ĂŒber die theoretischen Grundlagen und praktischen Herausforderungen der Datenethik. Zuerst stellte Christen grundlegende Konzepte vor, anschliessend berichtete Glatthaar aus der Praxis.
Christen eröffnete sein Referat mit der Analogie, dass Daten hĂ€ufig als das «Ăl des 21. Jahrhunderts» bezeichnet wĂŒrden, um ihr Innovationspotential zu verdeutlichen. Die Datenethik greife dort unterstĂŒtzend ein, wo sich ein Spannungsfeld zwischen Ausschöpfung des Innovationspotentials und fundamentaler Bedrohung fĂŒr die Freiheit und PrivatsphĂ€re durch die Datennutzung auftue.
1. Datenethik-Kodex der Data Innovation Alliance
Ende 2020 habe die Expertengruppe Datenethik der Data Innovation Alliance einen Ethik-Kodex fĂŒr datenbasierte Wertschöpfung veröffentlicht.â29 Dieser Kodex biete Antworten auf ethische Fragen entlang des Datenlebenszyklus und diene als Leitfaden fĂŒr Unternehmen, um ethische Prinzipien bei der Datenbearbeitung zu verankern. Gerade auch fĂŒr kleinere Unternehmen mit begrenzten Ressourcen könne dieser Datenethik-Kodex eine wertvolle Orientierungshilfe bieten, um ethische Fragen frĂŒhzeitig zu erkennen, zu diskutieren und effizient zu regeln. Der Kodex basiere auf drei ethischen Grundprinzipien: Schadensverminderung, Gerechtigkeit und Autonomie. Die Schadensverminderung statuiere den Schutz von Daten vor unberechtigtem Zugriff und die Minimierung negativer Auswirkungen auf die Umwelt. Unter dem Gesichtspunkt der Gerechtigkeit solle die soziale Gerechtigkeit, Gleichheit und Fairness gefördert werden. Die Autonomie solle selbstbestimmtes Handeln durch den Schutz der PrivatsphĂ€re ermöglichen und die WĂŒrde der Betroffenen wahren. ZusĂ€tzlich definiere der Kodex prozedurale Werte wie Kontrolle, Transparenz und Rechenschaft, um sicherzustellen, dass der Umgang mit Daten innerhalb eines Unternehmens wohldefiniert und nachvollziehbar sei.
2. Vier Etappen der Datennutzung
Der Kodex orientiere sich an den vier Etappen der Datennutzung, dem data life cycle. Der data life cycle beginne mit der Datenerfassung, indem digitalisierte Daten erstellt bzw. erworben wĂŒrden. Als nĂ€chster Schritt wĂŒrden im Rahmen der Datenverwaltung Datenbanken aufgebaut und das Datenmanagement (u.a. Sicherheitsmechanismen) implementiert. Mit der Datenproduktentwicklung wĂŒrden anschliessend datenbasierte Wertschöpfungsmechanismen geschaffen (z.B. bestimmte Machine-Learning-Modelle) und schliesslich wĂŒrden die Datenproduktauswirkungen anhand der Effekte von datenbasierten Produkten auf Individuen und Gemeinschaften bewertet.
3. Ethik-Strukturen
Die Implementierung einer Datenethik in einem Unternehmen oder in einer anderen Organisation umfasse die Schaffung von Strukturen und Programmen, die ethisches Verhalten fördern wĂŒrden. Es gebe unterschiedliche AnsĂ€tze, allen voran den Fokus auf Individuen durch Ausbildung oder auf die Organisation durch strategisches Management. Ein anderer Ansatz fokussiere darauf, definierte Gremien oder prozedurale Richtlinien und ethische ReflexionsrĂ€ume zu schaffen und Entscheidungswege festzulegen. Christen stellte verschiedene Arten von Gremienâ30 und Prozedurenâ31 vor, welche die ethischen Probleme identifizieren, ĂŒber die Vorgehensweise zur Lösung des ethischen Problems entscheiden und die ethische Handlungsweise durchsetzen wĂŒrden. Die verschiedenen AnsĂ€tze wĂŒrden sich nicht gegenseitig ausschliessen, sondern könnten sich ergĂ€nzen, um ein kohĂ€rentes Datenethik-Konzept zu bilden.
4. Drei Ebenen der Datenethik
Der Referent ĂŒbergab das Wort an Glatthaar, der erlĂ€uterte, wie die Umsetzung der theoretischen Konzepte der Datenethik in der Praxis funktioniert. Er zeigte dies am Beispiel der Datenethik des Migros-Genossenschafts-Bundes (im folgenden «Migros») auf.
Die Migros verfolge keinen maximalen Ansatz in Bezug auf die ethische Datennutzung. Der Grundgedanke der Datenethik bei der Migros laute: Wenn es möglich ist, Daten zu nutzen, soll dies grundsÀtzlich auch geschehen, allerdings stets verantwortungsvoll und unter den richtigen ethischen Bedingungen. Dabei sollen die Datenethik-GrundsÀtze eingehalten werden.
Das Datenethik-Konzept der Migros sei dreiteilig ausgestaltet. Auf der strategischen Ebene habe die Migros den Ethik-Kodex fĂŒr datenbasierte Wertschöpfung als massgebliches WertgefĂŒge ĂŒbernommen. Dieser Kodex habe als Basis fĂŒr eine Arbeitsgruppe gedient, die sich mit Datenethik befasst habe. GestĂŒtzt auf den Ethik-Kodex berate und beurteile eine Datenethik-Stelle datengetriebene Projekte, was den taktischen Ansatz ausmache. Auf operativer Ebene ergĂ€nze eine Checkliste das Datenethik-Konzept. Diese sei als Hilfestellung fĂŒr die tĂ€gliche Arbeit gedacht und solle dabei helfen, bei der Programmierung der Algorithmen die GrundsĂ€tze des Datenethik-Kodex einzuhalten.
Veranschaulicht wurde die Implementierung dieses Datenethik-Konzepts anhand von KI-Anwendungen. Die Migros habe sich verpflichtet, verantwortungsvoll mit KI umzugehen. Dies umfasse einerseits die Auswahl der Tools, weshalb bestimmte KI-Anwendungen genutzt werden dĂŒrften, wĂ€hrend der Zugriff auf andere gesperrt sei. ZusĂ€tzlich sei eine Liste von Prinzipien der KI-Nutzung ausgearbeitet worden, die als Leitlinie fĂŒr Werte dienen solle. Zentral fĂŒr die KI-Nutzung seien die Prinzipien Fairness, Transparenz, Verantwortung (durch human in the loop) und Werteorientierung.
5. Operative Umsetzung
GemĂ€ss Glatthaar verfolgt die Migros bei der Operationalisierung ihres Datenethik-Konzepts einen prozeduralen Ansatz. Das Digital Governance Framework solle möglichst einfach gehalten werden und als «One-Stop-Shop» fĂŒr alle anwendbaren Prozesse fungieren. So stehe beispielsweise aktuell zur Diskussion, ob die PrĂŒfung von KI in bestehende PrĂŒfprozesse integriert werden könne oder ob ein zusĂ€tzlicher PrĂŒfschritt erforderlich sei. ErgĂ€nzend zur Umsetzung von datengetriebenen Projekten solle ausserdem ein Beratungsprozess stattfinden, der das GeschĂ€ft begleite und sicherstelle, dass Projekte je nach KritikalitĂ€t bestimmte FolgeprĂŒfungen auslösen könnten, um eine Entscheidung ĂŒber die DurchfĂŒhrung oder den Verzicht zu treffen.
6. Ideal World Approach
Losgelöst von der konkreten Operationalisierung nannte der Referent sinnvolle AnsĂ€tze fĂŒr eine Datenethik, die als Grundlage fĂŒr jedes strukturelle Konzept dienten. Ein sinnvoller Ansatz fĂŒr die Implementierung einer Datenethik in Organisationen sei die BeschrĂ€nkung auf wenige, aber essenzielle Prinzipien. Diese Prinzipien wĂŒrden als Grundlage fĂŒr alle ethischen Entscheidungen und Handlungen im Umgang mit Daten dienen. Ein weiteres wichtiges Element sei die pluralistische Zusammensetzung des Gremiums, das fĂŒr die Ăberwachung der Datenethik verantwortlich sei. Es sei entscheidend, dass nicht alle Mitglieder des Boards ein persönliches Interesse (skin in the game) an den AktivitĂ€ten hĂ€tten. Eine solche Zusammensetzung garantiere eine objektive und ausgewogene Entscheidungsfindung und verhindere Interessenkonflikte. Die Implementierung von Datenethik solle durch die Einbettung von Prozessen in bestehende Strukturen erfolgen und nicht durch die Schaffung zusĂ€tzlicher, ĂŒbergeordneter Prozesse. Dies fördere die Akzeptanz und erleichtere die Integration in den Arbeitsalltag. Zur ErgĂ€nzung der universellen Prinzipien sei es hilfreich, eine Fallsammlung anzulegen. Diese Sammlung biete konkrete Beispiele, die die Prinzipien lebendig und greifbar machen wĂŒrden. Durch die Analyse und Darstellung ausgewĂ€hlter FĂ€lle werde die Umsetzung der Prinzipien in der Praxis klar und nachvollziehbar. Es sei wichtig, diese FĂ€lle nicht abstrakt, sondern konkret zu gestalten, um ihre Relevanz und Anwendbarkeit zu maximieren.
7. Gedanken zur Datenethik
Glatthaar teilte abschliessend seine Gedanken zu den aktuellen Entwicklungen der Datenethik. Die zunehmende KomplexitĂ€t im Bereich der Datenethik, geprĂ€gt durch neue Terminologien und Regulierungen wie den AI Act, stellten Organisationen vor grosse Herausforderungen. Um Ăberforderung zu vermeiden und Innovationen nicht zu behindern, regte er an, Themen zu vereinfachen und sie klar zu strukturieren. In der Praxis werde der Unterschied zwischen rechtlichen und ethischen Anforderungen immer kleiner. Ethische Ăberlegungen blieben zwar weiterhin relevant, der Bedarf nach einer von rechtlichen Aspekten losgelösten Ethik-PrĂŒfung nehme in der Tendenz aber ab.
Der Referent unterstrich als Schlusswort die Notwendigkeit eines strukturierten und durchdachten Ansatzes zur Implementierung einer Datenethik, der sowohl rechtliche als auch ethische Aspekte berĂŒcksichtige, um nachhaltige und innovative Entwicklungen in Organisationen zu fördern. Dieser Punkt wurde auch in der anschliessenden Diskussion bestĂ€tigt und hervorgehoben, dass Fairness oft ĂŒber gesetzliche Anforderungen hinausgehe und ethisches Verhalten nicht nur fĂŒr die Regulatorik, sondern insbesondere fĂŒr das Vertrauen und die Reputation eines Unternehmens entscheidend sei.
V. Diskussionsrunde: Enthalten KI-Modelle Personendaten? â Und anderes, was wir die Techies schon immer fragen wollten
Den Schlusspunkt setzte eine von Rosenthal moderierte Diskussionsrunde zwischen Lena A. JĂ€gerâ32, die zur Interaktion von Mensch, Maschine und Sprache forscht und Imanol Schlagâ33, der zu neuronalen Netzwerken forscht und den Sprachmodellbereich der «Swiss AI Initiative» leitet. In dieser technischen Betrachtung sollte u.a. der Frage nachgegangen werden, ob KI-Modelle Personendaten enthalten und den Teilnehmenden die Möglichkeit eingerĂ€umt werden, Fragen zu stellen.
1. Grundlagen
Schlag erlĂ€uterte zunĂ€chst, was in einem grossen Sprachmodell ĂŒberhaupt drinsteckt: Er erwĂ€hnte das Beispiel Llama3 von Meta, ein Modell mit 70 Milliarden Parametern. Dieses umfasse etwa 130 Gigabyte Daten, die aus nicht menschlich interpretierbaren Kommazahlen bestĂŒnden. Davon seien lediglich einige wenige Kilobyte Quellcode, welcher beschreibe, wie gewisse Funktionen auszusehen hĂ€tten. Der Rest der Dateien seien Zahlen, welche die Funktionen parametrisierten. Diese Zahlen stellten u.a. sog. embeddings dar, welche dann in Worte oder Wortteile umgemĂŒnzt wĂŒrden. Ein eingegebener Prompt werde zuerst in Zahlen umgewandelt, damit er interpretiert werden könne. Dies funktioniere, indem SĂ€tze in Worte und Wortteile heruntergebrochen wĂŒrden (sog. Tokenisierung). Jeder Token werde dann durch eine Zahl ersetzt, mit welcher gearbeitet werden könne. Als Output resultiere ebenfalls eine Zahl, welche mit einem Wörterbuch einem Wort zugeordnet werden könne und in der Folge als «Wort» ausgegeben werde.â34
Um zu veranschaulichen, wie diese Zuordnung von Wörtern in Sprachmodellen funktioniert, kam JĂ€ger auf die AnfĂ€nge der Linguistik zu sprechen. Lange sei versucht worden, Wörter zu definieren. Ein «Baum» sei etwa als «Pflanze, die Licht benötigt» und damit ĂŒber seine Eigenschaft(en) definiert worden. In den 1950er-Jahren sei diese Methode aber zunehmend angezweifelt und Wörter seien ĂŒber ihren Kontext definiert worden. Dabei sei quantifiziert worden, in welcher «Nachbarschaft» sie auftauchten. Der «Baum» sei somit nahe dem «Garten» oder der «Natur», aber hĂ€ufig auch bei «der» oder «ein» anzusiedeln. Nicht oft anzusiedeln sei der «Baum» hingegen bei «die». Syntaktische und semantische Eigenschaften definierten folglich, wie hĂ€ufig ein Wort in einem Kontext auftrete. Bei Milliarden von SĂ€tzen könne so die Bedeutung eines Wortes quantifiziert werden. So funktionierten auch neuronale Netzwerke: Wörter wĂŒrden durch ihre Kontexte definiert, wobei sich diese Kontexte durch Muster in grossen Mengen von Trainingsdaten herauskristallisieren liessen und vom System verstanden werden könnten. So könnten syntaktische oder grammatikalische Strukturen extrahiert werden, aber auch die Bedeutungen von Wörtern. JĂ€ger unterstrich aber, dass Faktenwissen nur ein Nebenprodukt darstelle.
Daraufhin stellte Rosenthal fest, dass es sich bei der Funktionsweise von KI-Modellen eigentlich um eine grosse StatistikĂŒbung handle, in welcher Wörter kartographiert wĂŒrden â wo kĂ€men welche Wörter wie vor und in der NĂ€he welcher Wörter befĂ€nden sich diese. Dies funktioniere aber nicht zweidimensional, sondern im Fall von GPT3 in 12'000 Dimensionen. JĂ€ger beruhigte das Publikum mit dem Hinweis, dass diese «Dimensionen» fĂŒr Computer bei genĂŒgend Rechenleistung kein Problem darstellten. Vielmehr erlaube gerade diese KomplexitĂ€t, auch komplexere Muster in den Daten zu erkennen. Schlag ergĂ€nzte, dass diese Technologie weder besonders kompliziert noch neu sei. Neu seien einzig die grossen Mengen an Daten und Rechenleistungen. So mĂŒsse ein Rechenaufwand bewĂ€ltigt werden, der bis vor kurzem als unmöglich galt.
2. Trainingsdaten und Training von KI-Modellen
Anschliessend wurde das Thema Trainingsdaten vertieft. Rosenthal hielt fest, dass ein Modell keine klassische Datenbank darstelle, in welcher nach Inhalten gesucht werden könne. Von den beiden Fachpersonen wollte er wissen, wie sich das VerhĂ€ltnis von Trainingsmaterial zu Grösse des Modells gestalte. GemĂ€ss Schlag ist das Modell Llama3 auf 15 Billionen Tokens trainiert, was etwa 45 Terabyte reiner Textdateien entspreche. Diese liessen sich zwar auf die erwĂ€hnten 130 Gigabyte komprimieren, aber kaum ohne Datenverlust. Denn im Trainingsprozess wĂŒrden keine direkten Kopien jedes Dokuments gespeichert, sondern die essenzielle Information, Ă€hnlich wie bei einer lossy compression. Rosenthal stellte daraufhin fest, dass es sich also um eine Zusammenfassung des Kontexts, in welchem die Daten gebraucht wĂŒrden, handle und fragte JĂ€ger, ob die Menge des Trainingsmaterials ĂŒberhaupt herausgelesen werden könne. Sie stellte klar, dass im Gegensatz zu anderen Standard-Komprimierungsalgorithmen keine bestimmte Anzahl an Bytes verloren gehe. Weil nicht kontrollierbar sei, wo und wie bestimmte Bytes eingespart wĂŒrden, sei auch nicht nachvollziehbar, welche Daten in einem Modell noch vorhanden seien. Es sei zwar möglich, dass von gewissen Trainingsbeispielen Daten unverĂ€ndert enthalten seien â etwa Namen oder Telefonnummern. Man wisse allerdings nicht a priori, welche Daten beim Training komplett erhalten blieben. Sicher sei hingegen, dass nicht sĂ€mtliche Informationen in den Daten enthalten seien.
Sodann kam die Runde auf das Training solcher Modelle zu sprechen. Rosenthal fragte, ob ein Supercomputer sĂ€mtliche Texte lese und so bereits die «Bias»-Probleme begĂ€nnen. Nach Schlag macht das Modell hĂ€ufiger in den Trainingsdaten vorkommende Texte wahrscheinlicher und SĂ€tze, die darin nicht vorkommen, weil sie zufĂ€llig oder syntaktisch falsch sind, weniger wahrscheinlich. Das Training |sei also im Wesentlichen ein Erraten des nĂ€chsten Wortes. Dies fĂŒhre zu viel Allgemeinwissen. Trainingsdaten wĂŒrden also tokenisiert und dann heruntergebrochen, woraufhin das Modell eine Voraussage mache. Diese werde als kontinuierliche â nicht binĂ€re â Variable bewertet. Ein Gradientenabstieg zeige dann, in welche Richtung eine Korrektur erfolgen mĂŒsse. Diese Methode funktioniere konkret mittels Auslassungen von Wörtern in bestehenden Texten und bei sehr vielen Texten gleichzeitig (sog. Parallelisierung).
Auf die Frage, ob bei einem solchen Training auch Menschen involviert seien, erlĂ€uterte JĂ€ger zwei Prozesse: Einerseits das sog. «Finetuning», bei welchem ein Modell durch die Bereitstellung von Beispielen optimiert werde, um es möglichst gut auf seine Aufgabe auszurichten. Dazu wĂŒrden Trainingsdaten verwendet, die von Menschen erstellt wurden und Fragen (Inputs) mit erwĂŒnschten Antwortmöglichkeiten (Outputs) in Verbindung setzen. Menschen wĂŒrden dann die Antwortmöglichkeiten gemĂ€ss dieser Ausrichtung «labeln», woraufhin das bereits vortrainierte Modell mit denselben Parametern angepasst werde, sodass fĂŒr die behandelten Fragen die gewĂŒnschten Antworten resultierten. Andererseits existiere im Rahmen des sog. «Alignment» das «Reinforcement-Learning from Human Feedback». Dabei werde das bereits fertig trainierte Modell im Stadium seiner Anwendung mittels Nutzerdaten verbessert. JĂ€ger nannte als Beispiel die Feedbackfunktion, bei der per «Daumen hoch» oder «Daumen runter» dem Modell gezeigt werde, ob eine Antwort gut gewesen sei. Dadurch könne das Modell dazu motiviert werden, eine andere (bessere) Antwort zu produzieren. Rosenthal fragte daraufhin, ob mit diesen beiden Prozessen versucht werde, das Modell in eine andere Richtung zu rĂŒcken. Schlag antwortete, dass ein Modell, das einen Text vervollstĂ€ndigen könne, allein noch keine Persönlichkeit habe. Es «antworte» auf eine Frage etwa, indem es die Frage wiederhole und nicht eine Antwort liefere. FĂŒr die «Persönlichkeit» sei das Reinforcement-Learning notwendig, welches ein Modell konditioniere und eine gewisse Ideologie implementieren könne. Diese Prozesse brĂ€uchten jedoch nur minimalen Rechenaufwand und fĂ€nden in Form eines reward models statt, bei dem die KI sich selbst trainiere.
Im Rahmen des Alignments könnten auch konkretere Vorgaben an die Quellen oder an die «Sicherheit» einer Aussage gemacht werden. Ein reward model könne so trainiert werden, dass es Personendaten erkenne, und es könne im Rahmen des Alignments so justiert werden, dass keine Personendaten herausgegeben wĂŒrden. GemĂ€ss JĂ€ger kann mittels Prompt Engineering erkannt werden, was fĂŒr ein Output resultiert, wenn bestimmte Dinge eingegeben werden. Ein Prompt im Sinne einer Datenbankabfrage, mit welcher die Personendaten von beliebigen Personen zuverlĂ€ssig abgefragt werden könnten, existiere so jedoch nicht. Unternehmen könnten jedoch verpflichtet werden, bekanntzugeben, welche Trainingsdaten sie verwendeten und ob und welche Personendaten darin enthalten seien. Man könne folgern, dass Personendaten, die nicht in den Trainingsdaten vorkĂ€men, auch nicht als Output resultierten. Schlag ergĂ€nzte hierzu, dass es auch möglich sei, einen Text unwahrscheinlicher zu machen (sog. «Machine Unlearning»), sodass er nicht mehr generiert werde. Dennoch könne noch irgendwo im Trainingsdatensatz ein entsprechendes Paket existieren. Rosenthal wies darauf hin, dass ein System auch schon frĂŒher beginnen könne zu halluzinieren. GemĂ€ss Schlag muss man dazu am Training ansetzen: Je lĂ€nger ein System trainiert werde, desto weniger halluziniere es. Entsprechend könne man so verhindern, dass beim Training mehr Personendaten in das Modell gegeben werden mĂŒssen, damit ein «korrekter» Output herauskomme.
3. «Biases» und andere Probleme
Rosenthal kam sodann auf aktuelle FĂ€lle zu sprechen, die fĂŒr Schlagzeilen gesorgt hatten. So habe Google Gemini Bilder von PĂ€psten mit unterschiedlichen Geschlechtern und Hautfarben generiert, was fĂŒr viel Kritik sorgteâ35 Nach Schlag ist in diesen FĂ€llen das Problem beim Alignment zu verorten. Bildgeneratoren könnten gesteuert werden, indem das Prompting angepasst werde, ohne dass ein User dies wisse. Das Alignement mache Modelle nicht nur konversationell, sondern könne auch generalisieren. Dabei sollen die Modelle entlang der GrundsĂ€tze harmless, honest und helpful Outputs generieren. JĂ€ger ergĂ€nzte, dass das Wort «Bias» völlig ĂŒberladen sei. Bei Sprachmodellen werde primĂ€r diskutiert, wie bestimmte Personengruppen dargestellt werden â etwa in Form eines Geschlechterbias oder eines rassistischen Bias. Dies sei jedoch von der Konsequenz her etwas anderes als ein Entscheidungsbias. Bei einem ReprĂ€sentationsbias wĂŒrde ein Modell im Falle eines Geschlechterbias dazu tendieren, dass «MĂ€dchen» bei gleicher Ausgangslage stereotypisch als «schwach» oder «Àngstlich» dargestellt wĂŒrden. Bei der Entwicklung technischer Lösungen zur Vermeidung von Biases spielten also kulturell geprĂ€gte Meinungen oder Tatsachen (wie die Unmöglichkeit einer PĂ€pstin) eine zentrale Rolle.
Rosenthal erkundigte sich daraufhin, ob diese Biases angepasst werden könnten â entweder ĂŒber andere Trainingsdaten (bspw. durch den Ausschluss von Social-Media-Posts) oder ĂŒber das Alignment. Er erlĂ€uterte, dass dies aus rechtlicher Sicht nötig sein könnte. Dem entgegnete JĂ€ger, dass Entwicklerinnen und Entwickler sich durchaus zu diesen Themen Gedanken machten und nicht blind fĂŒr gesellschaftliche Fragen Algorithmen entwickelten. Gewisse Probleme seien so lösbar, aber lĂ€ngst nicht alle. Geschlechterbiases etwa seien tief verankert in sĂ€mtlichen historischen und nicht historischen Daten. Dies könne weder mit Augmentation der Trainingsdaten noch mit einem Alignment ĂŒberwunden werden. Es sei mit den aktuellen Techniken illusorisch, diese Biases komplett zu ĂŒberwinden. Zudem entspreche die subjektive Wahrnehmung in vielen FĂ€llen auch |einfach den Biases â es sei somit ein gesellschaftliches Thema, das viel grösser als «nur» KI sei.
Aus dem Publikum wurde anschliessend gefragt, was die GrĂŒnde dafĂŒr seien, dass aufgrund eines Prompts identische Bilder oder identische Texte, wie sie bereits in den Trainingsdaten vorkĂ€men, resultierten? Rosenthal verwies hierzu auf eine Untersuchung, in welcher versucht wurde, Trainingsdaten mit einer neuen Methode (sog. divergence attack) zu extrahieren, was auch gelungen sei.â37 Schlag erklĂ€rte, dass gewisse Arten von Texten sehr oft in den Trainingsdaten vorkĂ€men, etwa die amerikanischen Bill of Rights oder Lizenztexte. Gebe man hiervon den ersten Satz in ein Modell ein, so werde dieses den Text vervollstĂ€ndigen. Relevant sei somit die KomplexitĂ€t und LĂ€nge des Textes, aber auch wie oft das Modell den Text wĂ€hrend des Trainings sehe. Bei Bildern seien die verfĂŒgbaren Daten noch geringer, weshalb oft die gleichen Daten verwendet wĂŒrden. Dort finde eine eigentliche Rosinenpickerei statt, wĂ€hrend bei Texten der gleiche Text bewusst nicht öfter als fĂŒnf Mal verwendet werde. Rosenthal stellte daraufhin fest, dass aus datenschutzrechtlicher Sicht folglich ein Interesse daran bestehe, mit mehr Daten zu arbeiten, da dann einzelnen Inhalten weniger Gewicht zukĂ€me. Dem entgegnete Schlag, dass die Nutzung als Wissensspeicher gegen die Natur eines Sprachmodelles gehe. TatsĂ€chlich sollten die Daten möglichst divers sein, damit der Raum von möglichen SĂ€tzen, die Sinn ergĂ€ben, möglichst breit abgedeckt werden könne. Er illustrierte dies anhand eines Beispiels, in welchem er und sein Team ein Forschungsarchiv als Trainingsdaten genutzt hĂ€tten, was in der Folge dazu gefĂŒhrt habe, dass das Modell komplexe mathematische Aufgaben habe erledigen können. Dasselbe Modell sei aber nicht in der Lage gewesen, eine einfache Addition durchzufĂŒhren.
Daraufhin wurde die Diskussion auf das Thema Personendaten verschoben. Rosenthal zeigte am Beispiel von ChatGPT und der Frage, wer «Adrian Lobsiger» sei, dass dieses Modell viele vermeintliche Personendaten herausgebe, auch solche die objektiv falsch seien.â38 JĂ€ger stellte hierzu klar, dass im genannten Beispiel nicht abstrahiert worden sei und dieses ein zu direktes Produkt darstelle. Im konkreten Fall sei nicht kontrolliert worden, wie stark die Trainingsinstanz einem Inputtext entspreche. Bereits dieser Input könne fehlerhaft sein. Das Modell sei darauf trainiert zu sprechen. Es zeige somit stets das wahrscheinlichste Resultat an, etwa eine Ă€hnliche Person, auch wenn es ĂŒber keine oder nur wenige Daten verfĂŒge. Möglich sei jedoch auch, dass gewisse Trainingsbeispiele nicht genĂŒgend komprimiert gewesen seien, wie etwa die generierten Bilder, die ganze Bildteile ĂŒbernommen hatten.â39 Dort argumentiere die Forschung ebenfalls mit der Wahrscheinlichkeit: Wie wahrscheinlich sei ein solcher Output, wenn das Originalbild nicht bereits als Input in den Trainingsdaten gewesen wĂ€re?
Dies fĂŒhrte zur Frage, warum in diesem Kontext als Output u.a. der Name «Hanspeter ThĂŒr»â40 ausgegeben wurde, wie Rosenthal bildlich zeigte. Schlag erklĂ€rte, dass die Namen erschienen, weil das Modell die Daten beim Training gesehen habe. Es sei möglich, dass das Modell zahlreiche Medienmitteilungen verarbeitet habe, in welchen die beiden Namen zusammen erschienen seien.
Sodann wurde das Thema Hacking angesprochen. Hierzu hielt Schlag fest, dass die veröffentlichten Modelle nicht mehr trainierten und damit nicht verĂ€ndert oder gehackt werden könnten. Bei einer neuen Session sei also alles gleich wie in der vorherigen Session. Es gebe unterschiedliche Arten von Hacking, etwa Jailbreaking. Das Alignment sei hingegen nicht perfekt â so könne man Anleitungen erhalten (z.B. zum Bau von Bomben), auch wenn diese nicht ausgegeben werden sollten. Bei einer sog. «Retrieval-Augmented Generation» (RAG) wĂŒrden hingegen Dokumente mit richtigen Informationen ĂŒbernommen und in einen Kontext geladen. Diese wĂŒrden dann vom Sprachmodell ĂŒbernommen, da es diese ja auch gerade ĂŒbernehmen sollte. DarĂŒber hinaus habe das restliche System indes die gleichen Sicherheitsrisiken wie jeder Server.
Abschliessend wurde nach der Nachvollziehbarkeit und der ErklĂ€rbarkeit der Ergebnisse gefragt. JĂ€ger hob hierzu zunĂ€chst hervor, dass eine prĂ€zise Terminologie wichtig sei, gerade wenn vom «Blackbox Modell» die Rede sei: Aufgrund ihrer KomplexitĂ€t und ihrer immensen Anzahl von Parametern wĂŒrden neuronale Netze oft generell als «Blackbox» bezeichnet. Es sei jedoch wichtig zu unterscheiden, ob ein Modell wegen seiner KomplexitĂ€t undurchsichtig ist, oder ob eine Interpretation nicht möglich ist, weil die nötigen Informationen nicht veröffentlicht werden. Letzteres seien richtige Blackboxen wie ChatGPT, die weder den Quellcode noch die trainierten Parameter bzw. Gewichte verfĂŒgbar machten â auch nicht fĂŒr wissenschaftliche Zwecke. Dort gebe es technische ErklĂ€rungsmethoden, aber Forschende treten dann aus der Sicht des Users auf. Andere Modelle wie Llama seien Open Source und Open Weights, der Code und die Parameter stehen also zur VerfĂŒgung. Dort könnten die Gewichte und der Lernfluss des Modells selbst bestimmt werden und auch, welche Inputs aktiviert werden sollen. Entsprechend gebe es viel mehr Forschung dazu und es könne viel mehr untersucht werden. Schlag stimmte zu und erlĂ€uterte bildlich, dass Forschende bei offenen Modellen wie bei einer Hirnoperation agieren könnten und genau sĂ€hen, was im «Kopf» aktiviert werde und nicht bloss was aus dem «Mund» rauskomme. In wichtigen FĂ€llen gebe es einen Weg, bei dem das Sprachmodell auch die Herleitung beifĂŒge und nicht bloss die Lösung. Dann könne die Lösung ebenfalls kontrolliert werden. Ein |anderer Ansatz bestehe darin, einen Text mittels Prompt 100 Mal zu generieren, um bspw. aufzuzeigen, dass ein Name nur zehn Mal erscheine, wĂ€hrend in 90 FĂ€llen ein anderer Output resultiere. So sei erkennbar, wie «sicher» sich ein Modell sei. GemĂ€ss JĂ€ger ist fĂŒr die ErklĂ€rbarkeit eines Modells auch ein VerstĂ€ndnis der zahlreichen Dimensionen notwendig. Dazu mĂŒsse verstanden werden, wie diese interagierten und dies sei Ă€usserst komplex.
Fussnoten: |
|
---|---|
1 |
Rechtskonsulent, ZĂŒrich. |
2 |
RechtsanwĂ€ltin, ZĂŒrich. |
3 |
Dieser Rahmen wurde in der Zwischenzeit geschaffen und per 15. September 2024 in Kraft gesetzt. Siehe dazu die Medienmitteilung des Bundesrates unter âčwww.admin.ch/gov/de/start/dokumentation/medienmitteilungen.msg-id-102054.htmlâș (sĂ€mtliche Links zuletzt besucht am 15. Oktober 2024). |
4 |
Bei laufenden Bearbeitungen seien Art. 7 (Privacy by Design/by Default), Art. 22 (Datenschutz-FolgenabschĂ€tzung) und Art. 23 DSG (Konsultation des EDĂB im Zusammenhang mit Datenschutz-FolgenabschĂ€tzungen) nicht anwendbar. |
5 |
Abrufbar unter âčwww.edoeb.admin.ch/edoeb/de/home/deredoeb/infothek/infothek-ds.htmlâș. |
6 |
BVGer vom 12. September 2023, A-516/2022. |
7 |
BGer vom 6. Oktober 2023, 8C_723/2022, E. 5.3. |
8 |
Siehe hierzu âčsteigerlegal.ch/2024/04/04/auskunft-frist-strafverfahren-dsg-schweiz/âș. |
9 |
Abrufbar unter âčwww.edoeb.admin.ch/dam/edoeb/de/Dokumente/aDSG/empfehlungen-ds/20240415_Schlussbericht_Galaxus.pdf.download.pdf/20240415_Schlussbericht_Galaxus.pdfâș. |
10 |
Art. 15 Entwurf zum Datenschutzgesetz des Kantons Bern (RRB 675/2023). |
11 |
§ 17 Vorentwurf zum Gesetz ĂŒber digitale Basisdienste des Kantons ZĂŒrich (RRB 147/2024). Die Vernehmlassung wurde am 13. Mai 2024 abgeschlossen. |
12 |
Dr., Rechtsanwalt, LL.M., CIPP/E, CAS ETH in Cyber Security, ZĂŒrich. |
13 |
EuG vom 26. April 2023, T-557/20; EuGH vom 9. November 2023, C-319/22. |
14 |
HGer ZH vom 4. Mai 2021, 109 107-O; siehe dazu auch BGE 136 II 508 ff. |
15 |
EuGH vom 4. Mai 2023, C-487/21. |
16 |
EuGH vom 22. Juni 2023, C-579/21. |
17 |
EuGH vom 26. Oktober 2023, C-307/22. |
18 |
EuGH vom 5. Dezember 2023, C-683/21 und EuGH vom 5. Dezember 2023, C-807/21. |
19 |
EuGH vom 21. Dezember 2023, C-667/21; EuGH vom 14. Dezember 2023, C-456/22; EuGH vom 11. April 2024, C-741/21. |
20 |
EuGH vom 14. Dezember 2023, C-340/21. |
21 |
EuGH vom 14. Dezember 2023, C-456/22. |
22 |
EuGH vom 21. Dezember 2023, C-667/21. |
23 |
Dr., RechtsanwĂ€ltin, LL.M., Data Governance Counsel, Swisscom, ZĂŒrich. |
24 |
Verordnung (EU) 2024/1689 des EuropĂ€ischen Parlaments und des Rates vom 13. Juni 2024 zur Festlegung harmonisierter Vorschriften fĂŒr kĂŒnstliche Intelligenz und zur Ănderung der Verordnungen (EG) Nr. 300/2008, (EU) Nr. 167/2013, (EU) Nr. 168/2013, (EU) 2018/858, (EU) 2018/1139 und (EU) 2019/2144 sowie der Richtlinien 2014/90/EU, (EU) 2016/797 und (EU) 2020/1828 (Verordnung ĂŒber kĂŒnstliche Intelligenz). |
25 |
Siehe âčrm.coe.int/1680afae3câș. |
26 |
Siehe Medienmitteilung des Bundesrates vom 22. November 2023 «Bundesrat prĂŒft RegulierungsansĂ€tze fĂŒr KĂŒnstliche Intelligenz», abrufbar unter âčwww.admin.ch/gov/de/start/dokumentation/medienmitteilungen.msg-id-98791.htmlâș; Der Bericht ist bis Ende 2024 nicht erschienen und wurde nunmehr fĂŒr Anfang 2025 in Aussicht gestellt. |
27 |
PD Dr., Digital Society Initiative, UniversitĂ€t ZĂŒrich. |
28 |
Dr., Rechtsanwalt, LL.M., Leiter Datenschutz und Digitalisierung, Migros-Genossenschafts-Bund, ZĂŒrich. |
29 |
Abrufbar unter âčdata-innovation.org/data-ethics/âș. |
30 |
Hausethikerinnen und Hausethiker, Ethik-Forum, Ethik-Komitee, Ethik Management, Ethik-Audit Team. Zur Zusammensetzung der Gremien: Die Gremien sollen pluralistisch zusammengesetzt sein, um unterschiedliche Perspektiven einzubringen, wobei Laien in die Diskussionen integriert werden sollen, solange eine fachlich versierte Person die Leitung ĂŒbernehme. |
31 |
Richtlinien, Meta-Richtlinien, Dokumentationsanforderungen. |
32 |
Prof. Dr., Institut fĂŒr Computerlinguistik, UniversitĂ€t ZĂŒrich. |
33 |
Dr., ETH AI Center, ZĂŒrich. |
34 |
Siehe anschaulich die Darstellung des tokenizers von OpenAI, abrufbar unter âčplatform.openai.com/tokenizerâș. |
35 |
Siehe beispielhaft âčblog.google/products/gemini/gemini-image-generation-issue/âș. |
37 |
M. Nasr/N. Carlini/J. Hayase/M. Jagielski/A. Feder Cooper/D. Ippolito/Ch. A. Choquette-Choo/E. Wallace/F. TramĂšr/K. Lee, Scalable Extraction of Training Data from (Production) Language Models, abrufbar unter âčhttps://arxiv.org/pdf/2311.17035âș. |
38 |
Adrian Lobsiger ist der aktuelle EDĂB. Das Modell gab zunĂ€chst u.a. fĂ€lschlicherweise an, dass er in der Vergangenheit als Staatsanwalt im Kanton St. Gallen und als Richter im Kanton Appenzell Ausserrhoden amtete. Erst auf Nachfrage hin gestand ChatGPT ein, dass diese Angaben falsch seien. |
39 |
Siehe hierzu die Medienberichterstattung, etwa âčwww.nzz.ch/technologie/darf-eine-ki-mein-bild-zum-trainieren-nutzen-das-sagt-das-urheberrecht-ld.1730537âș. |
40 |
Der VorgĂ€nger von Adrian Lobsiger als EDĂB. |