
Die Seite des SF | La page du FS
8. Datenschutzrechtstagung: Veranstaltung des Schweizer Forum für Kommunikationsrecht (SF•FS) vom 22. Mai 2024
Samuel Mätzler,
Rechtsanwalt, Doktorand, Universität Zürich.
Deborah De Col,
Rechtsanwältin, Senior Data Privacy Specialist, Winterthur.
Die Autorin und der Autor danken allen Referierenden und Diskussionsteilnehmenden für die konstruktiven Rückmeldungen.
Die 8. Datenschutzrechtstagung des Schweizer Forum für Kommunikationsrecht brachte am 22. Mai 2024 in Zürich Fachleute aus verschiedenen Disziplinen zusammen, um über aktuelle Entwicklungen, Herausforderungen und Best Practices in den Bereichen Künstliche Intelligenz (KI oder AI) und Datenschutzrecht zu diskutieren. Die Referierenden teilten ihre praktischen Erfahrungen und theoretischen Erkenntnisse und gaben einen umfassenden Überblick über die regulatorischen, ethischen und technischen Aspekte von KI. Ein besonderer Fokus lag auf den jüngsten gesetzlichen Entwicklungen im Datenschutzrecht und deren Auswirkungen auf die KI-Regulierung. Dieser Tagungsbericht fasst die wesentlichen Inhalte der Vorträge und Diskussionen zusammen. David Rosenthal1 führte als Moderator durch den Nachmittag und die Podiumsdiskussionen.
La 8e Conférence du droit de la protection des données du Forum Suisse pour le Droit de la Communication a réuni le 22 mai 2024 à Zurich des spécialistes de différentes disciplines pour discuter des développements actuels, des défis et des meilleures pratiques dans les domaines de l’intelligence artificielle (IA) et du droit de la protection des données. Les intervenants ont partagé leurs expériences pratiques et leurs connaissances théoriques et ont donné un aperçu complet des aspects réglementaires, éthiques et techniques de l’IA. Un accent particulier a été mis sur les derniers développements législatifs en matière de droit de la protection des données et leurs conséquences sur la réglementation de l’IA. Le présent rapport résume l’essentiel des présentations et des discussions. David Rosenthal a assuré la modération de l’après-midi et des tables rondes.
I. Update DSG
Einleitend verschaffte Noémi Ziegler2 ein umfassendes Update über das neue Datenschutzrecht in der Schweiz für den Zeitraum 2023/2024. Sie erläuterte, dass mit dem Inkrafttreten des Datenschutzgesetzes (DSG), der Datenschutzverordnung (DSV) und der Verordnung über Datenschutzzertifizierungen (VDSZ) am 1. September 2023 das bisherige Schengen-Datenschutzgesetz (SDSG) aufgehoben worden sei. Am 7. September 2023 habe die Schweiz das Übereinkommen 108+ ratifiziert und am 15. Januar 2024 habe die EU-Kommission die Angemessenheit des Schweizer Daten&cbr;schutzes bestätigt, wodurch Datenübermittlungen zwischen der Schweiz und dem EWR weiterhin ohne zusätzliche Garantien möglich seien. Ein Abkommen für Datentransfers zwischen der Schweiz und den USA stehe jedoch noch aus.3
Die Referentin hob hervor, dass es Übergangsfristen für laufende Bearbeitungen gebe, bei denen gewisse Bestimmungen des DSG nicht anwendbar seien, solange der Bearbeitungszweck unverändert bleibe und keine neuen Daten beschafft würden.4 Auch hängige Verfahren unterlägen weiterhin dem alten Recht, weshalb dieses noch von prakti|scher Bedeutung sei. Bundesvorschriften für Personendaten juristischer Personen blieben zudem während fünf Jahren nach Inkrafttreten des DSG anwendbar.
1. Praxis des Eidgenössischen Datenschutz- und Öffentlichkeitsbeauftragten (EDÖB)
Der EDÖB habe zahlreiche Leitlinien, Merkblätter und Templates veröffentlicht, die Unternehmen als Orientierungshilfe dienen könnten, um mit den gesetzlichen Neuerungen umzugehen, so etwa zu technischen und organisatorischen Massnahmen (TOMs), Datenschutz-Folgenabschätzungen (DSFA) und dem Auskunftsrecht.5 Zu den TOMs wurde betont, dass Datensicherheit nur ein Aspekt der Massnahmen sei und auch die Datenbearbeitungsgrundsätze und Betroffenenrechte Beachtung finden müssten. Das Merkblatt zur DSFA hebe ausserdem die Notwendigkeit von Self-Assessments bezüglich der Risiken für betroffene Personen hervor. Die Dokumente des EDÖB seien jedoch nicht verbindlich, sondern lediglich Orientierungshilfen. Praktisch sei dies etwa an veralteten Massnahmen zu erkennen. Um auf dem Stand der Technik zu sein, sollten sich Unternehmen in solchen Fragen besser an die IT-Security wenden. Dies gelte auch, weil der EDÖB teilweise über die gesetzlichen Vorgaben hinausgehe. Weiter habe der EDÖB die Meldeportale optimiert, sodass Datenschutzverletzungen online gemeldet werden könnten, wobei Folgemeldungen nachträglich möglich seien.
2. Wichtige Entscheide
Ein Urteil des Bundesverwaltungsgerichts (BVGer) befasste sich mit der Anwendbarkeit der Übergangsregelung nach Art. 71 DSG auf ein Zugangsgesuch zu 5G-Antennendaten von Sunrise, Salt und Swisscom beim Bundesamt für Kommunikation.6 Bis zur Revision des DSG hätten Daten juristischer Personen dem DSG unterstanden. Für Zugangsgesuche zu Daten juristischer Personen nach dem BGÖ sei deshalb auf das DSG verwiesen worden. In der revidierten Version verweise Art. 9 BGÖ nun für Daten juristischer Personen auf Art. 57 s RVOG. Nach dem BVGer sei Art. 71 DSG nicht auf das Zugangsgesuch anwendbar, weil das BGÖ bereits an das neue DSG angepasst worden sei; stattdessen finde das neue BGÖ Anwendung.
In einem weiteren Entscheid habe sich das Bundesgericht (BGer) mit dem Rechtsmissbrauch bei Auskunftsbegehren befasst. Es habe entschieden, dass das Auskunftsrecht nur zu datenschutzrechtlichen Zielen geltend gemacht werden könne und ein Begehren als offensichtlich rechtsmissbräuchlich gelte, wenn es nicht der Durchsetzung datenschutzrechtlicher Zwecke diene, datenschutzwidrige Motive verfolge oder primär datenschutzfremden Zwecken (wie vorliegend der Durchsetzung eines sozialversicherungsrechtlichen Anspruchs) diene.7 Dies stelle einen Paradigmenwechsel dar, da es aus Sicht des Auskunftserteilenden nach dieser Rechtsprechung nun mehr Möglichkeiten gebe, ein Gesuch abzulehnen.
In einem Thurgauer Strafverfahren8 sei weiter festgehalten worden, dass verspätete oder nicht erteilte Auskünfte nicht strafbar seien – nur vorsätzlich falsche oder unvollständige Auskünfte könnten strafrechtlich verfolgt werden. Die Referentin empfahl daher, die Vollständigkeit einer Auskunft – entgegen dem Musterschreiben des EDÖB – nie zu bestätigen.
Ferner sei der Schlussbericht des EDÖB zur Sachverhaltsabklärung bei Digitec Galaxus9 der Frage nachgegangen, ob singularisierte Daten einen Personenbezug hätten, wie wirksam die Empfehlungen des EDÖB seien, und wie umfangreich die Informations- und Transparenzpflicht sein solle. Die Referentin stellte fest, dass gestützt auf den Schlussbericht auch singularisierte Daten unter das Datenschutzrecht fallen, sofern Rückschlüsse auf Personen mit verhältnismässigen Mitteln möglich sind. In Bezug auf die Wirksamkeit der Empfehlungen sei unklar, ob die Beurteilung des EDÖB noch relevant sei, da das neue Recht womöglich andere Massstäbe setze. Früher habe der Fokus darauf gelegen, welche Personendaten zu welchen Zwecken bearbeitet würden. Allerdings würden nunmehr weder die Transparenz- noch die Informationspflicht eine Zuordnung von Daten und Zwecken verlangen.
Ziegler schloss mit einem Blick auf kantonale Datenschutzentwicklungen. Im Kanton Bern solle die Bekanntgabe von Daten ins Ausland unter bestimmten Bedingungen für Auftragsbearbeitungen ermöglicht werden.10 Im Kanton Zürich solle das neue Gesetz über digitale Basisdienste die Datenübertragung an Cloud-Anbieter unter bestimmten Voraussetzungen erlauben.11 Das neue Informations- und Datenschutzgesetz des Kantons Zürich sei schliesslich seit dem 1. Mai 2024 in Kraft, wobei auf Bundesebene das DSG gelte, wenn kantonale Organe privatrechtlich handelten.
II. Update DSGVO
Christian Kunz12 präsentierte die aktuellen Entwicklungen unter der Datenschutz-Grundverordnung (DSGVO). Im letzten Jahr seien bedeutende Entscheidungen des Europäischen Gerichtshofs (EuGH) und Empfehlungen der europäischen und nationalen Datenschutzbehörden ergangen, welche die Anwendung der DSGVO in der Praxis massgeblich beeinflusst hätten.
1. Bestätigung der relativen Auslegung von personenbezogenen Daten
Der EuGH habe den relativen Ansatz bei der Qualifikation von personenbezogenen Daten aus dem Breyer-Urteil gefestigt. Pseudonymisierte Daten gelten als personenbezogen, wenn der Empfänger über Mittel zur Re-Identifizierung verfüge. Dies hänge von der Rolle des Empfängers ab und es müssten nur realistisch verfügbare Identifizierungsmethoden berücksichtigt werden.13 In diesem Zusammenhang wies der Referent darauf hin, dass das HGer Zürich14 die Möglichkeit einer ausländischen Behörde, ein Amts- oder Rechtshilfeverfahren einzuleiten und so Daten zu re-identifizieren, als ausreichend anerkannt habe.
2. Praxisrelevanz des Auskunftsrechts
Kunz sah im Auskunftsrecht nach Art. 15 DSGVO ein zunehmend praxisrelevantes Thema, da das European Data Protection Board (EDPB) diesbezüglich im Jahr 2023 neue Leitlinien veröffentlicht hatte und das Betroffenenrecht als drittes koordiniertes Enforcement-Thema für das Jahr 2024 festgelegt habe.
Der EuGH habe in mehreren Urteilen klargestellt, dass das Recht auf Kopie von Daten keine ganzen Dokumente oder Auszüge aus Datenbanken umfassen müsse, sondern eine originalgetreue und verständliche Reproduktion von Personendaten ausreiche. Eine Ausnahme gelte, wenn solche Kontextinformationen für das Verständnis der Daten notwendig seien.15
Weiter habe der EuGH entschieden, dass das Auskunftsrecht auch die Abfrage in Protokolldateien (Logs) umfasse, da diese als personenbezogene Daten gelten könnten, was jedoch umstritten sei.16 Die Auskunft über Logs sei oft notwendig, um die Rechtmässigkeit der Datenbearbeitung zu prüfen. Dem müsse jedoch eine sorgfältige Interessenabwägung vorausgehen und eine schonende Auskunftserteilung sei geboten. Der EuGH habe klargestellt, dass diese Überlegungen auch für Banken gelten, solange der nationale Gesetzgeber keine Einschränkungen des Auskunftsrechts nach Art. 23 DSGVO festgelegt habe.
In einem weiteren EuGH-Urteil sei festgestellt worden, dass das Auskunftsrecht das Recht einschliesse, eine erste vollständige Kopie der Patientenakte unentgeltlich zu erhalten, unabhängig von der Motivation des Antrags.17 Dies gelte auch bei datenschutzfremden Zwecken wie der Vorbereitung eines Haftungsprozesses. Dies im Unterschied zum Auskunftsrecht nach Art. 25 DSG, dessen Ausübung es der betroffenen Person primär ermöglichen solle, ihre Datenschutzrechte geltend zu machen, wie im revidierten DSG klargestellt worden sei.
3. Harmonisierung der Verhängung von Geldbussen
Der Referent leitete das nächste Thema ein, indem er auf einige Rekordbussen für den fehlerhaften Umgang mit Nutzerdaten im Jahr 2023 hinwies, wie z.B. gegen Meta (1,2 Milliarden Euro) oder TikTok (345 Millionen Euro). Die Praxis der Geldbussenverhängung unterliege klaren unionalen Richtlinien, die durch aktualisierte Leitlinien des EDPB mit einem neuen Fünf-Schritt-System harmonisiert werden sollen. Zu einer weiteren Harmonisierung habe der EuGH beigetragen, der klargestellt habe, dass Art. 83 DSGVO ein schuldhaftes Verhalten voraussetze.18 Damit habe er der zuvor diskutierten verschuldensunabhängigen Haftung eine klare Absage erteilt. Für die Praxis bedeute dies, dass juristische Personen nur für Verstösse hafteten, wenn ein schuldhaftes Verhalten, sei es Vorsatz oder Fahrlässigkeit, nachgewiesen werden könne. Die Haftung erstrecke sich nicht nur auf Geschäftsführer oder Vertreter, sondern auch auf natürliche Personen, die im Rahmen der unternehmerischen Tätigkeit und im Namen der juristischen Person handelten. Dabei sei aber nicht erforderlich, dass eine bestimmte natürliche Person identifiziert werde, ein Organisationsverschulden reiche aus. Die Interpretation des Urteils und seine praktischen Implikationen sind gemäss Kunz umstritten.
4. Konkretisierung des Schadenersatzes
Der Schadenersatzanspruch gemäss Art. 82 DSGVO ist laut Kunz durch mehrere EuGH-Urteile konkretisiert worden. Die Rechtsprechung sei entscheidend für die Bewertung und Durchsetzung von Schadenersatzansprüchen nach der DSGVO und habe weitreichende Auswirkungen auf die Praxis im Datenschutzrecht.
So sei vom EuGH anerkannt worden, dass es keine Erheblichkeitsschwelle bei immateriellen Schäden gebe, wodurch auch Bagatellschäden ersatzfähig seien. Ein immaterieller Schaden setze keinen spürbaren Nachteil und keine objektiv nachvollziehbare Beeinträchtigung persönlichkeitsbezogener Belange voraus, weshalb ein bloss kurzfristiger (wenige Tage dauernder) Verlust von Daten durch deren Veröffentlichung im Internet ausreiche. Begründet werde diese Auslegung damit, dass der Schadenersatzanspruch primär dem Ausgleich und nicht der Abschreckung oder Bestrafung diene.19
Ein immaterieller Schaden könne zudem auch aus der Befürchtung eines zukünftigen Datenmissbrauchs nach einem Cyberangriff resultieren. Der Nachweis der negativen Folgen liege in der Verantwortung der betroffenen Person und erfordere eine individuelle Betroffenheit im Einzelfall.20 Es sei mittels einer ex ante-Betrachtung im Hinblick auf die Angemessenheit der getroffenen Massnahmen zu |prüfen, ob der Cyberangriff durch mangelnde Datensicherheit ermöglicht wurde.
Der Referent betonte, dass eine Verletzung der DSGVO allein nicht automatisch zu einem Schadenersatzanspruch führe; der konkrete Schaden müsse in jedem Fall nachgewiesen und festgestellt werden.21 Wichtig sei aber, dass ein rein hypothetisches Risiko nicht ausreiche (wie z.B. der erwiesene Ausschluss der Kenntnisnahme durch Dritte). Zudem gelte beim Nachweis des Schadens eine Beweislastumkehr: Es werde vermutet, dass der Verantwortliche schuldhaft gehandelt habe, wobei sich dieser entlasten könne, um Haftungsansprüche abzuwenden.22
5. Vereinfachung internationaler Datentransfers
Für internationale Datentransfers in die USA sei das EU-US Data Privacy Framework (DPF) und der Angemessenheitsbeschluss für die USA am 10. Juli 2023 durch die Europäische Kommission verabschiedet worden. Das DPF diene als Grundlage für die Datenübermittlung in die USA, ohne auf Standardvertragsklauseln (SCCs) und eine Datentransfer-Folgenabschätzung zurückgreifen zu müssen. Allerdings werde in der Praxis eine kritische Evaluation erwartet und eine Überprüfung durch den EuGH sei absehbar. Da unklar sei, ob das DPF einer erneuten richterlichen Überprüfung standhalte («Schrems III»), empfahl Kunz für die Praxis, weiterhin auf Backup-Lösungen wie SCCs zurückzugreifen.
III. AI Governance: ein Praxisbericht
Die Implementierung einer AI Governance stellt für Unternehmen eine Herausforderung dar. Anne-Sophie Morand23 bot in ihrem Referat einen praxisorientierten Einblick in die Gestaltung und Entwicklung einer solchen AI Governance.
Sie definierte AI Governance zunächst als ein umfassendes System von Regeln, organisatorischen Massnahmen, Prozessen, Kontrollen und Tools, die dem Unternehmen helfen würden, eine vertrauenswürdige, verantwortungsvolle, ethische, rechtlich zulässige und effiziente Entwicklung und Nutzung von KI-Technologie zu gewährleisten. Ziel sei es, Risiken zu minimieren, Compliance zu gewährleisten und gleichzeitig die Innovationskraft zu fördern. Auch das Einhalten regulatorischer Vorgaben solle damit sichergestellt werden. Dabei hob die Referentin insbesondere den AI Act24 der EU hervor, der extraterritoriale Wirkung habe und damit potenziell auch für Schweizer Unternehmen anwendbar sei. Morand nannte ferner die AI Convention des Europarats25 und wies darauf hin, dass der Bundesrat Ende 2024 einen Bericht bezüglich der Regulierung von KI in der Schweiz vorlegen werde.26
Der Aufbau einer AI Governance beginne mit der Einrichtung einer Arbeitsgruppe, die sowohl über juristisches als auch technisches Know-how verfügen solle. Den Wert dieser Interdisziplinarität hob die Referentin besonders hervor. Eine Arbeitsgruppe müsse nicht nur juristisch logisch vorgehen, sondern zunächst ein gemeinsames Verständnis für Begriffe erarbeiten und stets darauf achten, dass die Entscheide für das Business umsetzbar seien. In praktischer Hinsicht empfahl Morand, zunächst innerhalb der Kerngruppe ein «AI Governance Framework» als Basisrahmenwerk zu erstellen. Auch müssten die Verantwortlichkeiten innerhalb des Unternehmens festgelegt und die Rollen klar definiert werden. Morand betonte weiter, dass die Unternehmensführung bereits früh in den Implementierungsprozess einbezogen werden solle, damit die Akzeptanz im Unternehmen von Beginn an hoch sei.
Konkret regle eine AI Governance die Entwicklung und den Betrieb von sog. «KI-Systemen» sowie die Entwicklung von sog. «General Purpose AI Models» (kurz GPAI Models). Auch die Nutzung privater KI-Tools durch Mitarbeitende zu Arbeitszwecken werfe in der Praxis u.a. datenschutzrechtliche Fragen auf, wenn Personendaten in diese KI-Tools eingespeist würden. Daher hätten grössere Unternehmen in der Regel eigene ICT-Richtlinien und stellten unternehmensinterne KI-Tools (z.B. SwisscomGPT) zur Verfügung, mit welchen die Kontrolle über die Daten sichergestellt werden könne.
In der Umsetzung seien unterschiedliche Konzepte denkbar. Möglich sei etwa eine AI Governance, bei der sämtliche Systeme nach dem gleichen Ansatz geprüft würden. Möglich sei aber auch eine «smart»-Variante, welche differenzierter funktioniere und unterschiedliche Systeme in unterschiedliche Risikokategorien einteile. Die Kategorien könnten sich am AI Act orientieren, aber weitergehend auch eigene, spezifische Kriterien innerhalb eines Unternehmens berücksichtigen, etwa Reputationsrisiken. Bei Hochrisiko-KI-Systemen erscheine es sinnvoll, verschiedene Grundsätze zu definieren, deren Einhaltung besonders geprüft werde (z.B. Compliance, Fairness, Transparenz, Qualität der Daten, Security usw.). In jedem Fall sei es wichtig, AI Governance nicht isoliert zu betrachten, sondern in bestehende Strukturen und Prozesse zu integrieren. Gerade in grösseren Unternehmen würden bereits viele Prozesse im Bereich Data Governance und Security bestehen. Mit Blick auf neuartige Prozesse sei deshalb das Zusammenspiel mit bestehenden Prozessen sauber zu evaluieren, da es sonst zu Überschneidungen kommen könne. Auch die Risikotoleranz müsse zu Beginn bewertet werden, um zu verstehen, wo innerhalb der Prozesse Schwerpunkte zu setzen seien. In grösseren Un|ternehmen sei zudem die Schaffung einer Ethikkommission denkbar, welche insbesondere Hochrisiko-Systeme hinsichtlich ihrer Fairness prüfe. Wichtig sei es auch, die KI-Systeme nach deren Lancierung regelmässig zu re-evaluieren und zu überwachen.
Ein wesentliches Element sei für Unternehmen die Vertrauensbildung. Vertrauen müsse aufgebaut und aufrechterhalten werden, weshalb dem Element Ethik grosses Gewicht zukomme. Swisscom verfolge etwa die Vision eines «innovators of trust»: Neben der Innovation sei das Vertrauen so gewichtig, dass im Unternehmen teilweise weiter gegangen werde, als es die Gesetzgebung verlange. Letztlich könne die Implementierung einer AI Governance sogar zu einem Wettbewerbsvorteil führen, indem Innovation innerhalb ethischer Grenzen gefördert und gleichzeitig Risiken minimiert werden könnten.
Abschliessend resümierte Morand, dass es keine Einheitslösung für die Umsetzung einer AI Governance gebe. Massgebend seien die konkreten Umstände im Unternehmen. Ein risikobasierter Ansatz sei aber sinnvoll, wenn womöglich auch der AI Act zu berücksichtigen sei. Dabei sei es wichtig, frühzeitig mit der Umsetzung zu beginnen und sich einen umfassenden Überblick über den Einsatz und die Entwicklung von KI-Tools im eigenen Unternehmen zu verschaffen. Schliesslich sei die Interdisziplinarität sehr wichtig und es lohne sich auch für Juristinnen und Juristen, ein technisches Grundverständnis im KI-Bereich aufzubauen.
IV. Datenethik: Konzepte, Inhalte, Bedeutung – theoretische Einführung und Reality-Check
Markus Christen27 und Matthias Glatthaar28 diskutierten sodann über die theoretischen Grundlagen und praktischen Herausforderungen der Datenethik. Zuerst stellte Christen grundlegende Konzepte vor, anschliessend berichtete Glatthaar aus der Praxis.
Christen eröffnete sein Referat mit der Analogie, dass Daten häufig als das «Öl des 21. Jahrhunderts» bezeichnet würden, um ihr Innovationspotential zu verdeutlichen. Die Datenethik greife dort unterstützend ein, wo sich ein Spannungsfeld zwischen Ausschöpfung des Innovationspotentials und fundamentaler Bedrohung für die Freiheit und Privatsphäre durch die Datennutzung auftue.
1. Datenethik-Kodex der Data Innovation Alliance
Ende 2020 habe die Expertengruppe Datenethik der Data Innovation Alliance einen Ethik-Kodex für datenbasierte Wertschöpfung veröffentlicht.29 Dieser Kodex biete Antworten auf ethische Fragen entlang des Datenlebenszyklus und diene als Leitfaden für Unternehmen, um ethische Prinzipien bei der Datenbearbeitung zu verankern. Gerade auch für kleinere Unternehmen mit begrenzten Ressourcen könne dieser Datenethik-Kodex eine wertvolle Orientierungshilfe bieten, um ethische Fragen frühzeitig zu erkennen, zu diskutieren und effizient zu regeln. Der Kodex basiere auf drei ethischen Grundprinzipien: Schadensverminderung, Gerechtigkeit und Autonomie. Die Schadensverminderung statuiere den Schutz von Daten vor unberechtigtem Zugriff und die Minimierung negativer Auswirkungen auf die Umwelt. Unter dem Gesichtspunkt der Gerechtigkeit solle die soziale Gerechtigkeit, Gleichheit und Fairness gefördert werden. Die Autonomie solle selbstbestimmtes Handeln durch den Schutz der Privatsphäre ermöglichen und die Würde der Betroffenen wahren. Zusätzlich definiere der Kodex prozedurale Werte wie Kontrolle, Transparenz und Rechenschaft, um sicherzustellen, dass der Umgang mit Daten innerhalb eines Unternehmens wohldefiniert und nachvollziehbar sei.
2. Vier Etappen der Datennutzung
Der Kodex orientiere sich an den vier Etappen der Datennutzung, dem data life cycle. Der data life cycle beginne mit der Datenerfassung, indem digitalisierte Daten erstellt bzw. erworben würden. Als nächster Schritt würden im Rahmen der Datenverwaltung Datenbanken aufgebaut und das Datenmanagement (u.a. Sicherheitsmechanismen) implementiert. Mit der Datenproduktentwicklung würden anschliessend datenbasierte Wertschöpfungsmechanismen geschaffen (z.B. bestimmte Machine-Learning-Modelle) und schliesslich würden die Datenproduktauswirkungen anhand der Effekte von datenbasierten Produkten auf Individuen und Gemeinschaften bewertet.
3. Ethik-Strukturen
Die Implementierung einer Datenethik in einem Unternehmen oder in einer anderen Organisation umfasse die Schaffung von Strukturen und Programmen, die ethisches Verhalten fördern würden. Es gebe unterschiedliche Ansätze, allen voran den Fokus auf Individuen durch Ausbildung oder auf die Organisation durch strategisches Management. Ein anderer Ansatz fokussiere darauf, definierte Gremien oder prozedurale Richtlinien und ethische Reflexionsräume zu schaffen und Entscheidungswege festzulegen. Christen stellte verschiedene Arten von Gremien30 und Prozeduren31 vor, welche die ethischen Probleme identifizieren, über die Vorgehensweise zur Lösung des ethischen Problems entscheiden und die ethische Handlungsweise durchsetzen würden. Die verschiedenen Ansätze würden sich nicht gegenseitig ausschliessen, sondern könnten sich ergänzen, um ein kohärentes Datenethik-Konzept zu bilden.
4. Drei Ebenen der Datenethik
Der Referent übergab das Wort an Glatthaar, der erläuterte, wie die Umsetzung der theoretischen Konzepte der Datenethik in der Praxis funktioniert. Er zeigte dies am Beispiel der Datenethik des Migros-Genossenschafts-Bundes (im folgenden «Migros») auf.
Die Migros verfolge keinen maximalen Ansatz in Bezug auf die ethische Datennutzung. Der Grundgedanke der Datenethik bei der Migros laute: Wenn es möglich ist, Daten zu nutzen, soll dies grundsätzlich auch geschehen, allerdings stets verantwortungsvoll und unter den richtigen ethischen Bedingungen. Dabei sollen die Datenethik-Grundsätze eingehalten werden.
Das Datenethik-Konzept der Migros sei dreiteilig ausgestaltet. Auf der strategischen Ebene habe die Migros den Ethik-Kodex für datenbasierte Wertschöpfung als massgebliches Wertgefüge übernommen. Dieser Kodex habe als Basis für eine Arbeitsgruppe gedient, die sich mit Datenethik befasst habe. Gestützt auf den Ethik-Kodex berate und beurteile eine Datenethik-Stelle datengetriebene Projekte, was den taktischen Ansatz ausmache. Auf operativer Ebene ergänze eine Checkliste das Datenethik-Konzept. Diese sei als Hilfestellung für die tägliche Arbeit gedacht und solle dabei helfen, bei der Programmierung der Algorithmen die Grundsätze des Datenethik-Kodex einzuhalten.
Veranschaulicht wurde die Implementierung dieses Datenethik-Konzepts anhand von KI-Anwendungen. Die Migros habe sich verpflichtet, verantwortungsvoll mit KI umzugehen. Dies umfasse einerseits die Auswahl der Tools, weshalb bestimmte KI-Anwendungen genutzt werden dürften, während der Zugriff auf andere gesperrt sei. Zusätzlich sei eine Liste von Prinzipien der KI-Nutzung ausgearbeitet worden, die als Leitlinie für Werte dienen solle. Zentral für die KI-Nutzung seien die Prinzipien Fairness, Transparenz, Verantwortung (durch human in the loop) und Werteorientierung.
5. Operative Umsetzung
Gemäss Glatthaar verfolgt die Migros bei der Operationalisierung ihres Datenethik-Konzepts einen prozeduralen Ansatz. Das Digital Governance Framework solle möglichst einfach gehalten werden und als «One-Stop-Shop» für alle anwendbaren Prozesse fungieren. So stehe beispielsweise aktuell zur Diskussion, ob die Prüfung von KI in bestehende Prüfprozesse integriert werden könne oder ob ein zusätzlicher Prüfschritt erforderlich sei. Ergänzend zur Umsetzung von datengetriebenen Projekten solle ausserdem ein Beratungsprozess stattfinden, der das Geschäft begleite und sicherstelle, dass Projekte je nach Kritikalität bestimmte Folgeprüfungen auslösen könnten, um eine Entscheidung über die Durchführung oder den Verzicht zu treffen.
6. Ideal World Approach
Losgelöst von der konkreten Operationalisierung nannte der Referent sinnvolle Ansätze für eine Datenethik, die als Grundlage für jedes strukturelle Konzept dienten. Ein sinnvoller Ansatz für die Implementierung einer Datenethik in Organisationen sei die Beschränkung auf wenige, aber essenzielle Prinzipien. Diese Prinzipien würden als Grundlage für alle ethischen Entscheidungen und Handlungen im Umgang mit Daten dienen. Ein weiteres wichtiges Element sei die pluralistische Zusammensetzung des Gremiums, das für die Überwachung der Datenethik verantwortlich sei. Es sei entscheidend, dass nicht alle Mitglieder des Boards ein persönliches Interesse (skin in the game) an den Aktivitäten hätten. Eine solche Zusammensetzung garantiere eine objektive und ausgewogene Entscheidungsfindung und verhindere Interessenkonflikte. Die Implementierung von Datenethik solle durch die Einbettung von Prozessen in bestehende Strukturen erfolgen und nicht durch die Schaffung zusätzlicher, übergeordneter Prozesse. Dies fördere die Akzeptanz und erleichtere die Integration in den Arbeitsalltag. Zur Ergänzung der universellen Prinzipien sei es hilfreich, eine Fallsammlung anzulegen. Diese Sammlung biete konkrete Beispiele, die die Prinzipien lebendig und greifbar machen würden. Durch die Analyse und Darstellung ausgewählter Fälle werde die Umsetzung der Prinzipien in der Praxis klar und nachvollziehbar. Es sei wichtig, diese Fälle nicht abstrakt, sondern konkret zu gestalten, um ihre Relevanz und Anwendbarkeit zu maximieren.
7. Gedanken zur Datenethik
Glatthaar teilte abschliessend seine Gedanken zu den aktuellen Entwicklungen der Datenethik. Die zunehmende Komplexität im Bereich der Datenethik, geprägt durch neue Terminologien und Regulierungen wie den AI Act, stellten Organisationen vor grosse Herausforderungen. Um Überforderung zu vermeiden und Innovationen nicht zu behindern, regte er an, Themen zu vereinfachen und sie klar zu strukturieren. In der Praxis werde der Unterschied zwischen rechtlichen und ethischen Anforderungen immer kleiner. Ethische Überlegungen blieben zwar weiterhin relevant, der Bedarf nach einer von rechtlichen Aspekten losgelösten Ethik-Prüfung nehme in der Tendenz aber ab.
Der Referent unterstrich als Schlusswort die Notwendigkeit eines strukturierten und durchdachten Ansatzes zur Implementierung einer Datenethik, der sowohl rechtliche als auch ethische Aspekte berücksichtige, um nachhaltige und innovative Entwicklungen in Organisationen zu fördern. Dieser Punkt wurde auch in der anschliessenden Diskussion bestätigt und hervorgehoben, dass Fairness oft über gesetzliche Anforderungen hinausgehe und ethisches Verhalten nicht nur für die Regulatorik, sondern insbesondere für das Vertrauen und die Reputation eines Unternehmens entscheidend sei.
V. Diskussionsrunde: Enthalten KI-Modelle Personendaten? – Und anderes, was wir die Techies schon immer fragen wollten
Den Schlusspunkt setzte eine von Rosenthal moderierte Diskussionsrunde zwischen Lena A. Jäger32, die zur Interaktion von Mensch, Maschine und Sprache forscht und Imanol Schlag33, der zu neuronalen Netzwerken forscht und den Sprachmodellbereich der «Swiss AI Initiative» leitet. In dieser technischen Betrachtung sollte u.a. der Frage nachgegangen werden, ob KI-Modelle Personendaten enthalten und den Teilnehmenden die Möglichkeit eingeräumt werden, Fragen zu stellen.
1. Grundlagen
Schlag erläuterte zunächst, was in einem grossen Sprachmodell überhaupt drinsteckt: Er erwähnte das Beispiel Llama3 von Meta, ein Modell mit 70 Milliarden Parametern. Dieses umfasse etwa 130 Gigabyte Daten, die aus nicht menschlich interpretierbaren Kommazahlen bestünden. Davon seien lediglich einige wenige Kilobyte Quellcode, welcher beschreibe, wie gewisse Funktionen auszusehen hätten. Der Rest der Dateien seien Zahlen, welche die Funktionen parametrisierten. Diese Zahlen stellten u.a. sog. embeddings dar, welche dann in Worte oder Wortteile umgemünzt würden. Ein eingegebener Prompt werde zuerst in Zahlen umgewandelt, damit er interpretiert werden könne. Dies funktioniere, indem Sätze in Worte und Wortteile heruntergebrochen würden (sog. Tokenisierung). Jeder Token werde dann durch eine Zahl ersetzt, mit welcher gearbeitet werden könne. Als Output resultiere ebenfalls eine Zahl, welche mit einem Wörterbuch einem Wort zugeordnet werden könne und in der Folge als «Wort» ausgegeben werde.34
Um zu veranschaulichen, wie diese Zuordnung von Wörtern in Sprachmodellen funktioniert, kam Jäger auf die Anfänge der Linguistik zu sprechen. Lange sei versucht worden, Wörter zu definieren. Ein «Baum» sei etwa als «Pflanze, die Licht benötigt» und damit über seine Eigenschaft(en) definiert worden. In den 1950er-Jahren sei diese Methode aber zunehmend angezweifelt und Wörter seien über ihren Kontext definiert worden. Dabei sei quantifiziert worden, in welcher «Nachbarschaft» sie auftauchten. Der «Baum» sei somit nahe dem «Garten» oder der «Natur», aber häufig auch bei «der» oder «ein» anzusiedeln. Nicht oft anzusiedeln sei der «Baum» hingegen bei «die». Syntaktische und semantische Eigenschaften definierten folglich, wie häufig ein Wort in einem Kontext auftrete. Bei Milliarden von Sätzen könne so die Bedeutung eines Wortes quantifiziert werden. So funktionierten auch neuronale Netzwerke: Wörter würden durch ihre Kontexte definiert, wobei sich diese Kontexte durch Muster in grossen Mengen von Trainingsdaten herauskristallisieren liessen und vom System verstanden werden könnten. So könnten syntaktische oder grammatikalische Strukturen extrahiert werden, aber auch die Bedeutungen von Wörtern. Jäger unterstrich aber, dass Faktenwissen nur ein Nebenprodukt darstelle.
Daraufhin stellte Rosenthal fest, dass es sich bei der Funktionsweise von KI-Modellen eigentlich um eine grosse Statistikübung handle, in welcher Wörter kartographiert würden – wo kämen welche Wörter wie vor und in der Nähe welcher Wörter befänden sich diese. Dies funktioniere aber nicht zweidimensional, sondern im Fall von GPT3 in 12’000 Dimensionen. Jäger beruhigte das Publikum mit dem Hinweis, dass diese «Dimensionen» für Computer bei genügend Rechenleistung kein Problem darstellten. Vielmehr erlaube gerade diese Komplexität, auch komplexere Muster in den Daten zu erkennen. Schlag ergänzte, dass diese Technologie weder besonders kompliziert noch neu sei. Neu seien einzig die grossen Mengen an Daten und Rechenleistungen. So müsse ein Rechenaufwand bewältigt werden, der bis vor kurzem als unmöglich galt.
2. Trainingsdaten und Training von KI-Modellen
Anschliessend wurde das Thema Trainingsdaten vertieft. Rosenthal hielt fest, dass ein Modell keine klassische Datenbank darstelle, in welcher nach Inhalten gesucht werden könne. Von den beiden Fachpersonen wollte er wissen, wie sich das Verhältnis von Trainingsmaterial zu Grösse des Modells gestalte. Gemäss Schlag ist das Modell Llama3 auf 15 Billionen Tokens trainiert, was etwa 45 Terabyte reiner Textdateien entspreche. Diese liessen sich zwar auf die erwähnten 130 Gigabyte komprimieren, aber kaum ohne Datenverlust. Denn im Trainingsprozess würden keine direkten Kopien jedes Dokuments gespeichert, sondern die essenzielle Information, ähnlich wie bei einer lossy compression. Rosenthal stellte daraufhin fest, dass es sich also um eine Zusammenfassung des Kontexts, in welchem die Daten gebraucht würden, handle und fragte Jäger, ob die Menge des Trainingsmaterials überhaupt herausgelesen werden könne. Sie stellte klar, dass im Gegensatz zu anderen Standard-Komprimierungsalgorithmen keine bestimmte Anzahl an Bytes verloren gehe. Weil nicht kontrollierbar sei, wo und wie bestimmte Bytes eingespart würden, sei auch nicht nachvollziehbar, welche Daten in einem Modell noch vorhanden seien. Es sei zwar möglich, dass von gewissen Trainingsbeispielen Daten unverändert enthalten seien – etwa Namen oder Telefonnummern. Man wisse allerdings nicht a priori, welche Daten beim Training komplett erhalten blieben. Sicher sei hingegen, dass nicht sämtliche Informationen in den Daten enthalten seien.
Sodann kam die Runde auf das Training solcher Modelle zu sprechen. Rosenthal fragte, ob ein Supercomputer sämtliche Texte lese und so bereits die «Bias»-Probleme begännen. Nach Schlag macht das Modell häufiger in den Trainingsdaten vorkommende Texte wahrscheinlicher und Sätze, die darin nicht vorkommen, weil sie zufällig oder syntaktisch falsch sind, weniger wahrscheinlich. Das Training |sei also im Wesentlichen ein Erraten des nächsten Wortes. Dies führe zu viel Allgemeinwissen. Trainingsdaten würden also tokenisiert und dann heruntergebrochen, woraufhin das Modell eine Voraussage mache. Diese werde als kontinuierliche – nicht binäre – Variable bewertet. Ein Gradientenabstieg zeige dann, in welche Richtung eine Korrektur erfolgen müsse. Diese Methode funktioniere konkret mittels Auslassungen von Wörtern in bestehenden Texten und bei sehr vielen Texten gleichzeitig (sog. Parallelisierung).
Auf die Frage, ob bei einem solchen Training auch Menschen involviert seien, erläuterte Jäger zwei Prozesse: Einerseits das sog. «Finetuning», bei welchem ein Modell durch die Bereitstellung von Beispielen optimiert werde, um es möglichst gut auf seine Aufgabe auszurichten. Dazu würden Trainingsdaten verwendet, die von Menschen erstellt wurden und Fragen (Inputs) mit erwünschten Antwortmöglichkeiten (Outputs) in Verbindung setzen. Menschen würden dann die Antwortmöglichkeiten gemäss dieser Ausrichtung «labeln», woraufhin das bereits vortrainierte Modell mit denselben Parametern angepasst werde, sodass für die behandelten Fragen die gewünschten Antworten resultierten. Andererseits existiere im Rahmen des sog. «Alignment» das «Reinforcement-Learning from Human Feedback». Dabei werde das bereits fertig trainierte Modell im Stadium seiner Anwendung mittels Nutzerdaten verbessert. Jäger nannte als Beispiel die Feedbackfunktion, bei der per «Daumen hoch» oder «Daumen runter» dem Modell gezeigt werde, ob eine Antwort gut gewesen sei. Dadurch könne das Modell dazu motiviert werden, eine andere (bessere) Antwort zu produzieren. Rosenthal fragte daraufhin, ob mit diesen beiden Prozessen versucht werde, das Modell in eine andere Richtung zu rücken. Schlag antwortete, dass ein Modell, das einen Text vervollständigen könne, allein noch keine Persönlichkeit habe. Es «antworte» auf eine Frage etwa, indem es die Frage wiederhole und nicht eine Antwort liefere. Für die «Persönlichkeit» sei das Reinforcement-Learning notwendig, welches ein Modell konditioniere und eine gewisse Ideologie implementieren könne. Diese Prozesse bräuchten jedoch nur minimalen Rechenaufwand und fänden in Form eines reward models statt, bei dem die KI sich selbst trainiere.
Im Rahmen des Alignments könnten auch konkretere Vorgaben an die Quellen oder an die «Sicherheit» einer Aussage gemacht werden. Ein reward model könne so trainiert werden, dass es Personendaten erkenne, und es könne im Rahmen des Alignments so justiert werden, dass keine Personendaten herausgegeben würden. Gemäss Jäger kann mittels Prompt Engineering erkannt werden, was für ein Output resultiert, wenn bestimmte Dinge eingegeben werden. Ein Prompt im Sinne einer Datenbankabfrage, mit welcher die Personendaten von beliebigen Personen zuverlässig abgefragt werden könnten, existiere so jedoch nicht. Unternehmen könnten jedoch verpflichtet werden, bekanntzugeben, welche Trainingsdaten sie verwendeten und ob und welche Personendaten darin enthalten seien. Man könne folgern, dass Personendaten, die nicht in den Trainingsdaten vorkämen, auch nicht als Output resultierten. Schlag ergänzte hierzu, dass es auch möglich sei, einen Text unwahrscheinlicher zu machen (sog. «Machine Unlearning»), sodass er nicht mehr generiert werde. Dennoch könne noch irgendwo im Trainingsdatensatz ein entsprechendes Paket existieren. Rosenthal wies darauf hin, dass ein System auch schon früher beginnen könne zu halluzinieren. Gemäss Schlag muss man dazu am Training ansetzen: Je länger ein System trainiert werde, desto weniger halluziniere es. Entsprechend könne man so verhindern, dass beim Training mehr Personendaten in das Modell gegeben werden müssen, damit ein «korrekter» Output herauskomme.
3. «Biases» und andere Probleme
Rosenthal kam sodann auf aktuelle Fälle zu sprechen, die für Schlagzeilen gesorgt hatten. So habe Google Gemini Bilder von Päpsten mit unterschiedlichen Geschlechtern und Hautfarben generiert, was für viel Kritik sorgte35 Nach Schlag ist in diesen Fällen das Problem beim Alignment zu verorten. Bildgeneratoren könnten gesteuert werden, indem das Prompting angepasst werde, ohne dass ein User dies wisse. Das Alignement mache Modelle nicht nur konversationell, sondern könne auch generalisieren. Dabei sollen die Modelle entlang der Grundsätze harmless, honest und helpful Outputs generieren. Jäger ergänzte, dass das Wort «Bias» völlig überladen sei. Bei Sprachmodellen werde primär diskutiert, wie bestimmte Personengruppen dargestellt werden – etwa in Form eines Geschlechterbias oder eines rassistischen Bias. Dies sei jedoch von der Konsequenz her etwas anderes als ein Entscheidungsbias. Bei einem Repräsentationsbias würde ein Modell im Falle eines Geschlechterbias dazu tendieren, dass «Mädchen» bei gleicher Ausgangslage stereotypisch als «schwach» oder «ängstlich» dargestellt würden. Bei der Entwicklung technischer Lösungen zur Vermeidung von Biases spielten also kulturell geprägte Meinungen oder Tatsachen (wie die Unmöglichkeit einer Päpstin) eine zentrale Rolle.
Rosenthal erkundigte sich daraufhin, ob diese Biases angepasst werden könnten – entweder über andere Trainingsdaten (bspw. durch den Ausschluss von Social-Media-Posts) oder über das Alignment. Er erläuterte, dass dies aus rechtlicher Sicht nötig sein könnte. Dem entgegnete Jäger, dass Entwicklerinnen und Entwickler sich durchaus zu diesen Themen Gedanken machten und nicht blind für gesellschaftliche Fragen Algorithmen entwickelten. Gewisse Probleme seien so lösbar, aber längst nicht alle. Geschlechterbiases etwa seien tief verankert in sämtlichen historischen und nicht historischen Daten. Dies könne weder mit Augmentation der Trainingsdaten noch mit einem Alignment überwunden werden. Es sei mit den aktuellen Techniken illusorisch, diese Biases komplett zu überwinden. Zudem entspreche die subjektive Wahrnehmung in vielen Fällen auch |einfach den Biases – es sei somit ein gesellschaftliches Thema, das viel grösser als «nur» KI sei.
Aus dem Publikum wurde anschliessend gefragt, was die Gründe dafür seien, dass aufgrund eines Prompts identische Bilder oder identische Texte, wie sie bereits in den Trainingsdaten vorkämen, resultierten? Rosenthal verwies hierzu auf eine Untersuchung, in welcher versucht wurde, Trainingsdaten mit einer neuen Methode (sog. divergence attack) zu extrahieren, was auch gelungen sei.37 Schlag erklärte, dass gewisse Arten von Texten sehr oft in den Trainingsdaten vorkämen, etwa die amerikanischen Bill of Rights oder Lizenztexte. Gebe man hiervon den ersten Satz in ein Modell ein, so werde dieses den Text vervollständigen. Relevant sei somit die Komplexität und Länge des Textes, aber auch wie oft das Modell den Text während des Trainings sehe. Bei Bildern seien die verfügbaren Daten noch geringer, weshalb oft die gleichen Daten verwendet würden. Dort finde eine eigentliche Rosinenpickerei statt, während bei Texten der gleiche Text bewusst nicht öfter als fünf Mal verwendet werde. Rosenthal stellte daraufhin fest, dass aus datenschutzrechtlicher Sicht folglich ein Interesse daran bestehe, mit mehr Daten zu arbeiten, da dann einzelnen Inhalten weniger Gewicht zukäme. Dem entgegnete Schlag, dass die Nutzung als Wissensspeicher gegen die Natur eines Sprachmodelles gehe. Tatsächlich sollten die Daten möglichst divers sein, damit der Raum von möglichen Sätzen, die Sinn ergäben, möglichst breit abgedeckt werden könne. Er illustrierte dies anhand eines Beispiels, in welchem er und sein Team ein Forschungsarchiv als Trainingsdaten genutzt hätten, was in der Folge dazu geführt habe, dass das Modell komplexe mathematische Aufgaben habe erledigen können. Dasselbe Modell sei aber nicht in der Lage gewesen, eine einfache Addition durchzuführen.
Daraufhin wurde die Diskussion auf das Thema Personendaten verschoben. Rosenthal zeigte am Beispiel von ChatGPT und der Frage, wer «Adrian Lobsiger» sei, dass dieses Modell viele vermeintliche Personendaten herausgebe, auch solche die objektiv falsch seien.38 Jäger stellte hierzu klar, dass im genannten Beispiel nicht abstrahiert worden sei und dieses ein zu direktes Produkt darstelle. Im konkreten Fall sei nicht kontrolliert worden, wie stark die Trainingsinstanz einem Inputtext entspreche. Bereits dieser Input könne fehlerhaft sein. Das Modell sei darauf trainiert zu sprechen. Es zeige somit stets das wahrscheinlichste Resultat an, etwa eine ähnliche Person, auch wenn es über keine oder nur wenige Daten verfüge. Möglich sei jedoch auch, dass gewisse Trainingsbeispiele nicht genügend komprimiert gewesen seien, wie etwa die generierten Bilder, die ganze Bildteile übernommen hatten.39 Dort argumentiere die Forschung ebenfalls mit der Wahrscheinlichkeit: Wie wahrscheinlich sei ein solcher Output, wenn das Originalbild nicht bereits als Input in den Trainingsdaten gewesen wäre?
Dies führte zur Frage, warum in diesem Kontext als Output u.a. der Name «Hanspeter Thür»40 ausgegeben wurde, wie Rosenthal bildlich zeigte. Schlag erklärte, dass die Namen erschienen, weil das Modell die Daten beim Training gesehen habe. Es sei möglich, dass das Modell zahlreiche Medienmitteilungen verarbeitet habe, in welchen die beiden Namen zusammen erschienen seien.
Sodann wurde das Thema Hacking angesprochen. Hierzu hielt Schlag fest, dass die veröffentlichten Modelle nicht mehr trainierten und damit nicht verändert oder gehackt werden könnten. Bei einer neuen Session sei also alles gleich wie in der vorherigen Session. Es gebe unterschiedliche Arten von Hacking, etwa Jailbreaking. Das Alignment sei hingegen nicht perfekt – so könne man Anleitungen erhalten (z.B. zum Bau von Bomben), auch wenn diese nicht ausgegeben werden sollten. Bei einer sog. «Retrieval-Augmented Generation» (RAG) würden hingegen Dokumente mit richtigen Informationen übernommen und in einen Kontext geladen. Diese würden dann vom Sprachmodell übernommen, da es diese ja auch gerade übernehmen sollte. Darüber hinaus habe das restliche System indes die gleichen Sicherheitsrisiken wie jeder Server.
Abschliessend wurde nach der Nachvollziehbarkeit und der Erklärbarkeit der Ergebnisse gefragt. Jäger hob hierzu zunächst hervor, dass eine präzise Terminologie wichtig sei, gerade wenn vom «Blackbox Modell» die Rede sei: Aufgrund ihrer Komplexität und ihrer immensen Anzahl von Parametern würden neuronale Netze oft generell als «Blackbox» bezeichnet. Es sei jedoch wichtig zu unterscheiden, ob ein Modell wegen seiner Komplexität undurchsichtig ist, oder ob eine Interpretation nicht möglich ist, weil die nötigen Informationen nicht veröffentlicht werden. Letzteres seien richtige Blackboxen wie ChatGPT, die weder den Quellcode noch die trainierten Parameter bzw. Gewichte verfügbar machten – auch nicht für wissenschaftliche Zwecke. Dort gebe es technische Erklärungsmethoden, aber Forschende treten dann aus der Sicht des Users auf. Andere Modelle wie Llama seien Open Source und Open Weights, der Code und die Parameter stehen also zur Verfügung. Dort könnten die Gewichte und der Lernfluss des Modells selbst bestimmt werden und auch, welche Inputs aktiviert werden sollen. Entsprechend gebe es viel mehr Forschung dazu und es könne viel mehr untersucht werden. Schlag stimmte zu und erläuterte bildlich, dass Forschende bei offenen Modellen wie bei einer Hirnoperation agieren könnten und genau sähen, was im «Kopf» aktiviert werde und nicht bloss was aus dem «Mund» rauskomme. In wichtigen Fällen gebe es einen Weg, bei dem das Sprachmodell auch die Herleitung beifüge und nicht bloss die Lösung. Dann könne die Lösung ebenfalls kontrolliert werden. Ein |anderer Ansatz bestehe darin, einen Text mittels Prompt 100 Mal zu generieren, um bspw. aufzuzeigen, dass ein Name nur zehn Mal erscheine, während in 90 Fällen ein anderer Output resultiere. So sei erkennbar, wie «sicher» sich ein Modell sei. Gemäss Jäger ist für die Erklärbarkeit eines Modells auch ein Verständnis der zahlreichen Dimensionen notwendig. Dazu müsse verstanden werden, wie diese interagierten und dies sei äusserst komplex.
|
Fussnoten:
|
|
|---|---|
| 1 |
Rechtskonsulent, Zürich. |
| 2 |
Rechtsanwältin, Zürich. |
| 3 |
Dieser Rahmen wurde in der Zwischenzeit geschaffen und per 15. September 2024 in Kraft gesetzt. Siehe dazu die Medienmitteilung des Bundesrates unter ‹www.admin.ch/gov/de/start/dokumentation/medienmitteilungen.msg-id-102054.html› (sämtliche Links zuletzt besucht am 15. Oktober 2024). |
| 4 |
Bei laufenden Bearbeitungen seien Art. 7 (Privacy by Design/by Default), Art. 22 (Datenschutz-Folgenabschätzung) und Art. 23 DSG (Konsultation des EDÖB im Zusammenhang mit Datenschutz-Folgenabschätzungen) nicht anwendbar. |
| 5 |
Abrufbar unter ‹www.edoeb.admin.ch/edoeb/de/home/deredoeb/infothek/infothek-ds.html›. |
| 6 |
BVGer vom 12. September 2023, A-516/2022. |
| 7 |
BGer vom 6. Oktober 2023, 8C_723/2022, E. 5.3. |
| 8 |
Siehe hierzu ‹steigerlegal.ch/2024/04/04/auskunft-frist-strafverfahren-dsg-schweiz/›. |
| 9 |
Abrufbar unter ‹www.edoeb.admin.ch/dam/edoeb/de/Dokumente/aDSG/empfehlungen-ds/20240415_Schlussbericht_Galaxus.pdf.download.pdf/20240415_Schlussbericht_Galaxus.pdf›. |
| 10 |
Art. 15 Entwurf zum Datenschutzgesetz des Kantons Bern (RRB 675/2023). |
| 11 |
§ 17 Vorentwurf zum Gesetz über digitale Basisdienste des Kantons Zürich (RRB 147/2024). Die Vernehmlassung wurde am 13. Mai 2024 abgeschlossen. |
| 12 |
Dr., Rechtsanwalt, LL.M., CIPP/E, CAS ETH in Cyber Security, Zürich. |
| 13 |
EuG vom 26. April 2023, T-557/20; EuGH vom 9. November 2023, C-319/22. |
| 14 |
HGer ZH vom 4. Mai 2021, 109 107-O; siehe dazu auch BGE 136 II 508 ff. |
| 15 |
EuGH vom 4. Mai 2023, C-487/21. |
| 16 |
EuGH vom 22. Juni 2023, C-579/21. |
| 17 |
EuGH vom 26. Oktober 2023, C-307/22. |
| 18 |
EuGH vom 5. Dezember 2023, C-683/21 und EuGH vom 5. Dezember 2023, C-807/21. |
| 19 |
EuGH vom 21. Dezember 2023, C-667/21; EuGH vom 14. Dezember 2023, C-456/22; EuGH vom 11. April 2024, C-741/21. |
| 20 |
EuGH vom 14. Dezember 2023, C-340/21. |
| 21 |
EuGH vom 14. Dezember 2023, C-456/22. |
| 22 |
EuGH vom 21. Dezember 2023, C-667/21. |
| 23 |
Dr., Rechtsanwältin, LL.M., Data Governance Counsel, Swisscom, Zürich. |
| 24 |
Verordnung (EU) 2024/1689 des Europäischen Parlaments und des Rates vom 13. Juni 2024 zur Festlegung harmonisierter Vorschriften für künstliche Intelligenz und zur Änderung der Verordnungen (EG) Nr. 300/2008, (EU) Nr. 167/2013, (EU) Nr. 168/2013, (EU) 2018/858, (EU) 2018/1139 und (EU) 2019/2144 sowie der Richtlinien 2014/90/EU, (EU) 2016/797 und (EU) 2020/1828 (Verordnung über künstliche Intelligenz). |
| 25 |
Siehe ‹rm.coe.int/1680afae3c›. |
| 26 |
Siehe Medienmitteilung des Bundesrates vom 22. November 2023 «Bundesrat prüft Regulierungsansätze für Künstliche Intelligenz», abrufbar unter ‹www.admin.ch/gov/de/start/dokumentation/medienmitteilungen.msg-id-98791.html›; Der Bericht ist bis Ende 2024 nicht erschienen und wurde nunmehr für Anfang 2025 in Aussicht gestellt. |
| 27 |
PD Dr., Digital Society Initiative, Universität Zürich. |
| 28 |
Dr., Rechtsanwalt, LL.M., Leiter Datenschutz und Digitalisierung, Migros-Genossenschafts-Bund, Zürich. |
| 29 |
Abrufbar unter ‹data-innovation.org/data-ethics/›. |
| 30 |
Hausethikerinnen und Hausethiker, Ethik-Forum, Ethik-Komitee, Ethik Management, Ethik-Audit Team. Zur Zusammensetzung der Gremien: Die Gremien sollen pluralistisch zusammengesetzt sein, um unterschiedliche Perspektiven einzubringen, wobei Laien in die Diskussionen integriert werden sollen, solange eine fachlich versierte Person die Leitung übernehme. |
| 31 |
Richtlinien, Meta-Richtlinien, Dokumentationsanforderungen. |
| 32 |
Prof. Dr., Institut für Computerlinguistik, Universität Zürich. |
| 33 |
Dr., ETH AI Center, Zürich. |
| 34 |
Siehe anschaulich die Darstellung des tokenizers von OpenAI, abrufbar unter ‹platform.openai.com/tokenizer›. |
| 35 |
Siehe beispielhaft ‹blog.google/products/gemini/gemini-image-generation-issue/›. |
| 37 |
M. Nasr/N. Carlini/J. Hayase/M. Jagielski/A. Feder Cooper/D. Ippolito/Ch. A. Choquette-Choo/E. Wallace/F. Tramèr/K. Lee, Scalable Extraction of Training Data from (Production) Language Models, abrufbar unter ‹https://arxiv.org/pdf/2311.17035›. |
| 38 |
Adrian Lobsiger ist der aktuelle EDÖB. Das Modell gab zunächst u.a. fälschlicherweise an, dass er in der Vergangenheit als Staatsanwalt im Kanton St. Gallen und als Richter im Kanton Appenzell Ausserrhoden amtete. Erst auf Nachfrage hin gestand ChatGPT ein, dass diese Angaben falsch seien. |
| 39 |
Siehe hierzu die Medienberichterstattung, etwa ‹www.nzz.ch/technologie/darf-eine-ki-mein-bild-zum-trainieren-nutzen-das-sagt-das-urheberrecht-ld.1730537›. |
| 40 |
Der Vorgänger von Adrian Lobsiger als EDÖB. |