Anonymisierungskongress: Um Daten zu nutzen, braucht es Vorgaben und Methoden

Daten sind die Grundlage unserer digitalen Gesellschaft. Damit, wie wir sie schützen, befasst sich ein vom Bundesforschungsministerium unterstütztes Netzwerk.

In Pocket speichern vorlesen Druckansicht 1 Kommentar lesen
Videobotschaft von Bettina Stark-Watzinger auf dem Forschungskongress "AnoSiDat"​

Videobotschaft von Bettina Stark-Watzinger auf dem Forschungskongress "AnoSiDat"

(Bild: Thore Suthau)

Lesezeit: 5 Min.
Inhaltsverzeichnis

"Daten sind die Grundlage unserer digitalen Gesellschaft", sagte Bettina Stark-Watzinger, Bundesministerin für Bildung und Forschung, in ihrem Grußwort auf dem erstmalig stattfindenden Forschungskongress "Anonymisierung für eine sichere Datennutzung" (AnoSiDat). Dort stellten Akteure aus Wissenschaft, Wirtschaft und Verwaltung ihre bisherigen Forschungsergebnisse und Anonymisierungstechnologien vor. In Zukunft sollen in der EU neun Datenräumen entstehen, von denen einer – der europäische Gesundheitsdatenraum, EHDS – bereits beschlossen ist.

Dafür ist ein möglichst vertrauensvoller Umgang mit Daten notwendig. "Riesige Datenschätze liegen derzeit brach, Anonymisierung kann das ändern [...] Sie wird uns helfen, unsere Datenschätze zu heben", hofft Stark-Watzinger. Unstrittig dabei sei, dass personenbezogene Daten eines besonderen Schutzes bedürfen. "Nur so behalten wir unsere Freiheit und das Recht auf Privatheit im digitalen Raum – beides wertvolle Güter", weiß die Ministerin.

Konsens im Plenum war, dass eine vollständige Anonymisierung für manche Bereiche oder Personengruppen nie funktionieren werde. Je nach Anwendungsfall seien andere Methoden erforderlich, um die Daten zu schützen. Ansätze dabei sind unter anderem, Daten dezentral zu speichern und zu verarbeiten (Federated Learning). Wichtig sei bei der Datennutzung, nicht die "Privatheit und unsere freiheitlich-demokratischen Werte zu opfern", so Stark-Watzinger.

Ziel ist laut Bundesministerium für Bildung und Forschung (BMBF), das das Forschungsnetzwerk Anonymisierung ins Leben gerufen hat, der Schutz sensibler Daten und "gleichzeitig eine rechtskonforme Datennutzung". Gefördert wird das Projekt mit 70 Millionen Euro. Innerhalb des Netzwerks gibt es fünf Kompetenzcluster und 17 Einzelprojekte, die verschiedene Bereiche wie Gesundheit und Mobilität abdecken. "Teilweise sind die Projekte schon bis zu 18 Monate aktiv, teilweise eben auch deutlich kürzer", erklärt Martin Leucker, der das Institut für Software, Technik und Programmiersprachen an der Universität Lübeck leitet, die den Kongress AnoSiDat ausrichtet.

In der digitalen Welt entstehen Unmengen an Daten, ob beim Besuch einer Website, um sich für Veranstaltungen anzumelden, beim Arztbesuch, im Verkehr oder anderen Lebensbereichen. Beispielsweise könnten durch die Zusammenführung von Mobiltelefon- und Zensus-Daten möglicherweise detaillierte soziodemografische Profile bestimmter Stadtteile, aber auch von Unternehmen oder Einzelpersonen ermittelt werden. Beim Zensus wurde beispielsweise die Cell-Key-Methode verwendet.

Cell-Key-Methode

Die Cell-Key-Methode soll die Vertraulichkeit von Datentabellen schützen, indem für jede Zelle ein eindeutiger Schlüssel generiert und auf dieser Grundlage ein zufälliges Rauschen berechnet wird. Dieses Rauschen wird den Originaldaten hinzugefügt, um genaue Rückschlüsse auf Einzelpersonen zu erschweren, während der statistische Nutzen erhalten bleibt. Die Methode verwendet in der Regel eine Normalverteilung für das Rauschen und eignet sich für die sichere Veröffentlichung aggregierter Daten.

Die Cell-Key-Methode soll die Vertraulichkeit von Datentabellen schützen, indem für jede Zelle ein eindeutiger Schlüssel generiert und auf dieser Grundlage ein zufälliges Rauschen berechnet wird. Dieses Rauschen wird den Originaldaten hinzugefügt, um genaue Rückschlüsse auf Einzelpersonen zu erschweren, während der statistische Nutzen erhalten bleibt. Die Methode verwendet in der Regel eine Normalverteilung für das Rauschen und eignet sich für die sichere Veröffentlichung aggregierter Daten.

Wie solche Daten anonymisiert werden und welche Open-Source-Tools dabei getestet und weiterentwickelt werden können, damit beschäftigt sich das Forschungscluster "Anonymisierung bei gereferenzierten Daten" (AnigeD), das Markus Zwick vom Statistischen Bundesamt (DeStatis) neben weiteren Projekten auf dem Kongress vorgestellt hat. Seit knapp 25 Jahren befasst er sich bei DeStatis als "amtlicher Datenproduzent" mit der Veröffentlichung von Statistiken und damit einhergehend auch mit der Frage, ob ein Personenbezug möglich ist – denn Geheimhaltung gilt als "Kernaufgabe amtlicher Statistik". Es gebe ein starkes Interesse daran, dass die "Auskunftgebenden" auch auf einen sachgerechten Umgang mit ihren Informationen vertrauen können.

Dabei gibt es beispielsweise Regeln, "wie viele Merkmalsträger unter einem Aggregat stehen müssen". Wenn das Risiko besteht, dass Personen erkannt werden können, müssen für die Geheimhaltung ganze Zellen gesperrt werden und auch weitere Informationen, die kombiniert mit anderen Daten Rückschlüsse auf Einzelpersonen zulassen. Daher erforscht AnigeD neue Techniken für das "volle Potenzial der Datenanalyse", damit es weniger zusätzliche Informationsverluste gibt. Zu weiteren Kooperationsprojekten gehört unter anderem AnGer zur "Anonymisierung von Gerichtsentscheidungen für die digitale Justiz". Dabei werden Gerichtsdokumente automatisch geschwärzt oder aus ihnen mittels geeigneter Ersetzungen synthetische Datensätze erstellt.

"Wir hoffen auf ein maschinelles Lernen, das uns ein Stück weit unterstützt", so Zwick. Inzwischen sei es schwierig geworden, die Komplexität einzufangen. Mit den klassischen Verfahren funktioniere das nicht so einfach. Die Daten in den Forschungsdatenzentren seien sehr stark nachgefragt und vor allem für die Forschung von Interesse.

Über die Jahre habe man Zwick zufolge Vertrauen entwickeln können, "weil wir auf einem Regelwerk Lösungen geschaffen haben, die dann mehr oder weniger Konsens waren". Allerdings fehlt es laut dem vom BMBF vorgelegten Eckpunktepapier für ein seit 20 Jahren von Datenschützern gefordertes Forschungsdatengesetz an "sicheren rechtlichen und faktischen Rahmenbedingungen, was den Zugang der Forschung zu diesen Daten erschwert". Dazu soll unter anderem das Bundesstatistikgesetz verbessert werden. "Das Statistische Bundesamt soll stärker auf die Forschung ausgerichtet werden, indem es einen Forschungsauftrag erhält", heißt es dort. Im Koalitionsvertrag hatte die Ampel bereits versprochen, den Zugang zu Forschungsdaten unter Wahrung des Datenschutzes "umfassend" zu verbessern und "Open Access" als Standard zu etablieren.

(mack)