Anonimizacja daje nowe możliwości działania

Sposobem ochrony danych osobowych może być także ich anonimizacja. Polega ona na usunięciu wszystkich informacji umożliwiających identyfikację konkretnej osoby, której dane dotyczą. Dane zanonimizowane nie są już danymi osobowymi, więc nie podlegają regulacjom RODO. Anonimizację, w przeciwieństwie do pseudonimizacji, cechuje bowiem nieodwracalność. Z założenia, po jej wykonaniu nie da się już zidentyfikować poszczególnych osób.

Anonimizacja to, inaczej mówiąc, trwałe zastąpienie lub usunięcie danych osobowych. Służy ona do tworzenia zbiorów danych, które wyglądają strukturalnie podobnie do oryginalnych, ale mają ukryte informacje poufne. Metoda ta sprawdzi się zwłaszcza w sytuacjach, gdy istnieje potrzeba wykorzystania zasobów informacyjnych zawierających dane osobowe do innych celów niż określone przy ich zbieraniu. Może mieć zastosowanie w procesach analitycznych, przy testowaniu aplikacji w środowisku produkcyjnym, czy pozwalać na przekazywanie zbiorów informacji innym podmiotom przy współpracy nad tworzeniem nowych produktów lub usług.

Istnieje wiele technik i metod anonimizacji danych. W każdym przypadku dane modyfikowane są w nieco inny sposób. Wybór odpowiedniego rozwiązania zależy od konkretnej sytuacji i celów, jakim przekształcenia danych mają służyć. Na rynku dostępnych jest wiele narzędzi do anonimizacji danych – od bezpłatnych programów udostępnianych w modelu open source, po rynkowe produkty od wyspecjalizowanych dostawców.

Sztuczne też użyteczne

Może się jednak okazać, że w obliczu dynamicznego rozwoju technicznego  i idących w ślad za nim możliwości cyberprzestępców, anonimizacja może być już w niektórych przypadkach niewystarczająca, bądź jej zastosowanie wiązałoby się ze zbyt dużym ryzykiem naruszenia prywatności osób, których dane dotyczą. Rozwiązaniem problemu w takiej sytuacji mogą być dane syntetyczne. Są one sztucznie generowane z wykorzystaniem programów sztucznej inteligencji w celu imitacji danych rzeczywistych, z odzwierciedleniem ich faktycznych cech. W związku z dużym zapotrzebowaniem na dane do trenowania modeli uczenia maszynowego dane syntetyczne są też chętnie wykorzystywane przez samych twórców systemów sztucznej inteligencji.

W ostatnim czasie opracowano wiele technik i metod generowania danych syntetycznych, bazujących zarówno na modelach statystycznych, jak i głębokiego uczenia maszynowego. Na rynku jest już też dostępnych wiele różnych narzędzi i platform do generowania danych syntetycznych. Mogą one być tworzone zarówno na bazie danych rzeczywistych, jak i bez ich udziału, tylko za pomocą istniejących modeli w procesach matematyczno-statystycznych. Wytworzone w taki sposób dane syntetyczne nie są powiązane w żaden sposób z informacjami poufnymi, ale zachowują cechy danych rzeczywistych.

Jak piszą autorzy przygotowanej przez NASK „Analizy rozwiązań w zakresie anonimizacji danych i generowania danych syntetycznych”, w przeciwieństwie do informacji anonimizowanych i pseudonimizowanych „dane syntetyczne nie są modyfikacją danych rzeczywistych. Składają się z nowych, całkowicie fałszywych, ale realistycznych informacji, których nie można powiązać z prawdziwymi osobami”. Ten sposób radzenia sobie z wyzwaniami dotyczącymi ochrony danych poufnych, przy jednoczesnej potrzebie zapewnienia odpowiednich informacji do trenowania modeli sztucznej inteligencji, może zyskiwać na znaczeniu.

Zdaniem integratora

Rafał Barański, CEO, braf.tech  

Systemy klasyfikacji danych i weryfikacji uprawnień dostępu stanowią kluczowy element w zapewnianiu bezpieczeństwa informacji w firmach. Doskonałym przykładem takiego rozwiązania jest system klasy Identity Governance and Administration (IGA). Integruje on funkcje zarządzania tożsamością i uprawnieniami dostępu, przez co umożliwia automatyczne i ciągłe monitorowanie uprawnień w całej firmie. Ma też funkcje audytu i raportowania, które pomagają w zrozumieniu kto ma dostęp do jakich danych i dlaczego. Kluczową rolę w systemach IGA odgrywa klasyfikacja danych. Są one kategoryzowane na podstawie różnych kryteriów, takich jak poziom wrażliwości, zgodność z przepisami, wartość dla przedsiębiorstwa itp. Na podstawie tych kategorii, zapadają decyzje, kto powinien mieć dostęp do określonych informacji.