Hashowanie danych osobowych
Mit świętego Graala ochrony danych
W świecie ochrony danych osobowych hashowanie przez lata funkcjonowało jako swoisty „święty Graal” – technika, która miała rozwiązać fundamentalny konflikt między potrzebą przetwarzania informacji a wymogami prywatności. Przekonanie było proste i kuszące: przekształć dane w nieodwracalny ciąg znaków, a przestaną być danymi osobowymi. Skoro nikt nie może odczytać oryginalnej wartości, problem znika.
Wyrok Trybunału Sprawiedliwości Unii Europejskiej z 4 września 2025 roku w sprawie EDPS przeciwko Single Resolution Board (C-413/23 P) wprowadza zniuansowane podejście do statusu danych pseudonimizowanych. Trybunał uchylił wyrok Sądu pierwszej instancji i przekazał sprawę do ponownego rozpoznania, precyzując przy tym dwie kluczowe kwestie: po pierwsze, że status danych jako osobowych może różnić się w zależności od podmiotu je przetwarzającego; po drugie, że administrator nie może powoływać się na planowaną pseudonimizację, aby uchylić się od obowiązku informowania osób o potencjalnych odbiorcach ich danych w momencie ich zbierania.
Dlaczego hashowanie nie anonimizuje?
Hashowanie polega na przekształceniu dowolnego ciągu danych w łańcuch znaków o stałej długości za pomocą funkcji matematycznej. Proces jest deterministyczny – identyczne dane wejściowe zawsze generują identyczny wynik. Ta właściwość, fundamentalna dla weryfikacji integralności danych czy przechowywania haseł, jednocześnie stanowi źródło podstawowej słabości: hash zachowuje zdolność do jednoznacznej identyfikacji.
Federalna Komisja Handlu USA (FTC) w publikacji z lipca 2024 roku zatytułowanej „No, hashing still doesn’t make your data anonymous„ sformułowała to bez ogródek: logika, według której zaszyfrowane dane równają się anonimowym, jest „równie stara, co błędna”. Komisja wskazała, że zahashowane identyfikatory nadal umożliwiają śledzenie i profilowanie użytkowników, wyrządzając im realną szkodę.
Problem ilustruje prosty eksperyment myślowy. Numer PESEL składa się z jedenastu cyfr w określonym formacie. Teoretyczna przestrzeń możliwych kombinacji jest ograniczona. Atakujący dysponujący zahashowaną bazą numerów PESEL może przepuścić przez algorytm wszystkie możliwe kombinacje i porównać wyniki z posiadanymi hashami. Przy współczesnej mocy obliczeniowej to kwestia minut, nie lat. FTC już w 2012 roku ostrzegała, że złamanie zahashowanych numerów ubezpieczenia społecznego zajmuje mniej czasu niż parzenie kawy.
Globalny kontekst regulacyjny
Unia Europejska: precyzja pojęciowa RODO
Europejski system ochrony danych osobowych od początku wprowadzał rozróżnienie między pseudonimizacją a anonimizacją. Artykuł 4 pkt 5 RODO definiuje pseudonimizację jako przetworzenie danych w sposób uniemożliwiający przypisanie ich konkretnej osobie bez użycia dodatkowych informacji, pod warunkiem że te dodatkowe informacje są przechowywane oddzielnie i objęte środkami technicznymi i organizacyjnymi uniemożliwiającymi identyfikację.
Kluczowe jest słowo „bez”. Pseudonimizacja nie eliminuje możliwości identyfikacji – jedynie ją utrudnia. Dane pseudonimizowane pozostają danymi osobowymi w rozumieniu RODO. Dopiero dane prawdziwie anonimowe, wobec których identyfikacja jest niemożliwa przy użyciu wszelkich rozsądnie prawdopodobnych środków, wykraczają poza zakres rozporządzenia.
Motyw 26 RODO precyzuje, że przy ocenie możliwości identyfikacji należy uwzględnić wszystkie obiektywne czynniki: koszty i czas niezbędny do identyfikacji, dostępną technologię w momencie przetwarzania oraz przewidywalne kierunki rozwoju technologicznego. To podejście dynamiczne – technika skutecznie anonimizująca dziś może okazać się niewystarczająca jutro.
Artykuł 32 RODO wymienia pseudonimizację i szyfrowanie jako przykłady odpowiednich środków technicznych i organizacyjnych, ale jednocześnie wymaga dostosowania zabezpieczeń do stanu wiedzy technicznej, kosztów wdrażania oraz charakteru, zakresu, kontekstu i celów przetwarzania. Pseudonimizacja jest zatem narzędziem minimalizacji ryzyka, nie zwolnieniem z obowiązków.
Opinia 05/2014 Grupy Roboczej Art. 29 dotycząca technik anonimizacji potwierdza, że hashowanie stanowi technikę pseudonimizacji, nie anonimizacji. Dane zahashowane pozostają danymi osobowymi, chyba że ryzyko reidentyfikacji jest „nieistniejące lub nieistotne”.
Stany Zjednoczone: podejście pragmatyczne FTC
Amerykański system ochrony prywatności, choć fragmentaryczny w porównaniu z europejskim, wypracował spójne stanowisko w kwestii hashowania. FTC konsekwentnie uznaje, że dane zahashowane nie są anonimowe i podlegają tym samym standardom co dane w postaci jawnej.
Sprawa BetterHelp z 2023 roku stanowi przestrogę. Platforma świadcząca usługi poradnictwa psychologicznego przekazywała Facebookowi zahashowane adresy e-mail użytkowników wraz z informacjami z kwestionariuszy zdrowotnych. FTC ustaliła, że BetterHelp wiedziała, iż Facebook „cofnie hashowanie i ujawni adresy e-mail”. Efekt: Facebook dowiedział się, kto korzysta z pomocy psychologicznej, i wykorzystał tę wrażliwą informację do targetowania reklam. Ugoda kosztowała firmę 7,8 miliona dolarów i obowiązek uzyskiwania wyraźnej zgody użytkowników na jakiekolwiek udostępnianie danych.
Sprawa Nomi z 2015 roku dotyczyła śledzenia konsumentów w sklepach za pomocą adresów MAC urządzeń mobilnych. Firma twierdziła, że hashowanie adresów MAC chroni prywatność. W skardze FTC stwierdzono wprost: „Hashowanie zaciemnia adres MAC, ale wynik nadal stanowi trwały unikalny identyfikator.” Możliwość śledzenia osoby w czasie pozostaje, niezależnie od formy identyfikatora.
Sprawa Premom z 2023 roku dotyczyła aplikacji do śledzenia owulacji, która udostępniała unikalne identyfikatory reklamowe i urządzeń podmiotom trzecim, wbrew deklaracjom o udostępnianiu jedynie „danych nieidentyfikujących”. FTC wykazała, że identyfikatory te umożliwiały „obchodzenie systemowych zabezpieczeń prywatności, śledzenie osób, wywnioskowanie tożsamości użytkownika i ostatecznie powiązanie korzystania z aplikacji płodności z konkretną osobą”.
Kalifornia: standard deidentyfikacji CCPA
California Consumer Privacy Act wprowadza pojęcie danych „deidentyfikowanych”, które mogą być wyłączone spod regulacji. Definicja zawarta w §1798.140(h) wymaga jednak spełnienia trzech kumulatywnych warunków: zastosowania środków technicznych uniemożliwiających reidentyfikację (takich jak solenie czy silne algorytmy), wdrożenia wewnętrznych procedur zakazujących prób reidentyfikacji oraz niepodejmowania publicznych zobowiązań do utrzymywania informacji w formie zdeidentyfikowanej.
Sam fakt zahashowania danych nie wystarcza. Organizacja musi wykazać, że podjęła zarówno środki techniczne, jak i organizacyjne uniemożliwiające powiązanie danych z konkretną osobą. Nowelizacja z 2025 roku zaostrzyła dodatkowo wymogi notyfikacji naruszeń, wprowadzając 30-dniowy termin od wykrycia incydentu – jeden z najkrótszych w Stanach Zjednoczonych.
Chiny: PIPL i lokalizacja danych
Chińska ustawa o ochronie danych osobowych (PIPL), obowiązująca od listopada 2021 roku, częściowo wzorowana na RODO, wprowadza własne wymagania odzwierciedlające priorytety regulacyjne Chin. Ustawa ma zasięg eksterytorialny – obejmuje przetwarzanie danych osobowych osób znajdujących się w Chinach kontynentalnych, także gdy przetwarzanie odbywa się za granicą w celu dostarczania produktów lub usług bądź analizy zachowań.
PIPL wymaga kategoryzacji i zarządzania danymi osobowymi z zastosowaniem odpowiednich środków technicznych. Kluczowe znaczenie ma wymóg lokalizacji danych: operatorzy infrastruktury krytycznej oraz podmioty przetwarzające dane powyżej określonych progów muszą przechowywać dane osobowe na terytorium Chin. Przed przetwarzaniem danych wrażliwych, zautomatyzowanym podejmowaniem decyzji czy transgranicznymi transferami wymagane jest przeprowadzenie oceny wpływu na ochronę danych osobowych.
Według Bloomberg Law sankcje za poważne naruszenia sięgają 50 milionów juanów lub 5% obrotu z poprzedniego roku. Osoby bezpośrednio odpowiedzialne mogą zostać ukarane grzywną od 100 tysięcy do 1 miliona juanów oraz zakazem pełnienia funkcji kierowniczych.
Standardy międzynarodowe: ISO/IEC 27001:2022
Norma ISO/IEC 27001:2022 stanowi globalny punkt odniesienia dla systemów zarządzania bezpieczeństwem informacji. Kontrola 8.24 dotycząca zabezpieczeń kryptograficznych wymaga formalnego udokumentowania polityki kryptograficznej określającej, jakie informacje wymagają ochrony kryptograficznej, jakie algorytmy są dopuszczone oraz jakie poziomy szyfrowania odpowiadają poszczególnym kategoriom wrażliwości danych.
Standard zaleca stosowanie AES-256 dla szyfrowania symetrycznego, RSA z kluczem minimum 2048 bitów (preferowane 4096) dla szyfrowania asymetrycznego, SHA-256 lub wyższych dla weryfikacji integralności (ale nie dla haseł) oraz Argon2id, bcrypt, scrypt lub PBKDF2 dla hashowania haseł. Wyraźne rozróżnienie między funkcjami hashującymi odpowiednimi dla różnych zastosowań odzwierciedla świadomość, że uniwersalne podejście nie istnieje.
Przełom interpretacyjny: wyrok TSUE w sprawie EDPS przeciwko SRB
Kontekst faktyczny
Sprawa wyrosła z procedury przyznawania odszkodowań akcjonariuszom i wierzycielom Banco Popular Español po restrukturyzacji banku w czerwcu 2017 roku. Jednolita Rada ds. Restrukturyzacji i Uporządkowanej Likwidacji (SRB) przeprowadziła dwuetapową procedurę realizacji prawa do bycia wysłuchanym.
W fazie rejestracyjnej poszkodowani przedstawiali dokumentację tożsamości i dowody własności instrumentów kapitałowych. W fazie konsultacyjnej składali uwagi do wstępnej decyzji SRB i wyceny sporządzonej przez Deloitte. SRB zastosowała pseudonimizację: każdy komentarz otrzymał unikatowy 33-znakowy kod alfanumeryczny, a pracownicy analizujący komentarze nie mieli dostępu do danych identyfikacyjnych z fazy rejestracyjnej.
SRB przekazała Deloitte 1104 komentarze oznaczone wyłącznie kodami alfanumerycznymi. Deloitte nie miała i nie ma dostępu do bazy danych umożliwiającej powiązanie kodów z tożsamością autorów. Europejski Inspektor Ochrony Danych uznał, że SRB naruszyła obowiązek informacyjny z art. 15 ust. 1 lit. d rozporządzenia 2018/1725, nie informując o Deloitte jako odbiorcy danych.
Kluczowe rozstrzygnięcia
Trybunał uchylił wyrok Sądu w zakresie pierwszego zarzutu. TSUE stwierdził, że osobiste opinie lub poglądy, jako wyraz myślenia danej osoby, są z nią nierozerwalnie związane. Skoro komentarze wyrażały osobiste opinie autorów, nie było potrzeby dodatkowej analizy treści, celu i skutków dla stwierdzenia, że „dotyczą” osoby fizycznej w rozumieniu art. 3 ust. 1 rozporządzenia 2018/1725.
W kwestii możliwości identyfikacji Trybunał odrzucił jako bezzasadne stanowisko EDPS, zgodnie z którym dane pseudonimizowane stanowią w każdym wypadku i w odniesieniu do każdej osoby dane osobowe wyłącznie ze względu na istnienie informacji pozwalających na zidentyfikowanie osoby, której dane dotyczą. Trybunał wskazał, że pseudonimizacja może – w zależności od okoliczności danej sprawy – rzeczywiście uniemożliwić osobom innym niż administrator zidentyfikowanie osoby, której dane dotyczą, w taki sposób, że dla tych osób nie jest ona w ogóle możliwa do zidentyfikowania lub już możliwa do zidentyfikowania (pkt 86 wyroku). Jednocześnie jednak Trybunał zastrzegł, że jeżeli nie można wykluczyć, iż odbiorca będzie w stanie racjonalnie przypisać dane pseudonimizowane konkretnej osobie – na przykład poprzez porównanie z innymi danymi, którymi dysponuje – to dane te należy uznać za dane osobowe zarówno w odniesieniu do samego przekazania, jak i do każdego dalszego przetwarzania przez tego odbiorcę (pkt 85 wyroku).
Kluczowe znaczenie ma rozstrzygnięcie dotyczące perspektywy oceny w kontekście obowiązku informacyjnego. Trybunał stwierdził jednoznacznie, że obowiązek ten stanowi element stosunku prawnego między osobą, której dane dotyczą, a administratorem. Dotyczy zatem informacji w postaci, w jakiej została przekazana administratorowi – przed jakimkolwiek ewentualnym przekazaniem podmiotowi trzeciemu.
Trybunał jednoznacznie rozstrzygnął, że obowiązek informacyjny z art. 15 ust. 1 lit. d) rozporządzenia 2018/1725 wpisuje się w stosunek prawny istniejący między osobą, której dane dotyczą, a administratorem, i dotyczy informacji w postaci, w jakiej została przekazana administratorowi – a zatem poprzedza jakiekolwiek ewentualne przekazanie podmiotowi trzeciemu (pkt 110 wyroku). W konsekwencji możliwość zidentyfikowania osoby należy oceniać w momencie zbierania danych i z punktu widzenia administratora (pkt 111 wyroku). Kwestia, czy odbiorca po otrzymaniu danych pseudonimizowanych będzie w stanie zidentyfikować osobę, której dane dotyczą, pozostaje bez znaczenia dla realizacji tego obowiązku. Jak wskazał Trybunał, argumentacja zmierzająca do przyjęcia punktu widzenia odbiorcy skutkowałaby niedopuszczalnym odroczeniem kontroli przestrzegania obowiązku informacyjnego w czasie i nie uwzględniałaby przedmiotu tego obowiązku, który jest nierozerwalnie związany ze stosunkiem między administratorem a osobą, której dane dotyczą (pkt 114 wyroku).
Opinia Rzecznika Generalnego Spielmanna z 6 lutego 2025 roku szczegółowo analizuje te zagadnienia, wskazując na konieczność rozróżnienia między perspektywą administratora a perspektywą odbiorcy danych pseudonimizowanych.
Znaczenie dla praktyki
Wyrok wprowadza zniuansowane, wielopoziomowe podejście do statusu danych pseudonimizowanych. Po pierwsze, Trybunał potwierdził, że te same dane mogą mieć różny status prawny w zależności od podmiotu je przetwarzającego: dla administratora dysponującego kluczem umożliwiającym identyfikację pozostają danymi osobowymi (pkt 76 wyroku), podczas gdy dla odbiorcy pozbawionego jakichkolwiek rozsądnie prawdopodobnych środków identyfikacji mogą nie mieć takiego charakteru (pkt 77, 86-87 wyroku). Po drugie jednak, Trybunał wyraźnie wskazał, że okoliczność, iż dane pseudonimizowane nie mają charakteru danych osobowych dla określonego odbiorcy, nie ma wpływu na ocenę tych danych w kontekście ewentualnego przekazania ich osobom trzecim – jeżeli nie można wykluczyć, że te osoby trzecie będą w stanie racjonalnie przypisać dane osobie, której dotyczą, dane te należy uznać za osobowe zarówno w odniesieniu do przekazania, jak i do dalszego przetwarzania (pkt 85 wyroku). Po trzecie, w kontekście obowiązku informacyjnego z art. 15 ust. 1 lit. d) rozporządzenia 2018/1725 perspektywa odbiorcy jest całkowicie irrelewantna – administrator musi informować o potencjalnych odbiorcach w momencie zbierania danych, niezależnie od planowanej pseudonimizacji (pkt 111-115 wyroku).
Ocena charakteru danych jako osobowych musi być przeprowadzana indywidualnie dla każdego uczestnika przetwarzania. Te same dane mogą być osobowe dla administratora dysponującego kluczem deszyfrującym i nieosobowe dla odbiorcy pozbawionego jakichkolwiek środków identyfikacji. Kontekst determinuje kwalifikację prawną.
Komentarze kancelarii Hunton Andrews Kurth oraz Inside Privacy potwierdzają przełomowy charakter orzeczenia dla praktyki ochrony danych w UE.
Standardy techniczne: co naprawdę działa
Algorytmy hashowania haseł: hierarchia bezpieczeństwa
Współczesne standardy bezpieczeństwa haseł wymagają algorytmów celowo wolnych, odpornych na ataki sprzętowe. Argon2id, zwycięzca konkursu Password Hashing Competition z 2015 roku, standaryzowany w RFC 9106, jest obecnie uważany za optymalny wybór. Algorytm łączy odporność na ataki side-channel z odpornością na ataki wykorzystujące kompromis czasowo-pamięciowy.
Bcrypt pozostaje bezpieczny przy odpowiedniej konfiguracji, mimo że powstał w latach 90. Minimalny współczynnik pracy powinien wynosić 12, a dla aplikacji wysokiego bezpieczeństwa 13-14. Każdy przyrost współczynnika podwaja koszt obliczeniowy.
PBKDF2 stosuje się głównie ze względu na wymagania zgodności FIPS-140. Algorytm nie jest odporny na ataki pamięciowe, co czyni go podatnym na zrównoleglone ataki GPU. NIST SP 800-63B wymaga minimum 10 tysięcy iteracji, ale eksperci bezpieczeństwa zalecają 600 tysięcy lub więcej przy użyciu PBKDF2-HMAC-SHA-256.
SHA-256, SHA-512, MD5, SHA-1 są całkowicie nieodpowiednie do przechowywania haseł. Projektowano je z myślą o szybkości – współczesne GPU obliczają ponad 180 miliardów hashów MD5 na sekundę. Brak współczynnika kosztu obliczeniowego sprawia, że ataki brute-force są trywialne.
Szyfrowanie homomorficzne: przyszłość czy teraźniejszość?
Szyfrowanie homomorficzne umożliwia wykonywanie obliczeń na zaszyfrowanych danych bez ich deszyfrowania. To potencjalnie rewolucyjna technologia pozwalająca na analizę danych osobowych przy zachowaniu pełnej poufności. Operacje wykonane na szyfrogramach dają wyniki identyczne z operacjami na tekstach jawnych, a klucz tajny nigdy nie jest eksponowany systemom przetwarzającym.
Wyzwania pozostają znaczące: narzut obliczeniowy wynosi od 10 do 1000 razy w porównaniu z operacjami na danych jawnych. Złożoność implementacji ogranicza wdrożenia do projektów badawczych i pilotażowych. Zastosowania obejmują przetwarzanie w chmurze z niezaufanym dostawcą, uczenie maszynowe zachowujące prywatność, bezpieczne obliczenia wielostronne i analizę danych medycznych.
Hashowanie nieodwracalne: czy administrator może pozbawić się możliwości weryfikacji?
Odrębnym zagadnieniem technicznym, które pojawia się w dyskusjach o granicach między pseudonimizacją a anonimizacją, jest pytanie: czy można tak zaprojektować system hashowania, aby sam administrator utracił możliwość późniejszej weryfikacji danych?
Trzy modele techniczne
Można wyróżnić trzy podstawowe podejścia do hashowania z perspektywy możliwości weryfikacji przez administratora:
Model klasyczny (hash deterministyczny bez sekretu): Zastosowanie czystego SHA-256 lub podobnego algorytmu pozwala administratorowi na weryfikację danych, jeśli zna kandydata na wejście. Wystarczy obliczyć hash i porównać z przechowywaną wartością. W relacji do administratora nie jest to proces nieodwracalny – możliwy jest atak brute-force lub słownikowy, szczególnie dla danych o ograniczonej przestrzeni wartości (numery PESEL, telefony, adresy e-mail).
Model z tajnym kluczem (HMAC / keyed hash): Zastosowanie HMAC-SHA-256 z kluczem kryptograficznym tworzy tzw. „one-way tokens”. Bez znajomości klucza nie można sprawdzić, czy dana wartość wejściowa odpowiada konkretnemu tokenowi. Jeżeli administrator z założenia nie ma dostępu do klucza (np. przechowywany jest w niezależnym HSM z restrykcyjnymi politykami dostępu), praktycznie uniemożliwia mu to weryfikację.
Model z destrukcją klucza: Najbardziej radykalne podejście polega na zahashowaniu danych z kluczem lub solą, a następnie kontrolowanym zniszczeniu klucza lub tabeli mapowań. Od tego momentu nawet administrator nie dysponuje realistyczną drogą do sprawdzenia, czy konkretny identyfikator odpowiada konkretnemu rekordowi. Z perspektywy RODO taka operacja zbliża się do prawdziwej anonimizacji – brak rozsądnych środków do reidentyfikacji oznacza wyjście poza zakres danych osobowych.
Kiedy nieodwracalne hashowanie ma sens biznesowy
Rozwiązania eliminujące możliwość weryfikacji po stronie administratora znajdują uzasadnienie w ściśle określonych scenariuszach:
Przejście od danych osobowych do anonimowych po zakończeniu relacji: Jeżeli cel biznesowy ogranicza się do statystyki lub agregacji, a relacja do konkretnej osoby nie jest już potrzebna, można zachować jedynie nieodwracalne identyfikatory służące np. deduplikacji lub analizie trendów, niszcząc wszelkie klucze lub mapowania. Korzyści obejmują wyjście poza zakres RODO (brak obowiązków dotyczących praw podmiotów danych, DPIA, realizacji żądań) oraz niższe ryzyko w przypadku naruszenia bezpieczeństwa.
Systemy analityczne z one-way tokenami: Google Cloud Data Loss Prevention opisuje pseudonimizację z wykorzystaniem kryptograficznego hashowania jako mechanizm tworzenia one-way tokens – system używa ich do korelacji i analityki, ale nie przewiduje odwrócenia do oryginalnych wartości. Dane źródłowe mogą być usunięte po stronie kontrolera, podczas gdy system zewnętrzny operuje wyłącznie na nieodwracalnych tokenach.
Privacy by design jako przewaga konkurencyjna: W modelach, gdzie administrator z góry zakłada, że nie chce i nie może identyfikować jednostek (systemy głosowania, anonimowe ankiety, mechanizmy sygnalistyczne), rozwiązanie z techniczną niemożnością weryfikacji stanowi dowód, że reidentyfikacja jest nierealna.
Kiedy nieodwracalne hashowanie nie ma sensu
W większości klasycznych procesów biznesowych istotą przetwarzania jest właśnie możliwość weryfikacji lub ponownej identyfikacji: obsługa klienta, rozliczenia, AML/KYC, egzekwowanie umów, realizacja obowiązków prawnych. W takich przypadkach:
Utrata możliwości weryfikacji oznacza utratę wartości danych. Jeżeli administrator nie może sprawdzić, czy dany rekord dotyczy konkretnego użytkownika, nie jest w stanie zrealizować reklamacji, wycofać zgody, wykonać prawa do sprzeciwu czy odpowiedzieć na żądanie organów ścigania.
Konflikt z obowiązkami regulacyjnymi. RODO przewiduje szereg praw podmiotów danych: dostęp, sprostowanie, usunięcie, ograniczenie, przenoszenie, sprzeciw. Jeżeli administrator celowo tworzy system, w którym technicznie nie jest w stanie powiązać rekordu z osobą, musi mieć mocne uzasadnienie, że dane te nie są już potrzebne do żadnego celu związanego z tą osobą – w przeciwnym razie narusza zasadę minimalizacji i ograniczenia celu.
Ryzyko pseudo-anonimizacji. Nawet po zahashowaniu i zniszczeniu klucza może istnieć realne ryzyko reidentyfikacji przez podmioty trzecie dysponujące zewnętrznymi słownikami (otwarte rejestry, wycieki z innych serwisów). Jeśli administrator zniszczy klucz, ale ktoś inny ma możliwość odwrócenia hashów, podważa to tezę o skutecznej anonimizacji.
Praktyczna rekomendacja
Nieodwracalne hashowanie z destrukcją kluczy stanowi wartościowe narzędzie na etapie końcowym cyklu życia danych – po wykorzystaniu ich do pierwotnych celów biznesowych i po upływie okresów retencji wymaganych prawem. Nie jest natomiast odpowiednim rozwiązaniem dla bieżących celów operacyjnych, gdzie administrator potrzebuje możliwości weryfikacji tożsamości użytkowników.
W kontekście typowego serwisu internetowego oznacza to, że hashowanie z zachowaniem możliwości weryfikacji (dla celów blokowania zbanowanych użytkowników czy współpracy z organami ścigania) pozostaje przetwarzaniem danych osobowych i wymaga podstawy prawnej zgodnej z RODO. Alternatywą jest prawdziwa anonimizacja przez nieodwracalne hashowanie, która jednak eliminuje możliwość realizacji tych celów biznesowych.
Lekcje z historii: wielkie naruszenia i ich konsekwencje
Yahoo: katastrofa niezasolonego hasha
Naruszenie danych Yahoo z lat 2013-2016 dotknęło około 3 miliardów kont użytkowników – największy wyciek w historii. Hasła przechowywano jako tzw. „niezasolone” hashe MD5 (Algorytm hashowania z solą pomaga chronić skróty haseł przed atakami słownikowymi, wprowadzając dodatkową losowość) . Ta decyzja architektoniczna okazała się katastrofalna.
SHA-1 projektowano z myślą o szybkości, nie o bezpieczeństwie haseł. Bez soli atakujący mogli wykorzystać tęczowe tablice – prekalkulowane bazy hashów typowych haseł. „Zdecydowana większość” haseł została złamana w ciągu dni od ujawnienia danych. Ugoda klasowa opiewała na 117,5 miliona dolarów, a Verizon (spółka macierzysta) zobowiązał się do inwestycji 306 milionów dolarów w bezpieczeństwo informacji w latach 2019-2022. Dodatkowa ugoda w wysokości 80 milionów dolarów rozstrzygnęła roszczenia dotyczące wprowadzających w błąd oświadczeń o środkach bezpieczeństwa.
LinkedIn: powtórzony błąd
Naruszenie LinkedIn z 2012 roku początkowo szacowano na 6,5 miliona kont. Dopiero w 2016 roku, gdy pełny zbiór danych pojawił się na rynku darknetowym, okazało się, że problem dotyczył 164 milionów użytkowników. Hasła przechowywano jako niezasolone hashe SHA-1 – identyczny błąd jak w przypadku Yahoo.
Reakcja LinkedIn pogorszyła sytuację. W 2012 roku firma zresetowała hasła jedynie dla zidentyfikowanych 6,5 miliona kont, pozostawiając 157,5 miliona skompromitowanych kont aktywnych przez kolejne cztery lata. Analiza kryptograficzna naruszenia wykazała, że brak soli umożliwił natychmiastowe łamanie haseł przy użyciu tęczowych tablic – członkowie forów dobrowolnie łamali hashe, identyfikując hasła typu „passwordlinkedin” czy „supermanlinkedin”.
Equifax: dane w postaci jawnej
Naruszenie Equifax z 2017 roku dotknęło 147 milionów konsumentów – niemal 40% populacji USA. Numery ubezpieczenia społecznego przechowywano w postaci jawnej, bez jakiegokolwiek szyfrowania czy hashowania. Przyczyną była niezałatana luka w Apache Struts (CVE-2017-5638), ujawniona w marcu 2017 roku.
Ugoda opiewała na 700 milionów dolarów, w tym 425 milionów na fundusz odszkodowań dla konsumentów, 175 milionów kar dla 50 stanów i terytoriów oraz 100 milionów kary cywilnej dla Consumer Financial Protection Bureau. FTC stwierdziła, że deklarowanie „rozsądnych zabezpieczeń” w polityce prywatności przy jednoczesnym niestosowaniu podstawowych środków bezpieczeństwa stanowi praktykę wprowadzającą w błąd. Finalne płatności rozdzielono między listopadem a grudniem 2024 roku.
British Airways: najwyższa kara RODO w Wielkiej Brytanii
Naruszenie British Airways z 2018 roku ujawniło dane około 500 tysięcy klientów, w tym dane logowania i pełne dane kart płatniczych. Atakujący przekierowali ruch klientów na fałszywą stronę, zbierając dane uwierzytelniające i płatnicze przez ponad dwa miesiące.
ICO pierwotnie zapowiadało karę 183,39 miliona funtów (1,5% globalnego obrotu). Ostateczna kara wyniosła 20 milionów funtów – redukcja o 89% uwzględniała współpracę linii z dochodzeniem, szybkie powiadomienie poszkodowanych, wdrożone usprawnienia oraz wpływ pandemii COVID-19 na branżę lotniczą. Pozostaje to najwyższa kara RODO nałożona przez ICO.
Marriott/Starwood: ryzyko przejęcia
Naruszenie Marriott/Starwood ujawniło 339 milionów rekordów gości hotelowych, w tym niezaszyfrowane numery paszportów. Atak rozpoczął się w 2014 roku, dwa lata przed przejęciem Starwood przez Marriott. Naruszenie wykryto dopiero we wrześniu 2018 roku.
ICO stwierdziło, że Marriott nie przeprowadził należytej analizy due diligence bezpieczeństwa podczas przejęcia. Kara wyniosła 18,4 miliona funtów (zredukowana z pierwotnie zapowiadanych 99,2 miliona). Odziedziczenie skompromitowanych systemów nie zwalnia z odpowiedzialności za zgodność po akwizycji.
Facebook-Cambridge Analytica: nadużycie platformy
Skandal Facebook-Cambridge Analytica dotyczył do 87 milionów profili użytkowników pozyskanych bez świadomej zgody. Aplikacja „This Is Your Digital Life” wykorzystywała API Facebooka do zbierania nie tylko danych użytkowników instalujących aplikację, ale także danych ich znajomych – bez wiedzy i zgody tych znajomych.
FTC nałożyła karę 5 miliardów dolarów – jedną z najwyższych w historii Komisji. ICO ukarało Facebooka kwotą 500 tysięcy funtów za narażenie danych użytkowników na „poważne ryzyko szkody”. Sprawa ustanowiła precedens: nadużycie platformy i nieautoryzowane wykorzystanie danych traktowane jest jak naruszenie bezpieczeństwa dla celów sankcji, nawet bez tradycyjnego włamania.
T-Mobile: powtarzające się naruszenia
Naruszenie T-Mobile z 2021 roku dotknęło 76,6 miliona mieszkańców USA. Atakujący wykorzystali niezabezpieczony router jako punkt wejścia, następnie przeprowadzili atak brute-force bez jakiegokolwiek ograniczenia szybkości żądań – standardowej praktyki branżowej, której T-Mobile nie wdrożył.
Ugoda opiewała na 500 milionów dolarów: 350 milionów na fundusz odszkodowań i 150 milionów na usprawnienia cyberbezpieczeństwa. W 2024 roku T-Mobile zapłacił dodatkowo 60 milionów dolarów kary dla CFIUS za niezgłoszenie nieautoryzowanego dostępu do danych po fuzji ze Sprint – najwyższa kara w historii CFIUS.
Target: kompromitacja dostawcy
Naruszenie Target z 2013 roku dotknęło ponad 110 milionów konsumentów. Atakujący wykorzystali skradzione dane uwierzytelniające zewnętrznego dostawcy HVAC do uzyskania dostępu do sieci Target, następnie przeszli do bazy danych klientów i zainstalowali malware przechwytujący dane kart płatniczych w czasie rzeczywistym.
Ugoda z konsumentami wyniosła 10 milionów dolarów, ugoda międzystanowa 18,5 miliona dolarów – wówczas największa tego typu. Całkowity koszt naruszenia dla Target wyniósł 202 miliony dolarów. Przypadek ilustruje, że organizacje odpowiadają za praktyki bezpieczeństwa dostawców z dostępem do sieci.
Praktyczne wnioski dla administratorów danych
Pseudonimizacja jako element strategii, nie strategia sama w sobie
Wyrok TSUE w sprawie EDPS przeciwko SRB potwierdza, że pseudonimizacja stanowi wartościowe narzędzie minimalizacji ryzyka, ale nie jest metodą unikania obowiązków ochrony danych. Administrator nie może uchylić się od obowiązku informacyjnego poprzez planowaną pseudonimizację przed przekazaniem danych odbiorcy. Obowiązek informacyjny powstaje w momencie zbierania danych i musi być realizowany z perspektywy administratora.
Pseudonimizacja może skutecznie chronić osoby, których dane dotyczą, przed ryzykami związanymi z przetwarzaniem przez odbiorców pozbawionych środków identyfikacji. Nie zmienia to jednak statusu danych w relacji administrator-podmiot danych. Polityka prywatności musi informować o wszystkich potencjalnych odbiorcach, niezależnie od planowanej pseudonimizacji.
Ocena indywidualna dla każdego uczestnika przetwarzania
Te same dane mogą mieć różny status prawny w zależności od podmiotu je przetwarzającego. Administrator dysponujący kluczem umożliwiającym identyfikację przetwarza dane osobowe. Odbiorca pozbawiony jakichkolwiek rozsądnie prawdopodobnych środków identyfikacji może przetwarzać dane nieosobowe – ale tylko jeżeli środki techniczne i organizacyjne faktycznie uniemożliwiają mu identyfikację.
Ocena musi uwzględniać wszystkie obiektywne czynniki: koszty i czas niezbędny do identyfikacji, dostępną technologię, możliwość krzyżowego powiązania z innymi zbiorami danych, prawne ograniczenia dostępu do informacji dodatkowych. Skuteczność pseudonimizacji nie jest cechą statyczną – wymaga regularnej weryfikacji w świetle rozwoju technologicznego i zmieniających się możliwości odbiorców.
Dokumentacja i rozliczalność
Zasada rozliczalności z art. 5 ust. 2 RODO wymaga, aby administrator był w stanie wykazać zgodność z przepisami. W kontekście pseudonimizacji oznacza to dokumentowanie zastosowanych środków technicznych i organizacyjnych, oceny ich skuteczności, podstaw uznania, że odbiorca nie dysponuje środkami identyfikacji, oraz okresowych przeglądów adekwatności zabezpieczeń.
Wybór odpowiednich algorytmów
Dla haseł: Argon2id jako pierwsza preferencja, bcrypt jako solidna alternatywa, PBKDF2 wyłącznie gdy wymagana jest zgodność FIPS. Nigdy SHA-256, SHA-512, MD5 ani SHA-1.
Dla danych w spoczynku: AES-256 z kluczami przechowywanymi w HSM lub KMS.
Dla danych w tranzycie: TLS 1.2 jako minimum, preferowany TLS 1.3.
Dla integralności danych: SHA-256 lub SHA-3 są odpowiednie, ale tylko do weryfikacji integralności, nie do ochrony poufności czy przechowywania haseł.
Reagowanie na naruszenia
Wykrycie naruszenia wymaga natychmiastowych działań: aktywacja zespołu reagowania, izolacja dotkniętych systemów, zabezpieczenie dowodów. Ocena zakresu i wpływu powinna nastąpić w ciągu pierwszych dni. Zgłoszenie organowi nadzorczemu w ciągu 72 godzin (RODO art. 33) lub 30 dni w przypadku Kalifornii. Powiadomienie poszkodowanych bez zbędnej zwłoki z jasną informacją o naruszeniu, ryzykach i krokach naprawczych.
Jeżeli dane były skutecznie zaszyfrowane lub pseudonimizowane, a klucze przechowywane oddzielnie i niekompromitowane, ryzyko dla osób, których dane dotyczą, może być minimalne. Europejska Rada Ochrony Danych uznaje, że w takich scenariuszach powiadomienie indywidualne może nie być wymagane. Dokumentacja uzasadniająca taką ocenę jest jednak niezbędna.
Wnioski
Hashowanie danych osobowych nigdy nie było i nie jest „świętym Graalem” ochrony prywatności. Jest narzędziem – użytecznym, gdy stosowanym prawidłowo, niebezpiecznym, gdy traktowanym jako panaceum. Wyrok TSUE w sprawie EDPS przeciwko SRB precyzuje granice jego skuteczności: pseudonimizacja może, w określonych okolicznościach, wyłączyć dane spod definicji danych osobowych względem konkretnych odbiorców, ale nie zwalnia administratora z jego obowiązków.
Globalna konwergencja standardów ochrony danych jest widoczna. RODO, CCPA, PIPL i stanowisko FTC, mimo różnic w szczegółach, wyrażają wspólne przekonanie: dane możliwe do powiązania z osobą fizyczną wymagają ochrony, niezależnie od zastosowanej transformacji kryptograficznej. Organizacje polegające na hashowaniu jako strategii unikania obowiązków ryzykują nie tylko sankcje finansowe, ale fundamentalne podważenie zaufania użytkowników.
Skuteczna ochrona danych wymaga podejścia warstwowego: odpowiednich algorytmów dla odpowiednich zastosowań, właściwego zarządzania kluczami, segmentacji sieci, ciągłego monitorowania, regularnych ocen bezpieczeństwa i kultury organizacyjnej traktującej prywatność jako wartość, nie obciążenie. Pseudonimizacja stanowi jeden element tej układanki – ważny, ale niewystarczający sam w sobie.

Założyciel i partner zarządzający kancelarii prawnej Skarbiec, uznanej przez Dziennik Gazeta Prawna za jedną z najlepszych firm doradztwa podatkowego w Polsce (2023, 2024). Doradca prawny z 19-letnim doświadczeniem, obsługujący przedsiębiorców z listy Forbesa oraz innowacyjne start-upy. Jeden z najczęściej cytowanych ekspertów w dziedzinie prawa handlowego i podatkowego w polskich mediach, regularnie publikujący w Rzeczpospolitej, Gazecie Wyborczej i Dzienniku Gazecie Prawnej. Autor publikacji „AI Decoding Satoshi Nakamoto. Sztuczna inteligencja na tropie twórcy Bitcoina” oraz współautor nagrodzonej książki „Bezpieczeństwo współczesnej firmy”. Profil na LinkedIn: 18.5 tys. obserwujących, 4 miliony wyświetleń rocznie. Nagrody: czterokrotny laureat Medalu Europejskiego, Złotej Statuetki Polskiego Lidera Biznesu, tytułu „Międzynarodowej Kancelarii Prawniczej Roku w Polsce w zakresie planowania podatkowego”. Specjalizuje się w strategicznym doradztwie prawnym, planowaniu podatkowym i zarządzaniu kryzysowym dla biznesu.