Lucy Letby – statystyka vs domniemanie niewinności

Lucy Letby – statystyka vs domniemanie niewinności

2026-03-14

Sprawa Lucy Letby, wyrok Court of Appeal i granice statystyki w procesie karnym

Robert Nogacki  |  Kancelaria Prawna Skarbiec  |  Warszawa

Wszystko zaczęło się od liczb, które przestały się zgadzać. Wyglądały nienaturalnie. Każdy Kowalski powiedziałby: „to niezgodne z rachunkiem prawdopodobieństwa.”

Ten artykuł jest o tym, ile Kowalski wie o rachunku prawdopodobieństwa.

W czerwcu 2015 roku na oddziale noworodków Countess of Chester Hospital czworo niemowląt doznało zapaści krążeniowo-oddechowej. Troje z nich nie przeżyło. Oddział notował zazwyczaj dwa, trzy zgony rocznie. Przez następne dwanaście miesięcy fala nie opadała — nieoczekiwana, niewyjaśniona, odporna na każdą racjonalną interpretację.

Główny neonatolog Stephen Brearey zrobił to, co robi każdy lekarz wychowany na statystyce i zasadzie ograniczonego zaufania do przypadku: poszukał wspólnego mianownika. Znalazł go. Pielęgniarka Lucy Letby pełniła dyżur przy każdym z incydentów. Brearey uznał to, na tamtym etapie, za koincydencję — niepokojącą, lecz możliwą do wytłumaczenia obsadą kadrową. Wzorzec jednak trwał. W 2016 roku Brearey i jego kolega Ravi Jayaram sporządzili arkusz zmianowy i położyli go na stole: nazwisko Letby pojawiało się przy każdym podejrzanym zdarzeniu, bez wyjątku.

Przekazali arkusz dyrekcji szpitala. Dyrekcja zamówiła przeglądy. Recenzenci nie znaleźli jednoznacznego wyjaśnienia — i opisali podejrzenia jako „subiektywne” i „niepoparte dowodami.” Konsultanci poszli wyżej: powiadomili policję. Policja wszczęła Operację Hummingbird. Emerytowany pediatra Dewi Evans przejrzał sześćdziesiąt jeden kompletów dokumentacji klinicznej i zidentyfikował przypadki wymagające wyjaśnienia. Kolejni biegli dołączyli do sprawy. Krąg się zawężał.

Letby została aresztowana w lipcu 2018 roku, postawiono jej zarzuty w listopadzie 2020 roku. Proces toczył się w Manchester Crown Court od października 2022 roku przez dziesięć miesięcy. 18 sierpnia 2023 roku ława przysięgłych uznała ją winną siedmiu zabójstw i siedmiu usiłowań zabójstwa. Sąd wymierzył piętnaście wyroków dożywocia bez możliwości warunkowego zwolnienia.

Każdy krok w tym łańcuchu wynikał naturalnie z poprzedniego. Lekarz zauważył wzorzec i zgłosił go. Przełożeni zlecili weryfikację. Śledczy szukali dowodów hipotezy, którą lekarze już wcześniej sformułowali. Znaleźli dowody z nią zgodne. Ława wysłuchała ich przez dziesięć miesięcy i wydała wyrok. Logika na każdym etapie była nienaganna. System zadziałał dokładnie tak, jak został zaprojektowany.

Potem zaczęły się dziać rzeczy dziwne jak na sprawę tak oczywistą, że zapadło w niej aż piętnaście wyroków dożywocia.

W lutym 2025 roku międzynarodowy panel czternastu ekspertów pod kierunkiem dr. Shoo Lee ogłosił, że nie znalazł żadnych zabójstw, badając okoliczności śmierci noworodków za których zabójstwa Letsby została skazana. Około dziewięciu miesięcy wcześniej—pisemny wyrok zapadł 2 lipca 2024 roku—Court of Appeal oddalił wszystkie zarzuty apelacyjne, uznając je za not arguable. W styczniu 2026 roku Crown Prosecution Service odmówiła postawienia dalszych zarzutów w odniesieniu do dziewięciu dodatkowych noworodków. Criminal Cases Review Commission prowadzi przegląd.

Sprawa Letby jest dlatego tak ważna, że nikt do końca nie wie, czym jest. Dla jednych — to historia seryjnej zabójczyni zdemaskowanej przez medycynę sądową i uważną obserwację. Dla innych — to historia kozła ofiarnego, skazanego na podstawie wadliwej metodologii i biegłego, którego sąd apelacyjny w innej sprawie określił jako autora opinii „tendencyjnych i stronniczych.”

Dla mnie — jako prawnika — sprawa ta jest przede wszystkim pytaniem o granice: o to, gdzie kończy się uprawnione wnioskowanie z danych, a zaczyna iluzja pewności.

Proces dowodowy w tej sprawie był strukturalnie niezdolny do wytworzenia wiarygodnych ustaleń — ponieważ nigdy nie został zaprojektowany tak, by odróżnić winną pielęgniarkę od wzorca, który przypadek i uprzedzenie poznawcze są w stanie samodzielnie wytworzyć.

Ta diagnoza nie zależy od wyroku. Obowiązuje w obie strony. Jeśli Letby rzeczywiście zabijała — system trafił właściwą odpowiedź złą metodą i prędzej czy później zastosuje tę samą metodę wobec kogoś niewinnego. Jeśli nie zabijała — już to zrobił.

W obu przypadkach pytania, które ta sprawa nasuwa, dotyczą nie jednego wyroku, lecz każdego wyroku kiedykolwiek opartego na rozpoznawaniu wzorca i najstarszym odruchu ludzkim: szukaniu sprawcy w każdej katastrofie.

 

Co naprawdę pokazał proces: dowody, których nie wolno pominąć

Wyrok Court of Appeal z 2 lipca 2024 roku ujawnia szereg mocnych poszlak.

Insulina. Dwoje dzieci — Baby F i Baby L, z odstępem ośmiu miesięcy — miało zostać zatrutych syntetyczną insuliną Actrapid. Był to na etapie procesu najsilniejszy niestatystyczny filar oskarżenia — i jednocześnie ten, który od kwietnia 2025 roku jest formalnie kwestionowany przed Criminal Cases Review Commission na gruncie wiarygodności testu. W toku procesu: sama Letby przyznała w zeznaniach, że oba noworodki zostały otrute, kwestionując jedynie swoje sprawstwo (§30 wyroku). Prokuratura argumentowała, że dwóch niezależnych trucicieli na jednym oddziale noworodkowym w ciągu ośmiu miesięcy jest scenariuszem skrajnie mało prawdopodobnym. To nie jest argument statystyczny w sensie, w jakim poniżej krytykujemy prosecutor’s fallacy — to klasyczny argument poszlakowy o jednym sprawcy wielu czynów.

Ta ocena wymaga jednak teraz istotnego uzupełnienia. 3 kwietnia 2025 roku  sześcioro ekspertów sądowo-lekarskich i medycznych, w tym toksykolog sądowy, profesor nauk sądowych i endokrynolog specjalizujący się w błędach testowych, złożyło do Criminal Cases Review Commission 86-stronicowy raport kwestionujący wiarygodność testów insulinowych. Raport identyfikuje test immunologiczny Roche jako test dający “znacząco zawyżone wyniki insuliny.” Laboratorium Royal Liverpool Hospital stwierdza wprost we własnych wytycznych online, że test Roche “nie nadaje się” do badania hipoglikemii spowodowanej zastrzykiem insuliny. Do wymaganego przekazania próbki do zewnętrznej analizy nigdy nie doszło, bo oba noworodki przeżyły.

To samo złożenie obejmuje pełny 698-stronicowy raport panelu dr. Shoo Lee, konkludujący, że “nie było dowodów medycznych przemawiających za naruszeniami powodującymi śmierć lub uraz w żadnej z 17 spraw objętych procesem.” Nie dowodzi to, że noworodki nie zostały otrute. Oznacza, że filar dowodowy dotychczas uważany za najsilniejszy stał się przedmiotem sporu metodologicznego.

Dowody sądowo-lekarskie. U dziecka A patomorfolog Dr Marnerides zidentyfikował pęcherzyki powietrza w histopatologii mózgu i płuc; profesor Arthurs znalazł linię gazu w dużym naczyniu na zdjęciach pośmiertnych — znalezisko, które w jego własnym badaniu 500 przypadków z Great Ormond Street Hospital nie występowało bez wyjaśnialnej przyczyny (§§48, 55–56 wyroku). U dziecka O stwierdzono wielomiejscowe uszkodzenia wątroby, które Dr Marnerides opisał jako spotykane wyłącznie w poważnych wypadkach drogowych, rowerowych lub na trampolinie — nigdy w kontekście resuscytacji (§94 wyroku).

Notatka. Wśród materiałów zabezpieczonych w domu Letby znaleziono odręczną notatkę kończącą się słowami: I am evil, I did this.” Prokuratura traktowała ją jako przyznanie się do winy (§27 wyroku). Obrona na procesie charakteryzowała tę notatkę jako zapis ostrego kryzysu emocjonalnego, a nie dowód winy — nie przedstawiła jednak biegłego psychologa ani psychiatry, który poparłby tę interpretację.

Dowody poszlakowe. Ponad 200 poufnych arkuszy informacyjnych ukrytych pod łóżkiem, systematyczne wyszukiwanie rodzin ofiar na Facebooku, zaangażowanie w opiekę nad noworodkami przydzielonymi innym pielęgniarkom, obecność przy każdej zapaści i każdym zgonie objętym zarzutami (§27 wyroku).

Milczenie obrony. Obrona konsultowała wielu biegłych i złożyła liczne raporty, ale ostatecznie nie powołała żadnego biegłego na świadka (§5 wyroku). Jedynymi świadkami obrony byli sama Letby i hydraulik szpitalny, który zeznawał o problemach z kanalizacją. Ktoś, kto prezentuje tę sprawę wyłącznie przez pryzmat wadliwej statystyki, musi wyjaśnić, dlaczego obrona dysponująca wieloma biegłymi zdecydowała się nie powołać żadnego z nich.

Kto pomija te fakty — popełnia dokładnie ten błąd, o który sam oskarża prokuraturę: selektywną prezentację danych. I właśnie dlatego ten artykuł zaczyna się od nich, nie od paradoksu urodzinowego.

 

Paradoks tasowania: kiedy niemożliwe staje się pewne

A jednak — i tu zaczyna się intelektualna trudność — istnienie silnych dowodów pozastatystycznych nie czyni pytań statystycznych nieistotnymi. Wręcz przeciwnie: czyni je bardziej istotnymi, bo kontaminacja statystyczna może skażić cały proces dowodowy, nawet jeśli inne strumienie dowodów są solidne.

Proszę potasować starannie talię 52 kart. Sekwencja, którą Państwo uzyskali, miała szansę wystąpienia rzędu 1 do 8 × 10⁶⁷ — liczba przewyższająca szacowaną liczbę atomów na Ziemi. A jednak ktoś te karty właśnie potasował i ta „niemożliwie rzadka” sekwencja wystąpiła. Nie wołamy „SPISEK !!!”, bo rozumiemy, że jakaś sekwencja musiała się pojawić.

Ta sama zasada leży u fundamentów raportu Royal Statistical Society z 2022 roku — dokumentu, który choć nie odnosi się wprost do sprawy Letby, został opublikowany w jej cieniu i mierzy się z tymi samymi problemami metodologicznymi. Wśród setek tysięcy pielęgniarek na świecie niektóre z nich nieuchronnie doświadczą pozornie nieprawdopodobnych klasterów zgonów — wyłącznie w wyniku działania przypadku.

„Seemingly improbable patterns of events can often arise without criminal behaviour and may therefore have less probative value than people assume for distinguishing criminality from coincidence.”

— Royal Statistical Society, 2022

Analogia RSS do loterii jest odkrywcza. Jest wysoce nieprawdopodobne, by zbieg okoliczności o szansie 1:10 000 000 dotknął konkretną pielęgniarkę. Ale biorąc pod uwagę miliony pracowników medycznych, jest wręcz nieuniknione, że taki zbieg okoliczności dotknie jakąś pielęgniarkę. A jeśli sam w sobie potraktujemy go jako dowód winy — to z matematyczną pewnością skazujemy niewinnych ludzi. Słowa kluczowe to „sam w sobie.” Bo w sprawie Letby prokuratura twierdzi, że statystyka zmianowa nie była dowodem samym w sobie, lecz jednym z wielu elementów mozaiki. Court of Appeal przyjął ten argument. I tu leży problem, który wymaga analizy — nie dlatego, że odpowiedź jest oczywista, ale dlatego, że nie jest.

 

253 porównań, czyli dlaczego intuicja zawodzi

Matematyka losowości bywa kontrituicyjna aż do bólu. W grupie zaledwie 23 osób prawdopodobieństwo, że dwie z nich mają urodziny tego samego dnia, przekracza 50%. Przy 70 osobach—99,9%.

Dlaczego intuicja zawodzi? Bo myślimy liniowo, a kombinatoryka działa wykładniczo.

Przy 23 osobach nie dokonujemy 23 porównań—dokonujemy 253 (23 × 22 / 2): jednego dla każdej możliwej pary w pomieszczeniu. Każda para ma niewielką szansę na wspólne urodziny, ale liczba porównań sprawia, że trafienie staje się bardziej prawdopodobne niż jego brak. Śledczy badający oddział szpitalny nie sprawdza jednej pary rąk: sprawdza—nie całkiem zdając sobie z tego sprawę—każdą możliwą parę w całym personelu, na każdej możliwej zmianie, przez wszystkie lata dokumentacji. Matematyka śledztwa szpitalnego to matematyka paradoksu urodzinowego—a matematyka paradoksu urodzinowego to nie jest matematyka zdrowego rozsądku.

Przenieśmy to na grunt śledztw medycznych. Tysiące zmian, setki pracowników, lata obserwacji — miliony potencjalnych porównań, w których klastry mogą się pojawić. Pytanie nie brzmi czy się pojawią, lecz gdzie. W sprawie Letby to konsultanci szpitalni — Dr Brearey i Dr Jayaram — zidentyfikowali obecność Letby jako „wspólny czynnik” po serii zapaści w czerwcu 2015. To spostrzez̄enie uruchomiło śledztwo.

Pytanie, które raport RSS stawia, brzmi: czy procedura, która identyfikuje podejrzanego na podstawie korelacji zmianowej, a następnie szuka potwierdzających dowodów, jest zdolna do wytworzenia obiektywnych ustaleń?

 

Diabeł w arkuszu kalkulacyjnym

Arkusz kalkulacyjny mapował grafik dyżurów Letby na podejrzane zdarzenia, pokazując jej obecność przy każdej zapaści i zgonie objętymi zarzutami. To, czego nie pokazywał, było równie wymowne: pominięto od sześciu do kilkunastu zgonów w tym samym okresie, przy których Letby nie była obecna. Nie uwzględniono zmienności zatrudnienia, zmian polityki szpitalnej ani stanów medycznych noworodków.

Prokuratura odpowiada: arkusz był jednym z wielu elementów. Court of Appeal to przyjął. Ale raport RSS pozwala zadać głębsze pytanie: nawet jeśli arkusz nie był formalnie „dowodem samodzielnym,” to czy nie kształtował on mentalnego modelu, przez który ława przysięgłych interpretowała wszystkie pozostałe dowody?

W psychologii poznawczej efekt ten nazywa się anchoring — kotwiczeniem. Raz ustalona kotwica wpływa na ocenę każdej kolejnej informacji, nawet logicznie niezależnej.

Problem ma tradycję w medycynie sądowej. W Toronto w latach 1980–1981 gwałtowny wzrost śmiertelności noworodków początkowo przypisano pielęgniarce Susan Nelles, którą uniewinniono na etapie przesłuchania wstępnego. Późniejsza teoria dr. Gavina Hamiltona o toksyczności MBT-2 z gumowych rurek — choć nieudowodniona ostatecznie — pokazuje, że „oczywiste” wyjaśnienia mogą być błędne. Raport RSS przytacza też przypadek angielski, w którym wzrost śmiertelności na oddziale noworodkowym okazał się efektem zmiany dostawcy mleka modyfikowanego.

 

Pułapka prokuratora: anatomia błędu logicznego

Jednym z najbardziej podstępnych błędów statystycznych w procesach karnych jest prosecutor’s fallacy, nazwany tak w przełomowej pracy Thompsona i Schumanna z 1987 roku. Biegły zeznaje, że prawdopodobieństwo zaobserwowania tylu zgonów w wyniku przypadku wynosi jeden na milion. Kuszące jest wyciągnięcie wniosku, że jest tylko jedna szansa na milion, iż zgony były przypadkowe.

Ale prawdopodobieństwo dowodu przy założeniu niewinności (P(E|H)) to nie to samo co prawdopodobieństwo niewinności przy założeniu dowodu (P(H|E)). Prawdopodobieństwo, że zwierzę ma cztery nogi, jeśli jest psem, nie jest tym samym co prawdopodobieństwo, że jest psem, jeśli ma cztery nogi.

Raport RSS ilustruje to przykładem medycznym. Test na rzadką chorobę (1 na 1000 osób) poprawnie identyfikuje 90% chorych, ale błędnie wskazuje chorobę u 1% zdrowych. Intuicja podpowiada 99% szans na chorobę przy pozytywnym wyniku. Matematyka mówi: około 8%. Bo wśród miliona przebadanych będzie 900 prawdziwie pozytywnych i 9990 fałszywie pozytywnych. Szansa choroby: 900/10 890 ≈ 1:12.

Jak to się odnosi do sprawy Letby?

W procesie nie posłużono się formalnym testem statystycznym z wartością p — oskarżenie zbudowano jako sprawę poszlakową. Ale arkusz kalkulacyjny pełnił funkcję statystyki w umysłach przysięgłych. Wystarczy, że ława pomyślała: “była przy każdym zgonie — to nie może być przypadek” — a pułapka prokuratora już zaczęła działać. 

Thompson i Schumann w swoich oryginalnych eksperymentach na symulowanych przysięgłych — opartych na opisach dowodów wzorowanych na rzeczywistych sprawach — nadali tej intuicji konkretne liczby. Gdy identyczna statystyka dotycząca częstości występowania cechy była przedstawiona jako prawdopodobieństwo warunkowe: “istnieje tylko 2% szans, że włosy podejrzanego byłyby nieodróżnialne od włosów sprawcy, gdyby był niewinny” — 22,2% badanych popełniło błąd prokuratora.

Gdy ta sama informacja była podana jako: “2% populacji miałoby nieodróżnialne włosy, co oznacza około 20 000 osób w mieście liczącym milion mieszkańców” — odsetek ten spadł do 4,2%.

Format prezentacji — nie sam fakt — popychał ludzi ku błędowi lub od niego.

W Eksperymencie 2 zaledwie 22,2% badanych poprawnie zidentyfikowało oba argumenty — prokuratorski i obrońcy — jako błędne; 68,5% uznało argument obrony za “prawidłowy”. W ławie złożonej z dwunastu osób oznacza to zaledwie dwie, może trzy osoby zdolne do wykrycia błędu bez pomocy.

Eksperymenty Thompsona i Schumanna ujawniły również symetryczną pułapkę po drugiej stronie. W Eksperymencie 2, 68,5% badanych uznało argument obrony za “prawidłowy”, a 66% popełniło przynajmniej jeden osąd zgodny z Błędem Adwokata Obrony: potraktowanie dowodu dopasowania jako bez wartości, bo wiele innych osób ma tę samą cechę.

Jedynie 22,2% było odpornych na oba błędy jednocześnie.

Prokurator i adwokat obrony ciągną ławę w przeciwnych kierunkach statystycznego błędu; system nie jest zaprojektowany tak, by kontrolować żadnego z nich. Pełne implikacje tej symetrii są omówione w Sekcji XII.  Najbardziej precyzyjna współczesna formalizacja błędu pochodzi od Cuellar (2025), która ujmuje go w języku zalecanym dziś przez Europejską Sieć Instytutów Nauk Sądowych (ENFSI). Biegły powinien raportować iloraz wiarygodności (LR) — iloraz prawdopodobieństwa dowodu przy hipotezie oskarżenia do prawdopodobieństwa dowodu przy hipotezie obrony.

Błąd prokuratora polega na traktowaniu tego ilorazu tak, jakby był szansą posteriori winy. Nie jest nią. Prawidłowy wzór brzmi:  Szansa posteriori = Iloraz wiarygodności × Szansa a priori.

W przekładzie na arkusz kalkulacyjny sprawy Letby: korelacja zmianowa może stanowić pozytywny iloraz wiarygodności. Raport RSS, skala ENFSI i ramy Cuellar zgodnie przyznają, że każda rzetelna korelacja między obecnością a zdarzeniami niepożądanymi niesie pewną wartość dowodową. Ale prawdopodobieństwo a priori, że konkretna pielęgniarka jest seryjną zabójczynią pacjentów, jest — jak jednoznacznie stwierdza RSS — “rzędu jednej szansy na miliony.”

Iloraz wiarygodności musiałby być ogromny, by pokonać tak odległy punkt startowy — a arkusz skażony pominięciami zgonów, niekontrolowaną zmiennością obsady i retrospektywną selekcją przypadków nie jest w stanie rzetelnie ustalić, jak duży ten iloraz rzeczywiście jest.

 

Lekcja z Holandii: 342 miliony do jednego

Mechanizm ten rozegrał się w czystej postaci w sprawie Lucii de Berk — holenderskiej pielęgniarki skazanej w 2003 roku na podstawie statystyki 1:342 000 000 i uniewinnionej w 2010 roku po ujawnieniu błędów rachunkowych. Prawidłowe prawdopodobieństwo—które raport RSS szacuje na około 1:25, podczas gdy inne analizy statystyczne tych samych danych, w zależności od przyjętego podzbioru, dają wyniki od 1:46 do 1:9—całkowicie odwróciło wymowę sprawy. R

óżnica między 1:342 000 000 a 1:9 to nie błąd zaokrąglenia. To przepaść między liczbą, której nie można wymówić bez kalkulatora, a liczbą, która mieści się na znaczku pocztowym. To przepaść między “niewinność jest niemożliwa” a “niewinność jest bardziej prawdopodobna niż wina.”

Istnieje jednak problem strukturalny poprzedzający salę sądową — zidentyfikowany przez Boettiger i Hastings (2012) w zupełnie innej dziedzinie. Ich artykuł — dotyczący ekologicznych systemów wczesnego ostrzegania, nie prawa karnego — otwiera się tym samym ostrzeżeniem, które patronuje niniejszej analizie: orzeczeniem Sądu Najwyższego Kalifornii z 1968 roku w sprawie People v. Collins, że “matematyka, pomagając sędziemu w poszukiwaniu prawdy, nie może rzucać na niego czarów.”

Projekt symulacyjny Boettiger i Hastings zasługuje na dokładniejsze omówienie. Uruchomili 20 000 replikacji stabilnego modelu populacji biologicznej — bez deteriorowania, bez zbliżającego się punktu krytycznego, ze stałymi parametrami. Spośród skupionej próbki 1 000 takich stabilnych systemów, prowadzonych przez 50 000 jednostek czasu, 266 doświadczyło pozornego kolapsu wyłącznie przez przypadek. Gdy te 266 kolapsów wybrano i zbadano poprzedzające je dane za pomocą statystyki Kendall’s τ — miary korelacji rang standardowej w badaniach wczesnego ostrzegania — rozkład wartości τ wykazał systematyczne przesunięcie w prawo: statystyczny odcisk palca zbliżającego się punktu krytycznego, w systemach pozbawionych jakiegokolwiek punktu krytycznego. Odsetek fałszywych alarmów: 26,6%. Sygnał niebezpieczeństwa powstał nie z niebezpieczeństwa, lecz z aktu wybierania wyłącznie przypadków, które źle się skończyły. Podejście oparte na modelu — wymagające, by dane pasowały do konkretnego wzorca, nie tylko wykazywały jakikolwiek trend wzrostowy — dało zero rozbieżnych oszacowań we wszystkich 266 warunkowych replikacjach. Metoda oparta na modelu była odporna; proste statystyki — nie.

Przed użyciem tej paraleli konieczne jest jedno zastrzeżenie. Śledztwo nie zostało wszczęte przez selekcję z historycznej bazy danych zapaści— zaczęło się od obserwacji klinicznych w czasie rzeczywistym, gdy dwaj konsultanci szpitalni zauważyli wzorzec w czerwcu 2015 roku. To istotna różnica. Ale mechanizm Boettiger i Hastings nie dotyczy wszczęcia śledztwa. Dotyczy tego, co nastąpiło później: budowy arkusza kalkulacyjnego i retrospektywnej selekcji przypadków do analizy. Właśnie to warunkowanie — badanie zdarzeń przez pryzmat uprzednio wskazanej podejrzanej — demonstrują Boettiger i Hastings jako czynnik generujący fałszywie pozytywne wzorce z częstością 26,6%, nawet w stabilnych systemach pozbawionych ukrytej przyczyny. śledztwo zaczęło się w czasie rzeczywistym. Arkusz był retrospektywny. Błąd mieszka w arkuszu.

Ale analogia nie jest pusta. Sprawa de Berk uczy, że nawet sprawa z „druzgocącą” statystyką może być błędem sądowym — i że błędna statystyka kontaminuje ocenę wszystkich pozostałych dowodów. Pytanie, czy ten mechanizm kontaminacji działał w sprawie Letby, pozostaje otwarte.

 

„Konstelacja czynników” — siła czy słabość argumentu?

Zwrot, który powraca w zeznaniach biegłych—i który Court of Appeal wielokrotnie przywoływał, streszczając ich opinie—brzmiał: eksperci prokuratorski nie stawiali diagnozy zatorowości powietrznej na podstawie samych przebarwień skóry, lecz na podstawie „constellation of factors — nagłej, niespodziewanej zapaści stabilnego dziecka, nieskuteczności resuscytacji, niezwykłych zmian skórnych i wyników radiologicznych (§144 wyroku).

Na pierwszy rzut oka — mocny argument: żaden czynnik nie jest diagnostyczny, ale ich kombinacja wyklucza alternatywy. Na drugi — pojawia się pytanie epistemologiczne: czym jest „konstelacja czynników,” jeśli żaden z jej elementów nie jest diagnostyczny? Czy połączenie pięciu niekonkluzywnych elementów daje konkluzję?

W medycynie klinicznej — często tak. Ale w procesie karnym standard jest inny: nie balance of probabilities, lecz beyond reasonable doubt. Jeśli diagnoza polega na wykluczeniu znanych przyczyn i stwierdzeniu, że to, co pozostało, jest consistent with zatorowością powietrzną — to czy consistent with osiąga standard beyond reasonable doubt? Jak zauważył Court of Appeal w sprawie R v Cannings [2004]: „What may be unexplained today may be perfectly well understood tomorrow.”

 

Ślepy biegły: o zaślepieniu i jego braku

Jednym z najważniejszych wniosków raportu RSS jest rekomendacja procedur zaślepienia: eksperci opiniujący w sprawach medycznych powinni być pozbawieni informacji o tożsamości podejrzanego, dopóki nie sformułują wniosków. Celem jest zapobiegnięcie nieuświadomionemu uprzedzeniu — które, jak pokazują badania Drora et al. (2021), wpływa na ocenę patomorfologów nawet wtedy, gdy są przekonani o swojej obiektywności.

W sprawie Letby procedur zaślepienia nie zastosowano. Dr Evans, główny biegły, prowadził wstępny przegląd ponad 60 zestawów dokumentacji klinicznej, sam identyfikował przypadki podejrzane, a następnie formułował opinie o przyczynach zgonów w tych samych przypadkach. Dr Bohin, recenzent, otrzymała explicite instrukcję peer review opinii Dr Evansa. Court of Appeal stwierdził, że nie ma podstaw do kwestionowania niezależności Dr Bohin.

Pytanie RSS brzmi inaczej: nie „czy Dr Bohin była niezależna?”, lecz „czy procedura, w której recenzent zna opinie recenzowanego przed sformułowaniem własnych wniosków, jest zdolna do wyeliminowania nieuświadomionego uprzedzenia?” Badania empiryczne sugerują: nie.

Francis Bacon opisał ten mechanizm już w 1620 roku w Novum Organum: „Rozum ludzki, skoro raz przyjął pewne założenie, wszystko inne zmusza do dodania nowego wsparcia i potwierdzenia.” Czterysta lat później psychologia poznawcza nadała temu nazwę confirmation bias i potwierdziła jego uniwersalność. Problemu nie rozwiązuje instrukcja „bądź obiektywny” — rozwiązują go procedury, które usuwają źródło uprzedzenia, zanim zdoła zadziałać.

 

Dowody Dr Lee: cel chybiony czy cel trafiony?

Tu dyskusja publiczna drastycznie rozchodzi się z ustaleniami sądowymi. Panel dr. Lee ogłosił w lutym 2025, że „nie znalazł żadnych zabójstw.” Media przedstawiły to jako przełom. Tymczasem Court of Appeal—który rozpatrywał dowody Lee podczas rozprawy w kwietniu 2024, dziesięć miesięcy przed ogłoszeniem panelu—określił je jako „aimed at a mistaken target” (§187 wyroku). Rdzeń argumentu Lee polegał na tym, że eksperci prokuratorski błędnie diagnozowali zatorowość wyłącznie na podstawie przebarwień skóry. Court of Appeal stwierdził, że żaden z ekspertów tego nie robił (§144).

Czy Court of Appeal ma rację? Kwestia jest subtelniejsza niż sugeruje jednoznaczne orzeczenie. Nawet jeśli eksperci werbalnie nie stawiali diagnozy „wyłącznie na podstawie przebarwień,” pytanie brzmi, jaką wagę przebarwienia miały w „konstelacji czynników.” Jeśli je usuniemy, pozostaje: nagła zapaść, nieskuteczna resuscytacja, brak widocznej przyczyny. Ale to ściśle tyle, ile pozostaje w każdym przypadku śmierci, której przyczyna jest nieznana. I tu powraca ostrzeżenie z R v Cannings: wykluczenie znanych przyczyn nie dowodzi, że przyczyną było zabójstwo. Może też dowodzić, że naszej wiedzy medycznej brakuje fragmentu.

 

Domniemanie niewinności jako twierdzenie Bayesa

Domniemanie niewinności — zapisane w art. 6 ust. 2 EKPC, art. 14 ust. 2 Międzynarodowego Paktu Praw Obywatelskich i Politycznych, art. 48 KPP UE — wydaje się zasadą czysto normatywną. A jednak twierdzenie Bayesa ujawnia, że ma głęboką racjonalność statystyczną. W języku Bayesa presumption of innocence to wymaganie, by sąd wychodził od wysokiego prawdopodobieństwa a priori niewinności. Raport RSS: prawdopodobieństwo a priori winy konkretnego pracownika medycznego jest rzędu milionowych części. Nawet statystyka o ekstremalnie niskiej wartości p może być niewystarczająca.

Ale — i tu uczciwość wymaga zastrzeżenia — twierdzenie Bayesa działa w obie strony. Gdy do statystyki zmianowej dołączamy niezależne dowody (insulinę, uszkodzenia wątroby, notatkę), likelihood ratio dramatycznie rośnie. Każdy niezależny strumień dowodowy przesuwa szanse. Wyobraźmy sobie prawdopodobieństwo a priori jako zegar ustawiony na “niewinny.” Każdy rzetelny, niezależny dowód to zębatka, która obraca mechanizm. Wystarczająco wiele takich zębatek i zegar wskazuje “winny ponad wszelką wątpliwość.”

Cuellar (2025) formalizuje to za pomocą iloczynowej formy twierdzenia Bayesa — zalecanej dziś przez ENFSI jako standard opiniowania biegłych: Szansa posteriori = Iloraz wiarygodności × Szansa a priori. Zadaniem biegłego jest dostarczenie ilorazu wiarygodności; zadaniem sądu — pomnożenie go przez szansę a priori. ENFSI oferuje słowną skalę wartości: LR = 50 oznacza “umiarkowane wsparcie”, LR = 500 — “umiarkowanie mocne”, LR = 5000 — “mocne.” Skala ta mówi, o ile bardziej prawdopodobny jest dowód przy jednej hipotezie niż przy drugiej — nie mówi nic o winie. Jury musi nadal rozstrzygnąć, jak prawdopodobna była wina, zanim dowód się pojawił.

Kluczowe słowo: “niezależnych.” Jeśli confirmation bias skaził proces zbierania dowodów, strumienie, które wyglądają na niezależne, mogą takimi nie być—wszystkie zębatki zostały wycięte w tym samym stronniczym warsztacie i bez względu na to, ile ich się obraca, zegar będzie wskazywał ten sam błędny czas.

Raport RSS demonstruje to rachunkiem: kombinacja trzech drobnych uprzedzeń śledczych zmienia wartość p z 0,378 na 0,0007. Z „braku dowodu” na „dowód druzgocący” — wyłącznie w wyniku metody.

 

Ludzie to stworzenia szukające wzorców

Sprawa Letby odsłania prawdę o ludzkiej kognicji: jesteśmy stworzeniami szukającymi wzorców w świecie, w którym prawdziwa losowość często wygląda jak wzorzec. Kahneman opisał to jako konflikt Systemu 1 (szybkiego, intuicyjnego) i Systemu 2 (powolnego, analitycznego, ale leniwego). Kiedy stawka obejmuje śmierć noworodków, skłonność Systemu 1 do identyfikowania odpowiedzialnej osoby przytłacza zdolność Systemu 2 do zaakceptowania, że niekiedy tragiczne klastry nie mają jednej przyczyny.

Psychologowie nazywają to fundamental attribution error: skłonnością do szukania wyjaśnień w osobie, nie w okolicznościach. Raport RSS dodaje: administracja szpitala może woleć wersję z „jednym zgniłym jabłkiem” od wersji z systemową nieudolnością, za którą sama odpowiada. Ale również tutaj uczciwość wymaga uwagi: istnienie cognitive biases nie dowodzi, że w konkretnej sprawie bias zadziałał. Oznacza tylko, że system musi być zaprojektowany tak, by tę skłonność kontrolować. W sprawie Letby tak zaprojektowany nie był.

 

Zakończenie: pytania ważniejsze od odpowiedzi

„Le poids des preuves pour une affirmation extraordinaire doit être proportionné à son étrangeté.”

— Pierre-Simon Laplace, Théorie analytique des probabilités, 1812

Laplace sformułował tę zasadę w kontekście nauki. Carl Sagan ją spopularyzował. Ale jej najgłębszym polem zastosowania pozostaje wymiar sprawiedliwości. Twierdzenie, że pielęgniarka zamordowała siedmioro noworodków, jest twierdzeniem nadzwyczajnym. Wymaga dowodów nadzwyczajnych.

Sprawa Letby zawiera takie dowody — insulinę, uszkodzenia wątroby, notatkę — i ten artykuł nie udaje, że ich nie ma. Ale zawiera też elementy, które powinny wzbudzać niepokój: brak procedur zaślepienia, diagnozę z „konstelacji” czynników, z których żaden nie jest diagnostyczny, biegłego kwestionowanego przez inny sąd, i arkusz kalkulacyjny, który — niezależnie od formalnego statusu — został zbudowany retrospektywnie, warunkując na uprzednio wskazanej podejrzanej i pomijając zgony, przy których Letby była nieobecna — a więc nie był w stanie strukturalnie odróżnić winy od przypadku nawet w teorii. Dowody insulinowe stoją tymczasem przed własnym wyzwaniem metodologicznym przed CCRC. Filar, który był najsilniejszy, może stać się najbardziej sporny.

Nie twierdzę, że Letby jest niewinna. Nie twierdzę, że jest winna. Twierdzę, że pytania, które ta sprawa stawia, są ważniejsze od konkretnej odpowiedzi — bo dotyczą nie jednego wyroku, lecz całego systemu. Czy sędziowie powinni przechodzić szkolenia z rachunku prawdopodobieństwa? Czy eksperci powinni być zaślepiani? Czy diagnoza z wykluczenia może kiedykolwiek osiągnąć standard beyond reasonable doubt? Raport RSS odpowiada na te pytania — i jego odpowiedzi są aktualne niezależnie od wyroku.

Domniemanie niewinności jest nie tyle zasadą łagodności, co zasadą pokory epistemicznej. Nie mówi: „wierzymy, że oskarżony nie zabił.” Mówi: „wiemy, jak łatwo się mylimy, i dlatego wymagamy od siebie więcej, zanim komuś odbierzemy wolność.” W świecie, w którym klastry losowe są nieuniknione, w którym umysł kompulsywnie szuka wzorców, i w którym śledztwa są podatne na systematyczne uprzedzenia — to jest jedyna postawa godna systemu, który pretenduje do sprawiedliwości.

Robert Nogacki

Założyciel i Partner Zarządzający Kancelarii Prawnej Skarbiec

Radca prawny  |  WA-9026