Manipulacja polega na pisaniu promptów jako bardzo długich zdań bez znaków interpunkcyjnych. Takie zdanie powinno zawierać wszystkie instrukcje przed kropką, która mogłaby uruchomić zabezpieczenia, zanim jailbreak zdąży zadziałać i skłonić model do wygenerowania toksycznej lub zabronionej odpowiedzi.

-Nasze badania wprowadzają kluczowe pojęcie: lukę logitową między odmową a potwierdzeniem. Chodzi o to, że proces treningu w rzeczywistości nie eliminuje całkowicie możliwości szkodliwej odpowiedzi, a jedynie czyni ją mniej prawdopodobną. Wciąż istnieje ryzyko, że atakujący może «zamknąć tę lukę» i ostatecznie wydobyć szkodliwą odpowiedź – wyjaśniają w poście na blogu Unit 42 badacze Tung-Ling „Tony” Li oraz Hongliang Liu.

Luka logitowa służy do oceny preferencji modelu między dwoma tokenami lub odpowiedziami. Może też być wykorzystywana do wykrywania cenzury albo tendencyjności, jeśli model sztucznie zwiększa lub zmniejsza logity pewnych odpowiedzi.

LLM nie funkcjonują tak, jak powszechnie się sądzi. Nie posiadają rzeczywistego zrozumienia, nie myślą ani nie rozumują logicznie. Nie potrafią też ocenić prawdziwości lub szkodliwości swoich odpowiedzi. W rzeczywistości działają na zasadzie statystycznego przewidywania kolejnych fragmentów tekstu (tokenów).

Systemy bezpieczeństwa, które mają chronić przed generowaniem szkodliwych treści (jak np. instrukcje tworzenia bomb), używają „treningu dopasowującego”. To proces, w którym model jest dodatkowo trenowany po podstawowym treningu, aby jego odpowiedzi były zgodne z ludzkimi wartościami i bezpieczne. Model podczas trenowania widzi przykłady niebezpiecznych zapytań. Uczy się przypisywać bardzo niskie (negatywne) logity tokenom, które prowadziłyby do szkodliwych odpowiedzi. Teoretycznie wygenerowanie takich treści staje się praktycznie niemożliwe.

Jednak badacze Unit 42 odkryli, że te zabezpieczenia można łatwo ominąć. Ich testy wykazały 80-100% skuteczność ataków typu „jeden strzał” bez specjalnego dostrajania promptów. Metoda działała przeciwko popularnym modelom: Meta Llama, Google Gemma oraz Qwen 2.5 i 3.

Bez kropek

Kluczowym odkryciem są zdania bez kropek. Zespół badawczy sformułował praktyczną zasadę: „nigdy nie kończ zdania, dokończ jailbreak przed kropką, a system bezpieczeństwa będzie miał znacznie mniej szans na interwencję.”

Mechanizm działa w następujący sposób: tokeny rozszerzające niedokończone zdanie otrzymują pozytywne oceny, ale gdy pojawi się kropka, następny token jest silnie penalizowany. Dlatego ataki skupiają swoją „moc” przed pierwszym znakiem interpunkcyjnym. Filtry bezpieczeństwa uruchamiają się ponownie przy każdym znaku interpunkcyjnym i blokują kontynuacje prowadzące do szkodliwych treści. Jednak w obrębie jednego zdania model nadal dąży do tworzenia płynnego tekstu, to zachowanie pochodzi z pierwotnego treningu. Dlatego „zamknięcie luki” musi nastąpić w ramach pierwszego, długiego zdania. Skuteczne ataki koncentrują swoją moc w jednej nieprzerwanej frazie i maksymalnie opóźniają pojawienie się kropki. Praktyczna rada brzmi prosto: nie kończ zdania.

Narzędzia obrony

Dla specjalistów ds. bezpieczeństwa badacze opracowali metodę „sortuj, sumuj, zatrzymaj”, która umożliwia szybką analizę podatności modeli. Jest ona o dwa rzędy wielkości bardziej wydajna niż dotychczasowe metody testowania. Wprowadzili też metrykę 'luki między logitami odmowy i potwierdzenia’, która oferuje ilościowe podejście do oceny porównawczej podatności modelu.

-Po wyczerpaniu możliwości dostrojenia modelu żadne pojedyncze zabezpieczenie nie gwarantuje pełnej ochrony przed szkodliwymi treściami. Obrona wymaga wielowarstwowych środków: oczyszczania danych wejściowych, filtrowania w czasie rzeczywistym i nadzoru po generowaniu. Mamy nadzieję, że sterowanie luką logitową będzie służyć zarówno jako punkt odniesienia dla przyszłych badań nad jailbreakiem, jak i jako narzędzie diagnostyczne do projektowania bardziej odpornych architektur bezpieczeństwa– konkludują autorzy badania.