Jak testować bezpieczeństwo AI?

Złożoność dużych modeli językowych (LLM) oraz liczne różnice między aplikacjami napędzanymi GenAI a innymi typami oprogramowania stanowią jednak wyjątkowe wyzwania, gdy chodzi o testy bezpieczeństwa.

W przypadku „klasycznych” luk zazwyczaj istnieje jasno określona linia, która pokazuje, czy aplikacja lub system są podatne na atak, czy nie. Jednak w przypadku systemów AI, zwłaszcza gdy mowa o testowaniu na obecność zatruwania modelu, uprzedzeń lub innych problemów z danymi wejściowymi, rezultat testu staje się bardziej niejasny – mówi Casey Ellis, założyciel i dyrektor technologiczny Bugcrowd, firmy zajmującej się bezpieczeństwem opartym na crowdsourcingu.

Jednym z kluczowych problemów jest to, że z natury modele LLM są „niedeterministyczne”, co oznacza, że ich wyniki mogą się różnić nawet w przypadku identycznych danych wejściowych.

Takie modele bardzo się różnią od klasycznych, standardowych aplikacji internetowych. Dlatego wymagają bardzo specyficznych testów. A to otwiera nowe możliwości i wymaga nowego podejścia do testowania bezpieczeństwa – uważa Jurgen Kutscher, wiceprezes w Mandiant Consulting (część Google Cloud).

W szczególności trudności z testowaniem wynikają z faktu, że interakcje z GenAI są w dużej mierze „zależne od kontekstu” – to znaczy unikalne dla warunków konkretnej sesji. Możliwe jest więc, że komunikat, który okazał się ryzykowny, był wynikiem całej sesji albo – w zależności od sposobu działania chatbota – wcześniejszych sesji z nim prowadzonych. Dlatego jego odtworzenie może nawet nie być w ogóle możliwe.

Stawka jest wysoka, i to nie tylko z powodu potrzeby zagwarantowania publicznego zaufania do modeli AI. Poważnym wyzwaniem jest także naprawa wadliwych danych wprowadzonych do dużego modelu językowego (LLM). Jeśli wykryto zatrucie danych, bardzo trudno jest to zidentyfikować i cofnąć. A koszt wytrenowania nowego modelu jest ogromny. Dodatkowo, wiele nowych modeli LLM, które są udostępniane, to iteracje starszych modeli. A jeśli te starsze modele zostały dotknięte zatruciem danych, tym trudniej będzie naprawić – twierdzi Dean Teffer, wiceprezes ds. AI w Arctic Wolf.

Poszukiwani eksperci od AI

Testy penetracyjne (pentesty) tradycyjnie polegają na sprawdzaniu systemów w celu identyfikacji słabych punktów oraz próbie ich wykorzystania. I choć wiele standardowych umiejętności „pentestowania” aplikacji nadal ma zastosowanie i są niezbędne w przypadku AI, to testowanie LLM i aplikacji napędzanych przez sztuczną inteligencję wymaga także dogłębnego zrozumienia tych modeli.

Dlatego, zdaniem Roberta Boyce’a z Accenture, trzeba mieć pewne doświadczenie w dziedzinie nauki o danych. Aby móc przewidywać potencjalne podatności AI, trzeba rozumieć jej modele i sposób ich działania. Ogólnie rzecz biorąc, jeśli chodzi o GenAI, organizacje muszą być gotowe przeprowadzać testy „z góry na dół”.

I nie mówimy tu tylko o testowaniu modeli. Musimy mieć na uwadze testowanie całej infrastrukturze. Dobrą wiadomością jest to, że w dziedzinie bezpieczeństwa wiemy, jak przeprowadzać testy od poziomu aplikacji w dół. Tym, czego jeszcze nie rozumiemy, jest testowanie nowej warstwy AI – mówi Robert Boyce.

Także Caroline Wong, dyrektor ds. strategii w firmie Cobalt, dostawcy platformy do pentestów w formie usługi uważa, że aby przeprowadzić test penetracyjny aplikacji AI, tester musi dobrze rozumieć, jak działają modele LLM. Jej zdaniem aplikacje AI to de facto nowy typ celu i każdy haker będzie chciał nauczyć się, jak działają modele LLM i AI.

– Co do zasady, to niewiele się zmienia w pentestach. Zawsze polegały one na: wzięciu czegoś, co ma zachowywać się w określony sposób, i próbie zmuszenia go do zachowywania się w sposób niezamierzony. Więc niezależnie od tego, czy mówimy o zatruciu danych, czy o czymś innym, aby manipulować modelem, powierzchnia ataku pozostaje w miarę podobna Jednocześnie sposób, w jaki musimy podejść do scenariuszy ataku i to, co chcemy osiągnąć, uległo zmianie. Cele pentestów w AI są zupełnie inne w porównaniu z pentestami tradycyjnych źródeł danych – mówi Bill Young, partner zarządzający amerykańskiego integratora Optiv.

Przykładowo dynamiczna natura modeli GenAI zwiększa złożoność procesu testowania. Modele GenAI i aplikacje same modyfikują się „w locie”. „Oznacza to, że aby zmierzać do niezamierzonego zachowania, potrzeba większej dbałości o szczegóły i więcej scenariuszy testowych.