Land grabbing ludzkość uprawia od zarania dziejów, natomiast w XXI wieku jest to szczególnie popularna metoda maksymalizacji zysków. Kiedyś w ten sposób pozyskiwano teren pod uprawy żywności czy „zabezpieczano” zbiorniki wodne. Obecnie to zjawisko występuje w innej formie. Dzisiaj zagarnia i wykorzystuje się olbrzymie ilości danych (bo jak wiadomo „data is the new oil”).

Podmioty tworzące wielkie modele językowe (OpenAI to jedynie wierzchołek góry lodowej), nie pytały się, czy ktoś (podmiot, autor lub organizacja) zgadza się na trenowanie sztucznej inteligencji na podstawie ich danych. Brały i korzystały z nich, wychodząc z założenia, że czymś takim jak prawo czy etyka, trzeba się zacząć przejmować dopiero wtedy, kiedy będzie na to nacisk (prawny albo biznesowy).

Robią to, licząc, że „land grabbing” pozwoli na zajęcie takiej pozycji rynkowej, że regulatorzy, którzy się pojawią i każą dostosować ich narzędzia do prawa, będą działali za wolno, a skala biznesu będzie zbyt duża, żeby go zamknąć. Mają nadzieję, że odłożą w czasie kwestię wypracowania konsensu w tej sprawie.

Brzmi znajomo? Jasne – przecież to jest playbook znany ze „złotych czasów Doliny Krzemowej” kiedy to „move fast and break things” nokautowały państwa, rządy oraz prawo (polecam obejrzeć serial „Super Pumped: Bitwa o Uber”, by zobaczyć, jak dokładnie to wyglądało).

Zostańmy jednak na terenie generatywnej AI. OpenAI oraz wiele innych podmiotów są twórcami różnych modeli językowych. Nawet ci, którzy tematu nie śledzą na bieżąco, zadają sobie pytanie: skąd wzięto dane, aby je stworzyć? Otóż brano je, przeczesując internet. Przy takiej skali danych, jakie są potrzebne do trenowania modeli, zakup nie jest opłacalny, a negocjacje prawne wstrzymałyby cały projekt na długi czas lub całkowicie go uniemożliwiły. 

OpenAI nie pozwala na „zajrzenie pod maskę” swojego modelu i stwierdzenie, na podstawie jakich danych został wytrenowany. Można tylko przypuszczać, że nie wykorzystywano legalnych metod. Oczywiście za większość funkcji pobierane są opłaty, co oznacza, że developerzy, naukowcy czy przedsiębiorstwa płacą subskrypcję za ograniczony dostęp do modelu i nie mają pojęcia, jak on działa i jaka była baza do jego szkolenia.

Alex Reisner (autor artykułu „What I Found in a Database Meta Uses to Train Generative AI” w amerykańskim piśmie „The Atlantic”, na którym opieram swój tekst) przeanalizował dataset o nazwie „The Pile/Book3” zawierający ponad 191 tysięcy książek. Reisner przyporządkował numery ISBN i w ten sposób udało mu się zidentyfikować większość z nich. Kogo albo czego tam nie ma? W sumie 170 tys. tytułów, do których prawa autorskie ma szereg dużych i małych wydawnictw, w tym: Penguin Random House, HarperCollins czy Oxford University Press. Związane z tym pierwsze pozwy autorów i postaci publicznych pokazują, że skończył się czas rabowania, a zaczyna moment, w którym trzeba będzie otworzyć skarbce i pokazać, ile jest w nich skradzionych kosztowności.  

Prawa autorskie a modele

A może jednak jest jakaś opcja umożliwiająca wykorzystywanie danych chronionych prawem autorskim do trenowania modeli sztucznej inteligencji? No cóż, jak wiadomo, modele trenowane są na kodzie, tekście czy obrazkach. Na przykład Stable Diffusion – model text-to-image zasilany szerokim strumieniem plików – trenuje na danych pochodzących od blogów na WordPressie, aż po obrazki z Getty Image. Ten zbiór danych jest tak rozległy, że z dużą dozą prawdopodobieństwa można zakładać, że nasze teksty czy zdjęcia się w nim znalazły i to na ich podstawie jest trenowana AI. Ta sama zasada działa przy książkach popularnych autorów, których dzieło bez pytania mogło stać się „pokarmem” dla modeli.

Oczywiście „trenerzy” modeli AI jednogłośnie twierdzą, że niezbędna do tego agregacja danych jest chroniona w ramach doktryny „dozwolonego użytku”, przede wszystkim w Stanach. Zasada ta ma na celu zrównoważenie ochrony praw autorskich z promowaniem innowacji i wolności słowa.

Daniel Gervais, profesor specjalizujący się w prawie własności intelektualnej, sugeruje, że określenie „dozwolonego użytku” często koncentruje się wokół dwóch kluczowych pytań: czy wykorzystanie ma charakter transformacyjny, oferując nową perspektywę lub wartość oraz czy potencjalnie utrudnia ono pierwotnemu twórcy dostęp do rynku?

Profesor twierdzi, że wykorzystywanie materiałów chronionych prawem autorskim do szkolenia sztucznej inteligencji jest często zgodne z zasadami dozwolonego użytku. Komplikacje pojawiają się jednak w sytuacji, gdy wyszkolona sztuczna inteligencja zaczyna generować własne treści. I właśnie ten aspekt jest według Gervaisa kluczowy. Podczas gdy szkolenie sztucznej inteligencji z wykorzystaniem materiałów chronionych prawem autorskim może być dopuszczalne, to już treści, które następnie wytwarza, mogą naruszać prawa autorskie.

Jednak spójrzmy na drugą stronę medalu. Pracujesz nad dziełem swojego życia (książką, filmem lub obrazem) i ze względu na istnienie takich narzędzi nie masz żadnej gwarancji, czy ktoś nie weźmie sobie, a następnie nie sprzeda tego produktu bez Twojej zgody. I dlatego potrzebne są licencje. Taka kontrola jest jednym ze sposobów, w jaki autorzy zarabiają na życie.