
Czy sztuczna inteligencja uczy się na kradzionych książkach? Okazuje się, że modele AI takie jak ChatGPT czy LLaMA od Mety trenowane są na danych z pirackich baz, takich jak Library Genesis. Projekt Books3, zawierający 183 tysiące książek, w tym dzieła Olgi Tokarczuk, Doroty Masłowskiej i Szczepana Twardocha, stał się kluczowym zasobem. Meta, firma Marka Zuckerberga, miała sięgać po te nielegalne źródła, by zaoszczędzić na kosztach licencji. Polscy autorzy czują się okradzeni, a Unia Literacka pyta ironicznie: „Czy Twoje książki też ukradli?”. Czy czeka nas fala pozwów i jak na to zareaguje Polska?
Rozwój AI przyspiesza tak mocno, że trudno nadążyć. Modele takie jak ChatGPT, LLaMA od Mety, czy BERT od Google potrzebują miliardów słów, by nauczyć się języka. I tu zaczyna się jazda: okazuje się, że wiele z tych słów pochodzi z... pirackich baz danych, gdzie trafiły bez wiedzy i zgody autorów. Meta – firma Marka Zuckerberga – według dokumentów sądowych sięgnęła po zasoby takich pirackich platform jak Library Genesis (LibGen), Z-Library, Anna’s Archive i Bibliotik. Największą sensacją jest jednak projekt Books3, który zawierał aż 183 tysiące książek – w tym dzieła Olgi Tokarczuk, Doroty Masłowskiej i Szczepana Twardocha.
Niektóre z baz danych, z których miał korzystać projekt Books3, mają pochodzenie rosyjskie. Szczególnie Library Genesis (LibGen), powstała około 2008 roku w Rosji, uchodzi za największą piracką bibliotekę cyfrową świata, zbierającą podręczniki, literaturę piękną i publikacje naukowe. Choć formalnie nie powiązana z rządem rosyjskim, przez lata działała bez większych przeszkód na rosyjskich serwerach i z rosyjskimi operatorami. Podobnie Z-Library, choć globalna, była często hostowana w regionach byłego ZSRR. W 2022 r. FBI dokonało głośnego zatrzymania jej twórców – obywateli Rosji.
By AI mogła odpowiadać mądrze na pytania, musi się najpierw naczytać. Ale nie stu książek. 15 bilionów tokenów – tyle zużyła Meta przy trenowaniu LLaMA 3. Im więcej danych, tym „mądrzejszy” model. A najlepsze dane? Książki. Dopracowane, stylistycznie bogate, bez błędów. Idealne do trenowania AI. Tyle że… droga na skróty prowadzi przez pirackie źródła. Koszt wytrenowania takiego modelu to dziesiątki, a nawet setki milionów dolarów. W tym świetle zakup licencji na książki wydał się Meta „zbyt drogi i czasochłonny”. A przecież wszystko można znaleźć w sieci – za darmo.
W Books3 odnaleziono książki polskich autorów, także w tłumaczeniach na angielski. Znajdziemy tam m.in.:
Unia Literacka zapytała ironicznie na Instagramie: „Czy Twoje książki też ukradli?”. A pisarka Grażyna Plebanek wprost: „Czuję się okradana. To największa kradzież dzieł w historii ludzkości” – cytat z „Gazety Wyborczej”.
Zabawne (albo intrygujące): AI Grok od Elona Muska jako jedyna nie znalazła się w centrum tej burzy. Czy to przypadek, czy może efekt... dobrze rozegranej polityki? W sieci pojawiają się spekulacje, że xAI Elona Muska korzysta z mniej kontrowersyjnych danych lub po prostu uniknęła ataków prawnych, bo Musk – otwarcie wspierający Trumpa – nie jest obecnie „na celowniku” tych samych środowisk, co bardziej liberalny Zuckerberg. Czyli: gra o AI to nie tylko dane, ale i polityka.
Czy autorzy dostaną pieniądze? Raczej nie. Wzorem sprawy Google Books, wszystko może skończyć się na: wielkich pozwach zbiorowych (już trwają w USA i Francji), ugodach poza sądem (żeby nie robić dymu), i milionowych wypłatach dla prawników, a nie dla twórców. Google też skanowało książki „dla nauki”. I choć sąd finalnie uznał to za „fair use”, ugody i koszty obrony sięgnęły dziesiątek milionów dolarów.
Jeśli Meta obroni się argumentem "fair use" (dozwolonego użytku) w sądzie, kwota odszkodowania będzie znacznie niższa niż szacowany koszt nieopłaconych licencji, ponieważ "fair use" w USA pozwala na ograniczone wykorzystanie materiałów chronionych prawem autorskim bez zgody właściciela, pod warunkiem spełnienia określonych kryteriów (np. cel edukacyjny, transformacyjne użycie, brak wpływu na rynek). W kontekście trenowania AI, jak w przypadku Llama 3, kluczowe będzie, czy sąd uzna to za legalne zastosowanie.
W tle pojawia się wizja przyszłości:
W Polsce przykład daje PLLUM – legalny model AI, który oferuje autorom umowy licencyjne. Czyli da się. Pytanie tylko, czy giganci pójdą tą drogą?
PLLuM: Polska alternatywa dla „dzikiego zachodu” . Projekt PLLuM (Polish Large Language Universal Model) ma być pierwszym dużym modelem językowym w języku polskim, rozwijanym na zasadach etyki, transparentności i legalności. Za projektem stoją m.in. Politechnika Wrocławska, NASK, Instytut Podstaw Informatyki PAN, Ośrodek Przetwarzania Informacji – Państwowy Instytut Badawczy, Uniwersytet Łódzki oraz Instytut Slawistyki PAN.
Pomysł? Zamiast kraść książki z torrentów, zaprosić autorów i wydawców do współpracy, podpisać legalne umowy licencyjne, a przy okazji stworzyć system śledzenia źródeł tekstów, na których model się uczy. Taki system byłby globalnym precedensem. PLLuM ma już zapewnione 14,5 mln zł publicznego finansowania, a kolejne 19 mln zł ma trafić na jego wdrożenie w administracji publicznej. Model będzie udostępniany na otwartej licencji do zastosowań naukowych i niekomercyjnych, a wersje komercyjne mają korzystać z licencjonowanych treści oraz danych zgodnych z unijnym prawem.
Wicepremier i minister cyfryzacji, Krzysztof Gawkowski, podkreślił znaczenie projektu słowami: "PLLuM to dowód na to, że możemy rozwijać nowoczesne technologie na własnych warunkach, w naszym języku, z korzyścią dla obywatelek i obywateli."
Brzmi dobrze? Brzmi świetnie. Ale… jest haczyk. W budżecie nie zaplanowano środków na opłacenie autorów za ich teksty. Czyli twórcom się mówi: "chcesz – daj, ale za darmo". To stawia pod znakiem zapytania, czy naprawdę uda się przekonać większą liczbę pisarzy do oddania swoich dzieł do treningu AI, nawet jeśli idea jest szczytna.
I na koniec pytania, które zostają: Czy AI będzie rozwijana na kradzionych książkach, czy na uczciwych umowach? Czy Polska zareaguje jako państwo, czy tylko jako społeczność pisarzy? I co zrobi Zuckerberg, gdy skończą się wymówki?
Podyskutuj na Instagramie Uni LIterackiej: https://www.instagram.com/unialiteracka/
Twoje zdanie jest ważne jednak nie może ranić innych osób lub grup.
Komentarze opinie