Newsletter Biuletyny informacyjne Events Wydarzenia Podcasty Filmy Africanews
Loader
Śledź nas
Reklama

Dlaczego redakcje blokują AI w dostępie do internetowych archiwów

Osoba czytająca gazetę „New York Times”
Czytelnik gazety „New York Times”. Prawo autorskie  Beyzanur K. /Pexels
Prawo autorskie Beyzanur K. /Pexels
Przez Indrabati Lahiri
Opublikowano dnia
Udostępnij
Udostępnij Close Button

Wykorzystywanie przez firmy AI zarchiwizowanych treści informacyjnych może poważnie naruszać prawo autorskie, zwłaszcza w czasie trwających procesów przeciw OpenAI i Perplexity.

Około 245 redakcji informacyjnych z dziewięciu krajów próbuje zablokować roboty indeksujące Internet Archive. To zautomatyzowane boty, które zapisują, wyświetlają i archiwizują treści z stron internetowych w publicznie dostępnym interfejsie Internet Archive, czyli w Wayback Machine.

REKLAMA
REKLAMA

Archiwum zawiera ponad bilion stron internetowych sięgających aż do 1996 roku, co czyni je jednym z największych publicznych zasobów informacji na świecie. Obejmuje to dawne artykuły dużych redakcji, takich jak CNN, „The New York Times”, „The Guardian” czy „USA Today”.

Takie strony wykorzystywane są na wiele sposobów, na przykład jako źródła podstawowe dla historyków lub dowód zmian wprowadzanych po publikacji.

Część redakcji chce teraz zablokować roboty, ponieważ firmy rozwijające sztuczną inteligencję korzystają z zasobów archiwum do trenowania dużych modeli językowych (LLM) bez uczciwego wynagrodzenia i bez uzyskania zgody.

Ponad 20 dużych organizacji medialnych już blokuje ia_archiverbot, głównego robota, którego Internet Archive używa na potrzeby Wayback Machine – wynika z analizy firmy Originality AI, zajmującej się wykrywaniem treści generowanych przez AI.

Co najmniej jeden z czterech botów archiwum jest jednak blokowany przez 241 redakcji na świecie. Znaczna część tych zablokowanych serwisów należy do wydawcy USA Today Co, największego w USA wydawcy gazet. W praktyce oznacza to, że setki lokalnych tytułów niemal zniknęły z zapisów historycznych.

Ryzyko wykorzystywania archiwalnych treści do trenowania AI

Archiwalne materiały prasowe dostarczają ogromnych ilości wysokiej jakości tekstów i zdjęć, które służą do trenowania dużych modeli AI na bardziej „ludzki” styl pisania. Dane są dostępne przez adresy URL oraz interfejs API, który pozwala różnym programom komunikować się ze sobą i pobierać informacje, działając jak most między systemami.

To dodatkowo ułatwia firmom rozwijającym AI dostęp do archiwów i trenowanie modeli.

Dodatkową zaletą jest to, że treści w Internet Archive są już uporządkowane, opisane i opatrzone datą.

Duża część danych Internet Archive została już zidentyfikowana w kluczowych zestawach danych używanych do trenowania AI. To jednak poważny problem dla redakcji, które już pozywają firmy takie jak Perplexity i OpenAI za możliwe naruszenia praw autorskich.

„Problem polega na tym, że treści „Timesa” zgromadzone w Internet Archive są wykorzystywane przez firmy AI z naruszeniem prawa autorskiego, aby bezpośrednio z nami konkurować” – powiedział Graham James, rzecznik dziennika „The New York Times”, cytowany przez serwis The Next Web.

„Times inwestuje ogromne środki w tworzenie oryginalnego dziennikarstwa i tej pracy nie powinno się wykorzystywać bez naszej zgody”.

Inne redakcje, takie jak „The Guardian”, podchodzą do sprawy ostrożniej i ograniczają dostęp archiwum, zamiast całkowicie go blokować.

Internet Archive przekonuje, że jest jedynie „skutkiem ubocznym”

Dyrektor Wayback Machine, Mark Graham, utrzymuje, że archiwum jest jedynie „skutkiem ubocznym”, a prawdziwymi winowajcami są firmy AI, które sięgają po dawne treści poprzez udostępnione interfejsy.

Archiwum wprowadziło jednak własne ograniczenia. Obejmują one m.in. blokowanie masowych pobrań części materiałów oraz ograniczanie automatycznego wydobywania treści w niektórych przypadkach.

Graham podkreśla, że archiwum pełni kluczową rolę w ochronie treści. Bez niego artykuły, które nie zostały zarchiwizowane, można zmieniać bez wiedzy autorów i bez ponoszenia odpowiedzialności. Chodzi zarówno o zmianę lub usuwanie cytatów, poprawianie błędów, jak i modyfikowanie zarzutów czy oficjalnych oświadczeń.

Obecnie takie zmiany są śledzone przez Wayback Machine.

To skłoniło część redakcji do szukania z Internet Archive kompromisów i rozwiązań pośrednich, które ograniczają dostęp, ale nie polegają na całkowitym blokowaniu.

Podobnie organizacja pozarządowa Fight for the Future, działająca na rzecz praw cyfrowych, uruchomiła petycję sprzeciwiającą się blokowaniu archiwum. Podpisało ją już 100 aktywnych dziennikarzy. Dzieje się to w czasie, gdy dostęp do dokumentów publicznych jest coraz bardziej ograniczany, a spór o historię coraz ostrzejszy.

Przejdź do skrótów dostępności
Udostępnij

Czytaj Więcej

Alphabet, właściciel Google: zysk rośnie o 81% w wynikach Big Tech

Dlaczego redakcje blokują AI w dostępie do internetowych archiwów

Proces ws. twórcy ChatGPT: Elon Musk ściera się z prawnikiem OpenAI