Zostały nam tylko dwa lata. Tyle potrzebuje AI, by posiąść całą wiedzę internetu

24/06/2024

Choć może się wydawać inaczej, internet nie jest bez dna. W ciągu kilku najbliższych lat koncerny rozwijające AI wyczerpią ogólnodostępne dane tekstowe. Naukowcy sugerują trzy rozwiązania, ale już teraz widać, że big techy sięgają po czwarte: kradzież.

Nasze ulubione czatboty – począwszy od ChatGPT, poprzez Gemini, Copilot, garść czatbotów Mety, a kończąc na licznych produktach takich, jak te uporczywie pojawiające się w rogu ekranu na stronie linii lotniczych czy firm kurierskich, by komunikować się „w ludzki sposób” wykorzystują duże modele językowe sztucznej inteligencji. Te modele, by generować teksty sprawiające wrażenie rozmowy z drugim człowiekiem, potrzebują setek gigabajtów – o ile nie po prostu terabajtów danych.

Te dane to przede wszystkim informacje pochdzące z internetu. Artykuły prasowe, wpisy na blogach, komentarze w różnych serwisach, treści z Wikipedii czy media dostępne poprzez internet, takie jak choćby książki. Internet dla wielu stanowi bezdenne źródło wiedzy. Jednak nie dla ludzi zajmujących się uczeniem maszynowym i treningiem generatywnej AI. Bo ci według szacunków odnajdą dno w najbliższych kilku latach.

Wchodzimy w erę kradzieży danych. Bo darmowe źródła się kończą

Grupa naukowców zrzeszonych w Epoch AI – multidyscyplinarny instytut badawczy analizujący kierunki rozwoju sztucznej inteligencji, opublikowała pracę naukową w archiwum arXiv. Jak przewiduje zespół pod kierownictwem Pablo Villalobosa, zachowując obecne tempo tworzenia treści w internecie oraz rozwoju dużych modeli językowych sztucznej inteligencji, nowych, publicznie dostępnych danych do treningu AI zabraknie pomiędzy 2026 a 2032 rokiem.

Badacze na podstawie danych z Common Crawl, ogólnodostępnego zbioru danych z ponad 50 miliardów witryn internetowych oszacowali, że pojedyncza strona zawiera średnio 7 tys. bajtów danych. Następnie oszacowali oni ilość „populacji internetu”, czyli osób korzystających z niego na podstawie trendów demograficznych (zwiększającej się liczby ludności świata) oraz penetracji internetu (czyli ilości osób na świecie mających dostęp do internetu). Pozwoliło im to wyliczyć, w jakim tempie rośnie ilość danych dostarczanych przez ludzi do internetu. Po uwzględnieniu czynników wpływających na ilość generowanych danych (m.in. czynniki socjoekonomiczne, uwarunkowania kulturowe), naukowcy przyjęli, że w 2024 roku do internetu trafi pomiędzy 720 a 2000 terabajtów danych i liczba ta będzie się zwiększać o kilka procent każdego roku.

Naukowcy zaznaczyli, że mowa tu o wszystkich danych i nowych informacjach, jakie ludzie wprowadzą do sieco, czyli zarówno o „wartościowych” danych takich jak informacje z Wikipedii czy ważniejszych tytułów prasowych, jak i tych o „wątpliwej jakości” takich jak komentarze w mediach społecznościowych. Według ich szacunków z uwzględnieniem obecnych trendów w uczeniu maszynowym, pomiędzy 2026 a 2032 rokiem możemy spodziewać się wyczerpania „wysokich jakościowo danych językowych, pochodzących z wiarygodnych źródeł”. Wyczerpanie danych o niższej jakości nastąpi pomiędzy rokiem 2030 a 2050, natomiast wszystkie dane graficzne (obrazy) zostaną wyczerpane pomiędzy 2030 a 2060 rokiem.

Podczas gdy w nadchodzących latach można dokonać znaczących postępów, zbliżające się wąskie gardło danych stanowi pilne wyzwanie dla długoterminowego postępu sztucznej inteligencji. Aby postęp sztucznej inteligencji mógł być kontynuowany w latach 30, należy opracować nowe źródła danych lub techniki wymagające mniejszej ilości danych.

Jako potencjalne rozwiązania tego problemu eksperci z Epoch AI proponują użycie sztucznej inteligencji do generowania nowych danych, na których będą uczyć się kolejne duże modele językowe, rozwój multimodalności i trenowanie modeli językowych na danych innych niż tekstowe – np. filmach, dźwiękach, obrazach i wreszcie, użycie danych niedostępnych publicznie, czyli choćby rozmów z komunikatorów internetowych.

Dolina Krzemowa o tym wie, ale głośno nie mówi

Problem niewystarczającej ilości danych do treningu generatywnej AI nie jest nowością dla najbardziej utytułowanych firm Doliny Krzemowej. Wypowiadał się o niej choćby Dario Amodei, dyrektor generalny Anthropic, w wywiadzie dla The New York Times. Przewidywał, że ze względu na niewystarczającą ilość danych, istnieje 10 proc. szans na zahamowanie rozwoju AI w przyszłości.

Tylko sęk w tym, że cały czas obracamy się w tematyce danych dostępnych publicznie – w domyśle tych, które można zobaczyć i tych, które można dowolnie przetwarzać (na podstawie prawa użycia w ramach wolnej domeny i innych pokrewnych licencji). Nadal do przetworzenia pozostają treści, do których swobodnego dostępu nie mamy lub do których mamy dostęp, a które są objęte prawem autorskim.

Na kanwie problemu kurczących się wolnych zbiorów, powstał kolejny problem: nieautoryzowane przetwarzanie – z perspektywy prawnej – niedostępnych danych. I nie jest to coś, co robią entuzjaści trenowania własnych mini-modeli AI. Swoje za uszami ma OpenAI, Google i Meta, z których każde w jakiś sposób naruszyło prawa autorskie w imię treningu AI. Ten ostatni koncern także zapowiedział, że będzie używał naszych danych do treningu sztucznej inteligencji.

Z kolei jak informował zaledwie trzy dni temu Reuters, głód na dane jest na tyle duży, że ignorowane są ogólnoprzyjęte standardy i tworzone narzędzia, które pozwalają scrapować (ściągać) dane z witryn, których właściciele się na to nie zgodzili.

Bez danych AI nie będzie się rozwijać

Tu jednak wracamy do pierwotnego problemu AI. Ona potrzebuje jakościowych, ukrytych za ścianami moralności i pieniędzy, danych, by móc się rozwijać. Bez nowych danych, opierając się jedynie na tym co wolne i legalne, każdy nowy model będzie stał w miejscu. Każdy nowy przypadek zawarcia umowy pomiędzy gigantem wydawniczym a technologicznym, ale i przypadek naruszeń praw autorskich to dowód na powolne dochodzenie całej branży do ściany. Bo każdy koncern rozwijający AI ma świadomość, że bez uszczknięcia (lub po prostu zjedzenia po cichu w nocy) tortu ludzkiej kreatywności, niemożliwe będzie wyjście do inwestorów i pochwalenia się wzrostami.

Co więcej, z tej perspektywy wielu gigantom wręcz opłaca się podejście „najpierw kradniemy, potem się sądzimy”. Bo zysk wizerunkowy i finansowy, jaki potencjalnie może osiągnąć dana firma trenująca AI, jest znacznie wyższy niż koszta sądowe, jakie później musi zapłacić w ramach procesu o naruszenie praw autorskich. Takie stanowisko według relacji The New York Times swego czasu przyjął dział prawny Mety, dla której proces zakupu wydawnictwa Simon & Schuster był zbyt długi, ale potencjalne koszta sądowe miały być złem mniejszym, niż zostanie w tyle za konkurencją.

Pozostaje jednak pytanie, co w przypadku nawiązania wszystkich możliwych umów, podpisania wszystkich możliwych kontraktów i nakradnięcia wszystkich możliwych do wykradnięcia danych. Czym wtedy będziemy karmić AI?

OTHER NEWS

36 minutes ago

Oto ładne życzenia imieninowe 2024 r. Najpiękniejsze, najlepsze wierszyki, śmieszne rymowanki. Wybierz i wyślij wierszyki imieninowe

42 minutes ago

Takie rachunki przyjdą za prąd od lipca 2024. Ile więcej zapłacimy? Wiemy, jaka będzie maksymalna cena za prąd 28.06.2024

51 minutes ago

ROBKopalnia Bobrek-Piekary do likwidacji. Będzie fedrowała tylko do końca 2025 roku. To skutek tragicznego wypadku sprzed trzech miesięcy

56 minutes ago