Zostały nam tylko dwa lata. Tyle potrzebuje AI, by posiąść całą wiedzę internetu

zostały nam tylko dwa lata. tyle potrzebuje ai, by posiąść całą wiedzę internetu

Zostały nam tylko dwa lata. Tyle potrzebuje AI, by posiąść całą wiedzę internetu

Choć może się wydawać inaczej, internet nie jest bez dna. W ciągu kilku najbliższych lat koncerny rozwijające AI wyczerpią ogólnodostępne dane tekstowe. Naukowcy sugerują trzy rozwiązania, ale już teraz widać, że big techy sięgają po czwarte: kradzież.

Nasze ulubione czatboty – począwszy od ChatGPT, poprzez Gemini, Copilot, garść czatbotów Mety, a kończąc na licznych produktach takich, jak te uporczywie pojawiające się w rogu ekranu na stronie linii lotniczych czy firm kurierskich, by komunikować się „w ludzki sposób” wykorzystują duże modele językowe sztucznej inteligencji. Te modele, by generować teksty sprawiające wrażenie rozmowy z drugim człowiekiem, potrzebują setek gigabajtów – o ile nie po prostu terabajtów danych.

Te dane to przede wszystkim informacje pochdzące z internetu. Artykuły prasowe, wpisy na blogach, komentarze w różnych serwisach, treści z Wikipedii czy media dostępne poprzez internet, takie jak choćby książki. Internet dla wielu stanowi bezdenne źródło wiedzy. Jednak nie dla ludzi zajmujących się uczeniem maszynowym i treningiem generatywnej AI. Bo ci według szacunków odnajdą dno w najbliższych kilku latach.

Wchodzimy w erę kradzieży danych. Bo darmowe źródła się kończą

Grupa naukowców zrzeszonych w Epoch AI – multidyscyplinarny instytut badawczy analizujący kierunki rozwoju sztucznej inteligencji, opublikowała pracę naukową w archiwum arXiv. Jak przewiduje zespół pod kierownictwem Pablo Villalobosa, zachowując obecne tempo tworzenia treści w internecie oraz rozwoju dużych modeli językowych sztucznej inteligencji, nowych, publicznie dostępnych danych do treningu AI zabraknie pomiędzy 2026 a 2032 rokiem.

Badacze na podstawie danych z Common Crawl, ogólnodostępnego zbioru danych z ponad 50 miliardów witryn internetowych oszacowali, że pojedyncza strona zawiera średnio 7 tys. bajtów danych. Następnie oszacowali oni ilość „populacji internetu”, czyli osób korzystających z niego na podstawie trendów demograficznych (zwiększającej się liczby ludności świata) oraz penetracji internetu (czyli ilości osób na świecie mających dostęp do internetu). Pozwoliło im to wyliczyć, w jakim tempie rośnie ilość danych dostarczanych przez ludzi do internetu. Po uwzględnieniu czynników wpływających na ilość generowanych danych (m.in. czynniki socjoekonomiczne, uwarunkowania kulturowe), naukowcy przyjęli, że w 2024 roku do internetu trafi pomiędzy 720 a 2000 terabajtów danych i liczba ta będzie się zwiększać o kilka procent każdego roku.

Naukowcy zaznaczyli, że mowa tu o wszystkich danych i nowych informacjach, jakie ludzie wprowadzą do sieco, czyli zarówno o „wartościowych” danych takich jak informacje z Wikipedii czy ważniejszych tytułów prasowych, jak i tych o „wątpliwej jakości” takich jak komentarze w mediach społecznościowych. Według ich szacunków z uwzględnieniem obecnych trendów w uczeniu maszynowym, pomiędzy 2026 a 2032 rokiem możemy spodziewać się wyczerpania „wysokich jakościowo danych językowych, pochodzących z wiarygodnych źródeł”. Wyczerpanie danych o niższej jakości nastąpi pomiędzy rokiem 2030 a 2050, natomiast wszystkie dane graficzne (obrazy) zostaną wyczerpane pomiędzy 2030 a 2060 rokiem.

Podczas gdy w nadchodzących latach można dokonać znaczących postępów, zbliżające się wąskie gardło danych stanowi pilne wyzwanie dla długoterminowego postępu sztucznej inteligencji. Aby postęp sztucznej inteligencji mógł być kontynuowany w latach 30, należy opracować nowe źródła danych lub techniki wymagające mniejszej ilości danych.

Jako potencjalne rozwiązania tego problemu eksperci z Epoch AI proponują użycie sztucznej inteligencji do generowania nowych danych, na których będą uczyć się kolejne duże modele językowe, rozwój multimodalności i trenowanie modeli językowych na danych innych niż tekstowe – np. filmach, dźwiękach, obrazach i wreszcie, użycie danych niedostępnych publicznie, czyli choćby rozmów z komunikatorów internetowych.

Dolina Krzemowa o tym wie, ale głośno nie mówi

Problem niewystarczającej ilości danych do treningu generatywnej AI nie jest nowością dla najbardziej utytułowanych firm Doliny Krzemowej. Wypowiadał się o niej choćby Dario Amodei, dyrektor generalny Anthropic, w wywiadzie dla The New York Times. Przewidywał, że ze względu na niewystarczającą ilość danych, istnieje 10 proc. szans na zahamowanie rozwoju AI w przyszłości.

Tylko sęk w tym, że cały czas obracamy się w tematyce danych dostępnych publicznie – w domyśle tych, które można zobaczyć i tych, które można dowolnie przetwarzać (na podstawie prawa użycia w ramach wolnej domeny i innych pokrewnych licencji). Nadal do przetworzenia pozostają treści, do których swobodnego dostępu nie mamy lub do których mamy dostęp, a które są objęte prawem autorskim.

Na kanwie problemu kurczących się wolnych zbiorów, powstał kolejny problem: nieautoryzowane przetwarzanie – z perspektywy prawnej – niedostępnych danych. I nie jest to coś, co robią entuzjaści trenowania własnych mini-modeli AI. Swoje za uszami ma OpenAI, Google i Meta, z których każde w jakiś sposób naruszyło prawa autorskie w imię treningu AI. Ten ostatni koncern także zapowiedział, że będzie używał naszych danych do treningu sztucznej inteligencji.

Z kolei jak informował zaledwie trzy dni temu Reuters, głód na dane jest na tyle duży, że ignorowane są ogólnoprzyjęte standardy i tworzone narzędzia, które pozwalają scrapować (ściągać) dane z witryn, których właściciele się na to nie zgodzili.

Bez danych AI nie będzie się rozwijać

Tu jednak wracamy do pierwotnego problemu AI. Ona potrzebuje jakościowych, ukrytych za ścianami moralności i pieniędzy, danych, by móc się rozwijać. Bez nowych danych, opierając się jedynie na tym co wolne i legalne, każdy nowy model będzie stał w miejscu. Każdy nowy przypadek zawarcia umowy pomiędzy gigantem wydawniczym a technologicznym, ale i przypadek naruszeń praw autorskich to dowód na powolne dochodzenie całej branży do ściany. Bo każdy koncern rozwijający AI ma świadomość, że bez uszczknięcia (lub po prostu zjedzenia po cichu w nocy) tortu ludzkiej kreatywności, niemożliwe będzie wyjście do inwestorów i pochwalenia się wzrostami.

Co więcej, z tej perspektywy wielu gigantom wręcz opłaca się podejście „najpierw kradniemy, potem się sądzimy”. Bo zysk wizerunkowy i finansowy, jaki potencjalnie może osiągnąć dana firma trenująca AI, jest znacznie wyższy niż koszta sądowe, jakie później musi zapłacić w ramach procesu o naruszenie praw autorskich. Takie stanowisko według relacji The New York Times swego czasu przyjął dział prawny Mety, dla której proces zakupu wydawnictwa Simon & Schuster był zbyt długi, ale potencjalne koszta sądowe miały być złem mniejszym, niż zostanie w tyle za konkurencją.

Pozostaje jednak pytanie, co w przypadku nawiązania wszystkich możliwych umów, podpisania wszystkich możliwych kontraktów i nakradnięcia wszystkich możliwych do wykradnięcia danych. Czym wtedy będziemy karmić AI?

OTHER NEWS

36 minutes ago

Pysznogłówka dobra na kleszcze i ślimaki

36 minutes ago

Poliftowa Kia Sorento już w salonach. Są trzy rodzaje napędu i pełny cennik

36 minutes ago

Uchylą immunitety sędziom SN? Bodnar zapowiedział wnioski

37 minutes ago

Skutki jedzenia wieczorem. Dlaczego jedzenie przed snem jest złe dla zdrowia? 28.06.2024

37 minutes ago

Polak wywalczył kwalifikację na igrzyska w Paryżu! Kadra Polski coraz większa

37 minutes ago

"Zły sygnał do wyborców", "wstyd". Z obozu PiS dochodzą głosy zaniepokojenia

37 minutes ago

Najbogatszy Gruzin hojnie wynagrodzi piłkarzy. A to dopiero początek

41 minutes ago

Ile zarabia mechanik samochodowy? Na wysokość wypłaty składa się kilka czynników. Starczy na waciki?

41 minutes ago

Iga Świątek podjęła decyzję! Ostateczne potwierdzenie

42 minutes ago

Oto ładne życzenia imieninowe 2024 r. Najpiękniejsze, najlepsze wierszyki, śmieszne rymowanki. Wybierz i wyślij wierszyki imieninowe

42 minutes ago

Kto rywalem Polaków w półfinale? Oto plan na piątek z Ligą Narodów

42 minutes ago

Lekkoatletyczne MP - Kuś: nie mogłam sobie wymarzyć lepszego otwarcia

43 minutes ago

Turyści koczują na lotnisku Chopina. Mieli wylecieć dobę temu. "Bałagan, mordęga"

43 minutes ago

Uchylenie immunitetu posłowi klubu PiS. Sejm podjął decyzję

43 minutes ago

Zobaczył, co zrobił "Lewy" i się zagotował. "Kuriozalne, wręcz żałosne"

48 minutes ago

Demokraci szukają nowego kandydata? "Biden musi się wycofać"

48 minutes ago

Strajk w brzeskim zakładzie Canpack Food and Industrial Packaging zakończony porozumieniem

48 minutes ago

Gawkowski alarmuje. "Dzieje się coś nadzwyczajnego"

51 minutes ago

Takie rachunki przyjdą za prąd od lipca 2024. Ile więcej zapłacimy? Wiemy, jaka będzie maksymalna cena za prąd 28.06.2024

51 minutes ago

Wyjątkowo długi rok szkolny. Wtedy uczniowie będą mieli wolne

51 minutes ago

Szykuje się niespodzianka. A główny zainteresowany unika tematu

52 minutes ago

Aryna Sabalenka na odważnych zdjęciach. Tak w bikini wygląda główna rywalka Igi Świątek. Mamy fotki! [28.06.2024]

56 minutes ago

Najbardziej leniwe rasy psów. Kanapa to ich naturalne środowisko. Sprawdź listę największych leniuchów! 28.06.2024

56 minutes ago

ROBKopalnia Bobrek-Piekary do likwidacji. Będzie fedrowała tylko do końca 2025 roku. To skutek tragicznego wypadku sprzed trzech miesięcy

56 minutes ago

Maja Rutkowski przykleiła sobie na zęby diamenty w kształcie motyla. Internauci: ale kicz

56 minutes ago

Dramat gwiazdy przed Wimbledonem! Kontuzja tuż przed hitem

58 minutes ago

Zgłosi Pawlaka do prokuratury. "Trafiliśmy na ciekawą zbieżność"

58 minutes ago

Fatalna decyzja. Żałuje jej od 32 lat

58 minutes ago

Wyrwali plażowiczom telefony z ręki. Mieli ważny powód

1 hour ago

Bluzka z dziurkami jest w KiK za 15 zł! To hit na lato. Podobne w Sinsay, Reserved

1 hour ago

Dariusz Szpakowski przedstawił smutny obraz Euro 2024. To dzieje się naprawdę

1 hour ago

Zatrzymanie akcji serca. Nie żyje Anna Dmitriewa

1 hour ago

Minimalna emerytura na rękę. Tyle netto musi teraz płacić ZUS emerytom [28.06.24]

1 hour ago

To nie Plitvickie Jeziora, to perełka Dolnego Śląska. Grozi niebezpieczeństwem!

1 hour ago

Jest grabarzem. Zdradził jak wygląda kremacja. "Nie wierzmy w różne bzdury"

1 hour ago

Te osoby nie powinny jeść truskawek. Oto skutki jedzenia truskawek dla organizmu. Nie każdy może je jeść! 28.06.2024

1 hour ago

Afera we Francji. Rosyjski wątek doradczyni Zjednoczenia Narodowego

1 hour ago

Daniel Obajtek stracił milionową premię. "Ja nie płaczę, poradzę sobie bez tego"

1 hour ago

System podatkowy niesprawiedliwy. Polacy rozczarowani

1 hour ago

Przedsiębiorcy wygrywają ważną batalię o VAT. Jest uchwała NSA