OpenAI Pakai Video YouTube untuk Latih GPT-4, Google Beri Peringatan

openai pakai video youtube untuk latih gpt-4, google beri peringatan

Ilustrasi logo OpenAI

KOMPAS.com – Perusahaan-perusahaan kecerdasan buatan dikabarkan mulai kehabisan bahan untuk melatih LLM (Large Language Model) mereka, termasuk OpenAI dan Meta.

OpenAI, perusahaan di balik ChatGPT kabarnya sedang kesulitan mengumpulkan data pelatihan untuk model LLM generasi terbaru, GPT-4.

Untuk mengatasinya, perusahaan yang dipimpin oleh Sam Altman itu memakai aneka video dari YouTube.

Ada sekitar satu juta jam video YouTube yang dipakai OpenAI untuk melatih GPT-4. Presiden OpenAI, Greg Brockman bahkan ikut terjun dalam pengumpulan video.

Video itu kemudian ditranskrip menggunakan alat transkrip audio, Whisper.

Menurut juru bicara OpenAI, Lindsay Held, pihaknya memang menyusun kumpulan data “unik” untuk setiap model agar lebih paham tentang dunia dan mempertahankan daya saingnya.

Held menambahkan bahwa OpenAI memakai berbagai sumber data termasuk data yang tersedia untuk umum serta data non-publik dari mitra. OpenAI kini juga diklaim sedang mempertimbangkan untuk menghasilkan data pelatihan sendiri.

Meski begitu, Held tidak menyebut dari platform mana saja data diambil untuk melatih modelnya.

Outlet media The New York Times dikutip KompasTekno Minggu (14/4/2024), menyebutkan bahwa OpenAI sudah kehabisan persediaan data pelatihan pada tahun 2021.

Kemudian perusahaan kecerdasan buatan (artificial intelligence/AI) ini mendiskusikan praktik transkripsi video YouTube, podcast, hingga audiobook.

Pada tahun yang sama, OpenAI melatih modelnya dengan berbagai data termasuk kode komputer dari Github hingga konten tugas sekolah di Quizlet.

Peringatan Google

Pihak Google dihubungi The Verge, menyatakan bahwa perusahaannya sudah melihat laporan soal OpenAI yang mentranskrip video YouTube, meski belum dikonfirmasi langsung oleh OpenAI. Google lantas memperingatkan larangan unduh konten tanpa izin.

“file.robots.txt dan Ketentuan Layanan kami melarang pengunduhan konten YouTube tanpa izin,” ujar juru bicara Google, Matt Bryant.

Bryant juga menyatakan pihaknya akan mengambil tindakan hukum untuk mencegah praktik penggunaan YouTube secara ilegal seperti ini, bila sudah terbukti.

Google, menurut sumber dalam, sebenarnya juga sama seperti OpenAI, mengumpulkan data dengan cara transkrip video YouTube. Namun Bryant berdalih pihaknya memakai beberapa konten YouTube sesuai perjanjian antara YouTube dengan pembuat konten.

Lebih lanjut Google meminta tim privasi perusahaan untuk mengubah bahasa kebijakannya, guna memperluas kapasitas perusahaan terkait data konsumen, termasuk di layanan Google Docs. Kebijakan itu menurut The New York Times akan dipublikasikan pada 1 Juli mendatang.

Meta juga kesulitan

Tidak hanya OpenAI, berbagai perusahaan seperti Meta dan Google juga kabarnya sedang kesulitan mendapat data pelatihan untuk LLM-nya, khususnya untuk memperoleh data secara legal.

Tim AI Meta konon mempertimbangkan penggunaan karya ber-hak cipta tetapi tanpa izin demi mengejar kemampuan model OpenAI.

Namun setelah menelusur hampir semua buku, esai, puisi serta artikel berbahasa Inggris yang ada di internet, Meta kemungkinan akan memilih untuk membayar lisensi buku atau langsung membeli penerbit besar.

Sementara itu laporan Wall Street Journal (WSJ) menyebutkan bahwa jumlah data yang diserap berbagai perusahaan teknologi AI, akan melampaui jumlah konten baru pada tahun 2028.

Adapun solusi untuk menangani kendala itu, perusahaan harus melatih modelnya dengan data sintetis yang dibuat oleh model mereka sendiri. Praktik ini juga disebut sebagai “pembelajaran kurikulum”.

News Related

OTHER NEWS

Ketua TPN Minta Kampanye Ganjar-Mahfud Dipenuhi Lautan Manusia

Ketua Tim Pemenangan Nasional (TPN) Ganjar Presiden, Arsjad Rasjid ditemui di Jiexpo Kemayoran, Jakarta, Minggu (1/10/2023) sesaat sebelum penutupan Rakernas IV PDI-P. JAKARTA, KOMPAS.com – Ketua Tim Pemenangan Nasional (TPN) ... Read more »

Hasil Survei Terakhir Jelang Kampanye Capres 2024,Prabowo Unggul versi 5 Lembaga,Ganjar di LPI

TRIBUN-TIMUR.COM – Hasil survei terbaru lembaga survei calon presiden-wakil presiden RI jelang kampanye terbuka. Dari tujuh lembaga survei, dominan unggulkan Prabowo Subianto-Gibran Rakabuming. Ketiga pasangan calon presiden kini berebut elektabilitas ... Read more »

Pecahkan Banyak Rekor, Red Bull Harus Bayar Mahal Pendaftaran F1 2024

Tim yang bermarkas di Milton Keynes ini menampilkan salah satu performa paling dominan dalam sejarah F1 musim ini, dengan para pembalapnya memborong 21 kemenangan dari 22 balapan. Ia mengamankan kedua ... Read more »

PROMO Indomaret andamp Superindo Besok 29 November 2023: White Koffie Harga Khusus,Sensodyne Rp24.900

TRIBUN-BALI.COM – PROMO Indomaret & Superindo Besok 29 November 2023: White Koffie Harga Khusus, Sensodyne Rp24.900 Berikut ini adalah Katalog Promo Indomaret dan Superindo untuk besok hari Rabu, 29 November ... Read more »

Finsensius Mendrofa Masuk Tim Deputi Hukum TPN Ganjar - Mahfud, Begini Profilnya

Finsensius Mendrofa Masuk Tim Deputi Hukum TPN Ganjar – Mahfud, Begini Profilnya jpnn.com, JAKARTA – Pengacara Finsensius Mendrofa resmi ditunjuk menjadi Wakil Direktur Eksekutif Deputi Hukum Tim Pemenangan Nasional (TPN) ... Read more »

Indosat Caplok 300.000 Pelanggan MNC Play

Ilustrasi MNC Play KOMPAS.com – Operator seluler Indosat Ooredoo Hutchison (IOH atau Indosat) menyelesaikan proses akuisisi pelanggan PT MNC Kabel Mediacom (MNC Play) pada Senin (27/11/2023). Ada sebanyak 300.000 pelanggan ... Read more »

Pelawak Srimulat Eko Londo Meninggal Dunia, Sempat Alami Kecelakaan

Pelawak Srimulat Eko Londo Meninggal Dunia, Sempat Alami Kecelakaan Kabar duka datang dari dunia hiburan Tanah Air, Bunda. Pelawak yang tergabung di Srimulat, Eko Londo meninggal dunia di usia 66 ... Read more »
Top List in the World