The AI revolution
Re: The AI revolution
LVMs tiek atsaukts pēc pretpirātisma grupas juridiskā spiediena
2025. gada 28. janvāris, Ernesto Van der Sārs
Mākslīgais intelekts
Autortiesību aizsargātu materiālu izmantošana lielu valodu modeļu (LVMs) apmācībā ir izraisījusi juridiskas cīņas un paziņojumus par satura noņemšanu. Nīderlandē pretpirātisma grupa BREIN uzņemas atbildību par populārā LVMs “GEITje” piespiešanu bezsaistē, kas daļēji tika apmācīts, izmantojot autortiesību aizsargātus tekstus. Izstrādātājs ne vienmēr piekrita BREIN, taču viņam trūka resursu, lai cīnītos pret to.
Mākslīgā intelekta attīstība turpina strauji progresēt. Tas ietver darbu pie lieliem valodu modeļiem (LVMs), kas parasti tiek apmācīti, izmantojot plašus tekstu datu kopumus.
Šīs tehnoloģijas sola nepārspējamu progresu, kas varētu sniegt labumu visai sabiedrībai. Tomēr, neskatoties uz plaši atzīto potenciālu, joprojām pastāv ievērojamas bažas raisošas jomas.
Tagad ir plaši zināms, ka daudzi tiesību zinātņu maģistranti (LVMs) tika apmācīti darbā ar datu kopām, kas satur ar autortiesībām aizsargātu saturu. Tas ir novedis pie daudzām sūdzībām un augsta līmeņa tiesas prāvām, un tādi uzņēmumi kā OpenAI , Google, Meta , Microsoft un NVIDIA saskaras ar apsūdzībām autortiesību pārkāpumos.
Tiesas galu galā izlems, vai tiesību īpašniekiem ir likumīgas autortiesību prasības vai arī tehnoloģiju uzņēmumi patiešām var paļauties uz "taisnīgas izmantošanas" aizstāvību. Visticamāk, paies daudzi gadi, līdz tiks pieņemts galīgais lēmums, tāpēc līdz tam laikam tiesību īpašnieki dara visu iespējamo, lai novērstu turpmākus pārkāpumus.
“Book3”
Sākotnēji ievērojamu uzmanību piesaistīja Books3 datu kopa, ko izmantoja daudzu populāru tiesību zinātņu maģistru (LVMs) apmācībai. Datu kopu 2020. gadā apkopoja mākslīgā intelekta pētnieks Šons Presers, izmantojot pirātu vietnes Bibliotik bibliotēku.
Grāmata Books3 tika plaši izplatīta tiešsaistē un iekļauta citās datubāzēs, tostarp “The Pile” — mākslīgā intelekta apmācības datu kopā, ko apkopojis EleutherAI. Šī prakse gadiem ilgi lielākoties netika apstrīdēta, taču, kad mākslīgais intelekts ienāca plašākā apritē, autortiesību pārkāpumu skaits pieauga.
Autortiesību īpašnieku un pirātisma apkarošanas grupu spiediena dēļ Books3 tika noņemts no daudzām tiešsaistes platformām autortiesību pārkāpumu dēļ. Dānijas pirātisma apkarošanas grupa Rights Alliance vadīja vairākas no šīm noņemšanas darbībām, vienlaikus raksturojot ar mākslīgo intelektu saistītus pārkāpumus kā nopietnu problēmu.
“Mums ir liels uzdevums, atklājot un likvidējot nelegālas apmācības datu kopas, piemēram, Books3, kā arī risinot jautājumu par mākslīgo intelektu, kas jau ir apmācīts darbā ar nelegālu saturu un tagad izplatās internetā,” iepriekš sacīja Tiesību alianses direktore Marija Fredenslunda.
BREIN pret GEITje LVMs
Turpmākajos mēnešos centieni noņemt saturu turpinājās. Jāatzīmē, ka šie centieni paplašinājās līdz pat datu kopām, kas saturēja pilnīgas grāmatas, vēršoties arī pret modeļiem , kas apmācīti ar šiem datiem.
Nīderlandes pretpirātisma grupa BREIN ir aktīvi darbojusies šajā jomā un paziņojusi, ka viņu centienu rezultātā tika pārtraukta viena no lielākajām Nīderlandes tiesību zinātņu maģistrantēm " GEITje-7B ".
Šī LVMs programma tika apmācīta, izmantojot “Gigacorpus” — grāmatu un tekstu datu kopu, uz kuru iepriekš bija vērsies BREIN, tostarp plašu holandiešu tekstu un grāmatu kolekciju, no kurām dažas saturēja ar autortiesībām aizsargātu materiālu, kas iegūts no ēnu bibliotēkas LibGen.
“Mēs novērojam pasaules mēroga tendenci, ka mākslīgā intelekta modeļu veidotāji maz vai nemaz neievēro autortiesības,” raksta BREIN.
“Acīmredzot, tiek uzskatīts, ka visa uzmanība, laiks un nauda, ko veidotāji un mediju uzņēmumi ieguldījuši autortiesību aizsargātos darbos, ir mazāk svarīga nekā mākslīgā intelekta modeļi,” piebilst grupa .
Savā aizstāvībā LVMs autors atsaucās uz autortiesību izņēmumiem attiecībā uz teksta un datu ieguvi zinātniskiem mērķiem. Tomēr BREIN apgalvoja, ka Eiropas Mākslīgā intelekta likums nosaka likumīgi iegūta satura izmantošanu kā ievades datus mākslīgā intelekta modeļiem.
Šīs domstarpības netika izskatītas tiesā. LVMs izstrādātājiem trūkst līdzekļu, lai risinātu šo jautājumu tiesā, tāpēc viņi pieņēma lēmumu brīvprātīgi pārtraukt GEITje darbību.
Brīvprātīga slēgšana
Mašīnmācīšanās inženieris Edvins Reigersbergs izstrādāja GEITje LVMs kā hobiju. Lai gan 7 miljardu parametru modelis kļuva diezgan populārs, viņš nav tādā situācijā, lai iesniegtu juridisku iebildumu.
Reigersbergs iepriekš konsultējās ar autortiesību ekspertiem, kuri viņu informēja, ka jautājums nav tik melnbalts, kā to attēlo daži tiesību īpašnieki. Tomēr tiesas prāva būtu dārga.
“Es nevaru atļauties iesaistīties ilgā un dārgā tiesvedībā, lai atrisinātu šos jautājumus. Galu galā GEITje bija nekomerciāls, zinātnisks hobiju projekts. Šī iemesla dēļ es izpildu BREIN lūgumu,” norāda Rijgersbergs .
Lai gan BREIN uzsver autortiesību aizsardzības nozīmi, GEITje izstrādātājam joprojām ir cerība uz atvērtā koda AI ainavu holandiešu valodā.
“Manuprāt, Eiropas mākslīgā intelekta nākotne joprojām ir atvērtā pirmkoda mākslīgais intelekts. Tikai tad, kad mākslīgo intelektu varēs brīvi izmantot, ikviens to varēs pētīt un tas būs brīvi pieejams modificēšanai un koplietošanai jebkādiem mērķiem, mēs patiesi varēsim runāt par suverēnu mākslīgo intelektu.”
Lai gan GEITje neatgriezīsies, Rijgersbergs uzsver, ka tagad sabiedrībai ir pieejamas daudzas citas Nīderlandes tiesību zinātnes (LVMs). Šie modeļi tiek apmācīti, izmantojot dažādus datu kopumus, kuros var būt vai nebūt ar autortiesībām aizsargāts materiāls.
2025. gada 28. janvāris, Ernesto Van der Sārs
Mākslīgais intelekts
Autortiesību aizsargātu materiālu izmantošana lielu valodu modeļu (LVMs) apmācībā ir izraisījusi juridiskas cīņas un paziņojumus par satura noņemšanu. Nīderlandē pretpirātisma grupa BREIN uzņemas atbildību par populārā LVMs “GEITje” piespiešanu bezsaistē, kas daļēji tika apmācīts, izmantojot autortiesību aizsargātus tekstus. Izstrādātājs ne vienmēr piekrita BREIN, taču viņam trūka resursu, lai cīnītos pret to.
Mākslīgā intelekta attīstība turpina strauji progresēt. Tas ietver darbu pie lieliem valodu modeļiem (LVMs), kas parasti tiek apmācīti, izmantojot plašus tekstu datu kopumus.
Šīs tehnoloģijas sola nepārspējamu progresu, kas varētu sniegt labumu visai sabiedrībai. Tomēr, neskatoties uz plaši atzīto potenciālu, joprojām pastāv ievērojamas bažas raisošas jomas.
Tagad ir plaši zināms, ka daudzi tiesību zinātņu maģistranti (LVMs) tika apmācīti darbā ar datu kopām, kas satur ar autortiesībām aizsargātu saturu. Tas ir novedis pie daudzām sūdzībām un augsta līmeņa tiesas prāvām, un tādi uzņēmumi kā OpenAI , Google, Meta , Microsoft un NVIDIA saskaras ar apsūdzībām autortiesību pārkāpumos.
Tiesas galu galā izlems, vai tiesību īpašniekiem ir likumīgas autortiesību prasības vai arī tehnoloģiju uzņēmumi patiešām var paļauties uz "taisnīgas izmantošanas" aizstāvību. Visticamāk, paies daudzi gadi, līdz tiks pieņemts galīgais lēmums, tāpēc līdz tam laikam tiesību īpašnieki dara visu iespējamo, lai novērstu turpmākus pārkāpumus.
“Book3”
Sākotnēji ievērojamu uzmanību piesaistīja Books3 datu kopa, ko izmantoja daudzu populāru tiesību zinātņu maģistru (LVMs) apmācībai. Datu kopu 2020. gadā apkopoja mākslīgā intelekta pētnieks Šons Presers, izmantojot pirātu vietnes Bibliotik bibliotēku.
Grāmata Books3 tika plaši izplatīta tiešsaistē un iekļauta citās datubāzēs, tostarp “The Pile” — mākslīgā intelekta apmācības datu kopā, ko apkopojis EleutherAI. Šī prakse gadiem ilgi lielākoties netika apstrīdēta, taču, kad mākslīgais intelekts ienāca plašākā apritē, autortiesību pārkāpumu skaits pieauga.
Autortiesību īpašnieku un pirātisma apkarošanas grupu spiediena dēļ Books3 tika noņemts no daudzām tiešsaistes platformām autortiesību pārkāpumu dēļ. Dānijas pirātisma apkarošanas grupa Rights Alliance vadīja vairākas no šīm noņemšanas darbībām, vienlaikus raksturojot ar mākslīgo intelektu saistītus pārkāpumus kā nopietnu problēmu.
“Mums ir liels uzdevums, atklājot un likvidējot nelegālas apmācības datu kopas, piemēram, Books3, kā arī risinot jautājumu par mākslīgo intelektu, kas jau ir apmācīts darbā ar nelegālu saturu un tagad izplatās internetā,” iepriekš sacīja Tiesību alianses direktore Marija Fredenslunda.
BREIN pret GEITje LVMs
Turpmākajos mēnešos centieni noņemt saturu turpinājās. Jāatzīmē, ka šie centieni paplašinājās līdz pat datu kopām, kas saturēja pilnīgas grāmatas, vēršoties arī pret modeļiem , kas apmācīti ar šiem datiem.
Nīderlandes pretpirātisma grupa BREIN ir aktīvi darbojusies šajā jomā un paziņojusi, ka viņu centienu rezultātā tika pārtraukta viena no lielākajām Nīderlandes tiesību zinātņu maģistrantēm " GEITje-7B ".
Šī LVMs programma tika apmācīta, izmantojot “Gigacorpus” — grāmatu un tekstu datu kopu, uz kuru iepriekš bija vērsies BREIN, tostarp plašu holandiešu tekstu un grāmatu kolekciju, no kurām dažas saturēja ar autortiesībām aizsargātu materiālu, kas iegūts no ēnu bibliotēkas LibGen.
“Mēs novērojam pasaules mēroga tendenci, ka mākslīgā intelekta modeļu veidotāji maz vai nemaz neievēro autortiesības,” raksta BREIN.
“Acīmredzot, tiek uzskatīts, ka visa uzmanība, laiks un nauda, ko veidotāji un mediju uzņēmumi ieguldījuši autortiesību aizsargātos darbos, ir mazāk svarīga nekā mākslīgā intelekta modeļi,” piebilst grupa .
Savā aizstāvībā LVMs autors atsaucās uz autortiesību izņēmumiem attiecībā uz teksta un datu ieguvi zinātniskiem mērķiem. Tomēr BREIN apgalvoja, ka Eiropas Mākslīgā intelekta likums nosaka likumīgi iegūta satura izmantošanu kā ievades datus mākslīgā intelekta modeļiem.
Šīs domstarpības netika izskatītas tiesā. LVMs izstrādātājiem trūkst līdzekļu, lai risinātu šo jautājumu tiesā, tāpēc viņi pieņēma lēmumu brīvprātīgi pārtraukt GEITje darbību.
Brīvprātīga slēgšana
Mašīnmācīšanās inženieris Edvins Reigersbergs izstrādāja GEITje LVMs kā hobiju. Lai gan 7 miljardu parametru modelis kļuva diezgan populārs, viņš nav tādā situācijā, lai iesniegtu juridisku iebildumu.
Reigersbergs iepriekš konsultējās ar autortiesību ekspertiem, kuri viņu informēja, ka jautājums nav tik melnbalts, kā to attēlo daži tiesību īpašnieki. Tomēr tiesas prāva būtu dārga.
“Es nevaru atļauties iesaistīties ilgā un dārgā tiesvedībā, lai atrisinātu šos jautājumus. Galu galā GEITje bija nekomerciāls, zinātnisks hobiju projekts. Šī iemesla dēļ es izpildu BREIN lūgumu,” norāda Rijgersbergs .
Lai gan BREIN uzsver autortiesību aizsardzības nozīmi, GEITje izstrādātājam joprojām ir cerība uz atvērtā koda AI ainavu holandiešu valodā.
“Manuprāt, Eiropas mākslīgā intelekta nākotne joprojām ir atvērtā pirmkoda mākslīgais intelekts. Tikai tad, kad mākslīgo intelektu varēs brīvi izmantot, ikviens to varēs pētīt un tas būs brīvi pieejams modificēšanai un koplietošanai jebkādiem mērķiem, mēs patiesi varēsim runāt par suverēnu mākslīgo intelektu.”
Lai gan GEITje neatgriezīsies, Rijgersbergs uzsver, ka tagad sabiedrībai ir pieejamas daudzas citas Nīderlandes tiesību zinātnes (LVMs). Šie modeļi tiek apmācīti, izmantojot dažādus datu kopumus, kuros var būt vai nebūt ar autortiesībām aizsargāts materiāls.