Antradienį „Vikimedijos“ fondas paskelbė, kad dėl nepaliaujamo dirbtinio intelekto naudojimo „Vikipedijos“ serveriams tenka didelis krūvis. Automatiniai robotai, ieškantys dirbtinio intelekto modelių mokymo duomenų LLM, siurbia terabaitus duomenų, todėl nuo 2024 m. sausio mėn. 50 proc. padidėjo fondo duomenų srauto pralaidumas, naudojamas daugialypės terpės turiniui atsisiųsti. Kaip jau anksčiau išsamiai aprašėme, šis scenarijus pažįstamas visai laisvosios ir atvirosios programinės įrangos (FOSS) bendruomenei.
Fondas talpina ne tik „Vikipediją“, bet ir tokias platformas kaip „Wikimedia Commons“, kurioje pagal atvirąsias licencijas siūloma 144 mln. medijos failų. Jau dešimtmečius šis turinys naudojamas visur – nuo paieškos rezultatų iki mokyklinių projektų. Tačiau nuo 2024 m. pradžios dirbtinio intelekto bendrovės smarkiai padidino automatizuotą informacijos nuskaitymą, naudodamos tiesioginį nuskaitymą, API ir masinį atsisiuntimą, kad pamaitintų savo alkanus dirbtinio intelekto modelius. Šis eksponentinis ne žmogaus duomenų srauto augimas lėmė dideles technines ir finansines sąnaudas – dažnai nenurodant autorystės, kuri padeda palaikyti „Vikimedijos“ savanorių ekosistemą.
Poveikis nėra teorinis. Fondas teigia, kad kai 2024 m. gruodį mirė buvęs JAV prezidentas Jimmy Carteris, jo puslapis Vikipedijoje sulaukė milijonų peržiūrų. Tačiau tikrasis stresas kilo, kai naudotojai vienu metu transliavo 1,5 valandos trukmės 1980 m. debatų vaizdo įrašą iš „Wikimedia Commons“. Šis srautas padvigubino įprastą Vikimedijos tinklo duomenų srautą ir laikinai maksimaliai apkrovė kelias jos interneto jungtis. Vikimedijos inžinieriai greitai nukreipė srautą, kad sumažintų perkrovą, tačiau šis įvykis atskleidė gilesnę problemą: bazinį duomenų srauto pralaidumą jau buvo sunaudoję daugiausiai robotai, kurie masiškai iškrapštinėjo žiniasklaidą.
Vikimedijos vidiniai duomenys paaiškina, kodėl toks duomenų srautas taip brangiai kainuoja atviriesiems projektams. Skirtingai nei žmonės, kurie linkę peržiūrėti populiarius ir dažnai talpinamus straipsnius, botai naršo neaiškius ir mažiau lankomus puslapius, todėl pagrindiniai „Wikimedia“ duomenų centrai priversti juos aptarnauti tiesiogiai. Spartinančiosios spartinimo sistemos, sukurtos nuspėjamam žmonių naršymo elgesiui, neveikia, kai botai beatodairiškai skaito visą archyvą.
Dėl to „Wikimedia“ nustatė, kad botai sudaro 65 proc. brangiausių užklausų pagrindinei infrastruktūrai, nors jie sudaro tik 35 proc. visų puslapių peržiūrų. Ši asimetrija yra pagrindinė techninė įžvalga: boto užklausa kainuoja daug daugiau nei žmogaus užklausa, ir ji greitai kaupiasi.