Zakaj je ta primerjava sploh pomembna
Generativni AI se iz iskalnega “najdi strani” premika v “napiši mi odgovor”. Za bralce to pomeni hitrejši vpogled, za biznis boljše procese, za okolje pa novo vprašanje: kolikšna je dejanska poraba energije na tak odgovor v primerjavi s klasičnim Googlovim iskanjem? Razumevanje tega razmerja pomaga pri zrelih odločitvah: kdaj AI res prinese vrednost in kdaj je bolje ostati pri iskanju ali bolj preprostih modelih.
Kako nastane poraba pri klasičnem iskanju
Pri iskanju brskalnik pošlje kratek zahtevek do podatkovnih centrov, kjer se sproži ujemanje z že pripravljenimi indeksi in keši. Velik del dela je narejen vnaprej (indeksiranje spleta), zato je inferenčni del posamezne poizvedbe relativno kratek in energijsko skromen. Tipično govorimo o delčku vatne ure (približno ~0,3 Wh na poizvedbo), pri čemer je varianca majhna — večina poizvedb je podobno »lahkih«.
Zakaj je generativni AI lahko dražji
LLM ne vrača povezav, temveč generira besedilo. To zahteva:
- Več izračunov na token (vsaka nova beseda je rezultat matrik in pozornosti nad kontekstom).
- Več konteksta (daljši pozivi → več tokenov → več ciklov).
- Multimodalnost (slika, zvok, video) in predvsem “reasoning” naloge, kjer model sklepa v več korakih.
- Manj keširanja rezultatov (odgovori so unikatni), zato je manj ponovnih zadetkov kot pri iskanju.
Skupaj to pomeni, da se lahko poraba hitro dvigne — včasih ostane primerljiva z iskanjem, včasih pa je reda velikosti višja.
Poštena primerjava po scenarijih
Spodaj so okvirni razponi za porabo energije na posamezen odgovor/poizvedbo. Številke so za orientacijo (ne vključujejo nujno vseh elementov infrastrukture), a pokažejo razlike med nalogami.
Scenarij | Značilna poraba (Wh na odgovor) | Opomba |
---|---|---|
Klasično iskanje (Google) | ~0,3 | Kratek, standardiziran postopek preko indeksov/kešev. |
AI: kratek besedilni poziv | ~0,24–0,3 | Današnji optimizirani sistemi so lahko primerljivi z iskanjem. Google Cloud |
AI: “reasoning”/daljši odgovor | ~5 in več | Število tokenov in večkorakovno sklepanje dvigneta porabo. iea.blob.core.windows.net |
AI: slika → generacija/analiza | ~1–2 | Slike so izrazito dražje od besedila. iea.blob.core.windows.net |
AI: kratek video → generacija | ~100+ | Primer: ~115 Wh za ~6 s videa. iea.blob.core.windows.net |
Kaj si zapomniti: pri kratkih besedilnih nalogah je AI lahko v rangu iskanja, pri kompleksnih in multimodalnih pa zlahka skoči na 10× ali več.
Kaj najbolj vpliva na porabo v praksi
- Dolžina poziva in odgovora: več tokenov = več izračunov.
- Izbira modela: manjši/optimizirani modeli so bistveno varčnejši od ogromnih “reasoning” modelov.
- Način uporabe: batchiranje več vprašanj, ponovna raba konteksta (cache), izogibanje nepotrebnemu generiranju slik/videa.
- Infrastruktura: novejši pospeševalniki, boljša orkestracija in nizko-ogljični tok (kjer/ko je na voljo) zmanjšajo odtis.
Kako zmanjšati svoj odtis
Za uporabnike
- Za začetek vprašaj kratko in konkretno; prosi za jedrnat odgovor.
- Slike/video generiraj samo, ko prinesejo dodatno vrednost.
Za razvijalce/produkte
- Default na manjše modele; večje in “reasoning” vključuj pogojno (feature flags).
- Uporabi caching delnih rezultatov in batching zahtevkov.
- Uvedi omejitve dolžine (max tokens), prirezuj kontekst, uporabljaj retrieval namesto slepega nalaganja velikih navodil.
- Sprotno merjenje porabe (telemetrija) in prilagajanje parametrov (temperature, max tokens).
Za podjetja/IT
- Usmerjaj naloge v čas/območja z več nizko-ogljične energije.
- Razmisli o kvantizaciji/distilaciji internih modelov in pravilih za varčno rabo (npr. “no-image-by-default”).
Pogosta vprašanja in miti
Ali je AI vedno 10× bolj požrešen od Googla?
Ne. Pri kratkih besedilnih pozivih je danes lahko primerljiv z iskanjem; razlika eksplodira pri zahtevnosti (reasoning, slike, video).
Ali več manjših pozivov porabi manj kot en dolg?
Ne nujno. Če vsak poziv vklopi velik model in dolg kontekst, je lahko en dobro zasnovan daljši poziv učinkovitejši.
Ali “zeleni” vtiči rešijo vse?
Pomagajo, vendar učinkovitost na izvoru (model, poziv, arhitektura) ostaja ključna. Manjša poraba je vedno boljša od kasnejšega “upravičevanja”.
Zaključek
AI ni inherentno “energetski pošrešek” niti “brezplačna čarovnija”. Kontekst naloge je tisti, ki spekter raztegne od primerljive porabe z iskanjem (kratek tekst) do reda velikosti višje (reasoning, slike, video). Če želiš dobre rezultate z majhnim odtisom, optimiziraj model, poziv in pot — in premisli, ali je za dano nalogo generativni odgovor res najboljša izbira.
Viri (za ključne številke):
- Google Cloud: Measuring the environmental impact of AI inference (mediana ~0,24 Wh na besedilni poziv). Google Cloud
- IEA: Energy and AI (primerjalni razponi za tekst/sliko/video, npr. ~115 Wh za kratek video). iea.blob.core.windows.net