
Google Gemini: Najbolj zmogljiva UI
Google je pred kratkim razkril svojo konkurenco slavnemu ChatGPT, ki spada pod znamko OpenAI. Je nov program umetne inteligence, ki se uči vzorcev za ustvarjanje novih, kot so slike, besede in drugi mediji. Google je že predstavil tudi Barda, ki je slonel oziroma sloni zgolj na tekstovni izmenjavi. Zdaj Google to izboljšuje z modelom Gemini, pri katerem gre za multi-modalni model umetne inteligence. Kaj vse vemo o Google Gemini? Kako se Google Gemini primerja z GPT-4 in GPT-3.5? Več o umetni inteligenci pa smo že pisali tukaj.

Google Gemini je naš ponos, pravijo pri podjetju
»Vsak tehnološki premik je priložnost za napredek znanstvenih odkritij, pospešitev človeškega napredka in izboljšanje življenj. Verjamem, da bo prehod, ki smo mu trenutno priča z umetno inteligenco, najgloblji v naših življenjih, veliko večji od prehoda na mobilne naprave ali splet pred tem. UI ima potencial za ustvarjanje priložnosti – od vsakodnevnih do izjemnih – za ljudi širom sveta.
»Prinesel bo nove valove inovacij in gospodarskega napredka ter spodbudil znanje, učenje, ustvarjalnost in produktivnost v obsegu, kot ga še nismo videli. To je tisto, kar me navdušuje: priložnost, da UI pomaga vsem, povsod po svetu,« je povedal direktor Googla, Sundar Pichai.
Pichai je dodal, da je šlo za osemletno pot od nastanka njihovega prvega UI oddelka. Vendar pa procesa še niti približno ni konec.
V imenu ekipe Gemini je spregovoril tudi direktor in soustanovitelj Google DeepMind, Demis Hassabis. Pojasnil je, da je umetna inteligenca v središču njegovega življenjskega dela. Odkar je kot najstnik programiral umetno inteligenco za računalniške igre, se je z umetno inteligenco ukvarjal tudi kot nevroznanstveni raziskovalec.

Hassabis je vedno verjel, da lahko pametnejši stroji koristijo človeštvu na neverjeten način. Posebej je poudaril pomen obljube o svetu, ki ga odgovorno podpira umetna inteligenca.
Google DeepMind še naprej vodi razvoj te obljube. Hassabis je dodal, da so dolgo časa želeli zgraditi novo generacijo modelov umetne inteligence. Ta generacija naj bi bila navdihnjena s tem, kako ljudje razumejo svet in komunicirajo z njim. Cilj je ustvariti UI, ki je manj kot pameten kos programske opreme in bolj kot uporaben ter intuitiven strokovni pomočnik.

Google Gemini od A do Ž
Gemini je najbolj prilagodljiv model UI pri Googlu doslej – učinkovito naj bi deloval na vsem, od podatkovnih centrov do mobilnih naprav. Njegove najsodobnejše zmogljivosti naj bi znatno izboljšale način, kako razvijalci in poslovne stranke gradijo in širijo z UI.
Gemini 1.0, prvo različico, so optimizirali za tri različne velikosti:
- Ultra — največji in najzmogljivejši model za zelo zapletene naloge.
- Pro — najboljši model za prilagajanje širokemu spektru nalog.
- Nano — najučinkovitejši model za opravila v napravi.
Kot so pojasnili pri Googlu so modele Gemini strogo preizkušali in ocenjevali njihovo delovanje pri najrazličnejših nalogah. Od razumevanja naravne slike, zvoka in videa do matematičnega razmišljanja. Zmogljivost Gemini Ultra naj bi presegla trenutne najsodobnejše rezultate na 30 od 32 široko uporabljenih akademskih meril uspešnosti, ki se uporabljajo v raziskavah in razvoju velikih jezikovnih modelov (LLM).
Z rezultatom 90,0 % je Gemini Ultra prvi model, ki je prekašal človeške strokovnjake na področju MMLU (razumevanje množičnega večopravilnega jezika), ki uporablja kombinacijo 57 predmetov, kot so matematika, fizika, zgodovina, pravo, medicina in etika za testiranje obeh svetov. znanja in sposobnosti reševanja problemov.
Ta novi primerjalni pristop k MMLU omogoča Geminiju, da uporabi svoje zmožnosti razmišljanja za natančnejši premislek, preden odgovori na težka vprašanja, kar vodi do znatnih izboljšav v primerjavi s samo uporabo prvega vtisa.
Do tega trenutka je standardni pristop k ustvarjanju multimodalnih modelov vključeval usposabljanje ločenih komponent za različne modalitete in njihovo sestavljanje, da bi približno posnemali nekatere od teh funkcij. Ti modeli so lahko včasih dobri pri izvajanju določenih nalog, kot je opisovanje slik, vendar imajo težave z bolj konceptualnim in zapletenim sklepanjem.

Dobrodošli v obdobje Gemini
Google Gemini je bil zasnovan tako, da je izvorno multimodalen, že od samega začetka so ga usposabljali za različne modalitete. Natančno je bil prilagojen z dodatnimi multimodalnimi podatki, da bi še izboljšali njegovo učinkovitost. To pomaga Geminiju brezhibno razumeti in razmišljati o vseh vrstah vnosov od začetka, veliko bolje kot obstoječi multimodalni modeli — in njegove zmogljivosti so najsodobnejše na skoraj vseh področjih.

Sofisticirane multimodalne zmožnosti razmišljanja Gemini 1.0 lahko pomagajo razumeti kompleksne pisne in vizualne informacije. Zaradi tega je edinstveno usposobljen za odkrivanje znanja, ki ga je težko razločiti med ogromnimi količinami podatkov.

Njegova izjemna sposobnost pridobivanja vpogledov iz več sto tisoč dokumentov z branjem, filtriranjem in razumevanjem informacij bi lahko pripomogla k novim prebojem z digitalno hitrostjo na številnih področjih od znanosti do financ.
Gemini 1.0 je bil usposobljen za prepoznavanje in razumevanje besedila, slik, zvoka in drugega hkrati, tako da bolje razume niansirane informacije in lahko odgovarja na vprašanja v zvezi z zapletenimi temami. Zaradi tega je še posebej dober pri razlagi sklepanja pri zapletenih predmetih, kot sta matematika in fizika.
Kako se primerja s ChatGPT?
Nekakšen splošni zaključek, ki ga lahko sprejmemo s pomočjo Googlovega tehničnega poročila in drugih dosedanjih kvalitativnih testov je, da trenutna javno dostopna različica Gemini, imenovana Gemini 1.0 Pro, ni na nivoju GPT-4. Je pa po svojih zmogljivostih bolj podobna ChatGPT 3.5.
Kot smo omenili je Google napovedal tudi zmogljivejšo različico Geminija, imenovano Gemini 1.0 Ultra, in predstavil nekaj rezultatov, ki kažejo, da je zmogljivejša od GPT-4. Ali je to res, še ni jasno, saj Ultra še ni na voljo, podatke pa se da v trenutkih pred izdajo tudi optimizirati za lasten uspeh.
Najbolj zanimivi pa sta še dve reči, poleg jasnega napredka v Googlovi umetni inteligenci. To je napoved Google Gemini Nano, ki bo zmožen delovanja neposredno na mobilnih telefonih.
Na koncu koncev pa Google Gemini nakazuje nastanek velikega konkurenta, ki bo pomagal pognati področje UI naprej. Ker OpenAI skoraj zagotovo dela na GPT-5 lahko pričakujemo, da bo tudi ta multimodalen in bo pokazal izjemne nove zmogljivosti. Začela se je bitka, pri kateri bodo morali biti vsi vpleteni zelo pozorni in previdni.
Avtor: Žiga Kastelic, FOTO: google.com, medium.com