Introduzzjoni

Taħseb li Grok3 se jkun l-"endpoint" tal-mudelli mħarrġa minn qabel?

Elon Musk u t-tim tal-xAI nedew uffiċjalment l-aħħar verżjoni ta' Grok, Grok3, waqt xandir dirett. Qabel dan l-avveniment, ammont sinifikanti ta' informazzjoni relatata, flimkien mal-hype promozzjonali 24/7 ta' Musk, żiedu l-aspettattivi globali għal Grok3 għal livelli bla preċedent. Ġimgħa ilu biss, Musk stqarr b'kunfidenza waqt xandir dirett waqt li kkummenta dwar DeepSeek R1, "xAI wasal biex iniedi mudell ta' AI aħjar." Mid-dejta ppreżentata live, Grok3 allegatament qabeż il-mudelli mainstream attwali kollha fil-parametri referenzjarji għall-matematika, ix-xjenza, u l-ipprogrammar, b'Musk saħansitra jsostni li Grok3 se jintuża għal kompiti komputazzjonali relatati mal-missjonijiet ta' SpaceX fuq Mars, u jbassar "skoperti fil-livell tal-Premju Nobel fi żmien tliet snin." Madankollu, dawn bħalissa huma biss l-asserzjonijiet ta' Musk. Wara t-tnedija, ittestjajt l-aħħar verżjoni beta ta' Grok3 u staqsejt il-mistoqsija klassika ta' tfixkil għal mudelli kbar: "Liema hija akbar, 9.11 jew 9.9?" Sfortunatament, mingħajr ebda kwalifikanti jew marki, l-hekk imsejjaħ l-aktar intelliġenti Grok3 xorta ma setax iwieġeb din il-mistoqsija b'mod korrett. Grok3 naqas milli jidentifika b'mod preċiż it-tifsira tal-mistoqsija.

Dan it-test malajr ġibed attenzjoni konsiderevoli minn ħafna ħbieb, u b'kumbinazzjoni, diversi testijiet simili barra minn Malta wrew lil Grok3 jitħabat ma' mistoqsijiet bażiċi tal-fiżika/matematika bħal "Liema ballun jaqa' l-ewwel mit-Torri Inklinat ta' Pisa?" Għalhekk, ġie ttikkettat b'mod umoristiku bħala "ġenju li ma jridx iwieġeb mistoqsijiet sempliċi."

Grok3 huwa tajjeb, imma mhux aħjar minn R1 jew o1-Pro.

Grok3 esperjenza "fallimenti" f'ħafna testijiet tal-għarfien komuni fil-prattika. Matul l-avveniment tat-tnedija tal-xAI, Musk wera l-użu ta' Grok3 biex janalizza l-klassijiet u l-effetti tal-karattri mil-logħba Path of Exile 2, li huwa sostna li jilgħabha spiss, iżda ħafna mit-tweġibiet ipprovduti minn Grok3 ma kinux korretti. Musk matul ix-xandira diretta ma nnotax din il-kwistjoni ovvja.

Dan l-iżball mhux biss ipprovda aktar evidenza għan-netizens barranin biex jimpressjonaw lil Musk talli "sab sostitut" fil-logħob iżda qajjem ukoll tħassib sinifikanti dwar l-affidabbiltà ta' Grok3 f'applikazzjonijiet prattiċi. Għal "ġenju" bħal dan, irrispettivament mill-kapaċitajiet attwali tiegħu, l-affidabbiltà tiegħu f'xenarji ta' applikazzjoni estremament kumplessi, bħal kompiti ta' esplorazzjoni ta' Mars, tibqa' dubjuża.

Bħalissa, ħafna testers li rċevew aċċess għal Grok3 ġimgħat ilu, u dawk li għadhom kemm ittestjaw il-kapaċitajiet tal-mudell għal ftit sigħat ilbieraħ, kollha jindikaw konklużjoni komuni: "Grok3 huwa tajjeb, iżda mhux aħjar minn R1 jew o1-Pro."

Perspettiva Kritika dwar "It-Tfixkil ta' Nvidia"

Fil-PPT ippreżentat uffiċjalment waqt ir-rilaxx, Grok3 intwera li kien "ħafna 'l quddiem" fl-Arena taċ-Chatbot, iżda dan uża tekniki grafiċi b'mod intelliġenti: l-assi vertikali fuq il-klassifika elenka biss riżultati fil-medda ta' punteġġ ta' 1400-1300, u b'hekk id-differenza oriġinali ta' 1% fir-riżultati tat-test tidher eċċezzjonalment sinifikanti f'din il-preżentazzjoni.

Fir-riżultati attwali tal-punteġġ tal-mudell, Grok3 huwa biss 1-2% 'il quddiem minn DeepSeek R1 u GPT-4.0, li jikkorrispondi mal-esperjenzi ta' ħafna utenti f'testijiet prattiċi li ma sabu "l-ebda differenza notevoli." Grok3 jaqbeż lis-suċċessuri tiegħu biss b'1%-2%.

Għalkemm Grok3 kiseb punteġġ ogħla mill-mudelli kollha li bħalissa huma ttestjati pubblikament, ħafna ma jiħdux dan bis-serjetà: wara kollox, l-xAI ġiet ikkritikata qabel għal "manipulazzjoni tal-punteġġ" fl-era Grok2. Hekk kif il-klassifika penalizzat l-istil tat-tul tat-tweġibiet, il-punteġġi naqsu ħafna, u dan wassal biex dawk minn ġewwa l-industrija spiss jikkritikaw il-fenomenu ta' "punteġġ għoli iżda kapaċità baxxa".

Kemm jekk permezz ta’ “manipulazzjoni” tal-klassifika jew tricks tad-disinn fl-illustrazzjonijiet, dawn jikxfu l-xAI u l-ossessjoni ta’ Musk bl-idea li “jmexxi l-grupp” fil-kapaċitajiet tal-mudelli. Musk ħallas prezz għoli għal dawn il-marġini: waqt it-tnedija, ftaħar li uża 200,000 GPU H100 (u sostna li uża “aktar minn 100,000” waqt ix-xandira diretta) u li kiseb ħin totali ta’ taħriġ ta’ 200 miljun siegħa. Dan wassal lil xi wħud biex jemmnu li jirrappreżenta barka sinifikanti oħra għall-industrija tal-GPU u biex iqisu l-impatt ta’ DeepSeek fuq is-settur bħala “bluha.” Ta’ min jinnota li xi wħud jemmnu li l-qawwa komputazzjonali se tkun il-futur tat-taħriġ tal-mudelli.

Madankollu, xi utenti tan-netwerk qabblu l-konsum ta' 2000 GPU H800 fuq xahrejn biex jipproduċu DeepSeek V3, u kkalkulaw li l-konsum attwali tal-enerġija tat-taħriġ ta' Grok3 huwa 263 darba dak ta' V3. Id-differenza bejn DeepSeek V3, li kiseb 1402 punt, u Grok3 hija ftit inqas minn 100 punt. Wara r-rilaxx ta' din id-dejta, ħafna malajr indunaw li wara t-titlu ta' Grok3 bħala "l-aktar b'saħħitha fid-dinja" hemm effett ċar ta' utilità marġinali—il-loġika ta' mudelli akbar li jiġġeneraw prestazzjoni aktar b'saħħitha bdiet turi qligħ dejjem jonqos.

Anke b'"punteġġ għoli iżda kapaċità baxxa," Grok2 kellu ammonti vasti ta' dejta first-party ta' kwalità għolja mill-pjattaforma X (Twitter) biex jappoġġja l-użu. Madankollu, fit-taħriġ ta' Grok3, xAI naturalment iltaqa' mal-"limitu" li OpenAI bħalissa qed tiffaċċja—in-nuqqas ta' dejta ta' taħriġ premium jesponi malajr l-utilità marġinali tal-kapaċitajiet tal-mudell.

L-iżviluppaturi ta’ Grok3 u Musk x’aktarx huma l-ewwel li jifhmu u jidentifikaw dawn il-fatti fil-fond, u huwa għalhekk li Musk kontinwament semma fuq il-midja soċjali li l-verżjoni li l-utenti qed jesperjenzaw issa “għadha biss il-beta” u li “l-verżjoni sħiħa se tiġi rilaxxata fix-xhur li ġejjin.” Musk ħa r-rwol ta’ product manager ta’ Grok3, u ssuġġerixxa li l-utenti jipprovdu feedback dwar diversi kwistjonijiet li jiltaqgħu magħhom fit-taqsima tal-kummenti. Jista’ jkun l-aktar product manager segwit fid-Dinja.

Madankollu, fi żmien ġurnata, il-prestazzjoni ta' Grok3 bla dubju qajmet allarm għal dawk li jittamaw li jiddependu fuq "muskolu komputazzjonali massiv" biex iħarrġu mudelli kbar aktar b'saħħithom: ibbażat fuq informazzjoni pubblikament disponibbli minn Microsoft, il-GPT-4 ta' OpenAI għandu daqs ta' parametru ta' 1.8 triljun parametru, aktar minn għaxar darbiet dak tal-GPT-3. Xnigħat jissuġġerixxu li d-daqs tal-parametru tal-GPT-4.5 jista' jkun saħansitra akbar.

Hekk kif id-daqsijiet tal-parametri tal-mudell jiżdiedu, l-ispejjeż tat-taħriġ ukoll qed jiżdiedu b'mod drammatiku. Bil-preżenza ta' Grok3, kontendenti bħal GPT-4.5 u oħrajn li jixtiequ jkomplu "jaħrqu l-flus" biex jiksbu prestazzjoni aħjar tal-mudell permezz tad-daqs tal-parametri għandhom jikkunsidraw il-limitu li issa jidher b'mod ċar u jikkontemplaw kif jegħlbuh. F'dan il-mument, Ilya Sutskever, eks xjenzat ewlieni f'OpenAI, kien iddikjara qabel f'Diċembru li għadda, "It-taħriġ minn qabel li aħna familjari miegħu se jintemm," li reġa' ħareġ fid-diskussjonijiet, u wassal għal sforzi biex tinstab it-triq vera għat-taħriġ ta' mudelli kbar.

Il-perspettiva ta' Ilya ġibdet l-allarm fl-industrija. Huwa bassar b'mod preċiż l-eżawriment imminenti tad-dejta ġdida aċċessibbli, li twassal għal sitwazzjoni fejn il-prestazzjoni ma tistax tkompli tittejjeb permezz tal-akkwist tad-dejta, u xebbahha mal-eżawriment tal-fjuwils fossili. Huwa indika li "bħaż-żejt, il-kontenut iġġenerat mill-bniedem fuq l-internet huwa riżorsa limitata." Fit-tbassir ta' Sutskever, il-ġenerazzjoni li jmiss ta' mudelli, wara t-taħriġ minn qabel, se jkollha "awtonomija vera" u kapaċitajiet ta' raġunament "simili għall-moħħ tal-bniedem."

B'differenza mill-mudelli mħarrġa minn qabel tal-lum li jiddependu primarjament fuq it-tqabbil tal-kontenut (ibbażat fuq il-kontenut tal-mudell li tgħallem qabel), is-sistemi tal-IA futuri se jkunu jistgħu jitgħallmu u jistabbilixxu metodoloġiji biex isolvu l-problemi b'mod simili għall-"ħsieb" tal-moħħ tal-bniedem. Bniedem jista' jikseb profiċjenza fundamentali f'suġġett b'letteratura professjonali bażika biss, filwaqt li mudell kbir tal-IA jeħtieġ miljuni ta' punti tad-dejta biex jikseb biss l-aktar effikaċja bażika fil-livell tad-dħul. Anke meta l-kliem jinbidel xi ftit, dawn il-mistoqsijiet fundamentali jistgħu ma jinftiehmux sew, u dan juri li l-mudell ma tjiebx ġenwinament fl-intelliġenza: il-mistoqsijiet bażiċi iżda mhux solvuti msemmija fil-bidu tal-artiklu jirrappreżentaw eżempju ċar ta' dan il-fenomenu.

Konklużjoni

Madankollu, lil hinn mill-forza bruta, jekk Grok3 tabilħaqq jirnexxilu jiżvela lill-industrija li "mudelli mħarrġa minn qabel qed joqorbu lejn it-tmiem tagħhom," dan ikollu implikazzjonijiet sinifikanti għall-qasam.

Forsi wara li l-frenżija madwar Grok3 tonqos gradwalment, se naraw aktar każijiet bħall-eżempju ta' Fei-Fei Li ta' "rfinar ta' mudelli ta' prestazzjoni għolja fuq sett ta' dejta speċifiku għal $50 biss," u fl-aħħar mill-aħħar jiskopru t-triq vera lejn l-AGI.