Cili chatbot AI është më i miri në matematikën e thjeshtë? Gemini, ChatGPT dhe Grok nën testim.

Inteligjenca Artificiale (IA) po bëhet një pjesë e rëndësishme e jetës së përditshme, përfshirë këtu llogaritjet elementare. Sidoqoftë, një studim i fundit nga Omni Research on Calculation in AI (ORCA) sugjeron kujdes të madh në përdorimin e chatboteve të IA për matematikë. Në fakt, këto sisteme kanë një mundësi prej rreth 40% për të dhënë përgjigje të gabuara për llogaritje të zakonshme. Saktësia ndryshon në mënyrë të konsiderueshme midis kompanive të ndryshme dhe llojeve të ndryshme të detyrave matematikore.

Studimi vlerësoi pesë modele të IA-së, që fokusoheshin në 500 pyetje të marra nga situata reale llogariti. Modelet e testuara përfshijnë ChatGPT-5 (OpenAI), Gemini 2.5 Flash (Google), Claude 4.5 Sonnet (Anthropic), DeepSeek V3.2 (DeepSeek AI), dhe Grok-4 (xAI). E gjithë kjo u zhvillua në tetor 2025. Asnjë model nuk arriti të përmbushte një saktësi mbi 63%. Gemini doli në krye me 63%, por ende bëri gabime në rreth 40% të rasteve.

Performanca e modeleve ndryshon në kategori të ndryshme. Në matematikë dhe përkthime, Gemini ishte më i saktë me 83%, ndërsa në fizik, modelet patën rezultate të dobëta, me një saktësi mesatare vetëm 35.8%. DeepSeek regjistroi saktësinë më të ulët në biologji dhe kimikë me vetëm 10.6%.

Lexo edhe:

Lufta me Iranin/ SHBA dislokon forcat elitare në Lindjen e Mesme

Protesta në Portugali, studentët kërkojnë ulje tarifash dhe kushte më të mira të shkollimit

Ekspertët identifikuan katër kategori gabimesh që bëjnë modelet e IA-së. Gabimet “matematike” (68% e gabimeve) ndodhin kur IA-në e kupton pyetjen por gabon në përllogaritje. Gabimet e “logjikës” (26%) tregojnë se IA përballet me kuptimin e logjikës së problemit, ndërsa gabimet e “interpretimit” (5%) ndodhin kur IA keqkupton udhëzimin. Disa raste përfshijnë edhe “dorëheqje”, përkatësisht kur AI refuzon të përgjigjet.

Duke pasur parasysh këto rezultatet, përdoruesit duhet të jenë të kujdesshëm dhe gjithmonë të kontrollojnë përgjigjet me një kalkulator ose burime të verifikueshme. “Nëse detyra është kritike, përdorni kalkulatorë ose burime të provuara,” tha Dawid Siuda, bashkëautor i studimit.

Cili chatbot AI është më i miri në matematikën e thjeshtë? Gemini, ChatGPT dhe Grok nën testim.

Lufta me Iranin/ SHBA dislokon forcat elitare në Lindjen e Mesme

Protesta në Portugali, studentët kërkojnë ulje tarifash dhe kushte më të mira të shkollimit

Nga Kategoria

Lufta me Iranin/ SHBA dislokon forcat elitare në Lindjen e Mesme

Protesta në Portugali, studentët kërkojnë ulje tarifash dhe kushte më të mira të shkollimit

“Tërmet” në qeverinë Meloni/ Pas humbjes së referendumit, japin dorëheqjen zyrtarë të lartë

Na ndiqni

Të fundit

Sondazhi tregon se shqiptarët janë ndër më të gatshmit në NATO për të luftuar për vendin

Lufta me Iranin/ SHBA dislokon forcat elitare në Lindjen e Mesme

Griezmann prek tifozët e Atleticos me një letër emocionuese lamtumire

Zyrtare: Griezmann largohet nga Atletico Madrid dhe transferohet te Orlando City

Protesta në Portugali, studentët kërkojnë ulje tarifash dhe kushte më të mira të shkollimit

“Tërmet” në qeverinë Meloni/ Pas humbjes së referendumit, japin dorëheqjen zyrtarë të lartë

Gara për kreun e Policisë, gazetari: 4 kandidatë me vijë të kuqe nga SPAK

OBSH: Rriten rastet e kancerit kolorektal në Europë si pasojë e konsumit të alkoolit

Lexo sipas rubrikave

Na ndiqni

Welcome Back!

Retrieve your password