Det finns en överskattning av stora språkmodellers resonemangsförmåga

En ny studie från MIT:s Computer Science and Artificial Intelligence Laboratory (CSAIL) har belyst hur stora språkmodeller (LLM) excellerar i bekanta scenarier men kämpar i nya situationer, vilket ifrågasätter deras verkliga resonemangsförmågor jämfört med beroendet av memorisering. Denna insikt är avgörande för att förbättra dessa modellers anpassningsförmåga och utvidga deras tillämpningsområden.Studien jämförde ”standarduppgifter” de vanliga uppgifterna som en modell tränas och testas på, med ”kontrafaktiska scenarier”, hypotetiska situationer som avviker från standardförhållandena. Forskarna utvecklade tester utanför modellernas komfortzon genom att justera befintliga uppgifter snarare än att skapa helt nya. De använde en mängd olika datamängder och benchmarktester specifikt anpassade för olika aspekter av modellernas förmågor, såsom aritmetik, schack, kodutvärdering, svar på logiska frågor och mer.Resultaten visade att dessa modeller inte är lika robusta som många initialt tror. Deras höga prestanda begränsas till vanliga uppgiftsvarianter och lider av konsekvent och allvarlig prestandafall i de obekanta kontrafaktiska scenarierna, vilket indikerar en brist på generaliserbar additionsförmåga. Mönstret gällde även för andra uppgifter som musikalisk ackordgrepp, rumsligt resonemang och till och med schackproblem där pjäsarnas utgångspositioner var något ändrade. Medan mänskliga spelare förväntas kunna avgöra lagligheten av drag i ändrade scenarier (givet tillräckligt med tid), kämpade modellerna och kunde inte prestera bättre än slumpmässiga gissningar, vilket innebär att de har begränsad förmåga att generalisera till obekanta situationer.Dessa insikter är viktiga eftersom de kan informera om utformningen av framtida LLM med förbättrad robusthet. Trots de vunna insikterna finns det naturligtvis begränsningar. Studiens fokus på specifika uppgifter och inställningar fångade inte upp det fulla spektret av utmaningar modellerna potentiellt kan stöta på i verkliga applikationer, vilket signalerar behovet av mer mångsidiga testmiljöer. Framtida arbete kan innebära att utvidga området för uppgifter och kontrafaktiska villkor för att avslöja fler potentiella svagheter.

Related Articles

Latest Articles