איפה האלגוריתם עוצר וההברקה מתחילה

ניסוי מחשבתי הבוחן את גבולות ה-Reasoning של מודלי שפה מול חשיבה אנושית

💡
מדד הניצוץ האנושי
74.81%
ערך מוסף של המוח האנושי מעל הממוצע של ה-AI
25.19%
אחוז הצלחת המכונה (משוקלל)

דירוג המודלים (כללי)

ChatGPT 20.36%
80 / 393 רמזים
Claude 12.98%
51 / 393 רמזים
Gemini 42.24%
166 / 393 רמזים

תשבצים