איפה האלגוריתם עוצר וההברקה מתחילה

ניסוי מחשבתי הבוחן את גבולות ה-Reasoning של מודלי שפה מול חשיבה אנושית

💡
מדד הניצוץ האנושי
78.48%
ערך מוסף של המוח האנושי מעל הממוצע של ה-AI
21.52%
אחוז הצלחת המכונה (משוקלל)

דירוג המודלים (כללי)

ChatGPT 20.39%
42 / 206 רמזים
Claude 8.25%
17 / 206 רמזים
Gemini 35.92%
74 / 206 רמזים

תשבצים