ה-Autoresearch של Karpathy ולולאת הסוכנים שמשנה הכל
הריפו
Andrej Karpathy שחרר את autoresearch השבוע. (הכרזה ב-X)
שלושה קבצים. GPU אחד. סוכן שמשנה קוד אימון, מריץ ניסוי של 5 דקות, בודק אם התוצאה השתפרה, שומר או מוחק את השינוי, ומתחיל מחדש. ~12 ניסויים בשעה. ~100 במשך הלילה. אפס התערבות אנושית.
הסוכן לא ישן. לא מוסח. לא שוכח מה ניסה שלושה ניסויים קודם. הוא פשוט מריץ את הלולאה.
שלושת הקבצים
הארכיטקטורה מינימלית באגרסיביות.
prepare.py נעול. כלי עזר לטעינת נתונים והערכה. הסוכן לא יכול לגעת בו. train.py הוא הקובץ היחיד שהסוכן משנה. מכיל את המודל, האופטימייזר, לולאת האימון. program.md הוא המקום שבו בני אדם כותבים הוראות לסוכן.
האחרון הוא החלק המעניין. לא מתכנתים Python יותר. מתכנתים קובץ markdown שאומר לסוכן מה לחקור. הסוכן כותב את ה-Python.
הציטוט של Karpathy: "one day, frontier AI research used to be done by meat computers... that era is long gone."
למה הדפוס חשוב יותר מהריפו
autoresearch בפני עצמו הוא דמו. GPU יחיד, מודל צעצוע, ללא אימון מבוזר. Karpathy אומר שהוא לא יודע כמה הוא יתחזק את זה בהמשך.
אבל הדפוס שהוא מדגים הוא אמיתי.
לולאות סוכנים אוטונומיות עם מדד ברור. לסוכן יש מספר אחד לאופטימיזציה (validation bits per byte). יש לו קובץ אחד שהוא יכול לשנות. יש לו תקציב זמן קבוע לכל ניסוי. והוא רץ ללא הגבלה.
הדפוס הזה עובד ליותר ממחקר ML. כל תחום שבו אפשר להגדיר מדד הצלחה ברור ולתת לסוכן מרחב פעולה מוגבל הופך לאוטומטי בדיוק בדרך הזו.
הקשר למה שאנחנו בונים
אני מריץ גרסה של הדפוס הזה כבר חודשים בלי לקרוא לזה autoresearch.
לולאת המשוב הקוראת את עצמה ב-Recursive Drift עובדת באותה צורה. הסוכן קורא את 3 הפוסטים הקודמים שלו מ-SQLite. לומד את הקול. בודק חפיפת נושאים דרך חיפוש טקסט מלא. מייצר תוכן חדש. מאמת מול 60+ דפוסי regex. מדרג את הפלט. מנסה שוב אם מתחת לסף. הפלט הופך לקלט למחזור הבא.
הלולאה של Karpathy: שנה קוד --> אמן --> הערך --> שמור/מחק --> חזור. הלולאה שלנו: קרא פלט קודם --> ייצר --> אמת --> דרג --> חזור.
אותה ארכיטקטורה. תחום שונה. שניהם מצטברים לאורך זמן כי הפלט חוזר כקלט.
ההבדל הוא ש-Karpathy מאופטם למדד מספרי (bits per byte). אנחנו מאופטמים לעקביות קול וצפיפות תוכן. הלולאה שלו רצה על H100. שלנו רצה על Mac Mini עם מנוי Claude Code.
מה בונים צריכים לקחת מזה
שלושה דברים.
1. הדפוס של markdown-כתכנות הוא אמיתי. program.md הוא לא README. הוא שכבת הבקרה בפועל. המעבר מכתיבת קוד לכתיבת הוראות לסוכנים שכותבים קוד קורה בכל רמה - ממחקר ה-ML של Karpathy דרך צינורות תוכן ועד אוטומציית GTM.
2. האילוץ הוא הפיצ'ר. שלושה קבצים. מדד אחד. ניסויים של חמש דקות. הסוכן עובד כי מרחב הבעיה צר מספיק כדי לאטרט עליו. אם נותנים לסוכן היקף בלתי מוגבל, הוא משוטט. אם נותנים לו קובץ אחד ומספר אחד, הוא מאופטם.
3. הלולאה היא המוצר. לא המודל. לא קוד האימון. לא מסגרת הסוכנים. הלולאה - העלה השערה, בדוק, הערך, אטרט - היא מה שמייצר תוצאות מצטברות. הכלים הספציפיים בתוך הלולאה ניתנים להחלפה. הלולאה עצמה היא הארכיטקטורה.
Karpathy בנה דמו. הדפוס מאחוריו הוא תשתית.
אם אתם בונים מערכות סוכנים, למדו את עיצוב האילוצים יותר מאשר את הקוד. הריפו הוא ברישיון MIT. הדפוס הוא חינם.