329K subscribers
4.2K photos
774 videos
17 files
4.71K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🔥 Nanochat D32 : микромодель Карпаты за $1000, которая реально работает

Карпаты написал, что завершил обучение Nanochat D32, обученной за 33 часа при бюджете $1000 (вместо $100).

Результаты - удивительно хорошие для такой «крошки»:

- 📈 CORE score: 0.31 (выше, чем у GPT-2 — ~0.26)
- 🧮 GSM8K: с 8% до 20%
- 🚀 Рост виден на всех этапах - pretraining, SFT и RL

Карпати пишет:
> «Не ждите от микромоделей чудес. Они обходятся $100–$1000, а не миллиарды долларов, как у крупных лабораторий.
> Разговаривать с моделью - как с ребёнком из детсада: они милые, ошибаются, путаются, галлюцинируют, но это весело.»


💡 Факты:
- Nanochat тренируется с нуля
- Самая маленькая модель Nanochat содержит примерно в тысячу раз меньше параметров, чем GPT-3.
- Обнолвенный скрипт run1000.sh уже доступен в репозитории

📎 Подробности и отчёт:
https://github.com/karpathy/nanochat/discussions/8

Карпати уже тестирует веб-чат с моделью (ссылку не публикует, чтобы не обвалили сервер).

Дальше -оптимизация и возможно, переход к следующему уровню масштабирования.

#AI #LLM #Nanochat #Karpathy #AIresearch #OpenSourceAI
🔥7017👍11😁2💘1