329K subscribers
4.19K photos
774 videos
17 files
4.71K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
Media is too big
VIEW IN TELEGRAM
⚡️ Андрей Карпаты о том, что делает стиль работы Илона Маска уникальным

Карпаты, руководивший командой компьютерного зрения Tesla Autopilot, объясняет, почему Маск — особенный лидер.

1️⃣ Маленькие, сильные, технические команды
— В обычных компаниях команды разрастаются, но Илон всегда выступает против этого.
— Наём новых людей нужно буквально «выбивать».
— Низкоэффективных сотрудников он быстро убирает.
— Никакого «среднего менеджмента» без технического бэкграунда.

2️⃣ Офис как место драйва
— Ненавидит стагнацию и большие бесполезные митинги.
— Поощряет уходить со встреч, если ты не учишься и не вносишь вклад.
— Культура: меньше «комфорта», больше фокуса на интенсивной инженерной работе.

3️⃣ Прямой контакт с инженерами
— Обычно до CEO не добраться напрямую — сотрудники общаются через несколько уровней начальников и вице-президентов.
— Маск же много времени разговаривает напрямую с инженерами.
— Источник истины — код и инженеры, а не менеджеры.

4️⃣Лично решает сложные вопросы
— Если инженеры говорят: «Не хватает GPU», он сразу звонит ответственному за кластеры.
— Если виновата NVIDIA — звонит напрямую Дженсену Хуану.

🟠 Карпаты: «Многие недооценивают, насколько Илон вовлечён в повседневные операции. Он постоянно устраняет узкие места и держит руку на пульсе».

🟢 Урок: маленькие сильные команды, прогрессивная инженерная культура и CEO, который лично решает критические проблемы.

@ai_machinelearning_big_data

#Karpathy #elonmusk
Please open Telegram to view this post
VIEW IN TELEGRAM
126🔥60👍40🗿11😭4😁3🤔3🐳3
🔥 Nanochat D32 : микромодель Карпаты за $1000, которая реально работает

Карпаты написал, что завершил обучение Nanochat D32, обученной за 33 часа при бюджете $1000 (вместо $100).

Результаты - удивительно хорошие для такой «крошки»:

- 📈 CORE score: 0.31 (выше, чем у GPT-2 — ~0.26)
- 🧮 GSM8K: с 8% до 20%
- 🚀 Рост виден на всех этапах - pretraining, SFT и RL

Карпати пишет:
> «Не ждите от микромоделей чудес. Они обходятся $100–$1000, а не миллиарды долларов, как у крупных лабораторий.
> Разговаривать с моделью - как с ребёнком из детсада: они милые, ошибаются, путаются, галлюцинируют, но это весело.»


💡 Факты:
- Nanochat тренируется с нуля
- Самая маленькая модель Nanochat содержит примерно в тысячу раз меньше параметров, чем GPT-3.
- Обнолвенный скрипт run1000.sh уже доступен в репозитории

📎 Подробности и отчёт:
https://github.com/karpathy/nanochat/discussions/8

Карпати уже тестирует веб-чат с моделью (ссылку не публикует, чтобы не обвалили сервер).

Дальше -оптимизация и возможно, переход к следующему уровню масштабирования.

#AI #LLM #Nanochat #Karpathy #AIresearch #OpenSourceAI
🔥6716👍11😁1💘1