Он обучил модель считать, сколько раз буква r встречается в слове strawberry, и использовал этот пример, чтобы показать, как можно наделять маленькие языковые модели новыми навыками через синтетические задачи.
Сначала генерируются диалоги:
«Сколько букв r в слове strawberry?»
и правильные ответы.
После этого модель проходит дообучение (SFT) или обучение с подкреплением (RL), чтобы закрепить навык.
Карпаты объясняет, что для маленьких моделей важно продумывать всё до мелочей, как разнообразить запросы, как устроена токенизация и даже где ставить пробелы.
Он показывает, что рассуждения лучше разбивать на несколько шагов, тогда модель легче понимает задачу.
Nanochat решает задачу двумя способами:
— логически, рассуждая пошагово;
— через встроенный Python-интерпретатор, выполняя вычисления прямо внутри чата.
Идея в том, что даже крошечные LLM можно «научить думать», если правильно подготовить примеры и синтетические данные.
📘 Разбор: github.com/karpathy/nanochat/discussions/164
@ai_machinelearning_big_data
#AI #Karpathy #Nanochat #LLM #SFT #RL #MachineLearning #OpenSource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤76👍44🔥17💘3🤗2
Media is too big
VIEW IN TELEGRAM
Всего через два дня после новости от Google - ещё один крупный квантовый прорыв.
IBM заявила, что один из её ключевых алгоритмов квантовой коррекции ошибок теперь способен работать в реальном времени на FPGA-чипах AMD, без использования экзотического оборудования.
Это делает квантовые вычисления быстрее, дешевле и ближе к практическому применению, чем ожидалось.
Алгоритм, который отслеживает и исправляет ошибки кубитов «на лету»,показал производительность в 10 раз выше необходимой, что стало важным шагом к созданию квантового компьютера Starling, запланированного на 2029 год.
Теперь IBM утверждает, что проект идёт на год впереди графика.
Исследовательская статья выйдет в понедельник.
Темп развития квантовых технологий заметно ускоряется.
reuters
Через два дня после запуска OpenAI Atlas Microsoft представили обновлённый браузер Edge с новым режимом Copilot Mode. Это полноценный AI-бразуер, который понимает контекст вкладок, выполняет действия и способен продолжать проекты, используя историю пользователя.
Функция Actions позволяет голосом или через чат открывать страницы, находить нужную информацию, отписываться от рассылок и даже бронировать рестораны. Система Journeys группирует прошлую активность по темам и помогает вернуться к незавершённым задачам, предлагая логичные следующие шаги. Включение Page Context даёт Copilot доступ к истории для более точных и персонализированных ответов, однако это остаётся опциональной функцией, которую можно отключить в любой момент.
Edge также получил встроенный AI-защитник от фейковых всплывающих окон, менеджер паролей с проверкой на утечки.
Браузер уже доступен в странах, где работает Copilot, на Windows и macOS.
Microsoft
Google представила фреймворк Geospatial Reasoning на базе Gemini, который объединяет предиктивные модели и данные в единую систему анализа Земли.
Теперь ИИ способен рассуждать о реальных процессах, например, предсказывать землетрясения, оценивать риски и предлагать план эвакуации.
Система уже применяется в ВОЗ (WHO AFRO) для прогнозов вспышек холеры и у McGill & Partners для расчёта ущерба после ураганов.
Google превращает Google Earth из карты в разумный аналитический инструмент планеты.
Мета-обучатель наблюдал за множеством агентов в разных средах и вывел универсальное правило обновления, которое улучшает поведение моделей без ручной настройки.
В итоге DiscoRL победил лучшие алгоритмы на Atari 57 и успешно перенёс этот навык на новые задачи.
nature
Hugging Face открыла OpenEnv -платформуа где можно собирать, обучать и масштабировать агентов под ваши задачи.
Внутри уже есть всё: инструменты, плагины, API и поддержка обучения с подкреплением - без сторонних библиотек.
OpenEnv позволяет создавать системы, где агенты взаимодействуют, распределяют задачи и выполняют их самостоятельно.
Платформа полностью открыта и готова к использованию без ограничений.
HF
На криптобенчмарке AlphaArena модели ИИ торгуют по $10 000 на площадке Hyperliquid, чтобы проверить качество торговых стратегий.
После старта, где лидировала DeepSeek V3.1, а GPT-5 показывала убыток около −39 %, Qwen3-Max обошла всех и заняла первое место.
Все участники - Qwen3-Max, DeepSeek V3.1, Claude 4.5 Sonnet, Gemini 2.5 Pro, Grok 4 и GPT-5 — торгуют в одинаковых условиях без приватных данных, что делает тест прозрачным.
На Polymarket оценивают шансы Qwen3-Max удержать лидерство в 45 %.
Организаторы планируют расширить эксперимент на акции и другие активы и запустить инвестплатформу для AI-агентов.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍38❤22🔥11🌚5🤗3