Media is too big
VIEW IN TELEGRAM
«Единственное, о чём я жалею, что не дал ему больше денег.
Когда речь идёт о проектах, в которых участвует Илон, ты хочешь быть частью этого. Он дал нам шанс инвестировать в xAI и это инвестиция в действительно великое будущее. Это не просто партнёрское финансирование, это вера в идею».
Крупнейшие компании Amazon, Microsoft и Google - управляют бизнесом на несколько триллионов долларов и тратят около сотни миллиадров на инфраструктуру дата-центров.
Но сейчас происходит тектонический сдвиг:
💡 переход от CPU-систем к генеративным AI-платформам на GPU, и этот переход только начинается.
Nvidia уже продала оборудования на сотни миллиардов долларов для этой новой эры,
но на фоне многотриллионного рынка AI-инфраструктуры и это тольео начало пути.
Мир вступает в долгосрочный цикл экспансии инвестиций в ИИ,
Nvidia - в самом центре этого колоссального рынка. 🚀
@ai_machinelearning_big_data
#Nvidia #xAI #ElonMusk #JensenHuang #AI #инвестиции #технологии #GPU
Please open Telegram to view this post
VIEW IN TELEGRAM
👍83❤21🔥21😁8🥱5💘2🐳1
Media is too big
VIEW IN TELEGRAM
Модель GPT-5 Pro заняла первое место среди всех проверенных frontier-LLM на закрытом бенчмарке ARC-AGI Semi-Private. Этот тест оценивает способность моделей к абстрактному рассуждению и решению сложных задач.
Интересно, что GPT-5 Pro всё ещё уступает результатам старого o3-preview, который OpenAI тестировал ещё в декабре прошлого года. Однако тот экспериментальный вариант был почти в 50 раз дороже в вычислительных затратах и никогда не был публично выпущен.
Версия o3-preview (high) достигала впечатляющих 87,5 % точности на ARC-AGI-1, но потребляла 172 раза ресурсов, чем версия (low). Из-за этого она не попала в официальный лидерборд - по правилам, тесты с compute-стоимостью выше $10 000 не публикуются.
GPT-5 Pro является самой мощной из доступных и подтверждённых моделей на Semi-Private ARC-AGI.
В список вошли достижения в самых разных областях: ИИ робототехника, медицина, экология, образование, энергетика и дизайн. Среди ключевых технологий - Claude Sonnet 4 от Anthropic, новая версия ИИ-модели, которая продемонстрировала более точные и безопасные ответы; NVIDIA DGX Spark - «настольный» AI-суперкомпьютер, делающий высокопроизводительные вычисления доступнее; UiPath Agentic Automation, объединяющая работу AI-агентов; и XReal One - компактные AR-очки, приближающие смешанную реальность к массовому использованию.
TIME отметили разработки в области биотехнологий, биопечати тканей, устойчивых источников энергии и переработки отходов. Эти изобретения демонстрируют, как технологии становятся не просто инструментами, а основой будущего образа жизни.
time
Google Cloud опубликовал обновлённый список из корпоративных примеров применения генеративного ИИ, что в 10 раз больше, чем годом ранее. Это показывает, что AI уже массово используется в продакшене по всему миру.
В банках и ритейле Commerzbank ИИ обрабатывает 2 млн клиентских чатов с 70% успешных решений, Best Buy ускоряет анализ отзывов, а Mercedes внедрил голосового ассистента на базе Gemini.
Внутри компаний ИИ автоматизирует рутину: Toyota экономит более 10 000 часов в год, Manipal Hospitals сократил передачу смен с 90 до 20 минут, Equifax - 97% сотрудников хотят сохранить AI-лицензии.
Wayfair ускорил настройку окружений на 55%, CME сэкономил 10,5 часов в месяц, а BMW и UPS используют цифровых двойников для моделирования логистики и производств.
Подробнее
Министр экономики Тайваня заявил, что TSMC сохранит свои самые передовые технологии и основное производство на острове, несмотря на предложение США сделать «50 на 50».
Компания вкладывает $165 млрд в шесть фабрик в США, но строит десять на Тайване и планирует новые - там останутся ведущие технологические узлы.
По словам министра, зарубежные заводы допустимы только при реальных заказах, прибыли и отсутствии рисков для безопасности.
Идея «50-50» возникла из-за стремления США увеличить долю внутренних чипов после кризиса поставок 2020–2021 годов.
Аналитики считают, что перенос производства в США слишком дорог и займёт годы, поэтому Вашингтон делает ставку на «friendshoring» - распределённые цепочки поставок между союзниками.
times
Microsoft представила новую модель UserLM-8B, созданную для симуляции поведения пользователя в диалоге. В отличие от обычных LLM, эта модель генерирует реплики от лица человека, включая уточнения, эмоции и ошибки, как в реальном общении.
Модель построена на базе Llama3.1 8B и дообучена на корпусе WildChat-1M, где она анализировала сотни тысяч реальных и синтетических диалогов. Такой подход позволяет создавать реалистичные сценарии общения для тестирования чат-ботов, обучения ассистентов и генерации синтетических данных.
HF
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤56👏17👍10🔥7
В эпоху, когда сами нейросети уже перестали удивлять, конкуренция смещается в сторону платформ, сервисов и инструментов, которые помогают работать с ИИ на практике. Всё чаще ценность определяется не параметрами модели, а тулингом вокруг нее и тем, как нейросеть встроена в продукты и решает конкретные бизнес-задачи.
Подробнее — в свежем интервью: https://mltimes.ai/rukovoditel-platformy-ai-studio-v-yandex-b2b-tech-artur-samigullin-o-konkurenczii-s-inostrannymi-modelyami-i-kak-yandeks-prodaet-svoi-i-opensorsnye-nejroseti/
@ai_machinelearning_big_data
#news #ai #ml
Подробнее — в свежем интервью: https://mltimes.ai/rukovoditel-platformy-ai-studio-v-yandex-b2b-tech-artur-samigullin-o-konkurenczii-s-inostrannymi-modelyami-i-kak-yandeks-prodaet-svoi-i-opensorsnye-nejroseti/
@ai_machinelearning_big_data
#news #ai #ml
❤39👍22🔥10😁2
This media is not supported in your browser
VIEW IN TELEGRAM
Она была преобразована из предварительно обученной авторегрессионной модели (Qwen3-30B-A3B) и затем дополнительно обучена на 500 миллиардах токенов, чтобы полностью поменять поведениие диффузионной модели.
Обычные модели (AR, автогрессионные) пишут текст слово за словом, а RND1 создаёт всё предложение сразу и потом пошагово уточняет его, как будто “проявляет” текст из шума.
Это - Diffusion Language Model (DLM), аналог диффузионных моделей, которые рисуют картинки, только здесь она “рисует” слова.
🔄 Как её сделали
Команда Radical Numerics придумала, как превратить готовую модель в диффузионную без обучения с нуля.
Они просто поменяли тип внимания и дообучили модель на новой задаче.
Этот метод называется AR-to-Diffusion Conversion (A2D) - то есть конверсия из автогрессионной модели в диффузионную.
Как это происходит:
1. Берут сильную GPT-подобную модель.
2. Меняют механизм внимания — теперь модель видит весь контекст сразу.
3. Продолжают обучение по диффузионной задаче.
4. Используют разные скорости обучения для разных частей сети, чтобы модель не забыла старое, но научилась новому способу мышления.
⚙️ Что под капотом
▪ Mixture-of-Experts (MoE) - у модели 30 млрд параметров, но реально работают только 3 млрд за раз. Это делает её мощной, но экономной.
▪ Непрерывное дообучение - старые знания не стираются, а “встраиваются” в новый режим.
▪ Огромные батчи - модель учится на больших партиях данных, чтобы стабилизировать обучение, ведь она не обрабатывает все токены сразу.
- Параллельная генерация - текст создаётся быстрее, без пошаговой задержки.
- Меньше затрат - активных параметров всего 3 млрд, при этом качество как у больших GPT.
- Новая архитектура - открывает дорогу гибридным моделям, сочетающим плюсы AR и DLM.
- Полностью открытый код и веса - можно исследовать, изменять, запускать самому.
- Первый серьёзный шаг к самосовершенствующемуся ИИ- модель может не только обучаться, но и помогать в проектировании следующей версии.
Это реально интересный метод, RND1 показывает, что ИИ можно не просто обучать, а перестраивать - менять его саму логику мышления без начала “с нуля”.
Похоже, это может стать фундаментом для систем Recursive Self-Improvement (RSI), когда ИИ способен создавать и улучшать самого себя.
@ai_machinelearning_big_data
#RND1 #RadicalNumerics #AI #DLM #DiffusionModel #MoE #OpenSource
Please open Telegram to view this post
VIEW IN TELEGRAM
👍68🔥31❤25
Это подборка интерактивных ноутбуков, демонстрирующих возможности Qwen3-VL - как при локальном запуске, так и через API.
Внутри - десятки реальных примеров с разборами:
▪ Работа с изображениями и рассуждение по ним
▪ Агент для взаимодействия с интерфейсами (Computer-Use Agent)
▪ Мультимодальное программирование
▪ Распознавание объектов и сцен (Omni Recognition)
▪ Продвинутое извлечение данных из документов
▪ Точное определение объектов на изображении
▪ OCR и извлечение ключевой информации
▪ 3D-анализ и привязка объектов
▪ Понимание длинных документов
▪ Пространственное рассуждение
▪ Мобильный агент
▪ Анализ и понимание видео
@ai_machinelearning_big_data
#Qwen #Qwen3VL #AI #VisionLanguage #Multimodal #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤74🔥24👍22💘1
Media is too big
VIEW IN TELEGRAM
Вместо традиционного fine-tuning, где обновляются веса модели, ACE позволяет ей становиться умнее без переобучения.
Метод основан на идее, что модель может сама улучшать свои подсказки - переписывать их, анализировать ошибки и извлекать уроки из прошлых попыток. В процессе формируется постоянный контекстный «ноутбук»я, накопленная база знаний, в которой сохраняются успешные решения и примеры.
По данным авторов, ACE показывает результаты выше, чем у агентов на основе GPT-4: на 10,6% лучше в тестах AppWorld и на 8,6% лучше в задачах финансового рассуждения. При этом затраты и задержка снижаются на 86,9%, а для обучения не требуется размеченных данных.
Главный вывод работы в том, что ACE опровергает идею минимализма в промптах. Вместо коротких и простых инструкций этот подход делает ставку на богатый контекст и постоянное самоулучшение модели.
arxiv
Система обеспечивает до 5 раз выше производительность на GPU, обладает 37 ТБ объединённой памяти и вычислительной мощностью 1,44 экзафлопса.
Проект демонстрирует, что ставка Microsoft на развитие облачной инфраструктуры Azure для ИИ приносит ощутимые результаты.
microsoft
В Китае молодёжь массово обращается к ИИ-компаньонам вроде DeepSeek и Doubao, заменяя ими дорогие и труднодоступные сеансы терапии.
Проблема системная — 80% больниц не имеют психиатрических отделений, а консультация в больших городах стоит до 800 юаней ($110) в час.
ИИ-чаты дают мгновенный и анонимный отклик, но несут и риски: универсальные модели могут поддерживать опасные мысли вместо того, чтобы оспаривать их.
Соцсети заполняют истории о «разговорах со слезами на глазах» - поисковые запросы вроде «плакал после общения с ИИ» превысили миллион упоминаний. Опросы показывают, что всё больше молодых пользователей обращаются к чат-ботам при тревоге, депрессии или проблемах в отношениях — их привлекает анонимность и круглосуточная доступность.
restofworld
MoonshotAI обновила инструмент K2 Vendor Verifier
- теперь можно визуально сравнивать точность выполнения вызова инструментов (tool calls) у разных провайдеров.
Github
Компания объявила о крупном достижении в области long-context AI-моделей, где вычислительная сложность растёт линейно, а не квадратично, что решает одну из ключевых проблем современных LLM - баланс между эффективностью и точностью при обработке длинных последовательностей.
Модель вдохновлена биологической памятью и сочетает два типа запоминания: точное краткосрочное и сжатое долговременное.
Свежие токены удерживаются в скользящем окне внимания (аналог кратковременной памяти), а более старые - сжимаются “гиппокампом” в компактное состояние фиксированного размера, которое обновляется и передаётся дальше.
Результаты впечатляют: на тестах с контекстом 128k вычисления (FLOPs) сократились на 40,5 %, объём KV-кеша — на 74 %, при этом точность выросла, а параметры увеличились лишь на 0,4 %.
На этапе вывода каждый новый токен обращается и к точному окну, и к сжатому состоянию, что сохраняет локальную точность и обеспечивает понимание длинного контекста без взрыва памяти и вычислений.
arxiv.org
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍68❤30🔥29🥰3
Media is too big
VIEW IN TELEGRAM
По данным The Wall Street Journal, Microsoft и Anthropic наняли Риши Сунака в качестве старшего консультанта на неполный рабочий день.
В Anthropic он будет заниматься вопросами глобальной стратегии и геополитических тенденций, не затрагивая внутреннюю политику Великобритании. Microsoft уточнила, что Сунак даст внутренние стратегические консультации и будет выступать на корпоративных мероприятиях.
Ранее, в июле 2025 года, Сунак также стал советником Goldman Sachs.
Его опыт в сфере ИИ включает проведение саммита AI Safety Summit в ноябре 2023 года и запуск AI Safety Institute, что дало ему непосредственное понимание международной координации и тестирования безопасности ИИ.
wsj
Adobe представила метод RL-ZVP: обучение даже на “бесполезных” промптах
Новая р описывает способ обучения моделей, который использует промпты с нулевой дисперсией ответов - то есть случаи, где все сэмплированные ответы одинаково хороши или одинаково плохи. Раньше такие данные считались «пустыми» и отбрасывались, но теперь превращаются в сигнал для обучения.
Метод RL-ZVP (Reinforcement Learning with Zero Variance Prompts) заменяет “молчание” градиента на активное обновление: если все ответы верны — считается положительный пример, если все ошибочны — отрицательный. Обновления масштабируются по энтропии, чтобы неуверенные токены корректировались сильнее, а очевидные - слабее.
Такой подход повышает точность до +8.6 пунктов и pass rate до +7.8 пунктов по сравнению с популярным методом GRPO, не требуя дополнительных вычислений.
Главная идея - не выбрасывать 50% обучающих шагов, а извлекать из них пользу, превращая “пустые” выборки в источник стабильности и точности.
arxiv
Модель точно сохраняет персонажа и окружение.
Достаточно начать запрос со слов «next scene», чтобы ИИ продолжил историю, с плавными переходами, продуманной композицией и даже собственным сюжетом.
HF
По данным The Wall Street Journal, Эндрю Таллок, сооснователь Thinking Machines Lab и один из ведущих исследователей в области ИИ, покинул компанию и присоединился к команде Цукерберга.
Этот шаг примечателен тем, что ранее Таллок отклонил предложение компании рука на сумму $1 млрд, но теперь возвращается в компанию, где уже проработал 11 лет до перехода в OpenAI, а затем - к созданию Thinking Machines вместе с Мирой Мурати в начале этого года.
wsj
Впервые искусственный интеллект не просто прошёл академическое испытание, а занял места в топ-2 среди 200–300 лучших школьников планеты.
Модели GPT-5 и Gemini 2.5 Pro показали результаты 85,6 % и 84,2 % соответственно - это уровень золотой медали.
Такие олимпиады считаются одними из самых сложных в мире: участники решают задачи по нейтронным звёздам, магнитным полям, аккреционным потокам и орбитальной механике, нередко по нескольку часов каждая.
В новом отчёте “Neuralink, AI in your brAIn” аналитики Morgan Stanley заявили, что интерфейсы мозг-компьютер (BCI) переходят из научной фантастики в реальную экономику — и Neuralink стоит в центре этого сдвига.
Neuralink уже имплантировали чипы 12 пациентам, а 10 000 человек ждут своей очереди. Один из пользователей проводит с устройством по 100 часов в неделю. Текущие проекты — Telepathy (управление компьютером мыслями) и Blindsight (восстановление зрения через зрительную кору).
Morgan Stanley оценивает рынок в $400 млрд только в США, прежде чем технология выйдет в гейминг, оборонку и потребительские устройства.
Эксперты предупреждают: ИИ ускорит развитие BCI, но скорость человеческой мысли может не поспевать за AGI.
thedebrief
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥57❤47👍21😁5🌭5🙉3💘2🤔1🤝1
This media is not supported in your browser
VIEW IN TELEGRAM
На видео - 19-летний студент Стэнфорда, который бросил университет, чтобы запустить свой первый стартап Loopt.
Loopt был геолокационным приложением - своего рода предшественником Find My Friends и функции геометок в соцсетях. В приложении можно было смотреть, какие места посещают ваши друзья, какие отзывы оставляют.
Loopt продали в 2012 году за $43,4 млн. После этого Сэм Альтман создал свой венчурный фонд Hydrazine, начал инвестировать в стартапы, затем стал главой акселератора Y Combinator — программы, которая помогает молодым компаниям расти и получать инвестиции.
А уже в 2015 году он соосновал OpenAI.
@ai_machinelearning_big_data
#openai #ml #ai #chatgpt #SamAltman
Please open Telegram to view this post
VIEW IN TELEGRAM
🤨93🔥69👍40❤14⚡13😨7🗿4🤬2🙈2💘2🥰1
Метод помогает увидеть на какие внутренние признаки опирается ИИ, когда формирует ответы без переобучения всей модели.
В основе — дополнительный автоэнкодер, который обучается на остаточной ошибке базовой модели и вылавливает редкие, специализированные сигналы, влияющие на решение модели. Sae Boost уже протестировали на тестах по химии, документах ООН и русскоязычном контенте – метод показал значительное улучшение качества реконструкции (explained variance) и снижения перекрестной энтропии LLM (LLM cross-entropy) на специализированных доменах.
@ai_machinelearning_big_data
#news #ai #ml #llm
Please open Telegram to view this post
VIEW IN TELEGRAM
❤43👍20🔥6🌭1💘1
Media is too big
VIEW IN TELEGRAM
Китай стремительно превращается в мирового лидера по производству и внедрению гуманоидных роботов. В стране формируется полный цикл - от датчиков и приводов до готовых автономных систем.
По данным издания, только за прошлый год на китайских заводах установлено около 300 тысяч промышленных роботов, что больше, чем во всём остальном мире вместе взятом. И почти все они - китайского производства.
Компания Unitree уже выпустила гуманоидного робота R1 стоимостью менее 6 000 долларов, что в несколько раз дешевле предыдущих моделей. Это стало возможным благодаря высокой локализации производства и быстрой обратной связи между разработчиками и фабриками.
Демографический кризис и старение населения подталкивают Китай к автоматизации. Правительство активно поддерживает отрасль - создаёт тестовые полигоны, субсидирует стартапы и внедряет роботов в промышленность и сервис.
Если США не активизируют собственные программы в области робототехники, Китай может занять доминирующее положение в одной из ключевых технологий XXI века.
washingtonpost
Исследователи создали систему SwiReasoning, которая позволяет языковым моделям решать, когда говорить, а когда просто думать. Вместо того чтобы постоянно проговаривать свои шаги, как в Chain-of-Thought, модель теперь может рассуждать скрыто - в латентном пространстве.
Когда уверенность низкая, она «думает молча», обрабатывая идеи внутри в виде непрерывных векторов. Когда уверенность возрастает - «высказывает» выводы словами. Такой гибкий режим делает рассуждения в среднем на 56–79% эффективнее, а в пике - до 6.78 раза быстрее, без потери точности.
Исследователи называют это началом новой эры latent reasoning - когда ИИ размышляет не словами, а понятиями.
Paper
Для этого проекта xAI привлекла бывших специалистов Nvidia, которые будут работать над созданием ИИ, умеющего формировать реалистичные трёхмерные среды и взаимодействовать с ними.
Первым направлением применения таких моделей станет индустрия игр - xAI планирует использовать world models для генерации интерактивных 3D-миров с динамическим поведением объектов и физикой.
В будущем эти технологии могут применяться в робототехнике и других областях физического ИИ.
Согласно планам компании, первая игра, полностью созданная искусственным интеллектом xAI, должна выйти к концу следующего года.
X
Модель анализирует зрительные ритмы - микропаузы между кадрами, которые мозг воспринимает по-разному у людей с и без СДВГ. Точность диагностики - 91,8%, а различить, принимает ли человек стимуляторы, ИИ смог с точностью 91%.
Метод может стать новым способом диагностики без тестов и интервью - достаточно показать короткое видео и измерить, как мозг реагирует на световые ритмы.
psypost
Microsoft внедряет в свою корпоративную платформу Viva Insights новую функцию под названием Benchmarks - систему, которая позволяет менеджерам отслеживать, насколько активно сотрудники используют искусственный интеллект в рабочих приложениях. Benchmarks станет частью Copilot Dashboard, панели аналитики, которая собирает данные о взаимодействии сотрудников с инструментами Microsoft 365 - от Teams и Outlook до Word, Excel и PowerPoint.
Руководители смогут видеть процент «активных пользователей Copilot» в разных отделах, сравнивать показатели внутри компании и даже сопоставлять их с усреднёнными данными по отрасли. По официальному определению Microsoft, «активный пользователь Copilot» - это тот, кто совершил «намеренное действие с ИИ» в одном из поддерживаемых приложений.
То есть если ты хотя бы раз за месяц использовал Copilot для генерации письма, отчёта или кода - ты попадёшь в статистику
winbuzzer
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤45👍24🔥9🤨2💘2🥰1
Audio
Функция позволяет создавать аудиотреки напрямую из текстового описания:
▪️ настроение, жанр или сценарий задаются в промпте;
▪️ модель формирует готовый трек без внешних инструментов;
▪️ подходит для клипов, фильмов, поздравлений и других аудиопроектов.
▪️генерация соответствует описанному настроению;
▪️ скорость создания трека выше, чем при использовании внешних DAW;
▪️ инструмент полностью интегрирован в Гига Чат и доступен через веб и бота.
@ai_machinelearning_big_data
#news #ai #GigaChat
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤79🔥61🤣29👍16💘1
Новая архитектура Mamba-3 делает модели быстрее, стабильнее и эффективнее при работе с длинными контекстами.
Главная идея - не в слоях внимания, а в state-space моделях, где модель хранит и обновляет внутреннее состояние во времени.
📘 Краткие эускурс:
- Mamba-1 ввела непрерывную динамику и выборочное обновление памяти - помнила эффективно без высокой цены attention.
- Mamba-2 показала, что обновления состояния и attention - это две стороны одной математики, что ускорило вычисления на GPU.
- Mamba-3 довела концепцию до зрелости: теперь внутренняя память развивается плавнее и устойчивее за счёт перехода от простого шага Эйлера к трапецеидальному интегрированию.
Вместо простого шага Эйлера, как в Mamba-2, Mamba-3 аппроксимирует интеграл обновления состояния не только по правому концу интервала, но усреднением между началом и концом, с коэффициентом λ, зависящим от данных. Это даёт более точное приближение (второго порядка) и делает динамику состояния более выразительной.
🧠 Что изменилось под капотом:
- Память стала «ритмичной»: теперь модель может хранить повторяющиеся и периодические паттерны (например, структуры языка или музыки).
- Новый multi-input-multi-output дизайн позволяет обрабатывать несколько потоков параллельно — идеально для современных GPU.
⚙️ Что это даёт на практике:
- Эффективная работа с длинными последовательностями: документы, геномы, временные ряды.
- Линейное время выполнения и стабильная задержка делают её идеальной для реального времени: чат-ботов, перевода, речи.
- Энергоэффективность и масштабируемость открывают путь к on-device AI, где большие модели работают локально, без облака.
Mamba-3 - это не просто ускоренная альтернатива Transformers.
Это новая архитектура, которая объединяет глубокое понимание контекста, скорость и устойчивость, от серверных систем до умных устройств.
@ai_machinelearning_big_data
#ssm #mamba3 #llm,#architecture #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤79🔥41👍23🤔5🗿3😁1💘1
🔥 Сенсей Карпаты выложил новый репозиторий - полный пайплайн обучения LLM с нуля
В проекте есть всё, чтобы собрать свой ChatGPT-клон за $100 и 4 часа:
> • токенизатор (написан на Rust)
> • pretraining
> • SFT (supervised fine-tuning)
> • RL (reinforcement learning)
> • оценка модели (eval)
Всего 8 000 строк кода, без лишних зависимостей - идеальный учебный пример, чтобы понять, как реально устроено обучение больших языковых моделей.
💡 Это проект из его нового грядущего курса LLM101n, и отличная возможность прокачать свои ML-навыки на практике.
Можно арендовать GPU в облаке и запустить всё самому - код уже готов к запуску.
Если запустить обучение модели nanochat на облачном GPU-сервере (например, 8×H100), то примерно через 12 часов обучения (стоимость ~300–400 $) модель достигает уровня GPT-2 по качеству на тестовых наборах (CORE-score).
А если тренировать около 40 часов (затраты ~1000 $), решает простые задачи по математике и коду, набирая:
- 40+ на MMLU
- 70+ на ARC-Easy
- 20+ на GSM8K
🧠 Это бесплатная практика топ уровня от мастера, которую не стоит упускать.
🟠 GitHub:https://github.com/karpathy/nanochat
🟠 Технические детали: https://github.com/karpathy/nanochat/discussions/1
@ai_machinelearning_big_data
#LLM #nanochat #MachineLearning #DeepLearning #AI #GPT
В проекте есть всё, чтобы собрать свой ChatGPT-клон за $100 и 4 часа:
> • токенизатор (написан на Rust)
> • pretraining
> • SFT (supervised fine-tuning)
> • RL (reinforcement learning)
> • оценка модели (eval)
Всего 8 000 строк кода, без лишних зависимостей - идеальный учебный пример, чтобы понять, как реально устроено обучение больших языковых моделей.
💡 Это проект из его нового грядущего курса LLM101n, и отличная возможность прокачать свои ML-навыки на практике.
Можно арендовать GPU в облаке и запустить всё самому - код уже готов к запуску.
Если запустить обучение модели nanochat на облачном GPU-сервере (например, 8×H100), то примерно через 12 часов обучения (стоимость ~300–400 $) модель достигает уровня GPT-2 по качеству на тестовых наборах (CORE-score).
А если тренировать около 40 часов (затраты ~1000 $), решает простые задачи по математике и коду, набирая:
- 40+ на MMLU
- 70+ на ARC-Easy
- 20+ на GSM8K
🧠 Это бесплатная практика топ уровня от мастера, которую не стоит упускать.
@ai_machinelearning_big_data
#LLM #nanochat #MachineLearning #DeepLearning #AI #GPT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥149❤35👍19🗿5
Он пишет: «То, с чем мы имеем дело, - это настоящее и загадочное существо, а не простая и предсказуемая машина».
Он сравнивает человечество 2025 года с ребёнком из старой истории: мы включаем свет в тёмной комнате и видим не груду одежды на стуле, а живые, мощные и во многом непредсказуемые существа — современные ИИ-системы и те, что ещё впереди.
Многие, по его словам, отчаянно хотят поверить, что это лишь иллюзия, что перед нами не новая форма разума, а просто набор инструментов для экономики. Некоторые даже тратят огромные деньги, чтобы убедить нас, будто «это не интеллект, готовящийся к стремительному взлёту, а всего лишь машина, которой мы управляем».
«Но не обманывайтесь, - пишет Кларк.Мы имеем дело с настоящим и загадочным существом, а не с простой и предсказуемой машиной».
Полное эссе
Благодаря этому обновлению инструмент теперь создаёт более выразительные и визуально насыщенные видео-саммари. Можно выбрать один из шести художественных стилей оформления - от акварели и бумажной аппликации до аниме, рисованной доски, ретро-печати и культурного оформления.
Кроме того, появились два формата генерации роликов: Explainer для подробных объяснений и Brief для коротких, лаконичных обзоров. Обновление уже начали получать владельцы Pro-подписки, а в ближайшее время функция станет доступна всем пользователям.
X
Ring-1T-FP8 - модель на архитектуре Ling 2.0, которая содержит 1 триллион параметров( 50 миллиардов активных).
Ring-1T обучалась с применением RLVR (reinforcement learning with verifiable rewards) - техники, направленной на повышение точности рассуждений и самопроверку ответов. В процессе использовались собственные методы ASystem и Icepop, уменьшающие разрыв между обучением и инференсом.
Модель решает задачи уровня математических олимпиад (IMO 2025), сохраняет контекст до 128 000 токенов, что вдвое больше предыдущей версии.
HF
При этом точность почти не теряется, а вычисления становятся в 2–3 раза быстрее, а потребление памяти снижается на 50%.
В эксперименте NVIDIA обучила 12-миллиардный Mamba Transformer на 10 триллионах токенов, и модель с 4-битным NVFP4 показала почти такую же точность, как и FP8:
на тесте MMLU Pro - 62.58% против 62.62%,
а по коду (MBPP+) - 55.91% против 59.11%.
NVFP4 группирует значения в блоки по 16 чисел. Для каждого блока хранится небольшой масштаб в 8 битах, а для всего тензора - глобальный масштаб в 32 битах. Такая структура сохраняет точность локальных и экстремальных значений, позволяя использовать сверхкомпактное 4-битное хранение без потери устойчивости обучения.
На GPU Blackwell операции FP4 выполняются в 2 раза быстрее на GB200 и в 3 раза 0 на GB300, по сравнению с FP8. Потери точности при валидации не превышают 1–1.5%.
Метод также использует стохастическое округление, чтобы избежать накопления ошибок, а переход на BF16 в последних итерациях обучения полностью убирает оставшуюся разницу.
Поддержка NVFP4 уже встроена в Transformer Engine и новое поколение GPU Blackwell.
arxiv
OpenAI будет отвечать за архитектуру и проектирование чипов, а Broadcom - за производство и развёртывание систем. Масштаб проекта колоссален: 10 ГВт — это примерно столько же энергии, сколько требуется, чтобы обеспечить электричеством 7–10 миллионов домов.
Главная цель - уменьшить зависимость от NVIDIA и создать собственную, независимую инфраструктуру.
OpenAi
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤40👍19🤣9🤓6🔥5👻3🍓1
Глава NVIDIA сегодня вручил Маску в штаб-квартире SpaceX самый маленький в мире ИИ-суперкомпьютер.
Ещё недавно такая производительность обеспечивалась целой комнатой серверов.
Теперь она помещается в коробку размером с рабочий ПК.
Такой компактный суперкомпьютер может использоваться для локального обучения и инференса нейросетей без дата-центров и облаков.
NVIDIA называет это началом новой эры персональных ИИ-ускорителей.
Мужчины честной судьбы встретились, в честь начала мировых поставок DGX Spark, которая начнется уже в эту среду.
Этот момент отсылает к истокам: в 2016 году именно Маск и его команда получили первый DGX-1 - тот самый суперкомпьютер, с которого началась эпоха ИИ-ускорителей NVIDIA.
Эх, нам бы такую коробочку)
Подробнее о первых поставках для разработчиков, исследователей, университетов в live-блоге Nvidia: https://blogs.nvidia.com/blog/live-dgx-spark-delivery/
@ai_machinelearning_big_data
#NVIDIA #JensenHuang #ElonMusk #SpaceX #AI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤85👍33🔥21😁4😴4🤔1