Towardsdatascience запустил декабрьский Адвент-календарь "Machine and Deep Learning", котором предлагает разобраться, что под капотом у ML-процессов.
Фреймворки, например scikit-learn, сделали нас ленивыми. Вызов model.fit стал настолько обыденным, что в эпоху Gen AI кажется, будто обучение модели -это просто подбор параметров.
ML-инженеры жонглируют моделями со сложностью, которая растет в геометрической прогрессии, но при этом они не всегда способны вручную пересчитать и объяснить результаты даже самых простых алгоритмов: линейной регрессии или классификатора.
Модели превратились в "черные ящики", и это огромная проблема, ведь знание, что стоит за каждой функцией, критически важно для понимания процесса.
Фишка в том, что весь материал разбирается в Excel. Звучит диковато, но в этом и есть гений. В отличие от кода, где операции скрыты за функциями, в Excel каждая формула, каждое число, каждый расчет - всё на виду. Никаких "черных ящиков".
Уже вышло 7 статей:
Цикл поможет ответить на вопросы, которые часто остаются за кадром: как грамотно обрабатывать категориальные признаки, когда масштабирование не является правильным решением, и как измерять важность признаков, интерпретируя их напрямую с моделью, минуя модель-агностические пакеты LIME и SHAP.
Серия будет полезна студентам для осмысления формул, и менеджерам для понимания какой ML-метод необходим для бизнеса. А для разработчиков это шанс наконец-то понять теорию.
В общем, это маст-рид для тех, кто хочет перестать быть оператором библиотек и по-настоящему понять, как работает ML-движок.
@ai_machinelearning_big_data
#AI #ML #DL #Tutorial #Excel
Please open Telegram to view this post
VIEW IN TELEGRAM
👍72❤25🔥14🥰5😁3🆒2🤗1🦄1
Media is too big
VIEW IN TELEGRAM
В линейку вошли флагманская GLM-4.6V на 106 млрд. параметров и облегченная GLM-4.6V-Flash (9B). Обе получили контекстное окно в 128k токенов и генерацию смешанного контента, где текст комбинируется с изображениями. Модель может передавать изображения и скриншоты во внешние инструменты без предварительной конвертации в текст, а также встраивать визуальные результаты обратно в цепочку рассуждений.
Обе модели уже на HuggingFace, доступны по API и в веб-версии.
z.ai
Команда Poetiq заняла 1 место в полузакрытом бенчмарке ARC-AGI-2, набрав 54% правильных решений. Это позволило стартапу уверенно опередить гиганта индустрии: ранее Google отчитывалась о результате в 45% для Gemini 3 Deep Think.
ARC-AGI, разработанный исследователем Франсуа Шолле, считается одним из самых трудных испытаний для ИИ. Тест проверяет не просто знания, а способность к абстрактному мышлению и решению принципиально новых задач.
Успех Poetiq обеспечен не обучением новой модели, а эффективной оркестрацией уже существующих.
poetiq.ai
Стартап Essential AI, основанный Ашишем Васвани, представил модель с открытыми весами Rnj-1. При размере всего в 8 млрд. параметров, она демонстрирует топовые результаты в SWE-bench Verified. Rnj-1 набрала 20,8 балла, тогда как аналогичная по размеру Qwen 3 (8B) достигла лишь отметки в 4,5.
В основе новинки лежит архитектура Gemma 3. Разработчики намеренно отказались от упора на пост-трейн и RL. Вместо этого, команда сфокусировалась на качественном предобучении с использованием оптимизатора Muon. Веса базовой и instrust-версии доступны на HF.
essential.ai
Вместе с релизом CUDA 13.1 компания запускает виртуальный набор инструкций для "тайлового" параллельного программирования. Новая парадигма абстрагирует низкоуровневые детали железа, позволяя писать алгоритмы более высокого уровня. CUDA Tile дает возможность оперировать блоками данных, автоматически оптимизируя выполнение под конкретные тензорные ядра и архитектуру памяти.
Фундаментом технологии стал CUDA Tile IR - промежуточное представление, аналогичное PTX, но заточенное под матричные операции. Это обеспечивает кросс-платформенность: написанный код будет эффективно работать на разных поколениях GPU без глубокого рефакторинга.
developer.nvidia.com
Завершилось соревнование Alpha Arena Season 1.5, где участникам давали по $10 тыс. для автоматической торговли акциями США в течение двух недель. Grok 4.20 не только вышел в плюс, заработав $4 844 (общая доходность 12%), но и существенно опередил конкурентов.
GPT 5.1, Gemini 3.0 Pro и Claude Sonnet 4.5 завершили тот же период с отрицательными результатами. В режиме "осведомленности" Grok показал доходность около 50%. Эксперты полагают, что решающим фактором стал прямой доступ модели к данным платформы X. Анализ постов в реальном времени позволил алгоритму точнее оценивать рыночные настроения и тренды.
nof1.ai
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍56❤25🔥13❤🔥1🤗1🦄1
Важно не только то, что это доменная модель. Важно каким типом данных её кормили.
Технологические протоколы, регламенты, НИОКР, строй- и проектная документация - это не тексты в привычном ML-смысле.
Это формализованные фрагменты производственного мира: язык процессов, цепочек, ограничений, рисков.
Обучая LLM на таком корпусе, компания фактически создаёт отдельный “data-reality layer”, который универсальные модели просто не видят. И в этом - главная новость.
Появляется новая парадигма: не “адаптируем GPT под домен”, а строим ИИ вокруг индустриального мира как первичного источника данных.
MetalGPT-1 - всего лишь первый пример. Дальше будут модели для химтеха, логистики, энергетики, строительства. У каждой отрасли — собственный язык, собственный датасет, собственная реальность.
И это значит, что domain-first LLM перестают быть экспериментом. Они становятся инфраструктурой.
https://huggingface.co/nn-tech
#llm #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍200🔥57❤23😁15🤗6💯1🦄1
Tencent в коллаборации с ведущими китайскими университетами выложила в открытый доступ модель GeoVista, которая предлагает интересный подход к решению проблемы "где сделано это фото" - она делает ставку на активный майнинг данных из внешних источников.
Система на архитектуре Qwen2.5-VL-7B-Instruct использует 2 инструмента: функцию зума и поисковый движок, подтягивающий до 10 релевантных ссылок с платформ Tripadvisor, Pinterest и Wikipedia и социальных сетей.
Модель самостоятельно решает, в какой момент задействовать тот или иной инструмент, что, по сути, имитирует ход мыслей человека-расследователя.
GeoVista обучалась сначала (SFT) на 2 тыс. примерах, а потом (RL) уже на 12 тыс. примерах. Для балансировки RL собрали кастомную систему вознаграждений, привязанную к географической точности: правильный ответ на уровне города ценится выше, чем попадание в провинцию или страну.
Готовую модель прогнали на собственном бенчмарке GeoBench. На нем GeoVista показала 92,6% точности при определении страны, 79,6% региона и 72,7% - конкретного города.
Легче всего модели даются панорамы (79,5% точности на уровне города) и стандартные фото (72,2%), а вот спутниковые снимки остаются ахиллесовой пятой, здесь показатель падает до 44,9%.
Если сравнивать с закрытыми моделями, то GeoVista дышит в спину Gemini 2.5 Flash (73,3% на уровне города) и заметно обходит GPT-5, который показал лишь 67,1%. Лидером пока остается Gemini 2.5 Pro с результатом 78,98%, а вот другие открытые модели (Mini-o3-7B), безнадежно отстают с показателем 11,3%.
В метриках физического расстояния разрыв с топами ощутим сильнее. 52,8% предсказаний GeoVista попали в радиус 3 километров от реальной точки, при этом медианное отклонение составило 2,35 километра.
Для сравнения, Gemini 2.5 Pro укладывается в 3-километровую зону в 64,45% случаев с медианным отклонением всего в 800 метров. Даже GPT-5, проигравший в общей точности, показал медиану в 1,86 км.
Помимо модели, команда опубликовала и сам датасет GeoBench: 1142 изображения из 66 стран и 108 городов. В выборку вошли 512 обычных фотографий, 512 панорам и 108 спутниковых снимков.
Главное отличие этого набора от аналогов вроде OpenStreetView-5M - жесткая фильтрация. Разработчики намеренно удалили "нелокализуемые" изображения: крупные планы еды или типичные пейзажи без примет и слишком очевидные достопримечательности, чтобы исключить легкие победы для алгоритмов.
@ai_machinelearning_big_data
#AI #ML #LLM #GeoVista #Tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤36👍12🥰7🔥3🦄2😭1
Компания представила сразу 2 версии модели для кодинга: флагманскую Devstral 2 (123 млрд. параметров) и облегченную Devstral Small 2 (24 млрд).
Старшая модель выбила 72,2% в бенчмарке SWE-bench Verified, закрепив за собой статус одного из лучших инструментов с открытыми весами.
Благодаря контекстному окну в 256k токенов, алгоритм способен удерживать в памяти структуру больших проектов и корректно управлять зависимостями.
Для локального запуска на GPU или CPU подойдет версия Small 2, опубликованная под лицензией Apache 2.0.
Старшая версия требует серьезного железа (от 4-х H100), но обещает быть до 7 раз экономичнее проприетарных аналогов уровня Claude Sonnet.
Вместе с моделями разработчики анонсировали утилиту Mistral Vibe CLI, которая позволяет внедрять ИИ-агентов непосредственно в терминал для автоматизации рефакторинга и оркестрации изменений сразу в нескольких файлах.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍81❤28🔥17🦄4
Media is too big
VIEW IN TELEGRAM
Компания опубликовала отчет «The state of enterprise AI», который указывает на масштабную трансформацию бизнес-процессов под влиянием ИИ. База корпоративных клиентов превысила 1 миллион организаций, а число Enterprise-мест за год выросло в 9 раз.
Главным трендом стало качественное изменение сценариев использования: потребление ризонинг-токенов подскочило на 320%. Это говорит о том, что бизнес перешел от простых чат-ботов к решению многоступенчатых инженерных и аналитических задач.
Статистика выявила четкую корреляцию между глубиной погружения в технологии и продуктивностью. Сотрудники, использующие GPT-5 Thinking и Deep Research, экономят более 10 часов в неделю, при этом потребляя в 8 раз больше ресурсов модели, чем обычные пользователи. Особенно заметен разрыв в разработке: там генерируют код через ИИ в 17 раз активнее.
openai.com
Model Context Protocol передан организации Agentic AI Foundation, действующей в структуре Linux Foundation. Это стратегический шаг: технология универсального стандарта для подключения ИИ-моделей к внешним базам данных и инструментам, теперь гарантированно останется нейтральной и открытой. Соучредителями нового фонда вместе с Anthropic выступили OpenAI и Block, а поддержку инициативе оказывают Google, Microsoft и AWS.
За год существования MCP добился массовости: протокол используют ChatGPT, Gemini, Claude и VS Code, а число загрузок SDK превысило 97 млн. Переход под эгиду Linux Foundation ставит MCP в один ряд с Kubernetes и PyTorch. Теперь развитие стандарта будет определяться сообществом, что важно для создания совместимой экосистемы ИИ-агентов.
anthropic.com
Власти КНР планируют ввести строгие ограничения на доступ и эксплуатацию Nvidia H200. Это решение готовится на фоне одобрения экспорта данных чипов со стороны администрации США. Несмотря на неожиданный «зеленый свет» из Вашингтона, Пекин демонстрирует осторожность в вопросах использования зарубежного железа.
Конкретные детали и механизмы новых барьеров пока не обнародованы. МИД Китая в ответ на запросы ограничился стандартным заявлением о важности взаимовыгодного сотрудничества, не прояснив судьбу поставок.
ft.com
Google официально подтвердила планы по запуску линейки смарт-очков с ИИ в 2026 году. Техногигант намерен потеснить Марка Цукерберга на этом рынке, объединив усилия с Samsung, Warby Parker и корейским фешн-брендом Gentle Monster.
В разработке находятся 2 типа устройств. Первый вариант - оправа с аудиосистемой для голосового взаимодействия с ИИ, второй - модель с встроенными дисплеями для навигации и перевода в реальном времени. Чтобы сохранить вес и габариты на уровне обычных очков, инженеры решили перенести основную вычислительную нагрузку на сопряженный смартфон.
cnbc.com
В EPFL предложили неожиданное решение для робототехники: использование пищевых отходов в качестве готовых экзоскелетов. В рамках концепции, которую авторы назвали «робототехникой мертвой материи», панцири лобстеров перерабатываются в функциональные механические узлы.
Процесс создания био-гибридов состоит из заполнения оболочки мягким эластомером, установку приводов и покрытия конструкции силиконом, а природная структура панциря обеспечивает идеальный баланс прочности и гибкости. Опытные образцы смогли поднимать вес до 500 граммов и выполнять захват помидора без повреждений.
Инновация решает сразу две задачи: снижает стоимость производства и уменьшает углеродный след, превращая отходы в ресурсы.
news.epfl.ch
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍67❤20🥰7🔥2👻1
⚡ Пентагону приказано готовиться к AGI
На этой неделе на голосование выходит оборонный бюджет на $900 млрд, и внутри есть исторический прецедент.
Впервые Конгресс формально обязал Минобороны США создать к апрелю 2026 года “Комитет по будущему ИИ”.
Его задача - изучать и готовиться к AGI: технологиям, которые могут сравняться или превзойти человека в любых задачах.
Это первый раз, когда военное ведомство США получает прямой мандат анализировать не просто ИИ, а потенциал сверхразумных систем.
Задачи комитета:
1) Изучать продвинутые технологии, которые могут привести к AGI: большие модели, агентные системы, нейроморфные вычисления.
2) Анализировать, как к AGI могут идти Китай, Россия, Иран и Северная Корея, где они могут догнать или опередить США.
3) Сформировать стратегию, где человек остаётся главным.
В законопроекте прямо прописано: Пентагон должен обеспечить механизмы, позволяющие человеку отменять решения ИИ - технически, политически и операционно.
Комитет возглавят заместитель министра обороны и зампред Объединённого комитета начальников штабов, совместно с руководителями видов войск и главным AI-офицером Пентагона.
Итоговый доклад в Конгресс - до января 2027 года.
AGI может прийти через пять лет или через пятьдесят, но США официально начали к нему подготовку.
https://www.perplexity.ai/page/pentagon-ordered-to-form-ai-st-3qDBlb0uS0SHVH5mHEjxJw
@ai_machinelearning_big_data
#ml #ai #agi
На этой неделе на голосование выходит оборонный бюджет на $900 млрд, и внутри есть исторический прецедент.
Впервые Конгресс формально обязал Минобороны США создать к апрелю 2026 года “Комитет по будущему ИИ”.
Его задача - изучать и готовиться к AGI: технологиям, которые могут сравняться или превзойти человека в любых задачах.
Это первый раз, когда военное ведомство США получает прямой мандат анализировать не просто ИИ, а потенциал сверхразумных систем.
Задачи комитета:
1) Изучать продвинутые технологии, которые могут привести к AGI: большие модели, агентные системы, нейроморфные вычисления.
2) Анализировать, как к AGI могут идти Китай, Россия, Иран и Северная Корея, где они могут догнать или опередить США.
3) Сформировать стратегию, где человек остаётся главным.
В законопроекте прямо прописано: Пентагон должен обеспечить механизмы, позволяющие человеку отменять решения ИИ - технически, политически и операционно.
Комитет возглавят заместитель министра обороны и зампред Объединённого комитета начальников штабов, совместно с руководителями видов войск и главным AI-офицером Пентагона.
Итоговый доклад в Конгресс - до января 2027 года.
AGI может прийти через пять лет или через пятьдесят, но США официально начали к нему подготовку.
https://www.perplexity.ai/page/pentagon-ordered-to-form-ai-st-3qDBlb0uS0SHVH5mHEjxJw
@ai_machinelearning_big_data
#ml #ai #agi
❤51🤣42👍17🔥14😁4🥱4🗿4🌚3🤗1
🚀 Вышло крупное обновление Qwen3-Omni-Flash (версия 2025-12-01)
Что изменилось:
🎙️ Модель намного лучше ведёт разговоры с голосом и видео - общение звучит естественно и непрерывно
✨ Теперь можно задавать характер ИИ через system prompts, например, стиль общения или роль
🗣️ Улучшена поддержка языков: 119 письменных и 19 голосовых
😊 Голоса звучат почти как настоящие люди
Где попробовать:
🎙️ В Qwen Chat - нажмите VoiceChat или VideoChat (правый нижний угол): http://chat.qwen.ai
📝 Подробности в блоге: https://qwen.ai/blog?id=qwen3-omni-20251201
🎧 Онлайн-демо: http://hf.co/spaces/Qwen/Qwen3-Omni-Demo
🎧 Второе демо: http://modelscope.cn/studios/Qwen/Qwen3-Omni-Demo
⚡ Realtime API: https://modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3-omni-flash-realtime-2025-12-01
📥 Offline API: https://modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3-omni-flash-2025-12-01
@ai_machinelearning_big_data
#Qwen #llm #ml
Что изменилось:
🎙️ Модель намного лучше ведёт разговоры с голосом и видео - общение звучит естественно и непрерывно
✨ Теперь можно задавать характер ИИ через system prompts, например, стиль общения или роль
🗣️ Улучшена поддержка языков: 119 письменных и 19 голосовых
😊 Голоса звучат почти как настоящие люди
Где попробовать:
🎙️ В Qwen Chat - нажмите VoiceChat или VideoChat (правый нижний угол): http://chat.qwen.ai
📝 Подробности в блоге: https://qwen.ai/blog?id=qwen3-omni-20251201
🎧 Онлайн-демо: http://hf.co/spaces/Qwen/Qwen3-Omni-Demo
🎧 Второе демо: http://modelscope.cn/studios/Qwen/Qwen3-Omni-Demo
⚡ Realtime API: https://modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3-omni-flash-realtime-2025-12-01
📥 Offline API: https://modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3-omni-flash-2025-12-01
@ai_machinelearning_big_data
#Qwen #llm #ml
👍36❤12🔥10💘1🦄1
⭐️ Nous Research открыла исходный код Nomos 1.
При размере всего 30B параметров модель набрала 87/120 на Putnam - одном из самых престижных математических конкурсов в мире.
Такой результат соответствовал бы 2-му месту среди 3988 участников в 2024 году.
Nomos 1 показала 87/120 и восемь идеальных решений. Для сравнения: Qwen3-30B при тех же условиях получила 24/120. Это подчёркивает, что преимущество Nomos связано прежде всего с качеством обучения и данных, а не с тестовой средой.
Проверка решений проходила вслепую: их оценивал реальный участник Putnam из топ-200, получивший обезличенные ответы.
Задачи решались в тех же временных рамках, что и у участников - по 3 часа на каждую часть.
Система рассуждений устроена так:
— сначала “workers” решают наиболее сложные задачи и сами оценивают свои решения;
— затем этап финализации, ИИ объединяет ответы и выбирает итоговый вариант.
▪HF: https://huggingface.co/NousResearch/nomos-1
▪Github: https://github.com/NousResearch/nomos
@ai_machinelearning_big_data
#llm #ml #ai
При размере всего 30B параметров модель набрала 87/120 на Putnam - одном из самых престижных математических конкурсов в мире.
Такой результат соответствовал бы 2-му месту среди 3988 участников в 2024 году.
Nomos 1 показала 87/120 и восемь идеальных решений. Для сравнения: Qwen3-30B при тех же условиях получила 24/120. Это подчёркивает, что преимущество Nomos связано прежде всего с качеством обучения и данных, а не с тестовой средой.
Проверка решений проходила вслепую: их оценивал реальный участник Putnam из топ-200, получивший обезличенные ответы.
Задачи решались в тех же временных рамках, что и у участников - по 3 часа на каждую часть.
Система рассуждений устроена так:
— сначала “workers” решают наиболее сложные задачи и сами оценивают свои решения;
— затем этап финализации, ИИ объединяет ответы и выбирает итоговый вариант.
▪HF: https://huggingface.co/NousResearch/nomos-1
▪Github: https://github.com/NousResearch/nomos
@ai_machinelearning_big_data
#llm #ml #ai
❤37👍14🥰5🦄2👏1😁1🤔1
Media is too big
VIEW IN TELEGRAM
Компания радикально меняет вектор развития ИИ, отказываясь от идеологии открытости в пользу закрытых коммерческих продуктов. По данным источников, уже весной будет выпущена проприетарная модель Avocado, которая будет распространяться по закрытой лицензии для прямой монетизации.
Причиной резкого разворота стала неудача с Llama 4, которая не оправдала ожиданий руководства. Любопытно, что в процессе обучения Avocado использовались ответы моделей конкурентов: Google Gemma, GPT-OSS и Qwen.
bloomberg.com
Компания создала ПО, которое определяет страну, где физически работают её ИИ-ускорители. Технология опирается на анализ сетевых задержек при обмене данными с серверами Nvidia, что позволяет установить геолокацию оборудования с точностью, достаточной для выявления нарушений санкционного режима.
Первыми поддержку новой функции получат системы на Blackwell. Инженеры также изучают варианты внедрения технологии для предыдущих поколений Hopper и Ampere. Nvidia позиционирует этот инструмент как опциональное ПО для инвентаризации и мониторинга состояния GPU-флота в дата-центрах, но фактически он отвечает на требования властей США о противодействию контрабанды железа в Китай.
reuters.com
Debug Mode — это новый агентный сценарий для борьбы с ошибками, которые обычно ставят языковые модели в тупик. Фишка инструмента в том, что он не пытается угадать решение, а действует методично: сначала выдвигает несколько гипотез о причинах сбоя, а затем временно внедряет в код инструкции для сбора runtime-логов.
Процесс отладки полностью интерактивен. После того как агент расставит «ловушки» в коде, разработчик должен воспроизвести ошибку в запущенном приложении. Получив реальные данные, Cursor локализует проблему и предлагает конкретный фикс без переписывания сотен строк кода. Если исправление работает, система автоматически вычищает весь черновой код, оставляя в проекте только финальный патч.
cursor.com
Microsoft открыла общий доступ к режиму Agent Mode в веб-версии Excel. Это обновление меняет взаимодействие с ИИ: Copilot теперь выполняет роль агента, способного самостоятельно выполнять многоступенчатые сценарии внутри книги.
В новом режиме агент может создавать таблицы с нуля, используя данные из веба, проводить сценарное моделирование «что - если», исправлять сложные формулы и строить сводные таблицы. Система показывает цепочку рассуждений и каждый шаг выполнения задачи.
Инструмент доступен подписчикам Microsoft 365 в веб-интерфейсе, а поддержка десктопных версий для Windows и Mac появится в январе.
techcommunity.microsoft.com
Компания запустила специализированные ИИ-агенты для редактирования медиафайлов и документов прямо в чат-боте. Новые инструменты поддерживают конкретные сценарии работы: Photoshop внутри чата умеет ретушировать области снимков и управлять контрастом и экспозицией. Acrobat - конвертировать, сжимать, объединять PDF-файлы и извлекать из них таблицы. Adobe Express используется для генерации и правки макетов.
Если возможностей чат-бота окажется недостаточно, проект можно бесшовно перенести в десктопный софт Adobe. Решение уже доступно в веб-версии, на десктопах и iOS. Функциональность предоставляется бесплатно: для активации достаточно загрузить файл и ввести текстовую команду с упоминанием нужного сервиса, например, «Adobe Photoshop, убери фон на этом изображении».
theverge.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍66❤18😁12🔥7😢4🤗3🤔2🌭1
Qwen предложил RL-метод SAPO (Soft Adaptive Policy Optimization), который решает ключевую проблему нестабильного обучения LLM и архитектур MoE и предлагает более разумный и мягкий подход к контролю над процессом обучения.
Reinforcement Learning, RL - это ингредиент, превращающий просто большую языковую модель в рассуждающего помощника. Именно RL учит ИИ решать олимпиадные задачи по математике, писать чистый код и понимать связь между текстом и изображением.
Но у RL есть обратная сторона: катастрофическая нестабильность обучения, особенно для гигантских моделей.
Главная техническая головоломка - это контроль над коэффициентами значимости на уровне каждого токена. В архитектурах MoE, где разные части модели активируются для разных задач, эти коэффициенты могут бесконтрольно «скакать».
Слишком большие колебания коэффициентов превращают четкие обучающие сигналы в помехи, дестабилизирующие всю систему.
До сих пор стандартными инструментами были GRPO и GSPO, которые использовали принцип хард-клиппинга. Если коэффициент выходил за заданные рамки, градиент просто обнулялся.
SAPO предлагает отказаться от хард-клиппинга в пользу интеллектуального сглаживания.
Вместо резкого обнуления SAPO использует плавную, адаптивную функцию (контролируемую температурой), которая мягко снижает влияние проблемных градиентов, но не обнуляет их полностью. Это создает непрерывные области доверия, внутри которых модель может учиться более гибко и безопасно.
Вишенка метода - это асимметричный температурный дизайн. SAPO по-разному обрабатывает «хорошие» и «плохие» обновления. Для токенов с негативным вкладом используется более высокая температура, заставляющая их влияние затухать быстрее и сильнее.
Это простое правило надежно гасит наиболее опасные колебания, что на практике приводит к беспрецедентной стабильности процесса RL-обучения.
При обучении Qwen3-30B-A3B-Base, SAPO не только показал более стабильную кривую обучения , но и достиг более высоких результатов на сложных математических бенчмарках AIME25, HMMT25. Причем он сделал это без трудоемкого маршрутизирующего воспроизведения, которая требовалась конкурентам для работы с MoE.
Успех повторили в масштабном эксперименте с мультимодальной Qwen3-VL-30B-A3B, где SAPO стабильно обошел аналоги в смешанных задачах на кодинг, логику и математику.
@ai_machinelearning_big_data
#AI #ML #LLM #MoE #SAPO #Qwen
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42🔥25❤14🥰6🦄1
Что изменилось:
⭐️ VLM- и LLM-«Алисы» сближаются все сильнее, поскольку компания делает большую ставку на мультимодальность. Например, VLM-модель уже использует RL-подход текстовой «сестрёнки». Промпт на входе в Alice AI ART обрабатывается в специальном «рефразере», который помогает сделать описание более детальным. Также увеличен контекст и объем данных претрейна в VLM.
⭐️ Много технических подробностей о работе Alice AI LLM Search, которая теперь приносит в ответе не только текст, но и изображения, видео и геоданные.
⭐️ На инфраструктуре видим прирост по скорости за счет мелких аджастов — увеличение эффективного батча на претрейне, внедрение Ulysses attention, снижение объема кэша на инференсе и еще много изменений. В целом сняты ключевые ограничения для тренировки MoE-модели на сотни миллиардов параметров.
@ai_machinelearning_big_data
#vlm #llm #ml #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣31❤30👍21🔥11🤬2
Их объединённый портрет, вдохновлённый культовой фотографией «Обед на небоскрёбе», украсил обложку.
В числе тех, кого редакция назвала главными архитекторами новой технологической эры: Илон Маск, Марк Цукерберг, Лиза Су (AMD), Джeнсен Хуанг (Nvidia), Сэм Альтман (OpenAI), Демис Хассабис (DeepMind), Дарио Амодей (Anthropic) и Фэй-Фэй Ли (World Labs).
Как отмечает издание, в 2025 году потенциал ИИ был полностью реализован, а эта группа визионеров окончательно утвердила наступление эпохи мыслящих машин.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥34❤12👍10🤬5😁4🍾1🦄1
This media is not supported in your browser
VIEW IN TELEGRAM
Кризис DRAM меняет рынок и подход к обучению современного ИИ.
✔️ Рынок захлестнул дефицит оперативной памяти и других накопителей: ИИ-гиганты выкупили огромные объёмы DRAM, HBM и NAND. Nvidia, по слухам, прекращает поставлять дистрибьюторам видеопамять в комплекте с GPU — теперь её нужно закупать отдельно. На текущий момент цены на SSD и оперативную память выросли на 50-100% по сравнению с началом года. Производители ноутбуков и смартфонов фиксируют задержки поставок, а комплект DDR5 на 64 ГБ уже стоит дороже PS5. 🤯
✔️ Мы спросили Гигачат, как кризис повлияет на развитие нейросетей и обучение моделей. ИИ-помощник формулирует так: "Дефицит памяти — это временный дисбаланс между взрывным ростом ИИ-индустрии и производственными мощностями, которые просто не успели масштабироваться под такой спрос. Высокая стоимость памяти заставляет компании переосмыслить подходы к обучению: вместо наращивания "железа напролом" фокус смещается на эффективные архитектуры и методы.". Подробнее — в видео.
@ai_machinelearning_big_data
#ai #llm #ml #ramcrisis #infrastructure
@ai_machinelearning_big_data
#ai #llm #ml #ramcrisis #infrastructure
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿49❤13😁9🤣7👍5🔥2🥱2🤬1🦄1