В эпоху, когда сами нейросети уже перестали удивлять, конкуренция смещается в сторону платформ, сервисов и инструментов, которые помогают работать с ИИ на практике. Всё чаще ценность определяется не параметрами модели, а тулингом вокруг нее и тем, как нейросеть встроена в продукты и решает конкретные бизнес-задачи.
Подробнее — в свежем интервью: https://mltimes.ai/rukovoditel-platformy-ai-studio-v-yandex-b2b-tech-artur-samigullin-o-konkurenczii-s-inostrannymi-modelyami-i-kak-yandeks-prodaet-svoi-i-opensorsnye-nejroseti/
@ai_machinelearning_big_data
#news #ai #ml
Подробнее — в свежем интервью: https://mltimes.ai/rukovoditel-platformy-ai-studio-v-yandex-b2b-tech-artur-samigullin-o-konkurenczii-s-inostrannymi-modelyami-i-kak-yandeks-prodaet-svoi-i-opensorsnye-nejroseti/
@ai_machinelearning_big_data
#news #ai #ml
❤42👍23🔥10😁2
This media is not supported in your browser
VIEW IN TELEGRAM
Она была преобразована из предварительно обученной авторегрессионной модели (Qwen3-30B-A3B) и затем дополнительно обучена на 500 миллиардах токенов, чтобы полностью поменять поведениие диффузионной модели.
Обычные модели (AR, автогрессионные) пишут текст слово за словом, а RND1 создаёт всё предложение сразу и потом пошагово уточняет его, как будто “проявляет” текст из шума.
Это - Diffusion Language Model (DLM), аналог диффузионных моделей, которые рисуют картинки, только здесь она “рисует” слова.
🔄 Как её сделали
Команда Radical Numerics придумала, как превратить готовую модель в диффузионную без обучения с нуля.
Они просто поменяли тип внимания и дообучили модель на новой задаче.
Этот метод называется AR-to-Diffusion Conversion (A2D) - то есть конверсия из автогрессионной модели в диффузионную.
Как это происходит:
1. Берут сильную GPT-подобную модель.
2. Меняют механизм внимания — теперь модель видит весь контекст сразу.
3. Продолжают обучение по диффузионной задаче.
4. Используют разные скорости обучения для разных частей сети, чтобы модель не забыла старое, но научилась новому способу мышления.
⚙️ Что под капотом
▪ Mixture-of-Experts (MoE) - у модели 30 млрд параметров, но реально работают только 3 млрд за раз. Это делает её мощной, но экономной.
▪ Непрерывное дообучение - старые знания не стираются, а “встраиваются” в новый режим.
▪ Огромные батчи - модель учится на больших партиях данных, чтобы стабилизировать обучение, ведь она не обрабатывает все токены сразу.
- Параллельная генерация - текст создаётся быстрее, без пошаговой задержки.
- Меньше затрат - активных параметров всего 3 млрд, при этом качество как у больших GPT.
- Новая архитектура - открывает дорогу гибридным моделям, сочетающим плюсы AR и DLM.
- Полностью открытый код и веса - можно исследовать, изменять, запускать самому.
- Первый серьёзный шаг к самосовершенствующемуся ИИ- модель может не только обучаться, но и помогать в проектировании следующей версии.
Это реально интересный метод, RND1 показывает, что ИИ можно не просто обучать, а перестраивать - менять его саму логику мышления без начала “с нуля”.
Похоже, это может стать фундаментом для систем Recursive Self-Improvement (RSI), когда ИИ способен создавать и улучшать самого себя.
@ai_machinelearning_big_data
#RND1 #RadicalNumerics #AI #DLM #DiffusionModel #MoE #OpenSource
Please open Telegram to view this post
VIEW IN TELEGRAM
👍70🔥34❤28
Это подборка интерактивных ноутбуков, демонстрирующих возможности Qwen3-VL - как при локальном запуске, так и через API.
Внутри - десятки реальных примеров с разборами:
▪ Работа с изображениями и рассуждение по ним
▪ Агент для взаимодействия с интерфейсами (Computer-Use Agent)
▪ Мультимодальное программирование
▪ Распознавание объектов и сцен (Omni Recognition)
▪ Продвинутое извлечение данных из документов
▪ Точное определение объектов на изображении
▪ OCR и извлечение ключевой информации
▪ 3D-анализ и привязка объектов
▪ Понимание длинных документов
▪ Пространственное рассуждение
▪ Мобильный агент
▪ Анализ и понимание видео
@ai_machinelearning_big_data
#Qwen #Qwen3VL #AI #VisionLanguage #Multimodal #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤78🔥26👍22💘1
Media is too big
VIEW IN TELEGRAM
Вместо традиционного fine-tuning, где обновляются веса модели, ACE позволяет ей становиться умнее без переобучения.
Метод основан на идее, что модель может сама улучшать свои подсказки - переписывать их, анализировать ошибки и извлекать уроки из прошлых попыток. В процессе формируется постоянный контекстный «ноутбук»я, накопленная база знаний, в которой сохраняются успешные решения и примеры.
По данным авторов, ACE показывает результаты выше, чем у агентов на основе GPT-4: на 10,6% лучше в тестах AppWorld и на 8,6% лучше в задачах финансового рассуждения. При этом затраты и задержка снижаются на 86,9%, а для обучения не требуется размеченных данных.
Главный вывод работы в том, что ACE опровергает идею минимализма в промптах. Вместо коротких и простых инструкций этот подход делает ставку на богатый контекст и постоянное самоулучшение модели.
arxiv
Система обеспечивает до 5 раз выше производительность на GPU, обладает 37 ТБ объединённой памяти и вычислительной мощностью 1,44 экзафлопса.
Проект демонстрирует, что ставка Microsoft на развитие облачной инфраструктуры Azure для ИИ приносит ощутимые результаты.
microsoft
В Китае молодёжь массово обращается к ИИ-компаньонам вроде DeepSeek и Doubao, заменяя ими дорогие и труднодоступные сеансы терапии.
Проблема системная — 80% больниц не имеют психиатрических отделений, а консультация в больших городах стоит до 800 юаней ($110) в час.
ИИ-чаты дают мгновенный и анонимный отклик, но несут и риски: универсальные модели могут поддерживать опасные мысли вместо того, чтобы оспаривать их.
Соцсети заполняют истории о «разговорах со слезами на глазах» - поисковые запросы вроде «плакал после общения с ИИ» превысили миллион упоминаний. Опросы показывают, что всё больше молодых пользователей обращаются к чат-ботам при тревоге, депрессии или проблемах в отношениях — их привлекает анонимность и круглосуточная доступность.
restofworld
MoonshotAI обновила инструмент K2 Vendor Verifier
- теперь можно визуально сравнивать точность выполнения вызова инструментов (tool calls) у разных провайдеров.
Github
Компания объявила о крупном достижении в области long-context AI-моделей, где вычислительная сложность растёт линейно, а не квадратично, что решает одну из ключевых проблем современных LLM - баланс между эффективностью и точностью при обработке длинных последовательностей.
Модель вдохновлена биологической памятью и сочетает два типа запоминания: точное краткосрочное и сжатое долговременное.
Свежие токены удерживаются в скользящем окне внимания (аналог кратковременной памяти), а более старые - сжимаются “гиппокампом” в компактное состояние фиксированного размера, которое обновляется и передаётся дальше.
Результаты впечатляют: на тестах с контекстом 128k вычисления (FLOPs) сократились на 40,5 %, объём KV-кеша — на 74 %, при этом точность выросла, а параметры увеличились лишь на 0,4 %.
На этапе вывода каждый новый токен обращается и к точному окну, и к сжатому состоянию, что сохраняет локальную точность и обеспечивает понимание длинного контекста без взрыва памяти и вычислений.
arxiv.org
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍69❤33🔥30🥰3
Media is too big
VIEW IN TELEGRAM
По данным The Wall Street Journal, Microsoft и Anthropic наняли Риши Сунака в качестве старшего консультанта на неполный рабочий день.
В Anthropic он будет заниматься вопросами глобальной стратегии и геополитических тенденций, не затрагивая внутреннюю политику Великобритании. Microsoft уточнила, что Сунак даст внутренние стратегические консультации и будет выступать на корпоративных мероприятиях.
Ранее, в июле 2025 года, Сунак также стал советником Goldman Sachs.
Его опыт в сфере ИИ включает проведение саммита AI Safety Summit в ноябре 2023 года и запуск AI Safety Institute, что дало ему непосредственное понимание международной координации и тестирования безопасности ИИ.
wsj
Adobe представила метод RL-ZVP: обучение даже на “бесполезных” промптах
Новая р описывает способ обучения моделей, который использует промпты с нулевой дисперсией ответов - то есть случаи, где все сэмплированные ответы одинаково хороши или одинаково плохи. Раньше такие данные считались «пустыми» и отбрасывались, но теперь превращаются в сигнал для обучения.
Метод RL-ZVP (Reinforcement Learning with Zero Variance Prompts) заменяет “молчание” градиента на активное обновление: если все ответы верны — считается положительный пример, если все ошибочны — отрицательный. Обновления масштабируются по энтропии, чтобы неуверенные токены корректировались сильнее, а очевидные - слабее.
Такой подход повышает точность до +8.6 пунктов и pass rate до +7.8 пунктов по сравнению с популярным методом GRPO, не требуя дополнительных вычислений.
Главная идея - не выбрасывать 50% обучающих шагов, а извлекать из них пользу, превращая “пустые” выборки в источник стабильности и точности.
arxiv
Модель точно сохраняет персонажа и окружение.
Достаточно начать запрос со слов «next scene», чтобы ИИ продолжил историю, с плавными переходами, продуманной композицией и даже собственным сюжетом.
HF
По данным The Wall Street Journal, Эндрю Таллок, сооснователь Thinking Machines Lab и один из ведущих исследователей в области ИИ, покинул компанию и присоединился к команде Цукерберга.
Этот шаг примечателен тем, что ранее Таллок отклонил предложение компании рука на сумму $1 млрд, но теперь возвращается в компанию, где уже проработал 11 лет до перехода в OpenAI, а затем - к созданию Thinking Machines вместе с Мирой Мурати в начале этого года.
wsj
Впервые искусственный интеллект не просто прошёл академическое испытание, а занял места в топ-2 среди 200–300 лучших школьников планеты.
Модели GPT-5 и Gemini 2.5 Pro показали результаты 85,6 % и 84,2 % соответственно - это уровень золотой медали.
Такие олимпиады считаются одними из самых сложных в мире: участники решают задачи по нейтронным звёздам, магнитным полям, аккреционным потокам и орбитальной механике, нередко по нескольку часов каждая.
В новом отчёте “Neuralink, AI in your brAIn” аналитики Morgan Stanley заявили, что интерфейсы мозг-компьютер (BCI) переходят из научной фантастики в реальную экономику — и Neuralink стоит в центре этого сдвига.
Neuralink уже имплантировали чипы 12 пациентам, а 10 000 человек ждут своей очереди. Один из пользователей проводит с устройством по 100 часов в неделю. Текущие проекты — Telepathy (управление компьютером мыслями) и Blindsight (восстановление зрения через зрительную кору).
Morgan Stanley оценивает рынок в $400 млрд только в США, прежде чем технология выйдет в гейминг, оборонку и потребительские устройства.
Эксперты предупреждают: ИИ ускорит развитие BCI, но скорость человеческой мысли может не поспевать за AGI.
thedebrief
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥57❤48👍21😁5🌭5🙉4💘2❤🔥1🤔1🤝1
This media is not supported in your browser
VIEW IN TELEGRAM
На видео - 19-летний студент Стэнфорда, который бросил университет, чтобы запустить свой первый стартап Loopt.
Loopt был геолокационным приложением - своего рода предшественником Find My Friends и функции геометок в соцсетях. В приложении можно было смотреть, какие места посещают ваши друзья, какие отзывы оставляют.
Loopt продали в 2012 году за $43,4 млн. После этого Сэм Альтман создал свой венчурный фонд Hydrazine, начал инвестировать в стартапы, затем стал главой акселератора Y Combinator — программы, которая помогает молодым компаниям расти и получать инвестиции.
А уже в 2015 году он соосновал OpenAI.
@ai_machinelearning_big_data
#openai #ml #ai #chatgpt #SamAltman
Please open Telegram to view this post
VIEW IN TELEGRAM
🤨95🔥73👍40❤15⚡13😨7🗿5🤬2🙈2💘2🥰1