331K subscribers
4.16K photos
764 videos
17 files
4.68K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🔥 GPT-OSS — открытые модели с продвинутым ризонингом от OpenAI

🧠 Представлено два варианта:
GPT-OSS-120B — 117B параметров, запускается на одной H100 (80GB)
GPT-OSS-20B — 21B параметров, работает на 16GB GPU

💡 Оба варианта — MoE-модели (Mixture of Experts) с 4-битной квантизацией (MXFP4)

✔️ Особенности:
• Архитектура Token-choice MoE с SwiGLU
• Контекст до 128K токенов с RoPE
• Модель заточена на CoT (chain-of-thought)
• Поддержка instruction-following и tool-use
• Совместима с transformers, vLLM, llama.cpp, ollama
• Используется тот же токенизатор, что и в GPT-4o

Младшая модель может запускаться даже на локальном железе!

🏴‍☠️Лицензирование: Apache 2.0

https://github.com/huggingface/transformers/releases/tag/v4.55.0

🚀 Попробовать можно тут: https://www.gpt-oss.com/

💥 Официальный релиз: http://openai.com/open-models

@ai_machinelearning_big_data


#openai #opensource #chatgpt
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥87👍3927🍾7👨‍💻3
🚀 Qwen3-4B-Instruct-2507 и Qwen3-4B-Thinking-2507 — ловите еще один апдейт от Qwen: LLM с поддержкой 256K контекста

🧠 Qwen3-4B-Instruct — идеально подойдёт для:
• генерации текстов
• многоязычных задач
• сложных промптов

🧠 Qwen3-4B-Thinking — заточен под:
• логику
• математику
• программирование и технический анализ

Обе модели стали:
• точнее
• логичнее
• лучше справляются с длинными диалогами


🔗 Модели на Hugging Face:
https://huggingface.co/Qwen/Qwen3-4B-Instruct-2507
https://huggingface.co/Qwen/Qwen3-4B-Thinking-2507

🔗 Модели на ModelScope:
https://modelscope.cn/models/Qwen/Qwen3-4B-Instruct-2507
https://modelscope.cn/models/Qwen/Qwen3-4B-Thinking-2507

@ai_machinelearning_big_data

#AI #ML #qwen #opensource
👍81🔥4420👨‍💻2
📌На ИТ-Пикнике — сильный спикерский состав по ИИ и разработке

Что расскажут топ-спикеры на фестивале:

✔️ИИ теперь не просто генерирует, он рассуждает как человек. Теперь важен не сбор данных, а построение reasoning-систем, которые умеют решать задачи по цепочке во всех направлениях.

✔️Разбор автономного вождения от базовых принципов до планирования маршрута беспилотными авто.

✔️Опенсорс — зачем все этим занимаются и результаты исследования в рамках создания SourceCraft.dev.

✔️Дискуссия СТО о GenAI и платформах — кто кого обучает, где проходит грань между контролем и автономией и что останется людям в 2030.

@ai_machinelearning_big_data

#news #ai #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥38🥱189👍7👨‍💻2
🖼️ GPT-Image-Edit-1.5M — крупнейший и полностью открытый датасет для редактирования изображений по тексту!

🚀 1.5 миллиона триплетов:
инструкция + оригинальное изображение + отредактированное по запросу

Как мы это сделали?
Мы переосмыслили и усилили три известных датасета (OmniEdit, HQ-Edit, UltraEdit) с помощью новой GPT-Image API.

📊 Результаты впечатляют:
Модель FluxKontext, дообученная на этом наборе, показывает:
▫️ 7.24 на GEdit-EN
▫️ 3.80 на ImgEdit-Full
▫️ 8.78 на Complex-Edit
— на уровне с топовыми проприетарными решениями!

🎯 Инструкции выполняются точно, а изображения выглядят реалистично.
Цель — сократить разрыв между open-source и закрытыми системами редактирования.

🔗 Подробнее:
🌐 Проект: https://ucsc-vlaa.github.io/GPT-Image-Edit/
💻 Код: https://github.com/wyhlovecpp/GPT-Image-Edit
📦 Датасет: https://huggingface.co/datasets/UCSC-VLAA/GPT-Image-Edit-1.5M
🤖 Модель: https://huggingface.co/UCSC-VLAA/gpt-image-edit-training
📄 Статья: https://arxiv.org/abs/2507.21033

@ai_machinelearning_big_data


#AI #ImageEditing #OpenSource #GPT4V #Multimodal
197👍41🔥19👏2
🚀 GLM-4.5V — новый лидер среди open-source моделей в визуальном рассуждении.

Модель показывает лучшие результаты в своём классе среди открытых решений, лидируя на 41 бенчмарке.

📌 Возможности:
- Image Reasoning — понимание изображений, анализ нескольких изображений, распознавание объектов.
- Video Understanding — раскадровка длинных видео, определение событий, которые происходят на кадрах из видео.
- GUI-задачи — понимание интрефейсов, распознавание иконок, кнопок и тд, помощь в управлении рабочим столом.
- Сложный анализ графиков и документов — разбор различных отчётов, извлечение информации их них.
- Grounding — точная локализация элементов на изображениях.

📌 Особенности:
🟠 Основана на GLM-4.5-Air и использует наработки из GLM-4.1V-Thinking.

🟠 Архитектура — MoE с 106B параметров для эффективного масштабирования.

Здесь можно почитать про GLM-4.5, а здесь посмотреть техрепорт, там много интересного.

🟢 Hugging Face: http://huggingface.co/zai-org/GLM-4.5V
🟢 GitHub: http://github.com/zai-org/GLM-V
🟢 Документация API: http://docs.z.ai/guides/vlm/glm-4.5v
🟢 Попробовать: http://chat.z.ai

@ai_machinelearning_big_data

#GLM #opensource #vlm
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥89👍2520🥰4😁1🤝1
🎮 Matrix-Game 2.0 — первая опенсорс модель, которая генерирует интерактивные 3D-миры из текста в реальном времени


Неделю назад DeepMind показала Genie 3, но код не был выложен в открытый доступ.

А сегодня Skywork выложили свой генератор
Matrix-Game 2.0 миров в опенсорс 🚀

Возможности:

🟢25 кадров/с в реальном времени
🟢Генерирует минуты непрерывного геймплея
🟢Полная интерактивность: движение, повороты, исследование мира

Можно использовать несколько встроенных шаблонов: город, дикая природа, TempleRun, GTA и др.

Зачем это нужно:
🟠Создание игровых движков
🟠Тренировка AI-агентов
🟠Создание виртуальных персонажей

Заявленые требования: GPU с памятью не менее 24 ГБ (A100 и H100 протестированы).

Как работает:
• Обучена на 1350 часах видео геймлея
• Управление: движок реагирует на нажатия клавиш и движение мыши на каждом кадре
• Модель: 1,3 млрд параметров
• KV-Cache хранит контекст, чтобы окружение генерировалось без ограничений по времени

🟡Huggingface Model: https://huggingface.co/Skywork/Matrix-Game-2.0
🟡 Repo: https://matrix-game-v2.github.io

@ai_machinelearning_big_data

#AI #MatrixGame #OpenSource #DeepLearning #GameDev #InteractiveAI #WorldModel #GenerativeAI #RealtimeAI #MachineLearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥89👍3024🥱5😐4
Media is too big
VIEW IN TELEGRAM
🚀 HunyuanWorld-Voyager — AI, для генерации 3D миров

Tencent представили **HunyuanWorld-Voyager** — первый в мире open-source AI, который совмещает генерацию видео и нативную 3D-реконструкцию.

Что это значит:
Видео сразу превращается в полноценные 3D-сцены, без лишних инструментов
Модель «помнит» пространство и сохраняет правильную геометрию под любым углом
№1 в рейтинге Stanford WorldScore по видео и 3D-реконструкции

🎮 Использование: VR, игры, симуляции, 3D-проекты — управление с клавиатуры или джойстика.

🌐 Project Page: https://3d-models.hunyuan.tencent.com/world/
💻 GitHub: https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager
🤗 HuggingFace: https://huggingface.co/tencent/HunyuanWorld-Voyager
📄 PDF: https://3d-models.hunyuan.tencent.com/voyager/voyager_en/assets/HYWorld_Voyager.pdf
🏆 Leaderboard: https://huggingface.co/spaces/Howieeeee/WorldScore_Leaderboard

@ai_machinelearning_big_data


#AI #3D #VR #Gaming #OpenSource
150👍167🥰2💘1
🔥 Бесплатная книга от инженера Google — Agentic Design Patterns

400 страниц про всё, что нужно знать об агентных системах. Автор — senior engineer в Google, выложил драфт для открытого ревью.

📖 В книге:
- продвинутые техники промптинга
- паттерны для мульти-агентов
- использование инструментов и MCP
- практические примеры с кодом

По сути, это полный справочник по построению умных агентов. Must-read для разработчиков AI.

📚 Читать

@ai_machinelearning_big_data


#AI #Agents #Google #OpenSource #freebook
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11135🔥26😨4🤔3😁1
Media is too big
VIEW IN TELEGRAM
🤖 XLeRobot — домашний робот за $660, который управляется с геймпада Xbox.

XLeRobot — это открытый проект, который позволяет собрать настоящего двухрукого мобильного робота своими руками.

Автор — студент Rice University Gaotian Wang, в проектеон сделал упор на доступность и практичность.

💡 Основное:
- Цена сборки ≈ $660 — полноценный робот с двумя руками и колесной базой.
- Можно собрать упрощённую версия за $250 на базе LeKiwi + SO-100, которая собирается быстрее.
- В комплекте: URDF-модели, симуляция, управление через VR, Joy-Con или Xbox-геймпад.
- Подходит для экспериментов в симуляции и переноса в реальный мир (**Sim2Real**).
взаимодействия с окружающей средой.

📈 Популярность: проект уже собрал 1.7k+ звёзд и десятки форков на GitHub.

XLeRobot — это недорогая и открытая платформа для тех, кто хочет попробовать себя в робототехнике, исследовать управление, симуляцию и AI-алгоритмы на реальном роботе.

🟢Репозиторий: github.com/Vector-Wangel/XLeRobot

@ai_machinelearning_big_data


#robotics #opensource #AI
Please open Telegram to view this post
VIEW IN TELEGRAM
109👍36🔥21😁4🤣4🌭2🍓2❤‍🔥1💘1
🚀 Grok 2.5 теперь можно запускать локально!

Unsloth выкатили оптимизированную версию модели:

🔹 270B параметров работает на обычном Mac с 128GB RAM (~5 токенов/сек)
🔹 Размер уменьшен с 539GB до 118GB (–80%)
🔹 Ключевые слои модели сохранены в 8-битном формате, а все остальные сжаты с помощью динамического 3-битного GGUF.

🟢Гайд: https://docs.unsloth.ai/basics/grok-2
🟢 GGUF: https://huggingface.co/unsloth/grok-2-GGUF

@ai_machinelearning_big_data

#AI #xAI #Grok2 #LLM #OpenSource #MachineLearning #DeepLearning
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13822👍22😁15🥱10🗿6🤣3🤔2💘1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 WFGY 2.0 — Semantic Reasoning Engine for LLMs (MIT)

Это движок с открытым исходным кодом, цель которого — уменьшить галлюцинации и логические сбои в системах типа RAG / LLM, особенно когда:
- источники OCR-текста плохо распознаются,
- происходит «semantic drift» (когда ответ уходит от вопроса),
- «ghost matches», когда извлечённый фрагмент кажется релевантным, но на самом деле нет.

Обычно ошибки ловят уже в готовом сгенерированном тексте, из-за чего они часто повторяются.

В Semantic Reasoning Engine всё наоборот: если система видит, что рассуждения «кривые» или сбились с курса, она останавливается, сбрасывается или ищет другой путь и отвечает только когда состояние стабильно.

🛡Авторы называют это semantic firewall - семантический «файрвол».

Проверки встроены прямо в процесс мышления модели, а не поверх ответа с фильтрами или регексами. Это помогает избегать ошибок до того, как они попадут в вывод.

📌 Проект включает карту из 16 типичных ошибок LLM:
- неверный поиск данных,
- сбившаяся логика,
- «провалы памяти»,
- путаница ролей агентов и другие.

Для каждой есть простое текстовое исправление. Никаких SDK — достаточно вставить инструкции прямо в промпт.

🟢Как модель решает, правильные ли ответ генерируется:
- ΔS (drift) - не уходит ли смысл слишком далеко от шага к шагу
- λ (convergence) - сходится ли рассуждение к решению или крутится в цикле
- Coverage — достаточно ли фактов и аргументов учтено

Если все три условия выполнены, ответ считается «качественным».

🟢В тестах стабильность вывода выросла до 90–95% против обычных 70–85% у традиционных подходов.

Github: https://github.com/onestardao/WFGY

@ai_machinelearning_big_data

#ai #llm #opensource #reasoning #hallucinations #promptengineering
Please open Telegram to view this post
VIEW IN TELEGRAM
👍48🔥1913🌭21👏1
⚡️ Qwen-ASR Toolkit — мощный Python CLI для быстрой транскрипции длинных аудио и видео

Эта утилита снимает ограничение API Qwen-ASR (бывший Qwen3-ASR-Flash) в 3 минуты и позволяет расшифровывать часы контента. Достигается это за счёт умного разбиения записи и параллельной обработки.

Основные возможности:
- Снятие лимита в 3 минуты - транскрибируй файлы любой длины
- Умное разбиение (VAD - это технология, которая определяет, где в аудио есть речь, а где — пауза или шум.) - деление по естественным паузам, без
- Высокая скорость - многопоточность и параллельные запросы к API
- Автоматический ресемплинг — конвертация в нужный формат 16kHz mono
- Поддержка любых форматов — MP4, MOV, MKV, MP3, WAV, M4A и др.
- Простота - запуск одной командой через CLI

🟢 Установка:


pip install qwen3-asr-toolkit


🔗 GitHub: https://github.com/QwenLM/Qwen3-ASR-Toolkit

@ai_machinelearning_big_data


#asr #speech2text #qwen #opensource #nlp #toolki
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍70👌3918🔥9🤩3👏2🥱2💘1
⚡️ Ling-flash-2.0 теперь в открытом доступе! ⚡️

Модель 100 B параметров, но задействовано всего ≈6.1B активных, что делает модель очень экономной.

🚀 Чем хороша Ling-flash-2.0
- Обучена на более чем 20 триллионах токенов с до-обучением и RL-этапами.
- Демонстрирует state-of-the-art производительность среди плотных моделей до 40B параметров.
- Особенно хороша в сложном рассуждении, генерации кода и задачах с фронтендом.

⚙️ Архитектура и эффективность
- MoE-архитектура с активированием лишь части параметров (activation ratio 1/32).
- Много технических фишек: продвинутое распределение экспертов, баланс внимания, схема маршрутизации без вспомогательных потерь и др.
- На железе H20 модель генерирует 200+ токенов в секунду - в 3× быстрее по сравнению с плотной моделью 36B.
- Поддерживает контексты до 128K токенов (с YaRN).

https://huggingface.co/inclusionAI/Ling-flash-2.0

@ai_machinelearning_big_data


#moe #llm #ml #ai #opensource
👍32349👏26🔥21🎉16😁10🤩8🥰7😢5😍5🏆5
⚡️ Вышли новые версии Qwen3-Next-80B в формате FP8!

📌 Модели:
- Qwen3-Next-80B-A3B-Instruct-FP8: 80B, обученная в формате Instruct. Сочетает MoE-архитектуру и FP8-квантование, при большом размере работает быстро и кушает меньше памяти, поддерживает длинный контекст - до 262k токенов (с расширением до миллиона) и оптимизирована для сложных задач рассуждения и работы с большими документами.
- Qwen3-Next-80B-A3B-Thinking-FP8
— Thinking модель, с акцентом на рассуждения, и решение логических задач. Гибридное внимание: Gated DeltaNet + Gated Attention → работа с супердлинными контекстами. Thinking-версия** показывает топ-результаты на задачах рассуждений, обгоняя не только Qwen3-30B/32B, но и закрытую Gemini-2.5-Flash-Thinking

- FP8-точность → быстрый инференс при сохранении качества.
- Полная совместимость с Transformers, vLLM и SGLang.
- Подходит для продакшн-задач, где важны скорость и эффективность.

🟠Hugging Face: https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d
🟠ModelScope: https://modelscope.cn/collections/Qwen3-Next-c314f23bd0264a

@ai_machinelearning_big_data


#qwen #opensource #llm #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
51👍23🔥14❤‍🔥1💘1
🐳 Обновленная DeepSeek-V3.1-Terminus

Она даёт более стабильные и полные результаты на тестах по сравнению с предыдущей версией.

Языковая консистентность -китайцы значительно улучшили вывод модель - меньше случайных иероглифов и мешанины CN/EN.

Ряд Агентных апгрейдов рузльтаты на Code Agent и Search Agent стали заметно сильнее.

Доступна в приложении и в веб-версии и через API.

🔗 Открытые веса: https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus

@ai_machinelearning_big_data


#DeepSeek #opensource #llm
👍6823🔥10🤨2💘1
🚀 Новая китайская модель LongCat-Flash-Thinking

🧠 Это модель для рассуждений, которая показала SOTA-результаты среди open-source решений.

Основное:
- Архитектура MoE, 560B параметров, из них 27B активируются.
- Эффективность: требует на **64,5% меньше токенов**( чем другим открытым моделям того же класса), чтобы достичь топ-результатов на AIME25 (с нативным использованием инструментов,).
- Контекст: 128k, обучение с усилением на задачах рассуждений и кода, многоэтапное пост-тюнинг обучение с мультиагентным синтезом.
- Инфраструктура: асинхронный RL даёт 3x ускорение по сравнению с синхронными фреймворками.

⚙️ Оптимизации для продакшена:
- Свои оптимизированные ядра для работы с MoE и специальные приёмы распределённого обучения,
- KV-cache reduction, квантование, chunked prefill,
- статическая/эластичная маршрутизация, peer-to-peer cache transfer, heavy-hitter replication и PD-disaggregation.
- Поддержка SGLang и vLLM для эффективного деплоя.

📊 Бенчмарки:
- Лидирует в tool use (**τ²-Bench, VitaBench**)
- Хорошие результаты по instruction following (**IFEval, COLLIE, Meeseeks-zh**).

Китайцы стабильно удерживают лидерство в reasoning-моделях.

🟠 HF: https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking

@ai_machinelearning_big_data


#AI #LLM #Reasoning #MoE #DeepLearning #OpenSource
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4018🥰7👍4💘1
🚀 День релизов: Qwen выпустили Qwen3-Omni — первый нативный end-to-end *omni-modal AI*

Модель обрабатывает текст, изображения, аудио и видео в одной модели.

На бенчмарках выглядит так, как будто все модальности работают одинаково качественно.

⚡️ Особенности
- Первое место на 22 из 36 аудио- и мультимодальных бенчмарков
- Поддержка: 119 языков текста,
- Минимальная задержка — 211 мс
- Обработка аудио до 30 минут длиной
- ПОзволяет гибко настраивать через системные промпты
- Встроенный tool calling

🌟 Open-source релизы
Компания выложила три версии:
- Qwen3-Omni-30B-A3B-Instruct
- Qwen3-Omni-30B-A3B-Thinking
- Qwen3-Omni-30B-A3B-Captioner

👉 Попробовать можно здесь:
💬 Chat: https://chat.qwen.ai/?models=qwen3-omni-flash
💻 GitHub: https://github.com/QwenLM/Qwen3-Omni
🤗 Hugging Face: https://huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe
🤖 ModelScope: https://modelscope.cn/collections/Qwen3-Omni-867aef131e7d4f
🎬 Demo: https://huggingface.co/spaces/Qwen/Qwen3-Omni-Demo

@ai_machinelearning_big_data


#qwen #opensource #llm #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11443🔥33💘1
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Sakana AI представили: ShinkaEvolve — новый open-source фреймворк для научных открытий, который использует LLM и работает на порядки эффективнее традиционных эволюционных систем.

Обычные эволюционные алгоритмы похожи на brute-force: им нужны тысячи выборок, чтобы найти хорошее решение.

ShinkaEvolve, вдохновлённый принципами природы (*shinka* — «эволюция» по-японски), решает задачи всего за сотни попыток.

Пример: в классической задаче упаковки кругов (разместить несколько кругов так, чтобы они не перекрывались и при этом занимали как можно меньше места или максимально эффективно заполняли заданную область) ShinkaEvolve нашёл новое SOTA-решение, использовав 150 выборок, тогда как прошлым методам требовались тысячи.

📌 Применения ShinkaEvolve:

1️⃣ AIME Math Reasoning - система создала новые агентные шаблоны (scaffolds), которые оказались сильнее существующих методов.
2️⃣ Соревновательное программирование (ALE-Bench) - улучшила готовые решения и подняла результат с 5-го до 2-го места в рейтинге.
3️⃣ Обучение LLM - открыла новую функцию потерь для MoE-моделей, что помогло экспертам лучше специализироваться и снизило perplexity моделей.

⚙️ Основные инновации, которые дают такой прирост эффективности:
- умный отбор родителей, балансирующий исследование новых идей и улучшение старых;
- фильтрация по новизне, чтобы не тратить ресурсы на повторные варианты;
- ансамбль из нескольких LLM, где bandit-алгоритм в реальном времени выбирает наиболее подходящую модель для задачи.

ShinkaEvolve открыт для сообщества и задуман как универсальный помощник для учёных и инженеров. Цель команды — сделать поиск новых решений быстрее и доступнее.

🔗 Блог: https://sakana.ai/shinka-evolve/
🔗 Код: https://github.com/SakanaAI/ShinkaEvolve
📄 Репорт: https://arxiv.org/abs/2509.19349

@ai_machinelearning_big_data

#AI #LLM #EvolutionaryAI #ShinkaEvolve #OpenSource
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8663👍21💘1
✔️ Ling-1T - новая модель от inclusionAI с 1 триллионом параметров

Модель на 1 трлн, из них ≈ 50 млрд активны на токен (MoE-архитектура).

Она обучена на 20 трлн+ токенов, специально отобранных для задач логического мышления и рассуждений. Контекст: 128 000 токенов.

Построена на базе Evo-CoT (Evolutionary Chain of Thought) и Linguistics-Unit RL - нового метода обучения для масштабируемых рассуждений. При помощи Evo-CoT модель постепенно улучшает баланс между точностью рассуждений и вычислительной эффективностью. То есть с каждым шагом она пытается делать рассуждения «глубже», но не слишком дорого по ресурсам.

Моделька демонстрирует сильные результаты в задачах кода, математики, логики и фронтенд-генерации.

В архитектуре задействованы Mixture-of-Experts (1/32 активация), MTP слои и маршрутизация экспертов.

Ling-1T показывает, что огромные модели можно сделать не только мощными, но и экономичными.

https://huggingface.co/inclusionAI/Ling-1T

@ai_machinelearning_big_data

#Ling1T #AI #ML #OpenSource #Reasoning #TrillionScale #FP8
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍601162🔥147🤔133👏97💯83😁69🥰65😐16😢12🤩9
This media is not supported in your browser
VIEW IN TELEGRAM
💡 RND1 - новая экспериментальная модель с 30 миллиардами параметров, построенная по архитектуре Sparse Mixture-of-Experts, где активно 3 миллиарда параметров.

Она была преобразована из предварительно обученной авторегрессионной модели (Qwen3-30B-A3B) и затем дополнительно обучена на 500 миллиардах токенов, чтобы полностью поменять поведениие диффузионной модели.

Обычные модели (AR, автогрессионные) пишут текст слово за словом, а RND1 создаёт всё предложение сразу и потом пошагово уточняет его, как будто “проявляет” текст из шума.

Это - Diffusion Language Model (DLM), аналог диффузионных моделей, которые рисуют картинки, только здесь она “рисует” слова.

🔄 Как её сделали

Команда Radical Numerics придумала, как превратить готовую модель в диффузионную без обучения с нуля.

Они просто поменяли тип внимания и дообучили модель на новой задаче.

Этот метод называется AR-to-Diffusion Conversion (A2D) - то есть конверсия из автогрессионной модели в диффузионную.

Как это происходит:
1. Берут сильную GPT-подобную модель.
2. Меняют механизм внимания — теперь модель видит весь контекст сразу.
3. Продолжают обучение по диффузионной задаче.
4. Используют разные скорости обучения для разных частей сети, чтобы модель не забыла старое, но научилась новому способу мышления.

⚙️ Что под капотом

Mixture-of-Experts (MoE) - у модели 30 млрд параметров, но реально работают только 3 млрд за раз. Это делает её мощной, но экономной.

Непрерывное дообучение - старые знания не стираются, а “встраиваются” в новый режим.

Огромные батчи - модель учится на больших партиях данных, чтобы стабилизировать обучение, ведь она не обрабатывает все токены сразу.

✔️ Чем RND1 интересна:

- Параллельная генерация - текст создаётся быстрее, без пошаговой задержки.
- Меньше затрат - активных параметров всего 3 млрд, при этом качество как у больших GPT.
- Новая архитектура - открывает дорогу гибридным моделям, сочетающим плюсы AR и DLM.
- Полностью открытый код и веса - можно исследовать, изменять, запускать самому.
- Первый серьёзный шаг к самосовершенствующемуся ИИ- модель может не только обучаться, но и помогать в проектировании следующей версии.

Это реально интересный метод, RND1 показывает, что ИИ можно не просто обучать, а перестраивать - менять его саму логику мышления без начала “с нуля”.

Похоже, это может стать фундаментом для систем Recursive Self-Improvement (RSI), когда ИИ способен создавать и улучшать самого себя.

🟠Blog: https://radicalnumerics.ai/blog/rnd1

🟠Code: https://github.com/RadicalNumerics/RND1

🟠Report: https://radicalnumerics.ai/assets/rnd1_report.pdf

🟠Веса: https://huggingface.co/radicalnumerics/RND1-Base-0910

🟠Видео: https://www.youtube.com/watch?v=M8XdNsecroo

@ai_machinelearning_big_data


#RND1 #RadicalNumerics #AI #DLM #DiffusionModel #MoE #OpenSource
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52🔥2518