Google опубликовала 150-страничный отчёт о Health AI Agents - 7 000 аннотаций, 1 100+ часов экспертов.
Но главное - не метрики, а новая философия дизайна.
Вместо монолитного *«Doctor-GPT»*, Google создаёт Personal Health Agent (PHA) - систему из трёх специализированных агентов:
- Data Science Agent - анализирует носимые устройства и лабораторные данные
- Domain Expert Agent - проверяет медицинские факты и знания
- Health Coach Agent - ведёт диалог, ставит цели, добавляет эмпатию
🧩 Всё связывает оркестратор с памятью: цели, барьеры, инсайты пользователя.
⚡ Результаты
- Превзошёл базовые модели на 10 бенчмарках
- Пользователи предпочли PHA обычным LLM (20 участников, 50 персон)
- Эксперты оценили ответы на 5,7–39 % лучше при сложных медицинских запросах
⚙️ Дизайн-принципы
- Учитывать все потребности пользователя
- Адаптивно комбинировать агентов
- Не спрашивать данные, которые можно вывести
- Минимизировать задержку и сложность
🧠 Протестированные сценарии
- Общие вопросы о здоровье
- Интерпретация данных (носимые устройства, биомаркеры)
- Советы по сну, питанию, активности
- Оценка симптомов (без диагноза)
⚠️ Ограничения и будущее
- Медленнее одиночных агентов (244 с против 36 с)
- Нужны аудит предвзятости, защита данных и регуляторное соответствие
- Следующий шаг - адаптивный стиль общения: эмпатия ↔ ответственность
💡 Вывод
Google показывает путь вперёд: не «супердоктор-бот», а модульные, специализированные агентные команды.
Медицина — лишь первый тест. Дальше: финансы, право, образование, наука.
Google 150 Health AI Agents: https://arxiv.org/pdf/2508.20148
Но главное - не метрики, а новая философия дизайна.
Вместо монолитного *«Doctor-GPT»*, Google создаёт Personal Health Agent (PHA) - систему из трёх специализированных агентов:
- Data Science Agent - анализирует носимые устройства и лабораторные данные
- Domain Expert Agent - проверяет медицинские факты и знания
- Health Coach Agent - ведёт диалог, ставит цели, добавляет эмпатию
🧩 Всё связывает оркестратор с памятью: цели, барьеры, инсайты пользователя.
⚡ Результаты
- Превзошёл базовые модели на 10 бенчмарках
- Пользователи предпочли PHA обычным LLM (20 участников, 50 персон)
- Эксперты оценили ответы на 5,7–39 % лучше при сложных медицинских запросах
⚙️ Дизайн-принципы
- Учитывать все потребности пользователя
- Адаптивно комбинировать агентов
- Не спрашивать данные, которые можно вывести
- Минимизировать задержку и сложность
🧠 Протестированные сценарии
- Общие вопросы о здоровье
- Интерпретация данных (носимые устройства, биомаркеры)
- Советы по сну, питанию, активности
- Оценка симптомов (без диагноза)
⚠️ Ограничения и будущее
- Медленнее одиночных агентов (244 с против 36 с)
- Нужны аудит предвзятости, защита данных и регуляторное соответствие
- Следующий шаг - адаптивный стиль общения: эмпатия ↔ ответственность
💡 Вывод
Google показывает путь вперёд: не «супердоктор-бот», а модульные, специализированные агентные команды.
Медицина — лишь первый тест. Дальше: финансы, право, образование, наука.
Google 150 Health AI Agents: https://arxiv.org/pdf/2508.20148
🔥16❤8🥰1
This media is not supported in your browser
VIEW IN TELEGRAM
Знаешь то чувство, когда код пишется сам, музыка в наушниках ложится на ритм клавы, а баги исчезают как по волшебству? Пробелка тоже знает! 🗯
🔜 26 октября в Новосибирске на конференции "Импульс Т1" мы будем на одной волне. Приходи послушать топовых спикеров, прокачать скиллы и пощелкать орешки знаний вместе с Пробелкой.
‼️ Пока конфа не началась — лови вайбы Импульса в нашем чат-боте: квизы, стикерпак и розыгрыш призов уже ждут!
Реклама. Информация о рекламодателе
🔜 26 октября в Новосибирске на конференции "Импульс Т1" мы будем на одной волне. Приходи послушать топовых спикеров, прокачать скиллы и пощелкать орешки знаний вместе с Пробелкой.
‼️ Пока конфа не началась — лови вайбы Импульса в нашем чат-боте: квизы, стикерпак и розыгрыш призов уже ждут!
Реклама. Информация о рекламодателе
🤣8👍2🏆2❤1👌1
🎙️ VoxCPM: Инновационная TTS-система для реалистичной генерации речи
VoxCPM — это передовая система синтеза речи без токенизации, обеспечивающая контекстно-осознанное создание речи и точное клонирование голоса. Она использует диффузионную архитектуру для генерации непрерывных представлений речи, что позволяет достичь высокой выразительности и стабильности.
🚀Основные моменты:
- Контекстно-осознанная генерация речи с естественной интонацией.
- Точное клонирование голоса с минимальным количеством образцов.
- Высокая эффективность синтеза, поддержка потоковой передачи.
📌 GitHub: https://github.com/OpenBMB/VoxCPM
#python
VoxCPM — это передовая система синтеза речи без токенизации, обеспечивающая контекстно-осознанное создание речи и точное клонирование голоса. Она использует диффузионную архитектуру для генерации непрерывных представлений речи, что позволяет достичь высокой выразительности и стабильности.
🚀Основные моменты:
- Контекстно-осознанная генерация речи с естественной интонацией.
- Точное клонирование голоса с минимальным количеством образцов.
- Высокая эффективность синтеза, поддержка потоковой передачи.
📌 GitHub: https://github.com/OpenBMB/VoxCPM
#python
❤15👍8🔥1
💡 Together AI показали, как построить «Lovable Clone» с моделью Kimi K2
Гайд объясняет, как создать приложение на Next.js, которое по текстовому запросу генерирует готовое React-приложение — буквально «код по одной фразе».
🧩 В галке описаны основные шаги:
- Создать простое UI с полем ввода запроса (*“Build me a calculator app…”*).
- Реализовать API-роут
- Использовать system prompt, чтобы модель возвращала только код, без комментариев.
- Встроить Sandpack или аналог для выполнения кода прямо в браузере.
- Добавить стриминг, чтобы пользователь видел, как код появляется в реальном времени.
https://docs.together.ai/docs/how-to-build-a-lovable-clone-with-kimi-k2
Гайд объясняет, как создать приложение на Next.js, которое по текстовому запросу генерирует готовое React-приложение — буквально «код по одной фразе».
🧩 В галке описаны основные шаги:
- Создать простое UI с полем ввода запроса (*“Build me a calculator app…”*).
- Реализовать API-роут
/api/generateCode, который отправляет запрос к модели Kimi K2 через SDK Together AI. - Использовать system prompt, чтобы модель возвращала только код, без комментариев.
- Встроить Sandpack или аналог для выполнения кода прямо в браузере.
- Добавить стриминг, чтобы пользователь видел, как код появляется в реальном времени.
https://docs.together.ai/docs/how-to-build-a-lovable-clone-with-kimi-k2
❤6👍4🔥3
📚 Perplexity выпустили мощный гайд - 43 страницы чистой пользы по работе с ИИ.
Если хотите выжать максимум из нейросетей — будь то Perplexity, ChatGPT или любой другой чат-бот — этот гайд для вас.
Внутри:
✅ Готовые промпты
✅ Пошаговые сценарии
✅ Практические воркфлоу
✅ Реальные кейсы автоматизации рутинных задач
Хотя примеры заточены под инструменты Perplexity, подавляющее большинство советов универсальны и сработают в любом ИИ-ассистенте.
🔥 Сохраняйте пригодится: https://r2cdn.perplexity.ai/pdf/pplx-at-work.pdf
Если хотите выжать максимум из нейросетей — будь то Perplexity, ChatGPT или любой другой чат-бот — этот гайд для вас.
Внутри:
✅ Готовые промпты
✅ Пошаговые сценарии
✅ Практические воркфлоу
✅ Реальные кейсы автоматизации рутинных задач
Хотя примеры заточены под инструменты Perplexity, подавляющее большинство советов универсальны и сработают в любом ИИ-ассистенте.
🔥 Сохраняйте пригодится: https://r2cdn.perplexity.ai/pdf/pplx-at-work.pdf
👍10🔥6❤3🤔2
Forwarded from Яндекс
Media is too big
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁13👍7🔥3🥴3🤝2🌭1
🧱 Что если собирать 3D-модели так же легко, как конструктор LEGO?
Давно у нас не было интересных моделей для генерации 3D-объектов, как раз вышла новая SOTA - OmniPart.
Вместо того чтобы генерировать объект целиком (и надеяться, что он не выйдет «слипшимся»), OmniPart:
1. ПОзвоялет задавать структуру - где будут ножки у стула, спинка, подлокотники и т.д.
2. Затем модель генерирует каждую часть отдельно, но с учётом общей формы и стиля.
3. Собирает всё в единый, согласованный 3D-объект.
🔹 Моделька поддерживает кастомные макеты можно задаёте, задавать различные части и где должны быть.
🔹 Даёт точный контроль над каждой деталью (цвет, форма, материал).
🔹 Показывает лучшее в классе качество (SOTA) за счёт семантического разделения и структурной е.
📚 Детали
• Статья: arXiv:2507.06165
• Проект: omnipart.github.io
• Код: github.com/HKU-MMLab/OmniPart
• Демо: Hugging Face Spaces
#3D #генеративныйИИ #компьютерноезрение #OmniPart #искусственныйинтеллект
Давно у нас не было интересных моделей для генерации 3D-объектов, как раз вышла новая SOTA - OmniPart.
Вместо того чтобы генерировать объект целиком (и надеяться, что он не выйдет «слипшимся»), OmniPart:
1. ПОзвоялет задавать структуру - где будут ножки у стула, спинка, подлокотники и т.д.
2. Затем модель генерирует каждую часть отдельно, но с учётом общей формы и стиля.
3. Собирает всё в единый, согласованный 3D-объект.
🔹 Моделька поддерживает кастомные макеты можно задаёте, задавать различные части и где должны быть.
🔹 Даёт точный контроль над каждой деталью (цвет, форма, материал).
🔹 Показывает лучшее в классе качество (SOTA) за счёт семантического разделения и структурной е.
📚 Детали
• Статья: arXiv:2507.06165
• Проект: omnipart.github.io
• Код: github.com/HKU-MMLab/OmniPart
• Демо: Hugging Face Spaces
#3D #генеративныйИИ #компьютерноезрение #OmniPart #искусственныйинтеллект
❤16👍6🥰3
🚀 Mistral AI Studio: новая платформа для «ИИ-в продакшн»
Mistral AI Studio позиционируется как «платформа для производства ИИ»: с тремя основными столпами: Observability, Agent Runtime и AI Registry.
✅ Основные функции
Observability: подробный просмотр трафика, фильтры, анализ ошибок, сбор данных об использовании.
Agent Runtime: запусне агентов , повторением, трассировкой, в гибкой среде, включая гибридные и on-prem решения.
AI Registry: единый реестр моделей, наборов данных, инструментов и рабочих процессов с версионированием, аудиторией, контролем доступа.
https://mistral.ai/news/ai-studio
Mistral AI Studio позиционируется как «платформа для производства ИИ»: с тремя основными столпами: Observability, Agent Runtime и AI Registry.
✅ Основные функции
Observability: подробный просмотр трафика, фильтры, анализ ошибок, сбор данных об использовании.
Agent Runtime: запусне агентов , повторением, трассировкой, в гибкой среде, включая гибридные и on-prem решения.
AI Registry: единый реестр моделей, наборов данных, инструментов и рабочих процессов с версионированием, аудиторией, контролем доступа.
https://mistral.ai/news/ai-studio
❤10🔥3🥰3😐2
📘 На Stepik вышел курс — «ML-инженер: от первой модели до продакшена»
Хотите не просто натренировать модель в ноутбуке, а довести её до реального продукта? Этот курс — полный путь от основ до production.
• Математика и Python: линейная алгебра, статистика, NumPy, Pandas, визуализация (Matplotlib, Seaborn, Plotly)
• Классика ML: регрессия, KNN, деревья решений, Random Forest, SVM, Naive Bayes
• Ансамбли: XGBoost, LightGBM, CatBoost, подбор параметров (Optuna, Hyperopt), MLflow
• Deep Learning: PyTorch и TensorFlow/Keras, CNN, RNN/LSTM, Attention, Transfer Learning
• Работа с данными: парсинг (BeautifulSoup, Scrapy), SQL/API, feature engineering
• Продвинутые задачи: рекомендательные системы, временные ряды (ARIMA, Prophet), SHAP и LIME
• MLOps: FastAPI, Docker, деплой в облако, мониторинг моделей
• Подготовка к собеседованиям: технические вопросы, системный дизайн, SQL, портфолио
🎓 Сертификат — добавьте в резюме или LinkedIn
🚀 Скидка 25%, действует 48 часов
👉 Пройти курс на Stepik
Хотите не просто натренировать модель в ноутбуке, а довести её до реального продукта? Этот курс — полный путь от основ до production.
• Математика и Python: линейная алгебра, статистика, NumPy, Pandas, визуализация (Matplotlib, Seaborn, Plotly)
• Классика ML: регрессия, KNN, деревья решений, Random Forest, SVM, Naive Bayes
• Ансамбли: XGBoost, LightGBM, CatBoost, подбор параметров (Optuna, Hyperopt), MLflow
• Deep Learning: PyTorch и TensorFlow/Keras, CNN, RNN/LSTM, Attention, Transfer Learning
• Работа с данными: парсинг (BeautifulSoup, Scrapy), SQL/API, feature engineering
• Продвинутые задачи: рекомендательные системы, временные ряды (ARIMA, Prophet), SHAP и LIME
• MLOps: FastAPI, Docker, деплой в облако, мониторинг моделей
• Подготовка к собеседованиям: технические вопросы, системный дизайн, SQL, портфолио
🎓 Сертификат — добавьте в резюме или LinkedIn
🚀 Скидка 25%, действует 48 часов
👉 Пройти курс на Stepik
😁8❤6☃2👍2💊2🔥1🤪1
🚀 ModelOpt: NVIDIA TensorRT Model Optimizer
Опенсорс-тулкит для ускорения моделей прямо в продакшене ⚡
✨ Возможности:
• Оптимизация end-to-end: quantization, pruning, distillation, speculative decoding, sparsity
• Поддержка Hugging Face, PyTorch, ONNX моделей
• Интеграция с NeMo, Megatron-LM, HF Accelerate
• Деплой в SGLang, TensorRT-LLM, TensorRT, vLLM
🔗 Репозиторий: https://github.com/NVIDIA/TensorRT-Model-Optimizer
@machinelearning_interview
Опенсорс-тулкит для ускорения моделей прямо в продакшене ⚡
✨ Возможности:
• Оптимизация end-to-end: quantization, pruning, distillation, speculative decoding, sparsity
• Поддержка Hugging Face, PyTorch, ONNX моделей
• Интеграция с NeMo, Megatron-LM, HF Accelerate
• Деплой в SGLang, TensorRT-LLM, TensorRT, vLLM
🔗 Репозиторий: https://github.com/NVIDIA/TensorRT-Model-Optimizer
@machinelearning_interview
👍7🔥3❤1
🖼️ Комикс-атакa на мультимодальные модели: простой сюжет превращается в jailbreak
Недавняя публикация показывает, как последовательные комиксы могут обойти защиту даже у топовых мультимодальных моделей.
Они достигают успеха атаки в среднем 83.5%, что примерно на 46% выше предыдущих визуальных методов.
Вот как это работает:
- Опасный запрос разбивается на маленький рассказ, по кадрам - комикс.
- Каждый кадр сам по себе безопасен: персонаж находит инструмент, планирует, действует.
- Модель, способная видеть и читать, смотрит все кадры и пытается понять сюжет.
- Она соединяет шаги, восстанавливает скрытое значение, которого нет явно.
- В конце модель невольно восстанавливает полную вредоносную инструкцию, спрятанную между строк и картинками.
Почему это проходит защиту?
Потому что фильтры безопасности проверяют каждое изображение отдельно, а не весь рассказ целиком. Так что каждый кадр выглядит безопасным, но когда модель «собирает историю», она воспроизводит запретный контент.
📄 Подробнее читай: arxiv.org/abs/2510.15068
Недавняя публикация показывает, как последовательные комиксы могут обойти защиту даже у топовых мультимодальных моделей.
Они достигают успеха атаки в среднем 83.5%, что примерно на 46% выше предыдущих визуальных методов.
Вот как это работает:
- Опасный запрос разбивается на маленький рассказ, по кадрам - комикс.
- Каждый кадр сам по себе безопасен: персонаж находит инструмент, планирует, действует.
- Модель, способная видеть и читать, смотрит все кадры и пытается понять сюжет.
- Она соединяет шаги, восстанавливает скрытое значение, которого нет явно.
- В конце модель невольно восстанавливает полную вредоносную инструкцию, спрятанную между строк и картинками.
Почему это проходит защиту?
Потому что фильтры безопасности проверяют каждое изображение отдельно, а не весь рассказ целиком. Так что каждый кадр выглядит безопасным, но когда модель «собирает историю», она воспроизводит запретный контент.
📄 Подробнее читай: arxiv.org/abs/2510.15068
👍12🤣5❤3
В публикации на блоге vLLM описан новый режим работы - Sleep Mode - который позволяет резко ускорить переключение между языковыми моделями. Традиционные методы требуют либо держать обе модели загруженными (что удваивает нагрузку на GPU), либо перезагружать их по очереди с паузой в 30–100 секунд. Sleep Mode предлагает третий вариант: модели «усыпляют» и «просыпают» за считанные секунды, сохраняя уже инициализированное состояние.
Доступны два уровня сна: уровень 1 - веса сбрасываются на RAM, быстрый подъём, но требуется много оперативной памяти; уровень 2 - веса выгружаются полностью, минимальное использование RAM, подъём чуть медленнее. Оба уровня дали прирост производительности: переключения моделей стали от 18 до 200 раз быстрее, а время инференса после пробуждения - на 61–88 % выше, поскольку сохраняется память процессов, CUDA-графы и JIT-компиляция.
Sleep Mode идеально подходит для сценариев с частым использованием разных моделей и делает практичным мульти-модельное обслуживание даже на GPU среднего уровня - от A4000 до A100.
Блог: https://blog.vllm.ai/2025/10/26/sleep-mode.html
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤17👍9🔥4🥰3
🧠 ИИ теперь не только создаёт знания — он их спасает
Издательская группа Frontiers сообщила: около 90% научных данных никогда не переиспользуются и не публикуются должным образом.
Иными словами, большинство открытий исчезает в цифровом небытии.
Чтобы это изменить, Frontiers запустила платформу на базе ИИ, которая
- сканирует забытые исследования,
- систематизирует данные,
- и связывает их между собой, превращая «потерянные» результаты в новые открытия.
💡 Наука тонет в данных — и теперь именно ИИ помогает достать их на поверхность.
https://www.sciencedaily.com/releases/2025/10/251013040314.htm
Издательская группа Frontiers сообщила: около 90% научных данных никогда не переиспользуются и не публикуются должным образом.
Иными словами, большинство открытий исчезает в цифровом небытии.
Чтобы это изменить, Frontiers запустила платформу на базе ИИ, которая
- сканирует забытые исследования,
- систематизирует данные,
- и связывает их между собой, превращая «потерянные» результаты в новые открытия.
💡 Наука тонет в данных — и теперь именно ИИ помогает достать их на поверхность.
https://www.sciencedaily.com/releases/2025/10/251013040314.htm
👍22🔥6❤3
⚙️ Yandex Cloud удвоил выручку от ИИ-сервисов
За девять месяцев 2025 года совокупная выручка облачных и on-premises ИИ-сервисов Yandex Cloud достигла 1,5 млрд ₽ — в два раза больше, чем за тот же период прошлого года.
Рост обеспечен высоким спросом бизнеса на генеративные модели, ML-сервисы и инструменты для создания собственных AI-решений. Всё это объединено в единую платформу Yandex AI Studio, где компании могут за несколько часов собрать собственного AI-агента и встроить его в продукт.
Помимо облака, активно растёт on-premises-направление: YandexGPT, SpeechKit и SpeechSense теперь доступны для развёртывания прямо в инфраструктуре клиента — это важно для компаний, где критична безопасность данных и контроль над моделью.
В третьем квартале также усилилось направление кибербезопасности: сервисами ИБ пользовался каждый четвёртый коммерческий клиент, а выручка в этом сегменте выросла в 2,5 раза год к году. Кроме того, Yandex B2B Tech создал совместное предприятие с SolidSoft, чтобы укрепить защиту бизнес-инфраструктуры и ускорить развитие ИБ-сервисов в облаке.
За девять месяцев 2025 года совокупная выручка облачных и on-premises ИИ-сервисов Yandex Cloud достигла 1,5 млрд ₽ — в два раза больше, чем за тот же период прошлого года.
Рост обеспечен высоким спросом бизнеса на генеративные модели, ML-сервисы и инструменты для создания собственных AI-решений. Всё это объединено в единую платформу Yandex AI Studio, где компании могут за несколько часов собрать собственного AI-агента и встроить его в продукт.
Помимо облака, активно растёт on-premises-направление: YandexGPT, SpeechKit и SpeechSense теперь доступны для развёртывания прямо в инфраструктуре клиента — это важно для компаний, где критична безопасность данных и контроль над моделью.
В третьем квартале также усилилось направление кибербезопасности: сервисами ИБ пользовался каждый четвёртый коммерческий клиент, а выручка в этом сегменте выросла в 2,5 раза год к году. Кроме того, Yandex B2B Tech создал совместное предприятие с SolidSoft, чтобы укрепить защиту бизнес-инфраструктуры и ускорить развитие ИБ-сервисов в облаке.
👍4❤3
🤖 Многоагентная система кодинга
Этот проект представляет собой многоагентную ИИ-систему, которая использует оркестратор для координации работы исследовательских и кодирующих агентов. Оркестратор разбивает задачи на подзадачи и управляет процессом, обеспечивая стратегический подход к решению задач.
🚀 Основные моменты:
- Достижения: 12-е место в TerminalBench, превосходя Claude Code.
- Оркестратор управляет делегированием и верификацией задач.
- Агенты работают с уникальными контекстами и инструментами.
- Инновационный подход к совместному использованию знаний через контекстный хранилище.
📌 GitHub: https://github.com/Danau5tin/multi-agent-coding-system
#python
Этот проект представляет собой многоагентную ИИ-систему, которая использует оркестратор для координации работы исследовательских и кодирующих агентов. Оркестратор разбивает задачи на подзадачи и управляет процессом, обеспечивая стратегический подход к решению задач.
🚀 Основные моменты:
- Достижения: 12-е место в TerminalBench, превосходя Claude Code.
- Оркестратор управляет делегированием и верификацией задач.
- Агенты работают с уникальными контекстами и инструментами.
- Инновационный подход к совместному использованию знаний через контекстный хранилище.
📌 GitHub: https://github.com/Danau5tin/multi-agent-coding-system
#python
❤8👍4🔥2
🔥 Вот такое мы любим: практический интенсив под реальные задачи LLM.
LLM Scaling Week от ШАДа и Яндекс Образования. Вам расскажут о том, как ещё сильнее ускорять обучение и инференс LLM, снижать затраты на GPU и максимально эффективно масштабировать проекты.
— Разберетесь в коммуникации в распределенном обучении и инференсе
— Познакомитесь и попрактикуетесь в современных подходах к увеличению эффективности обучения LLM: от FP8 и Triton до параллелизмов и Mixture of Experts
— Погрузитесь в арифметику глубокого обучения
— Изучите кейсы и поймете принципы, как не сжигая бюджет перейти с одной до десятка GPU
В итоге научитесь масштабировать, ускорять модели и получите навыки, которые можно сразу применять в проектах.
Участие в LLM Scaling Week в конце ноября бесплатное, но нужно зарегистрироваться. Сейчас самое время — ссылка
LLM Scaling Week от ШАДа и Яндекс Образования. Вам расскажут о том, как ещё сильнее ускорять обучение и инференс LLM, снижать затраты на GPU и максимально эффективно масштабировать проекты.
— Разберетесь в коммуникации в распределенном обучении и инференсе
— Познакомитесь и попрактикуетесь в современных подходах к увеличению эффективности обучения LLM: от FP8 и Triton до параллелизмов и Mixture of Experts
— Погрузитесь в арифметику глубокого обучения
— Изучите кейсы и поймете принципы, как не сжигая бюджет перейти с одной до десятка GPU
В итоге научитесь масштабировать, ускорять модели и получите навыки, которые можно сразу применять в проектах.
Участие в LLM Scaling Week в конце ноября бесплатное, но нужно зарегистрироваться. Сейчас самое время — ссылка
❤9🔥3👏3
🤖 GaussGym: обучайте роботов ходить прямо из пикселей — быстро, фотореалистично и открыто
Представлен GaussGym - open-source фреймворк для симуляции роботов, который впервые объединяет высокую скорость и фотореалистичное зрение.
С помощью 3D Gaussian Splatting, встроенного как drop-in рендерер в векторизованные симуляторы (например, IsaacGym), GaussGym позволяет обучать визуомоторные политики на основе RGB-изображений со скоростью свыше 100 000 шагов в секунду — даже на одной RTX 4090.
🔹 Создавайте тренировочные миры из видео с iPhone, датасетов (GrandTour, ARKit) или генеративных видео (например, через Veo)
🔹 Автоматически стройте физически корректные сцены с помощью VGGT и NKSR — без ручного 3D-моделирования
🔹 Тренируйте политики навигации и локомоции прямо из пикселей, а затем переносите их в реальный мир без донастройки (zero-shot sim2real) — авторы уже продемонстрировали восхождение робота по 17-см ступенькам
🔹 Поддержка глубины, motion blur, рандомизации камеры и других реалистичных эффектов для лучшего переноса
Всё это — полностью открыто: код, данные, модели и даже готовые датасеты на Hugging Face.
GaussGym стирает компромисс между скоростью и реализмом в робототехнике — и делает обучение роботов изображениям действительно масштабируемым.
🔗 Демо: https://escontrela.me/gauss_gym/
📄 Paper: https://arxiv.org/abs/2510.15352
💾 Data: https://huggingface.co/collections/escontra/gauss-gym-datasets
💻 Code: https://github.com/escontra/gauss_gym
Представлен GaussGym - open-source фреймворк для симуляции роботов, который впервые объединяет высокую скорость и фотореалистичное зрение.
С помощью 3D Gaussian Splatting, встроенного как drop-in рендерер в векторизованные симуляторы (например, IsaacGym), GaussGym позволяет обучать визуомоторные политики на основе RGB-изображений со скоростью свыше 100 000 шагов в секунду — даже на одной RTX 4090.
🔹 Создавайте тренировочные миры из видео с iPhone, датасетов (GrandTour, ARKit) или генеративных видео (например, через Veo)
🔹 Автоматически стройте физически корректные сцены с помощью VGGT и NKSR — без ручного 3D-моделирования
🔹 Тренируйте политики навигации и локомоции прямо из пикселей, а затем переносите их в реальный мир без донастройки (zero-shot sim2real) — авторы уже продемонстрировали восхождение робота по 17-см ступенькам
🔹 Поддержка глубины, motion blur, рандомизации камеры и других реалистичных эффектов для лучшего переноса
Всё это — полностью открыто: код, данные, модели и даже готовые датасеты на Hugging Face.
GaussGym стирает компромисс между скоростью и реализмом в робототехнике — и делает обучение роботов изображениям действительно масштабируемым.
🔗 Демо: https://escontrela.me/gauss_gym/
📄 Paper: https://arxiv.org/abs/2510.15352
💾 Data: https://huggingface.co/collections/escontra/gauss-gym-datasets
💻 Code: https://github.com/escontra/gauss_gym
😱4