329K subscribers
4.18K photos
772 videos
17 files
4.7K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟 NVIDIA научила роботов-манипуляторов учиться на собственных ошибках при захвате объектов.

Научить робота уверенно брать предметы - это, кажется, вечная тема в робототехнике. Несмотря на десятилетия исследований, надежные и универсальные системы захвата до сих пор остаются скорее теорией, чем реальностью.

Стоит копнуть глубже стандартных демо, и выясняется, что на сложных бенчмарках, FetchBench например, точность лучших систем едва дотягивает до 20%. Это фундаментальный барьер, мешающий внедрять роботов в реальные, неструктурированные среды.

🟡И вот, похоже, NVIDIA предложила решение этой проблемы.

GraspGen - фреймворк для генерации 6-DOF захватов, который не только показывает SOTA результаты, но и вводит новый, крайне интересный подход к обучению.

В его основе лежит связка из генератора на базе Diffusion Transformer и дискриминатора, знакомая всем по GAN-ам архитектура, но с важным отличием.

Генератор, получив на вход облако точек объекта, предлагает множество вариантов захвата, а дискриминатор оценивает их качество и отсеивает неудачные.

И вот тут-то и кроется основная идея, которую в NVIDIA назвали «On-Generator Training». Вместо того чтобы обучать дискриминатор на заранее собранном офлайн-датасете из "хороших" и "плохих" захватов, его учат непосредственно на тех ошибках, которые генерирует его подопечный - диффузионная модель.

Иными словами, дискриминатор становится экспертом не в захватах вообще, а в типичных промахах конкретного генератора. Он учится распознавать и отбраковывать именно те ложноположительные варианты, которые сам генератор считает удачными, но которые на самом деле приведут к провалу. Такой подход создает мощную и целенаправленную обратную связь.

🟡Подкреплено все это работой с данными.

Разработчики выпустили симулированный датасет, содержащий более 53 млн. примеров захватов для 3 разных типов манипуляторов, включая параллельные захваты и вакуумные присоски.

🟡На практике, в тестах, цифры говорят сами за себя.

В симуляции на сете ACRONYM GraspGen показывает AUC (площадь под кривой точность-покрытие) 0.94, это больше ближайших конкурентов на 48%.

На комплексном бенче FetchBench он обошел предыдущих лидеров M2T2 и Contact-GraspNet на 7.8% и 16.9% соответственно.

Но самое главное - это тесты на реальном железе. В экспериментах с роботом UR10 в зашумленной среде GraspGen достиг общей успешности в 81.3%, в то время как M2T2 и AnyGrasp показали лишь 52.6% и 63.7%.

🟡NVIDIA выложила в открытый доступ весь инструментарий.

Код, веса моделей и датасет уже доступны на GitHub и Hugging Face.

Авторы позаботились об энтузиастах: есть подробные инструкции по установке через Docker или pip, готовые демо-скрипты, позволяющие визуализировать захваты для своих облаков точек или 3D-моделей буквально в несколько команд.

Более того, GraspGen изначально спроектирован как модульная и расширяемая система. Разработчики предоставляют подробный туториал, который объясняет, как генерировать данные и обучать модели для совершенно новых объектов и, что важнее, новых типов манипуляторов, реализуя принцип BYOD.

🟡В планах на будущее

Интеграция с симулятором Isaac Lab для еще более продвинутой генерации данных и возможность дообучения на реальных данных.


📌Лицензирование кода: NVIDIA Research Licensing.

📌Лицензирование датасета : CC-BY-4.0 License.


🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🟡Датасет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Robotics #GraspGen #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6335👍24😁4🎉3👨‍💻1
🌟 Genie Envisioner: платформа, которая учит роботов действовать, просто смотря видео.

Genie Envisioner (GE) — унифицированная платформа от AgiBot Genie Team, где обучение, симуляция и оценка объединены в рамках одной видеогенеративной модели.

🟡GE-Base

В основе всей системы лежит GE-Base, диффузионная видеомодель, натренированная на огромном датасете из миллиона эпизодов реальных манипуляций, записанных с нескольких камер, общей продолжительностью почти 3000 часов.

Модель училась предсказывать следующие кадры видео на основе текстовой инструкции и предыдущих наблюдений, таким образом формируя внутреннее представление о физике мира и динамике объектов.

🟡GE-Act

Но предсказывать видео - это одно, а выполнять действия - совсем другое. За это отвечает второй компонент, GE-Act. Это легковесный модуль на 160 млн. параметров, который подключается к GE-Base и преобразует ее внутренние представления в конкретные команды для моторов робота.

Проще говоря, он переводит предсказания в исполняемые траектории. Причем делает это быстро: на генерацию последовательности из 54 шагов уходит всего 200 миллисекунд на NVIDIA RTX 4090, что позволяет использовать систему в реальном времени.

🟡GE-Sim

Замыкает троицу компонент GE-Sim - нейронный симулятор, построенный на той же GE-Base. Он позволяет прогонять тысячи симуляций в час для оценки политик без использования реального железа.

Чтобы объективно измерять качество таких видео-симуляторов, авторы разработали собственный бенчмарк EWMBench. Он оценивает не только визуальную правдоподобность, но и физическую консистентность и соответствие действий инструкциям.

На этом бенчмарке GE-Base ожидаемо обошла все современные генеративные видеомодели: Kling, OpenSora и COSMOS, набрав итоговый балл 4.70, в то время как ближайший соперник, Kling, получил 3.87.


🟡Страница проекта
🟡Модель
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Robotics #GenieEnvisioner #AgiBot
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
35👍20🔥11🥰5🥱2🤩1💘1
Media is too big
VIEW IN TELEGRAM
🤖 XLeRobot — домашний робот за $660, который управляется с геймпада Xbox.

XLeRobot — это открытый проект, который позволяет собрать настоящего двухрукого мобильного робота своими руками.

Автор — студент Rice University Gaotian Wang, в проектеон сделал упор на доступность и практичность.

💡 Основное:
- Цена сборки ≈ $660 — полноценный робот с двумя руками и колесной базой.
- Можно собрать упрощённую версия за $250 на базе LeKiwi + SO-100, которая собирается быстрее.
- В комплекте: URDF-модели, симуляция, управление через VR, Joy-Con или Xbox-геймпад.
- Подходит для экспериментов в симуляции и переноса в реальный мир (**Sim2Real**).
взаимодействия с окружающей средой.

📈 Популярность: проект уже собрал 1.7k+ звёзд и десятки форков на GitHub.

XLeRobot — это недорогая и открытая платформа для тех, кто хочет попробовать себя в робототехнике, исследовать управление, симуляцию и AI-алгоритмы на реальном роботе.

🟢Репозиторий: github.com/Vector-Wangel/XLeRobot

@ai_machinelearning_big_data


#robotics #opensource #AI
Please open Telegram to view this post
VIEW IN TELEGRAM
109👍37🔥21😁4🤣4🌭2🍓2❤‍🔥1💘1
Media is too big
VIEW IN TELEGRAM
⚡️ Мы сделали для вас выжимку из вчерашнего 44-минутного интервью Илона Маска на All-In Summit.

🤖 Optimus

- Tesla завершает разработку Optimus Gen 3. Маск называет его «выдающимся роботом» (кто бы сомневался).
- Робот получит человеческую ловкость рук и ИИ-разум, способный ориентироваться в реальности.
- Цепочек поставок нет - всё создаётся с нуля: от электродвигателей до электроники. На одну руку приходится 26 актуаторов (исполнительных механизмов, которые преобразуют энергию в движение).
- При выпуске 1 млн штук в год цена может снизиться до $20,000, хотя один AI-чип стоит $5–6K и выше.
- Маск: *«Если Optimus будет успешен - это станет крупнейшим продуктом в истории»* (и снова маркетинг).
- Встроенный LLM без подписки.

🖥️ AI-чипы и FSD

- AI5 - собственный суперчип Tesla для ИИ. Он обещает огромный скачок вперёд:
- до 40× быстрее AI4 по отдельным метрикам,
- 8× больше вычислений,
- 10× больше памяти,
- 5× выше пропускная способность памяти.
- Команды «железа» и софта впервые разрабатывают чип совместно.
- Даже AI4 позволит достичь серьёзной автономности.
- Маск утверждает: к концу года продукты на новых чипах будут казаться «почти разумными».

📡 Starlink
- Новый диапазон частот позволит передавать интернет напрямую со спутника в смартфон.
- Понадобятся новые чипсеты - такие телефоны появятся через ~2 года.
- Интернет будет работать везде, включая здания и даже подземные пространства.
- Можно будет оформить аккаунт Starlink вместо Verizon/AT&T, хотя операторы полностью с рынка не уйдут.
- Маск не исключает, что SpaceX может купить телеком-компании ради доступа к спектру.

⭐️Starship
- С 2026 года SpaceX планирует демонстрировать полную многоразовость — с возвратом корабля и бустера.
- Starship V3 — радикально переработанный, способен выводить более 100 тонн на орбиту.
- Маск считает, что самодостаточная жизнь на Марсе возможна примерно через 25 лет.

🔥 Искусственный интеллект
- Уже в следующем году ИИ станет умнее любого человека.
- К 2030 году он превзойдёт интеллект всего человечества вместе взятого.
- Человеческий интеллект, по мнению Маска, будет снижаться.

💬 Самая яркая цитата прозвучала в адрес правительства США:
*«Если ИИ и роботы не решат проблему госдолга — нам крышка».*


В итоге Маск делает ставку на Optimus как на будущий «самый крупный продукт», улучшает AI-чипы, выводит Starlink в новый формат глобальной связи и готовит Starship к Марсу.

@ai_machinelearning_big_data


#ElonMusk #Interview #AI #Robotics #Optimus #Tesla #FSD #Starlink #Starship #SpaceX
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7042🔥25😁13🌭5👏2👀1
Media is too big
VIEW IN TELEGRAM
🤖 Demis Hassabis (Google DeepMind) о будущем робототехники

⦿ Гуманойдные формы могут оказаться ключевыми для повседневного и персонального использования — там, где среда создана под людей.
А вот специализированные роботы будут незаменимы на производстве и в лабораториях.

⦿ В ближайшие пару лет нас ждёт «вау-момент» в робототехнике.
Но фундаментальные модели пока требуют доработки: надёжности и более глубокого понимания реального мира.

⦿ DeepMind работает сразу в двух направлениях:
- как с Android для роботов — универсальный слой ОС, совместимый с любым роботом;
- и с вертикальной интеграцией - разработка конкретных роботов «под ключ».

Идея проста: скоро роботы будут не только на заводах, но и рядом с нами — а управлять ими станет так же привычно, как смартфоном.

🟢Полное интервью: https://www.youtube.com/watch?v=Kr3Sh2PKA8Y

@ai_machinelearning_big_data


#DeepMind #Google #DemisHassabis #Robotics
Please open Telegram to view this post
VIEW IN TELEGRAM
1🤔90👍3215👀9🎉8🤬3👏2🔥1
🦾 Google представил Gemini Robotics-ER 1.5 - новую модель для роботов, которая умеет видеть, рассуждать, планировать и действовать в реальном мире.

Что она может:
- Понимать пространство и объекты вокруг.
- Разбивать задачу на шаги (например: «убери стол» → план действий).
- Подключать внешние инструменты - поиск, модели для анализа изображений и др.
- Балансировать скорость и точность: быстро реагировать или глубже анализировать.
- Работать безопаснее: учитывать вес предметов и физические ограничения.

Мир слишком сложен для роботов: окружение, сцены, объекты постоянно меняются.

Gemini Robotics-ER помогает роботам соединять понимание и действие.

📌 Пример: робот сортирует мусор.
Он узнаёт местные правила, распознаёт предметы, планирует действия и выполняет всё безопасно.

https://developers.googleblog.com/en/building-the-next-generation-of-physical-agents-with-gemini-robotics-er-15/

@ai_machinelearning_big_data


#Google #Gemini #Robotics #AI #PhysicalAgents
🔥65👍2321🤔5💘2