This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Tencent выложила в открытый доступ Hunyuan-GameCraft — инструмент для генерации интерактивных игровых видео с высокой реалистичностью.
Что это значит:
• Из одной картинки сцены и команд пользователя (клавиатура, мышь) создаётся полноценное игровое видео от первого или третьего лица.
• Движения плавные и точные: можно контролировать скорость, угол поворота и строить сложные траектории, а не только примитивную анимацию.
• Среда тоже живая — облака, дождь, снег, вода и другие эффекты генерируются динамически.
• Картинка остаётся чёткой даже при резких перемещениях — сохраняется информация о сцене.
• Работает быстро и дёшево: за счёт оптимизаций и квантования 13B-модель тянет даже RTX 4090, без дорогого рендера и сложного 3D-моделирования.
Построен на базе HunyuanVideo.
🟠 Project Page: https://hunyuan-gamecraft.github.io
🟠 Code: https://github.com/Tencent-Hunyuan/Hunyuan-GameCraft-1.0
🟠 Technical Report: https://arxiv.org/abs/2506.17201
🟠 Hugging Face: https://huggingface.co/tencent/Hunyuan-GameCraft-1.0
@data_analysis_ml
#AI #GameDev #VideoGeneration #HunyuanVideo #OpenSource #Tencent #GamingAI
Что это значит:
• Из одной картинки сцены и команд пользователя (клавиатура, мышь) создаётся полноценное игровое видео от первого или третьего лица.
• Движения плавные и точные: можно контролировать скорость, угол поворота и строить сложные траектории, а не только примитивную анимацию.
• Среда тоже живая — облака, дождь, снег, вода и другие эффекты генерируются динамически.
• Картинка остаётся чёткой даже при резких перемещениях — сохраняется информация о сцене.
• Работает быстро и дёшево: за счёт оптимизаций и квантования 13B-модель тянет даже RTX 4090, без дорогого рендера и сложного 3D-моделирования.
Построен на базе HunyuanVideo.
@data_analysis_ml
#AI #GameDev #VideoGeneration #HunyuanVideo #OpenSource #Tencent #GamingAI
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6🔥5👍3
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 Stand-In (BowenXue) — лёгкий и plug-and-play фреймворк для генерации видео с сохранением личности
📌 Что делает:
- Генерирует видео, сохраняя лицо или стиль персонажа, обучив всего ~1 % новых параметров на базе модели генерации видео. Результат сопоставим с полным переобучением, но быстрее и легче.
- Поддерживает генерацию по тексту с контролем идентичности, смену стиля, pose-guidance, face-swap, стилизацию и даже генерацию не-людей.
- Лицензия Apache-2.0 — открытое использование и модификация.
Что нового:
- Версия v1.0 (153 M параметров) с весами на базе Wan2.1-14B-T2V и кодом для инференса.
- Интеграция с ComfyUI: выпущен preprocessing-нод для улучшенной поддержки, особенно после сторонней интеграции.
https://huggingface.co/BowenXue/Stand-In
#opensource #ai #ml
- Генерирует видео, сохраняя лицо или стиль персонажа, обучив всего ~1 % новых параметров на базе модели генерации видео. Результат сопоставим с полным переобучением, но быстрее и легче.
- Поддерживает генерацию по тексту с контролем идентичности, смену стиля, pose-guidance, face-swap, стилизацию и даже генерацию не-людей.
- Лицензия Apache-2.0 — открытое использование и модификация.
Что нового:
- Версия v1.0 (153 M параметров) с весами на базе Wan2.1-14B-T2V и кодом для инференса.
- Интеграция с ComfyUI: выпущен preprocessing-нод для улучшенной поддержки, особенно после сторонней интеграции.
https://huggingface.co/BowenXue/Stand-In
#opensource #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍7🔥3
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Anthropic добавила в Claude Opus 4 и 4.1 возможность принудительно завершать беседу. Эта функция предназначена для редких, крайних случаев постоянно враждебного или оскорбительного поведения со стороны пользователя.
Это крайняя мера, к которой чат-бот прибегнет только после многократных безуспешных попыток перенаправить разговор в продуктивное русло или по прямой просьбе пользователя. При этом система не будет использовать эту возможность, если есть риск, что пользователь может причинить вред себе или окружающим.
Когда Claude завершает диалог, пользователь не сможет отправлять новые сообщения в этой ветке, но сможет начать новый чат или отредактировать старые сообщения для создания новых ветвей.
anthropic.com
Согласно данным компании Appfigures, мобильное приложение ChatGPT сгенерировало 2 млрд. долларов потребительских расходов с момента запуска в мае 2023 года. В среднем каждый из 690 млн. пользователей потратил в приложении 2.91 доллара. Это говорит о готовности аудитории платить за ИИ-сервисы на мобильных устройствах.
Темпы роста выручки резко ускорились в этом году. С января по июль 2025 года пользователи потратили в приложении 1.35 млрд. долларов, на 673% больше, чем за аналогичный период прошлого года. Это эквивалентно примерно 193 млн. долларов в месяц. США лидируют по доходам (38%), а Индия — по количеству установок (14%).
Эти метрики показывают отрыв ChatGPT от конкурентов. Для сравнения, Grok заработал в этом году 25.6 млн., а доходы Claude и Copilot вместе взятых составляют лишь одну тридцатую от мобильной выручки OpenAI.
techcrunch.com
Tencent представила Hunyuan World Model 1.0-Lite оптимизированную версию своей модели для генерации трехмерных сцен, которая может работать на потребительских GPU. Разработчики снизили требования к видеопамяти на 35% (с 26 до 17 ГБ) благодаря динамическому FP8-квантованию.
За счет использования SageAttention и оптимизации кэширования удалось ускорить инференс более чем в 3 раза с потерей точности менее 1%.
Как и оригинальная версия, 1.0-Lite имеет открытый исходный код и уже доступна на GitHub, Hugging Face, а также в виде демо SceneTo3D.
Tencent Hunyuan в сети X
В подкасте на Youtube OpenAI рассказали о разработке нового класса моделей, ориентированных на долгосрочное мышление. Системы на их основе смогут планировать, рассуждать и экспериментировать над одной проблемой на протяжении длительного времени, от нескольких часов до нескольких дней.
По словам OpenAI , первые проблески этого подхода уже видны в моделях, которые недавно завоевали золото на международных олимпиадах по математике и информатике. Конечная цель - автоматизировать исследования, например, для поиска новых идей в медицине или в области безопасности самого ИИ.
В OpenAI признают, что реализация этой концепции потребует значительно больших вычислительных мощностей, чем доступны сегодня. Это объясняет готовность Сэма Альтмана инвестировать в строительство дата-центров в ближайшие годы.
OpenAI на платформе Youtube
Google запустил новый инструмент Flight Deals. Он использует ИИ для поиска выгодных перелетов по запросам на естественном языке, а не через стандартные фильтры. Пользователи могут описать свои пожелания в свободной форме, например, «недельная поездка этой зимой в город с хорошей едой, только прямые рейсы». Инструмент ориентирован на путешественников с гибкими планами, для которых приоритетом является цена.
По заявлению Google, система использует продвинутый ИИ для понимания нюансов запроса, а затем анализирует данные Google Flights в реальном времени, чтобы показать актуальные варианты. Сервис запускается в бета-режиме и в течение недели станет доступен пользователям в США, Канаде и Индии.
blog.google
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤14👍4🤩2🌭2🥰1
Forwarded from Machinelearning
Ландшафт архитектур LLM превратился в настоящий зоопарк. Почти каждую неделю появляются новые методы, обещающие меньший расход памяти и более быстрый инференс. Разобраться в этом становится все сложнее.
Большая группа исследователей выпустила подробный обзор Speed Always Wins, чтобы систематизировать все ключевые инновации в области эффективных архитектур для LLM.
Это не просто очередная статья, а попытка упорядочить и структурировать актуальные подходы, которые решают главную проблему классического трансформера - его квадратичную вычислительную сложность.
Обзор описывает 7 основных направлений.
Здесь авторы разбирают все подходы, которые так или иначе сводят сложность самовнимания к линейной. В эту категорию попадают 3 большие ветви: линейное внимание; линейные RNN, вроде и, конечно, модели на основе пространства состояний (SSM).
Разреженное моделирование последовательностей основано на простом принципе: не каждый токен должен общаться с каждым. Здесь выделяются статические подходы (как в Longformer), где паттерны внимания заданы заранее, и динамические, где они определяются на лету в зависимости от контента.
Методика, которая уже стала мейнстримом. В МоЕ разреженность применяется не в механизме внимания, а в FFN-слоях, где для каждого токена активируется лишь небольшая часть экспертов, что позволяет наращивать число параметров без пропорционального роста вычислений.
В нем речь идет не об изменении асимптотической сложности, а об ее аппаратной оптимизации. Флагман - FlashAttention.
Есть детальный разбор, как за счет оптимизации обращений к памяти GPU удается кардинально ускорить вычисления, не прибегая к аппроксимациям. Сюда же относятся и групповые механизмы внимания: GQA и MQA.
Это, пожалуй, самый горячий тренд. Его идея в том, чтобы стратегически комбинировать быстрые слои с линейной сложностью и медленные, но мощные слои с полным вниманием.
В обзоре выделяют два типа гибридизации: межслойную, как в Jamba, где разные типы слоев чередуются, и внутрислойную, где в одном слое разные головы могут использовать разные механизмы внимания.
Это неавторегрессионные модели, которые генерируют текст, постепенно восстанавливая его из шума. Их главная фишка в параллельном декодировании, что дает ощутимое ускорение инференса.
В конце обзора есть анализ применения всех этих архитектур в разных модальностях - CV и аудио.
Так что, если хотите быстро разобраться в базовых методах, которые будут двигать дизайн LLM в ближайшее время,
@ai_machinelearning_big_data
#AI #ML #LLM #Architectures
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤14👍6🔥6
KOSMOS 2.5 от Microsoft наконец-то интегрирован в huggingface Transformers 🙌🔥
Это end-to-end Document AI модель, похожая на Donut/Pix2Struct, обученная на 357,4 млн документов.
✨ Основные возможности:
- Конвертация изображений в Markdown
- OCR с пространственными координатами
- Общение напрямую с документами
Огромный шаг для Document AI и мультимодальных рабочих процессов!
🟢 Models : https://huggingface.co/models?search=microsoft/kosmos-2.5
🟢 Docs: https://huggingface.co/docs/transformers/main/en/model_doc/kosmos2_5
#AI #HuggingFace #Microsoft #DocumentAI
Это end-to-end Document AI модель, похожая на Donut/Pix2Struct, обученная на 357,4 млн документов.
✨ Основные возможности:
- Конвертация изображений в Markdown
- OCR с пространственными координатами
- Общение напрямую с документами
Огромный шаг для Document AI и мультимодальных рабочих процессов!
#AI #HuggingFace #Microsoft #DocumentAI
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤5🔥5
Forwarded from Machinelearning
Институт искусственного интеллекта Аллена выпустил OLMoASR, семейство из 6 моделей для автоматического распознавания английской речи.
По результатам тестов на 21 датасете, модели OLMoASR показали производительность, сопоставимую с Whisper от OpenAI, а в некоторых случаях и превзошли ее, особенно при работе с длинными аудиозаписями.
Проект полностью открытый: опубликованы не только веса моделей, но и датасет, код для обработки данных, а также скрипты для обучения и оценки. Все компоненты, включая код и данные, доступны на GitHub и Hugging Face.
@ai_machinelearning_big_data
#AI #ML #ASR #OLMoASR #AI2
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10👍5🔥5
🧠 Новый шаг к мозгу на чипе
Учёные из Stanford, Sandia National Labs и Purdue создали искусственные нейроны, которые могут передавать и электрические, и световые сигналы одновременно — так же, как это делают настоящие клетки мозга.
⚡ В мозге нейроны общаются короткими электрическими импульсами. Большинство нейроморфных чипов копируют только это.
💡 Но на дальние расстояния куда эффективнее работает свет.
🔬 Новые электро-оптические нейроны из диоксида ниобия решают этот разрыв:
— каждый импульс несёт электрический сигнал для локальной обработки
— и синхронный световой импульс, который может передаваться дальше
Это значит, что один искусственный нейрон теперь может и вычислять, и коммуницировать одновременно.
💡 Перспектива: интеграция электрических и оптических функций в одной системе без дорогого оборудования и конвертации сигналов.
Источник: techxplore.com/news/2025-08-scientists-private-ai.html
#AI #Neuroscience #Innovation #Neuromorphic
Учёные из Stanford, Sandia National Labs и Purdue создали искусственные нейроны, которые могут передавать и электрические, и световые сигналы одновременно — так же, как это делают настоящие клетки мозга.
⚡ В мозге нейроны общаются короткими электрическими импульсами. Большинство нейроморфных чипов копируют только это.
💡 Но на дальние расстояния куда эффективнее работает свет.
🔬 Новые электро-оптические нейроны из диоксида ниобия решают этот разрыв:
— каждый импульс несёт электрический сигнал для локальной обработки
— и синхронный световой импульс, который может передаваться дальше
Это значит, что один искусственный нейрон теперь может и вычислять, и коммуницировать одновременно.
💡 Перспектива: интеграция электрических и оптических функций в одной системе без дорогого оборудования и конвертации сигналов.
Источник: techxplore.com/news/2025-08-scientists-private-ai.html
#AI #Neuroscience #Innovation #Neuromorphic
🔥14❤5👍4
🧩 ArcMemo — память для LLM, которая учит модель сохранять и переиспользовать концепты при решении задач.
📈 Результат: +7.5% относительно базовой модели на бенчмарке ARC-AGI.
❓ Проблема:
Обычно длинные цепочки рассуждений исчезают после каждого запроса, и модель «забывает» полезные паттерны.
💡 Решение — ArcMemo:
- Сохраняет абстрактные модули в виде концептов на естественном языке или в виде параметрических мини-функций.
- Концепты бывают двух типов:
- Открытые: описание ситуации + подсказка.
- Программные: псевдокод и функции с параметрами.
- После решения задача конспектируется в набор таких концептов.
- При новой задаче модель подбирает релевантные концепты и комбинирует их для решения.
- С обратной связью на тестах память обновляется и расширяется.
📌 Вывод: память в виде модульных концептов повышает переносимость и делает решения более стабильными.
🔗 Paper: arxiv.org/abs/2509.04439
#AI #LLM #ARCAGI #Reasoning #Memory
📈 Результат: +7.5% относительно базовой модели на бенчмарке ARC-AGI.
❓ Проблема:
Обычно длинные цепочки рассуждений исчезают после каждого запроса, и модель «забывает» полезные паттерны.
💡 Решение — ArcMemo:
- Сохраняет абстрактные модули в виде концептов на естественном языке или в виде параметрических мини-функций.
- Концепты бывают двух типов:
- Открытые: описание ситуации + подсказка.
- Программные: псевдокод и функции с параметрами.
- После решения задача конспектируется в набор таких концептов.
- При новой задаче модель подбирает релевантные концепты и комбинирует их для решения.
- С обратной связью на тестах память обновляется и расширяется.
📌 Вывод: память в виде модульных концептов повышает переносимость и делает решения более стабильными.
🔗 Paper: arxiv.org/abs/2509.04439
#AI #LLM #ARCAGI #Reasoning #Memory
❤13🔥4👍2
📊 Неожиданная статистика по ИИ-ассистентам
Сообщают, что Microsoft Copilot значительно опережает Gemini по числу пользователей. На первый взгляд это выглядит странно.
Возможное объяснение: речь идёт не о реальном использовании, а о количестве активированных аккаунтов и доступе по умолчанию (Copilot встроен в Windows и Office).
Ещё более удивительно, что Claude якобы сильно отстаёт — и это тоже вызывает вопросы, ведь его активно используют в сообществе.
⚡️ Мораль: статистику по ИИ стоит читать внимательно — важно, что именно считают: доступ, активации или реальное использование.
https://gs.statcounter.com/ai-chatbot-market-share#monthly-202508-202508-bar
#ai #copilot #gemini #claude
Сообщают, что Microsoft Copilot значительно опережает Gemini по числу пользователей. На первый взгляд это выглядит странно.
Возможное объяснение: речь идёт не о реальном использовании, а о количестве активированных аккаунтов и доступе по умолчанию (Copilot встроен в Windows и Office).
Ещё более удивительно, что Claude якобы сильно отстаёт — и это тоже вызывает вопросы, ведь его активно используют в сообществе.
⚡️ Мораль: статистику по ИИ стоит читать внимательно — важно, что именно считают: доступ, активации или реальное использование.
https://gs.statcounter.com/ai-chatbot-market-share#monthly-202508-202508-bar
#ai #copilot #gemini #claude
😁9❤7👍3🔥2
DeepCode превращает научные статьи и технические документы в готовые проекты, включая фронтенд, бэкенд и полноценные репозитории.
🔹 Основные возможности:
• Paper2Code — реализация идей из исследований в рабочий код
• Text2Web — генерация интерфейсов по описанию
• Text2Backend — автоматическое создание масштабируемых серверов
• Поддержка длинных документов и многофайловых проектов
🔜 В ближайшее время разработчики обещают:
• Автоматическую проверку и валидацию кода
• Повышение скорости генерации
• Улучшенную работу с требованиями
• Бенчмарки воспроизведения научных статей (PaperBench)
Проект полностью open source: https://github.com/HKUDS/DeepCode
#deepcode #AI #coding
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13👍7🔥4🤨1