Hunyuan-Large - самая большая на сегодняшний день открытая модель на основе Transformer с архитектурой MoE. Модель мультиязычна и имеет 389 млрд. параметров, из которых 52 млрд. активных, контекстное окно в 256 тыс. токенов (128 тыс. токенов у instruct-версии). В открытый доступ опубликованы 3 версии:
Архитектура Hunyuan-Large основана на классическом Transformer с использованием MoE. Модель состоит из 64 слоев, 80 attention heads и 16 специализированных экспертов, из которых для каждого токена активируется только один эксперт.
Для оптимизации использования памяти во время инференса в Hunyuan-Large используется сжатие KV-кэша с помощью GQA и CLA.
GQA группирует attention heads, а CLA шэрит KV-кэш между соседними слоями, тем самым сокращая использование KV-кэша почти на 95% по сравнению с оригинальным MHA.
Активации экспертов происходит с помощью смешанной стратегии маршрутизации: все токены обрабатываются одним общим экспертом, а специализированные эксперты выбираются с помощью
top-k
маршрутизации. Чтобы не терять информацию из-за перегрузки экспертов, была разработана стратегия «рециркуляционной маршрутизации», которая рероутит токены от перегруженных экспертов к свободным.Перед обучением Hunyuan-Large разработчики провели исследования законов масштабирования для моделей MoE. Оптимальное количество активных параметров (52 млрд) и объем обучающих данных (7 трлн. токенов) были определены на основе анализа isoFLOPs кривой.
Hunyuan-Large превосходит по производительности LLama3.1-70B, LLama3.1-405B, Mixtral-8x22B и DeepSeek-V2 в в агрегированных бенчмарках (MMLU, MMLU-Pro), рассуждении CommonsenseQA, PIQA, WinoGrande и HellaSwag), программировании (HumanEval и MBPP), математике (GSM8K и MATH) и классических NLP-задачах (TriviaQA, NaturalQuestions, DROP и ARC-C).
@ai_machinelearning_big_data
#AI #ML #LLM #MoE #HunyuanLarge #Tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤21👍18🔥8😁4🗿2
Hunyuan3D-1.0 - двухэтапная система для быстрой генерации 3D-моделей по текстовым запросам или изображениям. Модель представлена в трех версиях:
Первый этап Hunyuan3D-1.0 основан на многовидовой диффузионной модели, которая генерирует набор RGB-изображений с разных ракурсов. Эти изображения, фиксирующие детали 3D-объекта с различных точек зрения, поступают на вход во второй этап - модель реконструкции.
Модель реконструкции преобразует многовидовые изображения в готовую 3D-модель. Она обучена обрабатывать шумы и несоответствия, присущие многовидовой диффузии, и использовать информацию из входного изображения или текста для восстановления 3D-структуры.
Обучение многовидовой диффузионной модели и модели реконструкции осуществляется раздельно. Lite-версия многовидовой модели использует SD-2.1 в качестве основы, a standard-версия основана на SDXL.
Модель реконструкции сначала обучалась на многовидовых изображениях разрешением 256x256, а затем донастраивалась на изображениях разрешением 512x512. Весь процесс обучения проводился на 64 графических процессорах A100.
Для оценки Hunyuan3D-1.0 использовались датасеты GSO и OmniObject3D с выборкой около 70 объектов. В качестве метрик использовались расстояние Чамфера (CD) и F-мера, которые являются стандартными показателями точности реконструкции 3D-форм.
Standard-версия модели показала лучшие результаты по метрикам CD и F-score на обоих датасетах. Hunyuan3D-1.0 достигла оптимального баланса между качеством и скоростью по результаты сравнения с другими моделями.
Инференс Hunyuan3D-1.0 доступен в CLI и с Gradio UI. Описание ключей запуска для CLI и список преднастроенных скриптов для запуска можно найти в репозитории проекта на Github.
⚠️ Позиции камеры на инференсе зафиксированы на азимуте (относительно позиции камеры на входе)
+0, +60, +120, +180, +240, +300
.⚠️ Рекомендованная VRAM - 40GB, но по неподтвержденным данным из issue - запускается c 20 GB на 3090.
# Cloning the repository
git clone https://github.com/tencent/Hunyuan3D-1
cd Hunyuan3D-1
# Create conda env
conda create -n hunyuan3d-1 python=3.9
conda activate hunyuan3d-1
bash env_install.sh
# Run Gradio UI with Hunyuan3D-1.0 Lite
python app.py --use_lite
# Open in browser link http://127.0.0.1:8080/
@ai_machinelearning_big_data
#AI #ML #TextTo3D #ImgTo3D #Hunyuan3D #Tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18🔥8🥰4😁3❤2
Tencent опубликовала в отрытый доступ модели с 13 млрд. параметров для генерации видео по текстовым промптам: HunyuanVideo и HunyuanVideo-PromptRewrite.
Архитектура HunyuanVideo простроена на пространственно-временном сжатии, которое позволяет обрабатывать видео и изображения в едином формате.
Входные текстовые запросы кодируются с помощью MLLM (комбинация CLIP and T5-XXL) и используются в качестве основы для генерации. Модель генерирует латент, который затем декодируется в изображения или видео с помощью 3D VAE.
HunyuanVideo-PromptRewrite - специальный файнтюн для адаптации и автоматического расширения пользовательских промптов к предпочтениям модели. В PromptRewrite 2 режима работы: Normal и Master:
HunyuanVideo оценивалась 60 экспертами на 1533 промптах в сравнении с топовыми T2V-моделями: Gen-3, Luma 1.6 и тремя лучшими китайскими коммерческими моделями.
Результаты оценки показали, что HunyuanVideo достигает общего уровня удовлетворенности, особенно выделяясь качеством движения объектов.
⚠️ Минимальный объем GPU - 60 GB для 720pX1280pX129f и 45 GB для 544pX960pX129f. Рекомендованный GPU - 80 GB.
# Clone repo:
git clone https://github.com/tencent/HunyuanVideo
cd HunyuanVideo
# Prepare conda environment
conda env create -f environment.yml
conda activate HunyuanVideo
# Install pip dependencies
python -m pip install -r requirements.txt
# Install flash attention v2
python -m pip install git+https://github.com/Dao-AILab/flash-attention.git@v2.5.9.post1
# Inference
python3 sample_video.py \
--video-size 720 \
--video-length 129 \
--infer-steps 50 \
--prompt "%prompt%" \
--flow-reverse \
--use-cpu-offload \
--save-path ./results
@ai_machinelearning_big_data
#AI #ML #Text2Video #Tencent #HunyuanVideo
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥25❤9👍5🎉2
Hunyuan3D 2.0 - усовершенствованная система 3D-синтеза и генерации текстурированных 3D-объектов высокого разрешения.
Эта система включает в себя два основных компонента: модель генерации формы - Hunyuan3D-DiT и модель синтеза текстуры - Hunyuan3D-Paint.
Генеративная модель формы, построена на масштабируемом диффузионном трансформере, она нужна для создания правильной геометрии объекта и отвечает за согласование генерации.
Модель синтеза текстур создает карты текстур высокого разрешения для сгенерированных или созданных вручную сеток.
Модель превосходит предыдущие модели, как с открытым кодом, так и платные модели по детализации, геометрии, качеству текстур и т. д.
▪ GitHub
▪ HF
▪Demo
@ai_machinelearning_big_data
#AI #ML #TextTo3D #ImgTo3D #Hunyuan3D #Tencent #3dgenerator
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍47🔥13❤11😁4👏2
This media is not supported in your browser
VIEW IN TELEGRAM
Как работает модель:
начинается с существующей траектории движения камеры или даже с чистого шума. Так задаётся исходное состояние, которое модель будет постепенно улучшать.
Модель использует одновременно два типа входных данных – рендеры точечных облаков (3D-представления сцен) и исходные видео.
Модель обучается шаг за шагом «очищать» случайный шум, превращая его в последовательность траекторий. На каждом шаге происходит итеративное уточнение — модель предсказывает, как должна выглядеть более реалистичная траектория, исходя из заданных условий (например, плавности движения, и согласованности сцены).
Вместо того чтобы использовать только видео снятые с разных ракурсов, авторы создали обучающий набор, комбинируя обширные монокулярные видео (с обычной камерой) с ограниченными, но качественными многоплановыми видео. Такую стратегию достигается с помощью назвали - «двойная репроекция», она помогает модели лучше адаптироваться к различным сценам.
После серии итераций, когда шум устранен, генерируется новая траектория камеры, которая соответствует заданным условиям и обладает высоким качеством визуальной динамики.
Установка:
git clone --recursive https://github.com/TrajectoryCrafter/TrajectoryCrafter.git
cd TrajectoryCrafter
@ai_machinelearning_big_data
#opensource #ml #ai #cameracontrol #tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
👍38❤19🔥8💯2
Традиционные методы файн‑тюнинга моделей под конкретный образ персонажа обычно либо:
InstantCharacter решает обе проблемы сразу:
Высокое качество
- Построен на базе DiT-моделей, которые по качеству превосходят классические UNet‑архитектуры.
Китайцы сделали адаптер с каскадными энкодерами‑трансформерами, который модулирует признаки персонажа и взаимодействует с латентным пространством DiT.
Фреймворк обучен и на огромном датасете - более 10 миллионов примеров, поделённых на парные и непарные (текст+изображение) примеры.
Трёхэтапное обучение:
Результаты:
В сравнении с предыдущими подходами InstantCharacter задает высокую планку качества в задачах character-driven image generation.
@ai_machinelearning_big_data
#Hunyuan #Tencent #InstantCharacter
#OpenSource #AI #CharacterCustomization
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍59❤26🔥16
Ресерчеры из Tencent и их коллеги создали UnifiedReward-Think-7B, первую мультимодальную модель, которая сочетает цепочки рассуждений с обучением с подкреплением.
Основная идея была в том, чтобы научить модель не только выдавать итоговую оценку, но и подробно объяснять ход мыслей. Например, анализируя сгенерированное изображение, она шаг за шагом проверяет соответствие текстовому запросу, качество деталей и логическую согласованность. Такой механизм не только повышает надежность оценок, но и помогает выявлять ошибки в сложных сценариях, где поверхностный анализ слишком трудоемкий.
Тестовую модель обучали в 3 стадии:
Эксперименты показали, что UnifiedReward-Think обходит существующие аналоги. В задачах на понимание изображений она на 5-7% точнее базовой UnifiedReward-7b, созданной месяцем ранее. В генерации видео разрыв еще заметнее: модель лучше оценивает как соответствие запросу, так и плавность анимации.
@ai_machinelearning_big_data
#AI #ML #MMLM #CoT #UnifiedReward #Tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍58❤24🔥16👏7
Tencent выпустила HunyuanCustom, фреймворк, который не только генерирует видео по заданным условиям, но и умеет сохранять консистентность субъектов, будь то человек, животное или предмет. Модель справляется даже с мультисубъектными сценами: в демо-роликах люди естественно взаимодействуют с предметами, а текст на упаковках не плывет между кадрами.
В основе модели лежит улучшенный механизм слияния текста и изображений через LLaVA. Например, если вы загружаете фото женщины в платье и текст «танцует под дождем», система анализирует оба инпута, связывая описание с визуальными деталями.
Но главное - это модуль временной конкатенации: он «растягивает» особенности изображения вдоль временной оси видео, используя 3D-VAE. Это помогает избежать «прыгающих» лиц или внезапных изменений фона, проблемы, которая характерна даже для топовых моделей видеогенерации.
Tencent переработали и пайплайн аудио. Для синхронизации звука с движениями губ или действиями в кадре HunyuanCustom использует AudioNet, модуль, который выравнивает аудио- и видеофичи через пространственное кросс-внимание.
Фреймворк поддерживает возможность замены объекта в готовом ролике (скажем, подставить новую модель кроссовок в рекламу), модель сжимает исходное видео в латентное пространство, выравнивает его с шумными данными и встраивает изменения без артефактов на границах.
Экспериментальные тесты показали, что HunyuanCustom обходит конкурентов по ключевым метрикам. Например, Face-Sim (сохранение идентичности лица) у Tencent — 0.627 против 0.526 у Hailuo, а с Keling, Vidu, Pika и Skyreels разрыв еще больше.
⚠️ Для работы модель требует минимум 24 ГБ видеопамяти для роликов 720p, но чтобы раскрыть все возможности, разработчики рекомендуют 80 ГБ VRAM.
Код и чекпоинты уже доступны в открытом доступе, а в репозитории есть примеры запуска как на нескольких GPU, так и в экономном режиме для потребительских видеокарт.
@ai_machinelearning_big_data
#AI #ML #Video #HunyuanCustom #Tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍61❤16🔥10🥰5🤨2
Первая полностью open-source, готовая к продакшену PBR 3D генеративная модель!
PBR (Physically Based Rendering) - это технология, при которой внешний вид 3D-объектов рассчитывается с учётом реальных физических законов взаимодействия света и поверхности.
✅ Модель выдает кинематографичное качество: синтез PBR-материалов — кожа, бронза и другие поверхности выглядят фотореалистично с красивыми эффектами освещения.
✅ Open source: доступны веса модели, код для обучения и инференса, пайплайны — всё можно доработать под себя.
✅ Запускается даже на потребительских GPU (Модель тестировалась на GPU A100 с Python 3.10 и PyTorch 2.5.1+cu124.) — с моделью создавать 3D-контент могут не только студии, но и любые разработчики и малые команды.
▪ Модель: https://huggingface.co/tencent/Hunyuan3D-2.1
▪ Github: https://github.com/Tencent-Hunyuan/Hunyuan3D-2.1
▪ Hunyuan 3D Creation Engine: https://3d.hunyuan.tencent.com
@ai_machinelearning_big_data
#Hunyuan3D #OpenSource #3DCreation #tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤65🔥40👍25🥰7
💡 Особенности:
• 13 млрд параметров
• Поддержка длинного контекста — до 32,000 токенов
• Заточена на диалоги, код и reasoning
• Использует архитектуру SwiGLU, Multi-Query Attention, RoPE и другие современные оптимизации
📌 Хорошие результаты на бенчмарках:
📉 Слабые результаты на:
Модель Hunyuan-A13B-Instruct:
Лицензия: Hunyuan Community License Agreement
🔗 Модель доступна на Hugging Face: https://huggingface.co/tencent/Hunyuan-A13B-Instruct
@ai_machinelearning_big_data
#ml #ai #Hunyuan #tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41❤14🔥12🥰6🌭1
X-Omni - методика обучения T2I моделей, которая наглядно доказывает, что RL может вдохнуть новую жизнь в авторегрессионный подход и вывести такие модели на SOTA-уровень.
X-Omni построена на гибридной, но при этом унифицированной архитектуре. Схематично она выглядит так:
Семантический токенизатор изображений SigLIP-VQ с фиксированным словарем на 16 384 токена кодирует картинку в дискретные токены. Эти визуальные токены вместе с текстовыми подаются в единую авторегрессионную модель на базе Qwen2.5-7B. Наконец, в финальном рендеринге используется диффузионный декодер на основе FLUX.1-dev.
Вместо одного критерия, модель оценивается сразу по нескольким направлениям. За эстетику и соответствие предпочтениям человека отвечает HPSv2 и модель Unified Reward. За семантическую связь между промптом и изображением — VLM-модель Qwen2.5-VL-32B. А за самое сложное, отрисовку текста внутри картинки, отвечает отдельная награда на основе OCR-систем GOT-OCR2.0 и PaddleOCR.
Тестовую модель X-Omni обучали на смеси из 200 млн. изображений, которые после токенизации превратились в 600 млрд мультимодальных токенов, а на этапе SFT использовал ещё 1.5 млрд. токенов.
Для RL-фазы был отобран микс из 180 тыс. промптов, состоящий как из творческие запросы, так и задач на рендеринг текста.
На бенче OneIG-Bench X-Omni показала результат 0.901 для английского языка, обойдя GPT-4o (0.857). А на собственном LongText-Bench, специально созданном для оценки рендеринга длинных надписей, модель буквально разгромила всех в китайском языке, набрав 0.814 балла против 0.619 у GPT-4o.
В задачах общей генерации по тексту X-Omni также на высоте. На DPG-Bench модель достигла SOTA-результата 87.65, опередив GPT-4o (86.23) и Show-o2 (86.14). На GenEval результат составил 0.83, чуть-чуть не дотянув до модели Mogao (0.89).
Даже в задачах на понимание изображений X-Omni показывает себя достойно: на OCRBench ее результат (704) превосходит другие унифицированные модели, например Emu3 (687).
Во-первых, X-Omni не нуждается в CFG. В отличие от Emu3 или Janus-Pro, качество которых резко падает при отключении CFG, X-Omni работает стабильно.
Во-вторых, что, пожалуй, самое важное, RL превосходит даже SFT с последующим сэмплингом best-of-N.
Этот вывод идет вразрез с устоявшимся мнением в области языкового моделирования и доказывает, что для изображений холистическая оптимизация через RL дает существенный прирост качества.
@ai_machinelearning_big_data
#AI #ML #T2I #RL #XOmni #Tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤45👍25🥰5🔥4❤🔥1😁1🤔1👨💻1
🚀 Tencent расширяет экосистему Hunyuan LLM и выкладывают в открытый доступ еще 4 компактных моделей — 0.5B, 1.8B, 4B и 7B!
Эти модели заточены под low-power устройства: ПК, смартфоны, авто, умные дома и пользовательские GPU.
Модели легко настраиваются под вертикальные задачи и запускаются даже на одной карте.
💡 Особенности:
✅ Fast/slow thinking режимы: лаконичные или глубокие ответы
✅ 256K контекст и продвинутые агентные способности (tool use, планирование, reasoning)
✅ Хорошие метрики на тестах по языку, математике и логике
✅ Модели готовы к продакшену — работают с SGLang, vLLM, TensorRT-LLM
🖥 GitHub:
- 0.5B: https://github.com/Tencent-Hunyuan/Hunyuan-0.5B
- 1.8B: https://github.com/Tencent-Hunyuan/Hunyuan-1.8B
- 4B: https://github.com/Tencent-Hunyuan/Hunyuan-4B
- 7B: https://github.com/Tencent-Hunyuan/Hunyuan-7B
🤗 Hugging Face:
- 0.5B: https://huggingface.co/tencent/Hunyuan-0.5B-Instruct
- 1.8B: https://huggingface.co/tencent/Hunyuan-1.8B-Instruct
- 4B: https://huggingface.co/tencent/Hunyuan-4B-Instruct
- 7B: https://huggingface.co/tencent/Hunyuan-7B-Instruct
🔗 Подробнее: https://hunyuan.tencent.com/modelSquare/home/list
@ai_machinelearning_big_data
#Tencent #Hunyuan #ml #llm #ai #opensource
Эти модели заточены под low-power устройства: ПК, смартфоны, авто, умные дома и пользовательские GPU.
Модели легко настраиваются под вертикальные задачи и запускаются даже на одной карте.
💡 Особенности:
✅ Fast/slow thinking режимы: лаконичные или глубокие ответы
✅ 256K контекст и продвинутые агентные способности (tool use, планирование, reasoning)
✅ Хорошие метрики на тестах по языку, математике и логике
✅ Модели готовы к продакшену — работают с SGLang, vLLM, TensorRT-LLM
- 0.5B: https://github.com/Tencent-Hunyuan/Hunyuan-0.5B
- 1.8B: https://github.com/Tencent-Hunyuan/Hunyuan-1.8B
- 4B: https://github.com/Tencent-Hunyuan/Hunyuan-4B
- 7B: https://github.com/Tencent-Hunyuan/Hunyuan-7B
🤗 Hugging Face:
- 0.5B: https://huggingface.co/tencent/Hunyuan-0.5B-Instruct
- 1.8B: https://huggingface.co/tencent/Hunyuan-1.8B-Instruct
- 4B: https://huggingface.co/tencent/Hunyuan-4B-Instruct
- 7B: https://huggingface.co/tencent/Hunyuan-7B-Instruct
🔗 Подробнее: https://hunyuan.tencent.com/modelSquare/home/list
@ai_machinelearning_big_data
#Tencent #Hunyuan #ml #llm #ai #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
👍93❤25🔥14👨💻2❤🔥1
@ai_machinelearning_big_data
#AI #Multimodal #MachineLearning #MoE #VisionAI #Tencent #Hunyuan #LLM #ComputerVision #3DVision
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍45❤15🔥13🥱1
Что внутри:
- Доступны модели Hunyuan-MT-7B и Hunyuan-MT-Chimera-7B
- Поддержка 33 языков
- Chimera-7B — это первая в индустрии откртытая ансамблевая модель
- 1-е место в 30 из 31 категорий на международном конкурсе WMT25 (Workshop on Machine Translation 2025, крупнейшая в мире конференция-соревнование по машинному переводу)
- Hunyuan-MT-7B лидирует среди моделей своего размера
Demo: https://hunyuan.tencent.com/modelSquare/home/list
@ai_machinelearning_big_data
#AI #NLP #Translation #Tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤72👍33🔥15🍾4💘1
Tencent опубликовали довольно интересный проект - POINTS-Reader. Это VLM для OCR английского и китайского языков на 4 млрд. параметров на базе Qwen2.5-3B-Instruct, которая обошла GPT-4o и Gemini на бенче
OmniDocBench
.POINTS-Reader - это философия предельной простоты c прямолинейным конвейером: на вход подается изображение документа и фиксированный промпт, а на выходе получается извлеченный текст.
Никаких этапов постобработки, скриптов для очистки или дополнительных моделей — результат сразу готов к использованию.
Помимо скромной базовой Qwen2.5, в POINTS-Reader использовали умеренный по нынешним меркам Vision Transformer -
NaViT
на 600 млн. параметров. И это осознанный инженерный шаг в угоду простоте и производительности.Современные фреймворки для инференса, будь то SGLang или vLLM, в первую очередь оптимизированы под LLM-часть, из-за чего громоздкий ViT становится узким местом и серьезно замедляет всю систему.
Такая компактная архитектура превосходно показала себя на тестах. На комплексном
OmniDocBench
модель набрала 0.133 для английских документов и 0.212 для китайских. Эти цифры ставят POINTS-Reader в один ряд с гораздо более тяжелыми и сложными системами.Секрет проекта кроется в двухэтапной стратегии подготовки данных, которая полностью отказывается от дистилляции знаний у моделей-учителей.
На первом этапе модель получает базовые навыки OCR, обучаясь на синтетике. Дальше начинается самый интересный этап — непрерывная самоэволюция. Модель используется для генерации аннотаций на реальных документах, после чего лучшие из полученных образцов используются для ее дообучения. Этот итеративный процесс позволяет постоянно повышать качество как самой модели, так и генерируемых ею данных.
Этот метод к самосовершенствованию описан в техотчете как очень гибкий и применимый, по словам Tencent, практически к любой другой архитектуре.
Модель пока не очень уверенно справляется со сложными макетами, вроде газетной верстки, что может приводить к повторению или пропуску контента. Аналогичные трудности возникают и при обработке рукописного текста, например, в чеках или заметках. Кроме того, на данный момент POINTS-Reader поддерживает только английский и китайский языки.
@ai_machinelearning_big_data
#AI #ML #VLM #POINTSReader #Tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤42👍18🔥6🥰2💋2💘2❤🔥1
Media is too big
VIEW IN TELEGRAM
Новая версия обеспечивает в 3 раза более высокую точность 3d-генерации , геометрическое разрешение 1536³ и 3.6 миллиарда вокселей для создания моделей с ультра-HD детализацией.
Ключевые улучшения:
▪ Генерация лиц с реалистичными контурами и естественными позами, что делает модели максимально правдоподобными.
▪ Точная реконструкция сложных структур из изображений благодаря многоуровневой стратегии генерации, позволяющей улавливать скрытые детали.
▪ Повышенная чёткость и профессиональная детализация: улучшенное качество текстур и корректное выравнивание для визуализаций, близких к оригинальному дизайну.
Доступен бесплатный доступ через Hunyuan 3D AI Engine (20 генераций). Решение интегрировано в Tencent Cloud API.
Попробовать можно здесь: https://3d.hunyuan.tencent.com
@ai_machinelearning_big_data
#Hunyuan3D #Tencent #3Dmodeling #AI #UltraHD
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51❤21🔥9💘1
Модель умеет рассуждать на основе изображений, понимать сложные визуально-текстовые задачи и поддерживает мультиязычные кейсы.
Ключевые особенности:
- Visual Reasoning - глубокое понимание изображений и сцен
- Multilingual Support - работа с несколькими языками
- Visual Dialogue - позволяет весть диалог на основе изображения и текста
- Thinking-on-Image - рассуждение на уровне визуальных деталей
HunyuanVision-1.5 демонстрирует продвинутые способности в задачах анализа, генерации и рассуждения. Работает шустро, русский понимает, но не без косяков.
Модель доступна для использования через Tencent Cloud API и LMArena (Direct Chat).
Полный технический отчёт и веса обещают к релизу позже в октябре. Ждемс.
@ai_machinelearning_big_data
#Tencent #llm #ml #Hunyuan #vlm
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍193🎉145❤35🔥20👏16😁12🤩12🥰3👌3💘2