⚡️ Новый HunyuanImage-2.1 — мощный генератор 2K изображений от Tencent
В Hugging Face появился свежий Space —
Что это за модель?
HunyuanImage-2.1 — это эффективная текст-в-изображение модель, способная генерировать изображения в разрешении 2K (2048×2048) с отличной семантической связью и качеством. Основана на двухступенчатом пайплайне:
1. Базовая модель с двумя энкодерами текста (мультимодальный LLM и ByT5) и 17 млрд параметров, усиленная RLHF.
2. Refiner-модель улучшает детализацию и устраняет артефакты.
Также имеются:
- PromptEnhancer — автоматически улучшает ввод для более точных и выразительных изображений.
- Meanflow-дистилляция — ускоряет инференс с минимальным числом шагов.
Почему это интересно?
- Обеспечивает качественную генерацию семантически точных и визуально выразительных изображений. Модель демонстрирует сравнимый или лучший результат по сравнению с открытыми и закрытыми аналогами в оценках SSAE и GSB :contentReference[oaicite:0]{index=0}.
- Работает с мультиязычным вводом (английский и китайский) и поддерживает различные соотношения сторон (1:1, 16:9, 4:3 и др.).
- Бесплатно доступна: вес модели, код и демонстрация прямо в браузере через Hugging Face.
Как попробовать?
Перейдите на Space, введите свой текстовый запрос, и за секунды получите 2K визуализацию.
HunyuanImage-2.1 демонстрирует, как современные модели могут генерировать крупные и точные изображения, оставаясь при этом доступными и удобными в использовании.
Github: https://github.com/Tencent-Hunyuan/HunyuanImage-2.1
#HunyuanImage21 #TextToImage #AI #OpenSource
В Hugging Face появился свежий Space —
tencent/HunyuanImage-2.1
, где можно тестировать новейшую текст-в-изображение модель от Tencent.Что это за модель?
HunyuanImage-2.1 — это эффективная текст-в-изображение модель, способная генерировать изображения в разрешении 2K (2048×2048) с отличной семантической связью и качеством. Основана на двухступенчатом пайплайне:
1. Базовая модель с двумя энкодерами текста (мультимодальный LLM и ByT5) и 17 млрд параметров, усиленная RLHF.
2. Refiner-модель улучшает детализацию и устраняет артефакты.
Также имеются:
- PromptEnhancer — автоматически улучшает ввод для более точных и выразительных изображений.
- Meanflow-дистилляция — ускоряет инференс с минимальным числом шагов.
Почему это интересно?
- Обеспечивает качественную генерацию семантически точных и визуально выразительных изображений. Модель демонстрирует сравнимый или лучший результат по сравнению с открытыми и закрытыми аналогами в оценках SSAE и GSB :contentReference[oaicite:0]{index=0}.
- Работает с мультиязычным вводом (английский и китайский) и поддерживает различные соотношения сторон (1:1, 16:9, 4:3 и др.).
- Бесплатно доступна: вес модели, код и демонстрация прямо в браузере через Hugging Face.
Как попробовать?
Перейдите на Space, введите свой текстовый запрос, и за секунды получите 2K визуализацию.
HunyuanImage-2.1 демонстрирует, как современные модели могут генерировать крупные и точные изображения, оставаясь при этом доступными и удобными в использовании.
Github: https://github.com/Tencent-Hunyuan/HunyuanImage-2.1
#HunyuanImage21 #TextToImage #AI #OpenSource
❤8🔥6👍5
✨ Возможности:
- Объединение и разделение файлов
- Поворот и обрезка страниц
- Перестановка и удаление страниц
- Интуитивный drag-and-drop интерфейс
Полностью опенсорс (GPL-3.0).
Идеален, если нужно быстро подготовить PDF к печати или презентации — без сложных настроек.
📌 GitHub
#PDF #opensource #Linux #devtools
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11🔥4👍3
Forwarded from Machinelearning
🐳 А вот и обновленная DeepSeek-V3.1-Terminus
Она даёт более стабильные и полные результаты на тестах по сравнению с предыдущей версией.
Доступна в приложении и в веб-версии и через API.
🔗 Открытые веса: https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus
@ai_machinelearning_big_data
#DeepSeek #opensource #llm
Она даёт более стабильные и полные результаты на тестах по сравнению с предыдущей версией.
Доступна в приложении и в веб-версии и через API.
🔗 Открытые веса: https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus
@ai_machinelearning_big_data
#DeepSeek #opensource #llm
❤8🔥4🥰4
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
Она была преобразована из предварительно обученной авторегрессионной модели (Qwen3-30B-A3B) и затем дополнительно обучена на 500 миллиардах токенов, чтобы полностью поменять поведениие диффузионной модели.
Обычные модели (AR, автогрессионные) пишут текст слово за словом, а RND1 создаёт всё предложение сразу и потом пошагово уточняет его, как будто “проявляет” текст из шума.
Это - Diffusion Language Model (DLM), аналог диффузионных моделей, которые рисуют картинки, только здесь она “рисует” слова.
🔄 Как её сделали
Команда Radical Numerics придумала, как превратить готовую модель в диффузионную без обучения с нуля.
Они просто поменяли тип внимания и дообучили модель на новой задаче.
Этот метод называется AR-to-Diffusion Conversion (A2D) - то есть конверсия из автогрессионной модели в диффузионную.
Как это происходит:
1. Берут сильную GPT-подобную модель.
2. Меняют механизм внимания — теперь модель видит весь контекст сразу.
3. Продолжают обучение по диффузионной задаче.
4. Используют разные скорости обучения для разных частей сети, чтобы модель не забыла старое, но научилась новому способу мышления.
⚙️ Что под капотом
▪ Mixture-of-Experts (MoE) - у модели 30 млрд параметров, но реально работают только 3 млрд за раз. Это делает её мощной, но экономной.
▪ Непрерывное дообучение - старые знания не стираются, а “встраиваются” в новый режим.
▪ Огромные батчи - модель учится на больших партиях данных, чтобы стабилизировать обучение, ведь она не обрабатывает все токены сразу.
- Параллельная генерация - текст создаётся быстрее, без пошаговой задержки.
- Меньше затрат - активных параметров всего 3 млрд, при этом качество как у больших GPT.
- Новая архитектура - открывает дорогу гибридным моделям, сочетающим плюсы AR и DLM.
- Полностью открытый код и веса - можно исследовать, изменять, запускать самому.
- Первый серьёзный шаг к самосовершенствующемуся ИИ- модель может не только обучаться, но и помогать в проектировании следующей версии.
Это реально интересный метод, RND1 показывает, что ИИ можно не просто обучать, а перестраивать - менять его саму логику мышления без начала “с нуля”.
Похоже, это может стать фундаментом для систем Recursive Self-Improvement (RSI), когда ИИ способен создавать и улучшать самого себя.
@ai_machinelearning_big_data
#RND1 #RadicalNumerics #AI #DLM #DiffusionModel #MoE #OpenSource
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11🔥6👍5🤝2