Есть устойчивое мнение, что серьезное обучение нейросетей возможно только на чипах одной известной компании.
В Zyphra решили доказать обратное, и, в сотрудничестве с AMD и IBM провели эксперимент, который на практике доказал, что есть альтернатива.
Стартап опубликовал техотчет и результат - модель ZAYA1. Это первая модель архитектуры MoE, обученная полностью на платформе AMD.
Сеттинг проекта был действительно "красным": графические процессоры AMD Instinct, сетевые интерфейсы AMD Pensando и программный стек ROCm.
ZAYA1 получилась довольно интересной. У неё 8.3 млрд. общих параметров, из которых активных всего 800 миллионов.
Несмотря на компактность, в тестах она выглядит бодро. В ризонинге, математике и программирование ZAYA1 обошла Llama-3-8B и OLMoE. А по общим показателям встала в один ряд с Qwen3-4B и гугловской Gemma3-12B.
Обучение проходило на кластере IBM Cloud, где модель переварила 14 трлн. токенов. Но дело не только в железе, в папйплайне использовали архитектурные инновации:
⚠️ Для запуска инференса потребуется ветка
zaya форка transformers из репозитория Zyphra.@ai_machinelearning_big_data
#AI #ML #LLM #MoE #Zyphra
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍45❤19🔥13😁6🦄3
Опубликован tech report по Qwen3-VL - мультимодальным моделям, работающим с изображениями и текстом.
Кратко :
- Три модели собрали 1M+ загрузок за месяц.
- Qwen3-VL-8B - более 2M скачиваний.
- Линейка развивает идеи Qwen2.5-VL (2800+ цитирований).
Что описано в отчёте:
- Архитектура vision–language модели.
- Процесс обучения: pretraining + post-training.
- Источники данных и методы фильтрации.
- Сравнения с другими VLM и ключевые метрики.
🔗 PDF: https://arxiv.org/pdf/2511.21631
🔗 Видео: https://www.youtube.com/watch?v=clwFmuJX_wQ
@ai_machinelearning_big_data
#Qwen #Qwen3 #QwenVL #Qwen3VL #LLM #AIModel
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤16🔥10👍6👌1🦄1