380K subscribers
4.39K photos
836 videos
17 files
4.87K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟 ZAYA1: первая MoE-модель, полностью обученная на стеке AMD.

Есть устойчивое мнение, что серьезное обучение нейросетей возможно только на чипах одной известной компании.

В Zyphra решили доказать обратное, и, в сотрудничестве с AMD и IBM провели эксперимент, который на практике доказал, что есть альтернатива.

Стартап опубликовал техотчет и результат - модель ZAYA1. Это первая модель архитектуры MoE, обученная полностью на платформе AMD.

Сеттинг проекта был действительно "красным": графические процессоры AMD Instinct, сетевые интерфейсы AMD Pensando и программный стек ROCm.

ZAYA1 получилась довольно интересной. У неё 8.3 млрд. общих параметров, из которых активных всего 800 миллионов.

Несмотря на компактность, в тестах она выглядит бодро. В ризонинге, математике и программирование ZAYA1 обошла Llama-3-8B и OLMoE. А по общим показателям встала в один ряд с Qwen3-4B и гугловской Gemma3-12B.

Обучение проходило на кластере IBM Cloud, где модель переварила 14 трлн. токенов. Но дело не только в железе, в папйплайне использовали архитектурные инновации:

🟢Новый механизм внимания - Compressed Convolutional Attention. Он использует свертки внутри блока внимания, это снизило нагрузку на вычисления и память.

🟢Переделали маршрутизатор MoE. Вместо стандартного линейного роутера, ZAYA1 использует сложную последовательность операций, что заставляет "экспертов" внутри нейросети специализироваться гораздо лучше.

🟢Residual Scaling. Добавили обучаемые скалярные гейты в остаточный стрим на выходы каждого блока, чтобы модель контролировала степень забывания.


⚠️ Для запуска инференса потребуется ветка zaya форка transformers из репозитория Zyphra.


📌Лицензирование: Apache 2.0 License.


🟡Статья
🟡Модель
🟡Arxiv


@ai_machinelearning_big_data

#AI #ML #LLM #MoE #Zyphra
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4519🔥13😁6🦄3
⚡️ Qwen3-VL: выпустили технический отчёт по новой линейке VLM

Опубликован tech report по Qwen3-VL - мультимодальным моделям, работающим с изображениями и текстом.

Кратко :
- Три модели собрали 1M+ загрузок за месяц.
- Qwen3-VL-8B - более 2M скачиваний.
- Линейка развивает идеи Qwen2.5-VL (2800+ цитирований).

Что описано в отчёте:
- Архитектура vision–language модели.
- Процесс обучения: pretraining + post-training.
- Источники данных и методы фильтрации.
- Сравнения с другими VLM и ключевые метрики.

🔗 PDF: https://arxiv.org/pdf/2511.21631
🔗
Видео: https://www.youtube.com/watch?v=clwFmuJX_wQ

@ai_machinelearning_big_data

#Qwen #Qwen3 #QwenVL #Qwen3VL #LLM #AIModel
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
16🔥10👍6👌1🦄1