331K subscribers
4.16K photos
764 videos
17 files
4.68K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🚀 Релиз: Qwen3-Next-80B-A3B - эффективная модель заточенная на работа работу с очень длинным контекстом!

🔹 80B параметров, но активируется только 3B на токен → тренировка и инференс 10x дешевле и быстрее, чем у Qwen3-32B (особенно при 32K+ контексте).
🔹 Гибридная архитектура: Gated DeltaNet + Gated Attention → сочетает скорость и точность.
🔹 Ultra-sparse MoE: 512 экспертов, маршрутизируется 10 + 1 общий.
🔹 Multi-Token Prediction → ускоренное speculative decoding.
🔹 По производительности обходит Qwen3-32B и приближается к Qwen3-235B в рассуждениях и long-context задачах.

🟢Qwen3-Next-80B-A3B-Instruct показатели почти на уровне 235B flagship.
🟢 Qwen3-Next-80B-A3B-Thinking превосходит Gemini-2.5-Flash-Thinking.

Попробовать: https://chat.qwen.ai
Анонс: https://qwen.ai/blog?id=4074cca80393150c248e508aa62983f9cb7d27cd&from=research.latest-advancements-list
HuggingFace: https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d
ModelScope: https://modelscope.cn/collections/Qwen3-Next-c314f23bd0264a
Kaggle: https://kaggle.com/models/qwen-lm/qwen3-next-80b
Alibaba Cloud API: https://alibabacloud.com/help/en/model-studio/models#c5414da58bjgj

@ai_machinelearning_big_data

#AI #LLM #Qwen #DeepLearning #MoE #EfficientModels #LongContext #Reasonin
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
70👍33🔥21🌭2👏1