— GPT-OSS-120B — 117B параметров, запускается на одной H100 (80GB)
— GPT-OSS-20B — 21B параметров, работает на 16GB GPU
💡 Оба варианта — MoE-модели (Mixture of Experts) с 4-битной квантизацией (MXFP4)
• Архитектура Token-choice MoE с SwiGLU
• Контекст до 128K токенов с RoPE
• Модель заточена на CoT (chain-of-thought)
• Поддержка instruction-following и tool-use
• Совместима с transformers, vLLM, llama.cpp, ollama
• Используется тот же токенизатор, что и в GPT-4o
Младшая модель может запускаться даже на локальном железе!
https://github.com/huggingface/transformers/releases/tag/v4.55.0
🚀 Попробовать можно тут: https://www.gpt-oss.com/
@ai_machinelearning_big_data
#openai #opensource #chatgpt
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥87👍39❤27🍾7👨💻3
🚀 Qwen3-4B-Instruct-2507 и Qwen3-4B-Thinking-2507 — ловите еще один апдейт от Qwen: LLM с поддержкой 256K контекста
🧠 Qwen3-4B-Instruct — идеально подойдёт для:
• генерации текстов
• многоязычных задач
• сложных промптов
🧠 Qwen3-4B-Thinking — заточен под:
• логику
• математику
• программирование и технический анализ
⚡ Обе модели стали:
• точнее
• логичнее
• лучше справляются с длинными диалогами
🔗 Модели на Hugging Face:
https://huggingface.co/Qwen/Qwen3-4B-Instruct-2507
https://huggingface.co/Qwen/Qwen3-4B-Thinking-2507
🔗 Модели на ModelScope:
https://modelscope.cn/models/Qwen/Qwen3-4B-Instruct-2507
https://modelscope.cn/models/Qwen/Qwen3-4B-Thinking-2507
@ai_machinelearning_big_data
#AI #ML #qwen #opensource
🧠 Qwen3-4B-Instruct — идеально подойдёт для:
• генерации текстов
• многоязычных задач
• сложных промптов
🧠 Qwen3-4B-Thinking — заточен под:
• логику
• математику
• программирование и технический анализ
⚡ Обе модели стали:
• точнее
• логичнее
• лучше справляются с длинными диалогами
🔗 Модели на Hugging Face:
https://huggingface.co/Qwen/Qwen3-4B-Instruct-2507
https://huggingface.co/Qwen/Qwen3-4B-Thinking-2507
🔗 Модели на ModelScope:
https://modelscope.cn/models/Qwen/Qwen3-4B-Instruct-2507
https://modelscope.cn/models/Qwen/Qwen3-4B-Thinking-2507
@ai_machinelearning_big_data
#AI #ML #qwen #opensource
👍81🔥44❤20👨💻2