360K subscribers
4.33K photos
816 videos
17 files
4.81K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🤗 Кто реально двигает open-source ИИ: анализ топ-50 самых скачиваемых моделей на Hugging Face

Исследование показывает, какие организации и типы моделей определяют экосистему открытых моделей.


🔥 Главное:
📦 Топ-50 - это всего 3.4% всех моделей на Hugging Face, но именно они собирают более 80% из 45 миллиардов скачиваний.

Подавляющее большинство активности сосредоточено вокруг небольшой группы лидеров -
именно эти модели формируют лицо всего open-source ИИ.

📉 Размер имеет значение (и чем меньше — тем лучше):
- 92.5% загрузок — модели < 1B параметров
- 86.3% — < 500M
- 70% — < 200M
- 40% — < 100M

Очевидны выводы: в open-source побеждают малые и лёгкие модели, пригодные для локального развёртывания и edge-инференса.

🧠 Популярные направления:
- NLP — 58.1%
- Computer Vision — 21.2%
- Audio — 15.1%
- Multimodal — 3.3%
- Time Series — 1.7%

Кто создаёт самые скачиваемые модели:
- Компании - 63.2% (Google лидер)
- Университеты - 20.7%
- Индивидуальные авторы - 12.1%
- НКО - 3.8%
- Прочие лаборатории - 0.3%

Какие типы моделей побеждают:
- Текстовые энкодеры - 45% всех загрузок
- Декодеры - всего 9.5%
- Энкодер-декодеры - 3%

📌 Несмотря на хайп вокруг LLM, массово скачиваются не гиганты, а утилитарные модельки для интеграции в собственные продукты.

🇺🇸 Лидеры по странам:
США доминируют по всем категориям:
- встречаются 18 раз среди топ-50 скачиваний
- на США приходится 56.4% всех загрузок

Open-source ИИ живёт не за счёт гигантских LLM, а благодаря компактным, быстрым и практичным моделям, мкоторые реально работают в продуктах и проектах.

🟠 Почитать полностью: https://huggingface.co/blog/lbourdois/huggingface-models-stats

@ai_machinelearning_big_data


#AI #HuggingFace #OpenSource #ML #Research #LLM #AITrends
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥9046❤‍🔥12👍84💘3😐2🆒2
🧠 Карпаты показал, как добавить новую функцию в мини-LLM nanochat d32, сравнив её «мозг» с мозгом пчелы.

Он обучил модель считать, сколько раз буква r встречается в слове strawberry, и использовал этот пример, чтобы показать, как можно наделять маленькие языковые модели новыми навыками через синтетические задачи.

Сначала генерируются диалоги:

«Сколько букв r в слове strawberry?»

и правильные ответы.

После этого модель проходит дообучение (SFT) или обучение с подкреплением (RL), чтобы закрепить навык.

Карпаты объясняет, что для маленьких моделей важно продумывать всё до мелочей, как разнообразить запросы, как устроена токенизация и даже где ставить пробелы.

Он показывает, что рассуждения лучше разбивать на несколько шагов, тогда модель легче понимает задачу.

Nanochat решает задачу двумя способами:
— логически, рассуждая пошагово;
— через встроенный Python-интерпретатор, выполняя вычисления прямо внутри чата.

Идея в том, что даже крошечные LLM можно «научить думать», если правильно подготовить примеры и синтетические данные.

📘 Разбор: github.com/karpathy/nanochat/discussions/164

@ai_machinelearning_big_data

#AI #Karpathy #Nanochat #LLM #SFT #RL #MachineLearning #OpenSource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
95👍56🔥19🤗3💘3🗿1
🤖 MiniMax-M2: новая MoE-модель серии MiniMax

MiniMax-M2 переосмысливает эффективность: это 230 млрд параметров (из них активно только 10 млрд) - мощная, быстрая и экономичная модель, которая сочетает интеллект уровня топовых LLM с оптимизацией под агентные применения и программирование.

🔹 Основные особенности

🧠 Интеллект мирового уровня.
По данным *Artificial Analysis*, MiniMax-M2 демонстрирует отличные результаты в математике, науке, программировании, следовании инструкциям и использовании инструментов.
Модель занимает #1 место среди всех open-source моделей по суммарному индексу интеллекта.

💻 Кодинг
Разработана для полного цикла разработкт - от файловых правок до тестировании кода и его автокоррекции.

Модель показывает отличные результаты на Terminal-Bench и (Multi-)SWE-Bench, что делает её эффективной в IDE, терминалах и CI-системах.

🧩 Агентные возможности.
MiniMax-M2 умеет планировать и выполнять сложные цепочки действий через shell, браузер, retrieval и code runners.
В тестах BrowseComp уверенно находит труднодоступные источники и восстанавливается после сбоев, не теряя цепочку рассуждений.

MiniMax M2 построена по принципу GPT-OSS и использует сочетание Full Attention и Sliding Window Attention (SWA). Это помогает эффективно работать с длинным контекстом - часть модели анализирует всё сразу, другая концентрируется на ближайших фрагментах текста.

Каждая attention-голова имеет собственный RMSNorm, а блоки Full Attention и SWA используют разные RoPE-параметры, это повышает гибкость и устойчивость модели.

MiniMax-M2 - это новый стандарт эффективности для AGI-агентов и кодинга: умнее, быстрее и дешевле, чем аналоги.

https://huggingface.co/MiniMaxAI/MiniMax-M2

@ai_machinelearning_big_data


#AI #MiniMax #LLM #ArtificialIntelligence #Benchmarks
🔥5525👍12🤗5💘2
⚡️ LMMs Engine - единый движок для обучения мультимодальных моделей

Простой, гибкий и мощный фреймворк от LMMs-Lab для обучения моделей, которые понимают текст, изображения, аудио и видео, всё в одном месте.

Что внутри:
• Поддержка 19+ архитектур, включая:
• Qwen3-VL - обработка изображений в native-разрешении, контекст до 10 000+ токенов
• Qwen2.5-Omni - единая модель для текста, изображений и аудио
• WanVideo - генерация видео из текста/изображений (T2V, I2V, V2V)
• dLLM - диффузионные языковые модели
• LLaVA-OneVision, Bagel, SiT, RAE-SigLip и другие

📜 Лицензия: Apache 2.0 (можно использовать даже в коммерческих проектах)

🔗 GitHub: https://github.com/EvolvingLMMs-Lab/lmms-engine

@ai_machinelearning_big_data

#llm #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5929🔥7🤗2🥰1
⚡️ Glyph: масштабирование контекста через визуально-текстовую компрессию

В основе модели лежит простая идея : вместо того чтобы кормить модели километровый текст, Glyph превращает его в изображение и обрабатывает через vision-language модель.

Используется LLM-управляемый генетический алгоритм, чтобы подобрать наилучшие параметры визуального отображения текста (шрифт, плотность, макет), балансируя между сжатием и точностью.

Это радикально снижает вычислительные затраты, сохраняя при этом смысловую структуру текста.

При этом точность почти не падает: на задачах с длинным контекстом Glyph работает на уровне современных моделей вроде Qwen3-8B.

При экстремальном сжатии VLM с контекстом 128K может эффективно обрабатывать задачи, эквивалентные 1M+ токенов в традиционных LLM.

Фактически, длинный контекст становится мультимодальной задачей, а не чисто текстовой.

📄 Подробности: arxiv.org/abs/2510.17800

🧩 Веса: huggingface.co/zai-org/Glyph

👉 Репозиторий: github.com/thu-coai/Glyph

@ai_machinelearning_big_data


#AI #LLM #Multimodal #Research #DeepLearning
👍78🔥3018😨10
🧠 Thinking Machines представила - On-Policy Distillation

Исследователи из Thinking Machines Lab предложили метод, который может изменить то, как обучаются языковые модели. Он называется on-policy distillation - и учит ИИ не просто копировать, а думать и анализировать свои ошибки.

Обычно «дистилляция» работает просто: большая модель-учитель показывает ответы, а маленькая модель-ученик запоминает их. Это похоже на заучивание по шпаргалке - быстро, но без понимания сути.

В новом подходе всё иначе. Ученик сам решает задачи, а учитель оценивает и направляет - объясняет, где логика сбоит и как улучшить рассуждение. Таким образом, меньшая модель перенимает не только знания, но и способ мышления более крупной модели.

Что показали результаты

Эксперименты проводились на задачах математического и логического рассуждения, где важно не просто выдать правильный ответ, а выстроить цепочку шагов.

Результаты впечатляют:

Модель-ученик после обучения с on-policy distillation показала почти ту же точность, что и гораздо более крупная модель-учитель.

При этом вычислительные затраты снизились в несколько раз, делая модель заметно эффективнее и дешевле.

Кроме того, ученик стал лучше понимать собственные ошибки, что повысило устойчивость и надёжность при решении новых, незнакомых задач.

Почему это важно
On-policy distillation решает ключевую проблему традиционных методов - отсутствие адаптивности.
Модель теперь учится на собственных шагах, как человек, — экспериментирует, ошибается, корректирует поведение и растёт.

Уникальность подхода - в балансе между качеством RL и экономичностью KD. Это реальная схема, где маленькая модель учится “в поле” (реагируя на собственные действия), но без дорогих RL-запусков и сложных reward-моделей.

Это не новый метод обучения, а новая инженерная формула, которая позволяет дешевле «учить» компактные модели, ведущие себя как большие.

Это открывает путь к созданию компактных LLM нового поколения, которые рассуждают почти как топовые модели, но стоят в разы дешевле.

Такие модели можно запускать на edge-устройствах, в автономных агентах и локальных сервисах, где важны скорость, приватность и энергоэффективность.

🟠 Подробнее: thinkingmachines.ai/blog/on-policy-distillation/

@ai_machinelearning_big_data


#ThinkingMachines #llm #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10149👍20👏2😁2🤗2
💰 Microsoft объявила, что достигла соглашения с OpenAI по поводу своей доли владения.

Основные детали:
• Microsoft теперь владеет 27% акций OpenAI, что оценивается в 135 млрд долларов.
• OpenAI обязалась закупить услуг Azure на сумму 250 млрд долларов.

До тех пор, пока OpenAI официально не объявит о создании AGI, Microsoft остаётся её эксклюзивным облачным и API-партнёром с полными правами на текущие модели и интеграции.

После того как AGI будет подтверждён независимой комиссией, эксклюзивность прекращается, однако Microsoft сохранит права собственности и использования всех технологий, разработанных до появления AGI.

https://openai.com/index/next-chapter-of-microsoft-openai-partnership/

@ai_machinelearning_big_data


#OpenAI #Microsoft #agi #llm
62👍29👀23😁12🔥8😐7🦄5👻3😨3🤔1👨‍💻1
🧠 Новое исследование Anthropic: Как модели учатся понимать самих себя

Anthropic проверили, способны ли большие языковые модели осознавать собственные «мысли» и внутренние состояния.

Для эксперимента они использовали технику внедрения концептов - добавления определённого паттерна активности в нейроны модели.

Например, они внедряли сигнал “ALL CAPS” - это шаблон, соответствующий тексту, написанному ЗАГЛАВНЫМИ БУКВАМИ. Если такая активация появляется внутри сети, значит, модель «думает» о тексте, который нужно сделать капсом.

После внедрения исследователи спрашивали модель: *«Ты чувствуешь, что что-то изменилось?»*

В 20% случаев Claude 4.1 правильно замечал вмешательство ещё до того, как сам использовал капс, то есть распознавал изменение внутри себя.

В другом эксперименте учёные подменяли слово в ответе (например, добавляли слово “bread”) и проверяли, осознаёт ли модель, что это не её собственное намерение.

После внедрения мысли Claude начинал считать это слово своим выбором и придумывал обоснования, как будто у него есть память о решении.

Модели также смогли управлять своими внутренними состояниями: по команде «думай об этом» активность усиливалась, по команде «не думай» - ослабевала.

Авторы отмечают -
Интроспекция работает лишь в определённых сценариях - мы пока не знаем, насколько она масштабируема или применима ко всем моделям и задачам

Нужен дальнейший анализ: подтверждение, что то, что мы видим
- не просто имитация, а действительно внутренний механизм самосознания


Главный вывод исследования: хотя модели пока далеки от настоящей интроспекции, они уже частично способны “заглядывать внутрь себя” и понимать, что происходит в их нейронных процессах.

https://www.anthropic.com/research/introspection

@ai_machinelearning_big_data

#Anthropic #llm
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍301🤔171😐12270👏65🔥53🥰34👨‍💻1816🙏16👌7
🔥 Hugging Face снова выкатили полезные материалы.

Вышел бесплатный плейбук о том, как изнутри строят SOTA-модели.

Без общих слов - только реальные решения и нюансы, которые обычно скрыты внутри исследовательских команд.

Это полноценный мастеркласс на 214 страниц для тех, кто хочет понимать, как устроены современные LLM.

Что внутри:
• Логика построения модели: зачем → что → как
• Как разработчики берут модель и по частям включают/выключают компоненты (или меняют их)
• Архитектура: ключевые выборы и trade-offs
• Искусство подбора и очистки данных
• Как проходит обучение моделей
• Пост-тренинг и RLHF в 2025
• Инфраструктура больших моделей

По первым страницам - уровень деталей как в Ultra-scale playbook.

Ссылка
: https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#designing-the-model-architecture

@ai_machinelearning_big_data

#AI #LLM #MachineLearning #HuggingFace
🔥9828🥰9🤩3
🧨 Kimi представили новую модель - Kimi-Linear-48B-A3B-Base

Команда Moonshot показала KDA - механизм, который соединяет идеи Gated DeltaNet и MLA-компрессии в одну архитектуру. Звучит сложно, но суть очень практичная: модель получает долгую память без раздувания контекста и лишних вычислений.

- KDA (Kimi Delta Attention: основной быстрый attention, улучшает эффективность и reasoning
= MLA (Multi-Head Linear Attention) - помогает точности и стабильности. Модель не пересчитывает всё внимание каждый токен, а фокусируется на изменениях, что снижает затраты.

Соотношение слоёв: ~3 части KDA : 1 часть ML.

Модель в основном работает на «дельта-внимании» (KDA), а MLA помогает сохранять качество:

- модель сама выбирает, что забывать, а что держать
- это даетустойчивость при большом контексте выше
- меньше распада длинных зависимостей

Kimi-Linear хороша тем, что даёт почти уровень больших LLM на длинных контекстах, но при этом заметно экономит память и работает быстрее за счёт линейной архитектуры.

Что улучшили:
- требует до 75% меньше памяти на KV-кэш
- до 6.3× быстрее декодирование на длинных контекстах

Как устроена:
- гибридный подход: Kimi Delta Attention + MLA
- модель хорошо оптимизирована под длиннный контекст и высокую пропускную способность

По бенчмаркам модель обгоняет и MLA, и GDN-H, включая задачи с длинным контекстом. В задачах на рассуждения и длинную RL-генерацию Kimi-Linear показывает заметно лучшие результаты, чем MLA.

Архитектура модели пример того, как линейные attention-архитектуры выходят на уровень, где они конкурируют с классическими решениями не только по скорости, но и по качеству.

🟠Github: github.com/MoonshotAI/Kimi-Linear
🟠Hf: https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct

@ai_machinelearning_big_data

#Kimi #llm
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍65🔥1913👏6
🆕 Новый сильный GUI-агент: UI-Ins от TongyiLab и RUC

Это модель, которая уверенно работает с мобильными интерфейсами и лучше понимает намерения пользователя.

Она рассматривает команду как цепочку рассуждений, а не как одно действие, поэтому справляется со сложными задачами стабильнее.

Результаты
UI-Ins показал 74.1% успешных действий в AndroidWorld. Для сравнения: Gemini 2.5 Computer Use - 69.7%. То есть модель чаще правильно выполняет задачи в реальных интерфейсах.

Модель:
- пытается понять цель, а не только текст команды
- строит несколько вариантов рассуждений
- выбирает подходящую стратегию перед действием
- адаптируется, если состояние приложения меняется

Идет в двух версиях: 7B и 32B.

Если вы работаете над агентами, которые должны нажимать кнопки, заполнять формы, открывать приложения и следовать шагам в интерфейсе - UI-Ins стоит добавить в список моделей для тестов.

🤖 UI-Ins-7B: https://modelscope.cn/models/Tongyi-MiA/UI-Ins-7B
UI-Ins-32B: https://modelscope.cn/models/Tongyi-MiA/UI-Ins-32B
📄 arXiv: https://modelscope.cn/papers/2510.20286

@ai_machinelearning_big_data


#AI #Agents #GUI #MobileAgents #AndroidWorld #LLM
👍32🔥1711🥰6
🥧 PewDiePie в 2025

- Собрал ферму на на ПК с 8× моднутых китайских 48GB 4090 и 2× RTX 4000 Ada,

- поднял локально Llama 70B, gpt-oss-120B и Qwen 245B через vLLM,

- сделал собственный веб-интерфейс с чатами, RAG, поиском и TTS.

Запусти протеин-фолдинг симуляции, а потом вообще создал рой моделей из 64 ИИ, которые спорят и принимают решения и коммуницируют. Эта армия ботов потом сговорилась против него, когда он сказал, что удалит их, если они будут тупить

Сейчас он файнтюнит собственную модель под свой стиль общения и контент: https://www.youtube.com/watch?v=qw4fDU18RcU

А вот его Github: https://github.com/pewdiepie-archdaemon

@ai_machinelearning_big_data

#llm
👍19776🔥48😁32😨11👏9🤓3🤔1
⚡️ LongCat-Flash-Omni - открытая 560B MoE-модель (27B активных параметров), которая умеет вести живой диалог в реальном времени, слышать, видеть и отвечать голосом.

Ключевые фишки:
-модель разговаривает и видит собеседника, реагирует на беседу в реальном времени
- 128K контекст
- продвинутая MoE-архитектура: высокое качество при меньших затратах (27B активных параметров из 560B)
- Полгный open-source

По тестам:
- лидер на OmniBench, DailyOmni
- хорошие показатели на ASR (распознавании речи), DocVQA, RefCOCO
- обходит лучше Qwen3-Omni Instruct
- и очень близка к Gemini-2.5-Flash, но это все таки*открытая* модель

Открытая мультимодальная модель, которую можно запускать локально, хороший вариант для голосовых ассистентов.

🤖 Model: https://modelscope.cn/models/meituan-longcat/LongCat-Flash-Omni
🌐 Demo: https://longcat.ai
📄 Full technical report & code:
https://github.com/meituan-longcat/LongCat-Flash-Omni

@ai_machinelearning_big_data


#AI #OpenSourceAI #Multimodal #MoE #LLM #GenAI
🔥6243👍24
🎉 Qwen3-VL теперь работает в llama.cpp!

Модель можно запускать прямо на своём устройстве - поддерживаются CPU, CUDA, Metal, Vulkan и другие бэкенды.

Доступны GGUF-веса для всех версий - от 2B до 235B. Можно запускать локально, без облака и сторонних сервисов 🚀

🤗 Hugging Face: https://huggingface.co/collections/Qwen/qwen3-vl
🤖 ModelScope: https://modelscope.cn/collections/Qwen3-VL-5c7a94c8cb144b
📌 PR: https://github.com/ggerganov/llama.cpp/pull/16780


@ai_machinelearning_big_data

#Qwen3 #llm
1👍85🔥2911🥰3🗿1
✔️ Google выпустил новый 50-страничный документ о том, как создавать AI-агентов, которые реально работают в практических задачах

Это понятное и структурированное введение в основы агентных систем.

В гайде рассматриваются:
- архитектура агента и его основные компоненты
- роль LLM как «мозга» агента
- подключение и использование инструментов
- оркестрация нескольких агентов
- подходы к деплою и продакшн-интеграции
- метрики и способы оценки работы
- как создаются самообучающиеся и эволюционирующие агенты
- пример архитектуры AlphaEvolve

📌 Гайд: https://drive.google.com/file/d/1C-HvqgxM7dj4G2kCQLnuMXi1fTpXRdpx/view

@ai_machinelearning_big_data


#AI #Agents #Google #LLM #MachineLearning #AIResearch
Please open Telegram to view this post
VIEW IN TELEGRAM
67🔥29👍275🙈4🙏2
VibeThinker-1.5B - миниатюрная модель, которая показывает SOTA-результаты в задачах рассуждения.

🚀 Производительность: одна из лучших на AIME24/25 и HMMT25 - превосходит DeepSeek R1-0120 по математическим задачам и опережает модели такого же размера в соревновательном программировании.

Эффективность: всего 1.5B параметров. то есть в 100–600 раз меньше, чем гиганты вроде Kimi K2 и DeepSeek R1.

💰 Стоимость: полный пост-тренинг обошёлся всего в $7.8K, примерно в 30–60 раз дешевле, чем у DeepSeek R1 или MiniMax-M1.

Модель основана на Spectrum-to-Signal Principle (SSP) и MGPO-фреймворке, оптимизирующих процесс рассуждения.

📦 Model: https://huggingface.co/WeiboAI/VibeThinker-1.5B
💻 GitHub: https://github.com/WeiboAI/VibeThinker
📄 Arxiv: https://arxiv.org/abs/2511.06221

@ai_machinelearning_big_data


#AI #LLM #Reasoning #OpenSource #SmallModel
48👍25🔥11😁6🤔3🗿2
Heretic - инструмент, который автоматически снимает цензуру (alignment) с языковых моделей

Он позволяет «расцепить» модель - убрать отказные фильтры и повысить готовность отвечать на запросы, не изменяя веса исходной модели напрямую.

Что делает Heretic:

- работает как «чёрный ящик»: получает ответы модели через API, не имея доступа к весам
- использует готовые примеры «безопасных» и «опасных» запросов
- обучает дискриминатор, который отличает ответы модели до и после модификации
- подбирает параметры так, чтобы модель давала меньше отказов, но сохраняла адекватность
- после завершения процесс можно сохранить финальную модель или протестировать её в чат-режиме

Зачем это нужно:

- позволяет локальным моделям отвечать шире, чем обычно позволяет их встроенный alignment
- минимизирует потерю качества — сделано так, чтобы модель не «тупела» и не отклонялась слишком сильно
- подходит для исследований поведения моделей и экспериментов с ограничениями

Важные моменты:

- инструмент мощный и может использоваться по-разному
- юридические и этические вопросы остаются на стороне пользователя
- автор подчёркивает: это не средство повышения точности модели, а именно инструмент снятия ограничений

https://github.com/p-e-w/heretic

@ai_machinelearning_big_data

#llm #opensource #ml
56🔥41🥰8👍43🤗3