385K subscribers
4.46K photos
863 videos
17 files
4.9K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
⚡️ LongCat-Flash-Omni - открытая 560B MoE-модель (27B активных параметров), которая умеет вести живой диалог в реальном времени, слышать, видеть и отвечать голосом.

Ключевые фишки:
-модель разговаривает и видит собеседника, реагирует на беседу в реальном времени
- 128K контекст
- продвинутая MoE-архитектура: высокое качество при меньших затратах (27B активных параметров из 560B)
- Полгный open-source

По тестам:
- лидер на OmniBench, DailyOmni
- хорошие показатели на ASR (распознавании речи), DocVQA, RefCOCO
- обходит лучше Qwen3-Omni Instruct
- и очень близка к Gemini-2.5-Flash, но это все таки*открытая* модель

Открытая мультимодальная модель, которую можно запускать локально, хороший вариант для голосовых ассистентов.

🤖 Model: https://modelscope.cn/models/meituan-longcat/LongCat-Flash-Omni
🌐 Demo: https://longcat.ai
📄 Full technical report & code:
https://github.com/meituan-longcat/LongCat-Flash-Omni

@ai_machinelearning_big_data


#AI #OpenSourceAI #Multimodal #MoE #LLM #GenAI
🔥6246👍24
🎉 Qwen3-VL теперь работает в llama.cpp!

Модель можно запускать прямо на своём устройстве - поддерживаются CPU, CUDA, Metal, Vulkan и другие бэкенды.

Доступны GGUF-веса для всех версий - от 2B до 235B. Можно запускать локально, без облака и сторонних сервисов 🚀

🤗 Hugging Face: https://huggingface.co/collections/Qwen/qwen3-vl
🤖 ModelScope: https://modelscope.cn/collections/Qwen3-VL-5c7a94c8cb144b
📌 PR: https://github.com/ggerganov/llama.cpp/pull/16780


@ai_machinelearning_big_data

#Qwen3 #llm
1👍85🔥2912🥰3🗿1
✔️ Google выпустил новый 50-страничный документ о том, как создавать AI-агентов, которые реально работают в практических задачах

Это понятное и структурированное введение в основы агентных систем.

В гайде рассматриваются:
- архитектура агента и его основные компоненты
- роль LLM как «мозга» агента
- подключение и использование инструментов
- оркестрация нескольких агентов
- подходы к деплою и продакшн-интеграции
- метрики и способы оценки работы
- как создаются самообучающиеся и эволюционирующие агенты
- пример архитектуры AlphaEvolve

📌 Гайд: https://drive.google.com/file/d/1C-HvqgxM7dj4G2kCQLnuMXi1fTpXRdpx/view

@ai_machinelearning_big_data


#AI #Agents #Google #LLM #MachineLearning #AIResearch
Please open Telegram to view this post
VIEW IN TELEGRAM
71🔥30👍295🙈4🙏2
VibeThinker-1.5B - миниатюрная модель, которая показывает SOTA-результаты в задачах рассуждения.

🚀 Производительность: одна из лучших на AIME24/25 и HMMT25 - превосходит DeepSeek R1-0120 по математическим задачам и опережает модели такого же размера в соревновательном программировании.

Эффективность: всего 1.5B параметров. то есть в 100–600 раз меньше, чем гиганты вроде Kimi K2 и DeepSeek R1.

💰 Стоимость: полный пост-тренинг обошёлся всего в $7.8K, примерно в 30–60 раз дешевле, чем у DeepSeek R1 или MiniMax-M1.

Модель основана на Spectrum-to-Signal Principle (SSP) и MGPO-фреймворке, оптимизирующих процесс рассуждения.

📦 Model: https://huggingface.co/WeiboAI/VibeThinker-1.5B
💻 GitHub: https://github.com/WeiboAI/VibeThinker
📄 Arxiv: https://arxiv.org/abs/2511.06221

@ai_machinelearning_big_data


#AI #LLM #Reasoning #OpenSource #SmallModel
52👍25🔥11😁6🤔3🗿2
Heretic - инструмент, который автоматически снимает цензуру (alignment) с языковых моделей

Он позволяет «расцепить» модель - убрать отказные фильтры и повысить готовность отвечать на запросы, не изменяя веса исходной модели напрямую.

Что делает Heretic:

- работает как «чёрный ящик»: получает ответы модели через API, не имея доступа к весам
- использует готовые примеры «безопасных» и «опасных» запросов
- обучает дискриминатор, который отличает ответы модели до и после модификации
- подбирает параметры так, чтобы модель давала меньше отказов, но сохраняла адекватность
- после завершения процесс можно сохранить финальную модель или протестировать её в чат-режиме

Зачем это нужно:

- позволяет локальным моделям отвечать шире, чем обычно позволяет их встроенный alignment
- минимизирует потерю качества — сделано так, чтобы модель не «тупела» и не отклонялась слишком сильно
- подходит для исследований поведения моделей и экспериментов с ограничениями

Важные моменты:

- инструмент мощный и может использоваться по-разному
- юридические и этические вопросы остаются на стороне пользователя
- автор подчёркивает: это не средство повышения точности модели, а именно инструмент снятия ограничений

https://github.com/p-e-w/heretic

@ai_machinelearning_big_data

#llm #opensource #ml
93🔥51👍11🥰10🤗54🦄1
🌟 Reader3: легковесная читалка для книг от Andrej Karpathy

Андрей Карпаты опубликовал у себя в Github небольшой проект - утилиту под названием reader3.

На первый взгляд, это просто легковесная читалка для электронных книг в формате EPUB, которую можно запустить у себя на компьютере. Но главная идея в том, чтобы читать книги вместе с LLM.

Reader3 разбивает книгу по главам, и пользователь может легко скопировать текст текущей главы и вставить его в свой любимый LLM, чтобы обсуждать сюжет, анализировать стиль или задавать вопросы по тексту.

Но самое интересное здесь — это философия, которая стоит за проектом. Карпаты пишет, что проект написан "на 90% вайбкодингом", просто для иллюстрации идеи и что он не собирается его поддерживать или улучшать.

Я начинаю привыкать читать все (блоги, статьи, главы книг и т. д.) с помощью LLM. Обычно первый проход — ручной, второй — «объяснение/резюме», третий — вопросы и ответы.

В результате я обычно получаю более глубокое понимание, чем если бы я просто прошел дальше. Этот процесс становится у меня одним из самых популярных вариантов чтения.


А вместо этого предлагает пользователям... просто попросить свою языковую модель изменить код так, как им нравится.

Код теперь эфемерный,

— пишет Андрей, намекая на то, что эпоха статичных библиотек и долгой поддержки уходит в прошлое.

Для тех, кто хочет попробовать, процесс максимально прост. Нужно скачать книгу в формате EPUB и запустить пару команд в терминале, используя uv:

uv run reader3.py yourbook.epub

# Then run the server:

uv run server.py


После этого ваша книжная полка станет доступна в браузере по адресу localhost:8123.


📌Лицензирование: MIT License.


🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #Karpathy #Github #Book
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6433🔥19🤔9🥱5😁3🤷3❤‍🔥2🥰2🤣2
⚡️ Ai2 представила Olmo 3 - новую линейку полностью открытых моделей (7B и 32B), которые по качеству догоняют лидеров рынка.

Главное:
• 32B base - сильная base-модель, которая работает на уровне Qwen 2.5 и опережает на ряде бенчмарков Google Gemma 3.
• 7B instruct и 7B reasoning - лучшие среди западных моделей
• 32B Think - полностью открытая 32B-модель для сложных рассуждений (почти на уровне Qwen 3 8B/32B)

Все данные, код, чекпоинты в открытом доступе.

Olmo 3 32B - закрыла важный пробел, так как у Qwen нет открытой 32B base-версии.

32B спокойно запускаестя на одной 80GB-GPU или даже на мощном ноутбуке.

🟠Paper: https://allenai.org/papers/olmo3
🟠Artifacts: https://huggingface.co/collections/allenai/olmo-3
🟠Demo: https://playground.allenai.org
🟠Blog: https://allenai.org/blog/olmo3

@ai_machinelearning_big_data

#Olmo #llm
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
40🔥20👍15🥰9🐳2🦄2😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Nano Banana очень хороша для генерации схем и слайдов, а как насчёт сделать из них видео. 🎬

Google Vids вместе с Gemini позволяет автоматически превратить презентацию Google Slides в полноценный видеоролик: со сценарием, озвучкой и музыкой.

Вы просто загружаете презентацию, выбираете стиль - и система сама собирает видео из ваших слайдов.

https://workspace.google.com/blog/product-announcements/october-workspace-drop-ai-storytelling-research-and-data-protections

@ai_machinelearning_big_data

#Gemini #google #llm
👍6820🔥7🦄2💯1
⚡️Сбер представил новую систему синтеза речи для ГигаЧата — в одной модели используются сразу несколько разных уникальных голосов под разные задачи

Обновление позволяет генерировать речь в различных манерах — от естественного Freespeech для общения до подкастного формата, интонаций операторов и традиционного дикторского стиля. Звучание стало более органичным и приближенным к человеческому.

Что умеет новый синтез:

- для разных кейсов применения синтеза сделаны отдельные голоса
воспроизводит паузы, смысловые акценты и эмоциональную окраску
- построен на собственной разработке: GigaChat 3b как основа, специализированный токенизатор и адаптер к LLM
- умеет озвучивать тексты бесконечной длины с учетом контекста, а также клонировать голоса
- внутренние замеры демонстрируют прогресс в качестве и натуральности звука

Зачем это нужно:

- помогает создавать более органичные голосовые интерфейсы
- оптимален для разговорных ассистентов, озвучки подкастов или аудиокниг, а также в автоматизированных колл-центрах

Основные преимущества:

- есть возможность выбора голоса, которые подходят под разные задачи
- управление стилистикой и эмоциями на естественном языке
- самый живой синтез речи, ни у Алисы, ни у OpenAI ничего похожего нет

Новый синтез уже доступен в Voice Mode Гигачата.

@ai_machinelearning_big_data

#ai #ml #speech #llm
48👍22😁15🔥9🦄5🥱4❤‍🔥1🗿1
🌟 ZAYA1: первая MoE-модель, полностью обученная на стеке AMD.

Есть устойчивое мнение, что серьезное обучение нейросетей возможно только на чипах одной известной компании.

В Zyphra решили доказать обратное, и, в сотрудничестве с AMD и IBM провели эксперимент, который на практике доказал, что есть альтернатива.

Стартап опубликовал техотчет и результат - модель ZAYA1. Это первая модель архитектуры MoE, обученная полностью на платформе AMD.

Сеттинг проекта был действительно "красным": графические процессоры AMD Instinct, сетевые интерфейсы AMD Pensando и программный стек ROCm.

ZAYA1 получилась довольно интересной. У неё 8.3 млрд. общих параметров, из которых активных всего 800 миллионов.

Несмотря на компактность, в тестах она выглядит бодро. В ризонинге, математике и программирование ZAYA1 обошла Llama-3-8B и OLMoE. А по общим показателям встала в один ряд с Qwen3-4B и гугловской Gemma3-12B.

Обучение проходило на кластере IBM Cloud, где модель переварила 14 трлн. токенов. Но дело не только в железе, в папйплайне использовали архитектурные инновации:

🟢Новый механизм внимания - Compressed Convolutional Attention. Он использует свертки внутри блока внимания, это снизило нагрузку на вычисления и память.

🟢Переделали маршрутизатор MoE. Вместо стандартного линейного роутера, ZAYA1 использует сложную последовательность операций, что заставляет "экспертов" внутри нейросети специализироваться гораздо лучше.

🟢Residual Scaling. Добавили обучаемые скалярные гейты в остаточный стрим на выходы каждого блока, чтобы модель контролировала степень забывания.


⚠️ Для запуска инференса потребуется ветка zaya форка transformers из репозитория Zyphra.


📌Лицензирование: Apache 2.0 License.


🟡Статья
🟡Модель
🟡Arxiv


@ai_machinelearning_big_data

#AI #ML #LLM #MoE #Zyphra
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4923🔥13😁7🦄3🙏1