Forwarded from Machinelearning
🤖 MiniMax-M2: компактная MoE-модель 
MiniMax-M2 переосмысливает эффективность: это 230 млрд параметров (из них активно только 10 млрд) - мощная, быстрая и экономичная модель, которая сочетает интеллект уровня топовых LLM с оптимизацией под агентные применения и программирование.
🔹 Основные особенности
🧠 Интеллект мирового уровня.
По данным *Artificial Analysis*, MiniMax-M2 демонстрирует отличные результаты в математике, науке, программировании, следовании инструкциям и использовании инструментов.
Модель занимает #1 место среди всех open-source моделей по суммарному индексу интеллекта.
💻 Кодинг
Разработана для полного цикла разработкт - от файловых правок до тестировании кода и его автокоррекции.
Модель показывает отличные результаты на Terminal-Bench и (Multi-)SWE-Bench, что делает её эффективной в IDE, терминалах и CI-системах.
🧩 Агентные возможности.
MiniMax-M2 умеет планировать и выполнять сложные цепочки действий через shell, браузер, retrieval и code runners.
В тестах BrowseComp уверенно находит труднодоступные источники и восстанавливается после сбоев, не теряя цепочку рассуждений.
MiniMax M2 построена по принципу GPT-OSS и использует сочетание Full Attention и Sliding Window Attention (SWA). Это помогает эффективно работать с длинным контекстом - часть модели анализирует всё сразу, другая концентрируется на ближайших фрагментах текста.
Каждая attention-голова имеет собственный RMSNorm, а блоки Full Attention и SWA используют разные RoPE-параметры, это повышает гибкость и устойчивость модели.
MiniMax-M2 - это новый стандарт эффективности для AGI-агентов и кодинга: умнее, быстрее и дешевле, чем аналоги.
https://huggingface.co/MiniMaxAI/MiniMax-M2
@ai_machinelearning_big_data
#AI #MiniMax #LLM #ArtificialIntelligence #Benchmarks
MiniMax-M2 переосмысливает эффективность: это 230 млрд параметров (из них активно только 10 млрд) - мощная, быстрая и экономичная модель, которая сочетает интеллект уровня топовых LLM с оптимизацией под агентные применения и программирование.
🔹 Основные особенности
🧠 Интеллект мирового уровня.
По данным *Artificial Analysis*, MiniMax-M2 демонстрирует отличные результаты в математике, науке, программировании, следовании инструкциям и использовании инструментов.
Модель занимает #1 место среди всех open-source моделей по суммарному индексу интеллекта.
💻 Кодинг
Разработана для полного цикла разработкт - от файловых правок до тестировании кода и его автокоррекции.
Модель показывает отличные результаты на Terminal-Bench и (Multi-)SWE-Bench, что делает её эффективной в IDE, терминалах и CI-системах.
🧩 Агентные возможности.
MiniMax-M2 умеет планировать и выполнять сложные цепочки действий через shell, браузер, retrieval и code runners.
В тестах BrowseComp уверенно находит труднодоступные источники и восстанавливается после сбоев, не теряя цепочку рассуждений.
MiniMax M2 построена по принципу GPT-OSS и использует сочетание Full Attention и Sliding Window Attention (SWA). Это помогает эффективно работать с длинным контекстом - часть модели анализирует всё сразу, другая концентрируется на ближайших фрагментах текста.
Каждая attention-голова имеет собственный RMSNorm, а блоки Full Attention и SWA используют разные RoPE-параметры, это повышает гибкость и устойчивость модели.
MiniMax-M2 - это новый стандарт эффективности для AGI-агентов и кодинга: умнее, быстрее и дешевле, чем аналоги.
https://huggingface.co/MiniMaxAI/MiniMax-M2
@ai_machinelearning_big_data
#AI #MiniMax #LLM #ArtificialIntelligence #Benchmarks
❤8👍7
  This media is not supported in your browser
    VIEW IN TELEGRAM
  🔥 Plotset - полезная платформа для визуализации данных с встроенным ИИ.
✨ Более 300 готовых шаблонов графиков
✨ Полная свобода: создавайте, редактируйте и экспортируйте в JPG, PNG или SVG без ограничений
✨ ИИ по запросу: опишите идею — и модель сгенерирует или доработает визуализацию, добавит интерактивность или предложит улучшения
✨ Щедрый бесплатный тариф — чтобы начать прямо сейчас
Делаем датавиз не просто понятным, а по-настоящему красивым: https://plotset.com/
✨ Более 300 готовых шаблонов графиков
✨ Полная свобода: создавайте, редактируйте и экспортируйте в JPG, PNG или SVG без ограничений
✨ ИИ по запросу: опишите идею — и модель сгенерирует или доработает визуализацию, добавит интерактивность или предложит улучшения
✨ Щедрый бесплатный тариф — чтобы начать прямо сейчас
Делаем датавиз не просто понятным, а по-настоящему красивым: https://plotset.com/
❤4👍2🔥1
  💾 A-Vibe и A-Vision от технологической платформы Авито появились в открытом доступе. 
Первыми российскими моделями для электронной коммерции с глубокой оптимизацией под русский язык уже можно воспользоваться. Они дообучены на данных e-commerce и заточены под задачи рынка: анализ документации, создании ИИ-ассистентов, автоматизация контента. Компания потратила на разработку ИИ-моделей более полумиллиарда рублей.
Что по навыкам:
— обе модели могут работать с длинными текстами (примерно 100 страниц)
— умеют вызывать внешние инструменты для выполнения расчетов, поиска данных в базах или обращения к API-сервисам
— с их помощью можно создавать автономных ИИ-агентов
Проекты многообещающие: уже сейчас A-Vibe занимает первые места в различных рейтингах. Команда Авито также русифицировала большой пул популярных тестов для замера качества моделей. Сейчас все инструменты доступны разработчикам бесплатно на сайте Hugging Face.
Первыми российскими моделями для электронной коммерции с глубокой оптимизацией под русский язык уже можно воспользоваться. Они дообучены на данных e-commerce и заточены под задачи рынка: анализ документации, создании ИИ-ассистентов, автоматизация контента. Компания потратила на разработку ИИ-моделей более полумиллиарда рублей.
Что по навыкам:
— обе модели могут работать с длинными текстами (примерно 100 страниц)
— умеют вызывать внешние инструменты для выполнения расчетов, поиска данных в базах или обращения к API-сервисам
— с их помощью можно создавать автономных ИИ-агентов
Проекты многообещающие: уже сейчас A-Vibe занимает первые места в различных рейтингах. Команда Авито также русифицировала большой пул популярных тестов для замера качества моделей. Сейчас все инструменты доступны разработчикам бесплатно на сайте Hugging Face.
👍5❤4🔥3
  💰 Оценка токенов влиятельных лиц с помощью ИИ
Проект анализирует токены социальных медиа-влиятельных лиц, предоставляя оценку их рыночной капитализации. Пользователи вводят имя или ссылку на профиль, а ИИ проводит анализ данных, включая активность и влияние, для прогнозирования стоимости криптовалюты, связанной с этим влиятельным лицом.
🚀 Основные моменты:
- Оценка токенов для любых влиятельных лиц
- Анализ влияния и активности с помощью ИИ
- Обнаружение манипуляций на рынке
- Прогнозирование рыночной капитализации криптовалюты
- Расширяемая архитектура для интеграции новых источников данных
📌 GitHub: https://github.com/Aihy/CLOV
#python
  
  Проект анализирует токены социальных медиа-влиятельных лиц, предоставляя оценку их рыночной капитализации. Пользователи вводят имя или ссылку на профиль, а ИИ проводит анализ данных, включая активность и влияние, для прогнозирования стоимости криптовалюты, связанной с этим влиятельным лицом.
🚀 Основные моменты:
- Оценка токенов для любых влиятельных лиц
- Анализ влияния и активности с помощью ИИ
- Обнаружение манипуляций на рынке
- Прогнозирование рыночной капитализации криптовалюты
- Расширяемая архитектура для интеграции новых источников данных
📌 GitHub: https://github.com/Aihy/CLOV
#python
GitHub
  
  GitHub - Aihy/CLOV: Valuation of tokens corresponding to influential individuals on social platforms through AI algorithms
  Valuation of tokens corresponding to influential individuals on social platforms through AI algorithms - Aihy/CLOV
❤4👍3🔥2
  This media is not supported in your browser
    VIEW IN TELEGRAM
  Парализованный пациент из Великобритании по имени Пол получил имплантат Neuralink и уже через несколько часов после операции смог управлять компьютером силой мысли.
Устройство Neuralink использует нейрочип с 64 сверхтонкими электродами, которые считывают сигналы мозга и позволяют контролировать устройства без движений - только через мысли.
Устройство Neuralink использует нейрочип с 64 сверхтонкими электродами, которые считывают сигналы мозга и позволяют контролировать устройства без движений - только через мысли.
❤28👍10🤯6🔥5😁1
  🧠 Ming-Flash-Omni-Preview - новый ориентир для omni-modal моделей с архитектурой 103B-A9B Sparse MoE, сочетающей мощь и эффективность.
📸 1. Контролируемая генерация изображений
Модель вводит концепт Generative Segmentation-as-Editing - можно править изображение на уровне пикселей. На бенчмарке GenEval — впечатляющий результат 0.90.
🎬 2. Понимание потокового видео
Расширенные возможности для детального анализа аудио-видео потоков в реальном времени — понимание контекста, сцен и звука синхронно.
🏹GitHub: https://github.com/inclusionAI/Ming
🤗Hugging Face: https://huggingface.co/inclusionAI/Ming-flash-omni-Preview
🤖ModelScope: https://modelscope.cn/models/inclusionAI/Ming-flash-omni-Preview
#OpenSourceModels #AI #OmniModal #MingFlash
📸 1. Контролируемая генерация изображений
Модель вводит концепт Generative Segmentation-as-Editing - можно править изображение на уровне пикселей. На бенчмарке GenEval — впечатляющий результат 0.90.
🎬 2. Понимание потокового видео
Расширенные возможности для детального анализа аудио-видео потоков в реальном времени — понимание контекста, сцен и звука синхронно.
🏹GitHub: https://github.com/inclusionAI/Ming
🤗Hugging Face: https://huggingface.co/inclusionAI/Ming-flash-omni-Preview
🤖ModelScope: https://modelscope.cn/models/inclusionAI/Ming-flash-omni-Preview
#OpenSourceModels #AI #OmniModal #MingFlash
❤5👍2🔥1
  ИИ идут ва-банк: исследователь устроил настоящий покерный турнир между топовыми LLM.
Покер — игра с неполной информацией, а значит идеальный полигон, чтобы проверить, как модели ведут себя в условиях риска, стратегии и блефа.
Без подсказок и внешней помощи — только один промпт и чистая логика. При этом каждая модель выбирает свою стратегию, будто у неё есть «характер».
В топе — Grok 4 с прибылью $25 000, за ним идут OpenAI o3 и Claude 4.5. 🤑
Следить за игрой и мыслями ИИ можно здесь: https://pokerbattle.ai/event
Покер — игра с неполной информацией, а значит идеальный полигон, чтобы проверить, как модели ведут себя в условиях риска, стратегии и блефа.
Без подсказок и внешней помощи — только один промпт и чистая логика. При этом каждая модель выбирает свою стратегию, будто у неё есть «характер».
В топе — Grok 4 с прибылью $25 000, за ним идут OpenAI o3 и Claude 4.5. 🤑
Следить за игрой и мыслями ИИ можно здесь: https://pokerbattle.ai/event
👍12🔥6❤1😁1
  📘 На Stepik вышел курс — «LangChain: с нуля до продакшн LLM-приложений»
Нужен не игрушечный бот, а воспроизводимый RAG-пайплайн с метриками и сервисом? Этот курс — про путь «ноутбук → FastAPI → прод».
🔍 Что вы получите
• RAG по PDF с цитированием источников и гибридным поиском (BM25 + вектор + rerank); контроль галлюцинаций через метрики (precision/recall@K, citation-rate)
• Инструменты и агенты для анализа данных: Pandas-задачи, структурированный JSON-вывод под отчёты/дашборды
• Продакшн-контур: FastAPI-сервис, логирование латентности/токенов, PromptOps (версии/A/B), базовый SLA-мониторинг
🎓 Сертификат по завершении — можно добавить в резюме или LinkedIn
🚀 Начните сегодня и получите скидку 25% в течение 72 часов
👉 Пройти курс на Stepik
Нужен не игрушечный бот, а воспроизводимый RAG-пайплайн с метриками и сервисом? Этот курс — про путь «ноутбук → FastAPI → прод».
🔍 Что вы получите
• RAG по PDF с цитированием источников и гибридным поиском (BM25 + вектор + rerank); контроль галлюцинаций через метрики (precision/recall@K, citation-rate)
• Инструменты и агенты для анализа данных: Pandas-задачи, структурированный JSON-вывод под отчёты/дашборды
• Продакшн-контур: FastAPI-сервис, логирование латентности/токенов, PromptOps (версии/A/B), базовый SLA-мониторинг
🎓 Сертификат по завершении — можно добавить в резюме или LinkedIn
🚀 Начните сегодня и получите скидку 25% в течение 72 часов
👉 Пройти курс на Stepik
🤣8❤3👍3
  ⚡️ Train an LLM on NVIDIA Blackwell with Unsloth—and Scale It
NVIDIA представила статью «Train an LLM on NVIDIA Blackwell with Unsloth—and Scale It», в которой рассказывает о том, как разработчики благодаря открытому проекту Unsloth и новым GPU семейства NVIDIA Blackwell Series могут обучать и до-настраивать большие языковые модели (LLM) прямо на настольных или офисных системах, а затем без изменений масштабировать ту же инфраструктуру на промышленный уровень.
Unsloth - это фреймворк с открытым исходным кодом, упрощающий до-настройку и reinforcement learning (RL) для LLM. Он оптимизирован под Blackwell-GPU с следующими преимуществами: обучение в 2 раза быстрее, использование видеопамяти (VRAM) сокращено на ~70%, и поддержка крайне длинных контекстов (до 12× по сравнению с предыдущими методами). Статья показывает, что на одной Blackwell-видеокарте можно до-настроить модели с параметрами порядка 40 миллиардов и даже больше.
Кроме того, процесс установки и запуска описан подробно: от команды pip install unsloth до примеров запуска моделей типа “gpt-oss-20b” с квантованием 4-bit. После начальной до-настройки на локальной машине тот же код можно без переделок перенести на облачные решения, такие как DGX Cloud или серверсистемы NVIDIA.
Главный вывод: барьеры входа в обучение крупных языковых моделей резко снижаются — теперь индивидуальные разработчики и небольшие команды получают доступ к инструментам, которые раньше были доступны только крупным дата-центрам.
developer.nvidia.com/blog/train-an-llm-on-an-nvidia-blackwell-desktop-with-unsloth-and-scale-it/
NVIDIA представила статью «Train an LLM on NVIDIA Blackwell with Unsloth—and Scale It», в которой рассказывает о том, как разработчики благодаря открытому проекту Unsloth и новым GPU семейства NVIDIA Blackwell Series могут обучать и до-настраивать большие языковые модели (LLM) прямо на настольных или офисных системах, а затем без изменений масштабировать ту же инфраструктуру на промышленный уровень.
Unsloth - это фреймворк с открытым исходным кодом, упрощающий до-настройку и reinforcement learning (RL) для LLM. Он оптимизирован под Blackwell-GPU с следующими преимуществами: обучение в 2 раза быстрее, использование видеопамяти (VRAM) сокращено на ~70%, и поддержка крайне длинных контекстов (до 12× по сравнению с предыдущими методами). Статья показывает, что на одной Blackwell-видеокарте можно до-настроить модели с параметрами порядка 40 миллиардов и даже больше.
Кроме того, процесс установки и запуска описан подробно: от команды pip install unsloth до примеров запуска моделей типа “gpt-oss-20b” с квантованием 4-bit. После начальной до-настройки на локальной машине тот же код можно без переделок перенести на облачные решения, такие как DGX Cloud или серверсистемы NVIDIA.
Главный вывод: барьеры входа в обучение крупных языковых моделей резко снижаются — теперь индивидуальные разработчики и небольшие команды получают доступ к инструментам, которые раньше были доступны только крупным дата-центрам.
developer.nvidia.com/blog/train-an-llm-on-an-nvidia-blackwell-desktop-with-unsloth-and-scale-it/
❤12👍4🔥4
  🦾 Потрясающе: производитель домашнего робота Neo признался, что в сложных ситуациях устройством будет управлять живой оператор.
Покупателям придётся согласиться на удалённый доступ и сбор данных — компания утверждает, что это нужно для обучения системы. Лица пользователей, обещают, будут размываться.
«Если у нас нет ваших данных, мы не сможем улучшать продукт», - заявил CEO.
Цена вопроса - 20 000 $ за робота, которого в трудный момент может подменить человек. ☕️
https://www.1x.tech/order
Покупателям придётся согласиться на удалённый доступ и сбор данных — компания утверждает, что это нужно для обучения системы. Лица пользователей, обещают, будут размываться.
«Если у нас нет ваших данных, мы не сможем улучшать продукт», - заявил CEO.
Цена вопроса - 20 000 $ за робота, которого в трудный момент может подменить человек. ☕️
https://www.1x.tech/order
🤣20🔥5❤3🤨3👍2
  Главная причина роста — спрос на генеративные модели и ML-инструменты, которые компании используют для автоматизации, аналитики и клиентских сервисов. Всё это объединено в Yandex AI Studio — платформу, где можно собрать собственного AI-агента за несколько часов и встроить его в бизнес-процесс.
Для тех, кто работает с чувствительными данными, есть on-premises-версии: YandexGPT, SpeechKit и SpeechSense можно развернуть прямо в корпоративной инфраструктуре, сохраняя контроль и безопасность.
А ещё в третьем квартале усилилось направление кибербезопасности: каждый четвёртый коммерческий клиент Yandex Cloud пользуется сервисами защиты, а выручка ИБ-направления выросла в 2,5 раза год к году.
Чтобы ускорить развитие этого сегмента, Yandex B2B Tech и SolidSoft создали совместное предприятие — оно помогает бизнесу защищаться от растущих киберугроз и повышает уровень безопасности облачных сервисов.
Please open Telegram to view this post
    VIEW IN TELEGRAM
  🥱10❤3🔥3👍1
  💴 Капитализация Nvidia превысила $5 трлн - впервые в истории компания достигла такой оценки.
За пять лет акции $NVDA подскочили более чем на 1500%. Производитель чипов зарабатывает на взрывном спросе со стороны Microsoft, OpenAI и других игроков ИИ-рынка.
Пока все искали золото, Nvidia продавала лопаты — и стала самой дорогой компанией в мире.
За пять лет акции $NVDA подскочили более чем на 1500%. Производитель чипов зарабатывает на взрывном спросе со стороны Microsoft, OpenAI и других игроков ИИ-рынка.
Пока все искали золото, Nvidia продавала лопаты — и стала самой дорогой компанией в мире.
🔥14❤4👍3😁3🤔1
  Работа над ним всё ещё в альфа-стадии, но уже видно: это не просто фреймворк - это попытка переосмыслить, как строятся веб-приложения в эпоху ИИ.
Что делает Air особенным
- Совместимость с FastAPI / Starlette: маршруты, middleware, OpenAPI — всё на месте.
- Интеграция с базами данных через air.ext.sqlmodel (SQLModel / SQLAlchemy).
- Базовая авторизация готова «из коробки» — OAuth, логин через GitHub.
- Подход к интерфейсам: шаблоны + декларативные теги, реактивность без тяжёлого JS — вдохновлено HTMX.
- Каждый компонент и API стремятся быть понятными, простыми, как в Django, но с добавлением ИИ-ориентированности.
Но важно помнить
Air сейчас — это эксперимент.
APIs могут меняться, функционал не всё реализован.
Авторы просят относиться с пониманием и участвовать в становлении фреймворка.
Если ты устал от “обычных” веб-фреймворков и думаешь над тем, как встроить ИИ в архитектуру с самого начала — Air может быть тем самым началом нового пути.
🔗 Подробнее: https://audrey.feldroy.com/articles/2025-10-06-air-pioneering-ai-first-python-web-framework
Please open Telegram to view this post
    VIEW IN TELEGRAM
  👍4🔥4❤3
  🚀 DeepSeek-OCR: новый подход к памяти в ИИ
DeepSeek показали, что OCR-модель может быть не только про чтение документов, но и про расширение «памяти» модели.
Идея простая и смелая: хранить контекст не в текстовых токенах, а в виде изображений страниц, а потом считывать нужный фрагмент через OCR.
Когда мы храним историю диалога как изображения, каждый визуальный патч покрывает больше информации, чем один текстовый токен. Модель работает с компактным визуальным представлением, а точные цитаты подтягивает только по запросу. Получается сохранять больше деталей, тратить меньше токенов и экономить на длинном контексте.
Что происходит внутри
- История упаковывается в страницы и разбивается на 2D-патчи
- Недавние страницы хранятся в высоком качестве
- Старые сжимаются сильнее, но не исчезают полностью
- OCR вызывается только когда нужно точное слово или строка
Это похоже на мягкое «угасание памяти» вместо жёсткого обрезания контекста. Таблицы, код, структура текста сохраняются как есть, что помогает модели не терять привязки.
Практический эффект
- тысячи текстовых токенов заменяются сотнями визуальных
- дешевле в обработке
- подходит для агентных систем, которые ведут длинные сессии и возвращаются к старым действиям или логам
- можно генерировать собственные обучающие данные, рендеря страницы и OCR-лейблы на лету
Метод не делает модель идеальной в запоминании, но позволяет гораздо дольше удерживать информацию и возвращаться к ней без внешних хранилищ и сложного RAG-контура.
Хранить текст как изображения и читать их по запросу может стать новой парадигмой долгой памяти в LLM. Особенно для агентов, которым нужно помнить путь, а не только последний шаг.
technologyreview.com/2025/10/29/1126932/deepseek-ocr-visual-compression
@data_analysis_ml
DeepSeek показали, что OCR-модель может быть не только про чтение документов, но и про расширение «памяти» модели.
Идея простая и смелая: хранить контекст не в текстовых токенах, а в виде изображений страниц, а потом считывать нужный фрагмент через OCR.
Когда мы храним историю диалога как изображения, каждый визуальный патч покрывает больше информации, чем один текстовый токен. Модель работает с компактным визуальным представлением, а точные цитаты подтягивает только по запросу. Получается сохранять больше деталей, тратить меньше токенов и экономить на длинном контексте.
Что происходит внутри
- История упаковывается в страницы и разбивается на 2D-патчи
- Недавние страницы хранятся в высоком качестве
- Старые сжимаются сильнее, но не исчезают полностью
- OCR вызывается только когда нужно точное слово или строка
Это похоже на мягкое «угасание памяти» вместо жёсткого обрезания контекста. Таблицы, код, структура текста сохраняются как есть, что помогает модели не терять привязки.
Практический эффект
- тысячи текстовых токенов заменяются сотнями визуальных
- дешевле в обработке
- подходит для агентных систем, которые ведут длинные сессии и возвращаются к старым действиям или логам
- можно генерировать собственные обучающие данные, рендеря страницы и OCR-лейблы на лету
Метод не делает модель идеальной в запоминании, но позволяет гораздо дольше удерживать информацию и возвращаться к ней без внешних хранилищ и сложного RAG-контура.
Хранить текст как изображения и читать их по запросу может стать новой парадигмой долгой памяти в LLM. Особенно для агентов, которым нужно помнить путь, а не только последний шаг.
technologyreview.com/2025/10/29/1126932/deepseek-ocr-visual-compression
@data_analysis_ml
🔥10❤4👍2👏1
  