🧵 Архитектуры и данные
— The Parallelism Mesh Zoo — схемный разбор стратегий параллелизации в PyTorch и JAX через понятие device mesh. Отличный способ проверить, понимаете ли вы, как работает масштабирование на GPU. Читать
— 3 Questions: Synthetic Data — MIT о плюсах и минусах синтетических данных: от приватности и экономии до ограничений и рисков. Читать
🧠 Новые модели и AI-сервисы
— Google EmbeddingGemma — новая open-модель эмбеддингов для офлайн-работы прямо на ноутбуках и смартфонах. Подробнее
— OpenAI Jobs Platform — AI-платформа для поиска работы и сертификации AI-навыков. Подробнее
— Google NotebookLM — теперь умеет аудио-обзоры в 4 форматах: Deep Dive, Brief, Critique и Debate + более естественные голоса. Подробнее
📚 Лонгриды и статьи
— ML Q & AI. Глава 8. Успех трансформеров
—Очеловечить компьютер: как развивалось машинное обучение в середине XX века
— Интерпретация и оптимизация перцептрона Розенблатта
— Что такое детерминизм и как с ним бороться?
— Когда YOLO не спасает: как один параметр может испортить всё
#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍4
⚡️ Будь как этот гений с картинки — предлагай свои условия работодателю, а не наоборот!
Кто нужен?
Но если вы пока джун — я бы предложил:
- Full-time контракт: 180к/мес после курса + опцион на карьеру в топ-компаниях
- Либо фикс за проект: стань ML-инженером за 39к вместо 44к с промокодом LASTCALL
🔗 Старт 9 сентября
Кто нужен?
Senior ML-Engineer с опытом работы более 6 месяцев в FAANG компаниях. Требование: разработать кросс-платформенное приложение-трекер зарплат с AI-распознаванием вакансий по резюме.
Но если вы пока джун — я бы предложил:
- Full-time контракт: 180к/мес после курса + опцион на карьеру в топ-компаниях
- Либо фикс за проект: стань ML-инженером за 39к вместо 44к с промокодом LASTCALL
🔗 Старт 9 сентября
❤1😁1
Forwarded from Библиотека задач по Data Science | тесты, код, задания
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
Forwarded from Библиотека задач по Data Science | тесты, код, задания
Иногда реально ощущение, что нас держат в Матрице.
Большинство сидит, читает статьи про ML, смотрит ролики «как это работает» — и всё.
❗ Сегодня последний день промокода Lastcall (−5000 ₽).
Уже завтра стартует первый вебинар по Машинному обучению — полный набор для выхода из Матрицы.
Кто готов вырваться из симуляции и ворваться в сезон найма?
👾 — я уже в команде Нео
👍 — хочу красную таблетку
🤔 — пока думаю, но интересно
👉 Забронируй место сейчас
Большинство сидит, читает статьи про ML, смотрит ролики «как это работает» — и всё.
❗ Сегодня последний день промокода Lastcall (−5000 ₽).
Уже завтра стартует первый вебинар по Машинному обучению — полный набор для выхода из Матрицы.
Кто готов вырваться из симуляции и ворваться в сезон найма?
👾 — я уже в команде Нео
👍 — хочу красную таблетку
🤔 — пока думаю, но интересно
👉 Забронируй место сейчас
❤1
🔥 AI и неструктурированные данные: возможности для дата-сайентистов
Google Cloud выпустил практическое руководство по Data Science, где показываются реальные кейсы применения AI для работы с корпоративными данными.
Вот что вы можете делать с такими данными:
▫️ Выявлять причины падения продаж — AI анализирует отзывы клиентов и говорит, какие функции продукта надо улучшить.
▫️ Создать визуальный поиск — клиенты находят товар по картинке, а не по тексту.
▫️ Автоматизировать анализ контрактов — извлекать ключевую информацию из юридических документов за секунды.
▫️ Прогнозировать спрос — точные прогнозы для каждого продукта и магазина, чтобы избежать потерь и перепроизводства.
Это огромная возможность: неструктурированные данные больше не головная боль — это источник инсайтов и новых моделей.
🔗 Ссылка на гайд
🐸 Библиотека дата-сайентиста
#буст
Google Cloud выпустил практическое руководство по Data Science, где показываются реальные кейсы применения AI для работы с корпоративными данными.
Вот что вы можете делать с такими данными:
Это огромная возможность: неструктурированные данные больше не головная боль — это источник инсайтов и новых моделей.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Выбор правильной архитектуры под задачу — это половина успеха в AI-проектах. Каждая из них рождена под конкретный тип данных и обрабатывает информацию по-своему:
Фильтры свёртки находят края и паттерны в изображениях, pooling снижает размерность, fully connected слои собирают фичи в прогноз. Отлично подходят для распознавания изображений, медицинских снимков и любых задач со spatial-отношениями.
Обрабатывают данные по шагам, сохраняя скрытое состояние с контекстом. Хорошо работают с текстом, временными рядами, переводами и прогнозами, где важен порядок.
Заменили пошаговую обработку механизмом внимания: модель смотрит на всю последовательность сразу и решает, что важнее. Это быстрее и эффективнее для long-range зависимостей. На трансформерах построены GPT, BERT и большинство современных LLM.
Передают информацию между узлами в графе (message passing), захватывая локальные и глобальные связи. Подходят для анализа соцсетей, молекулярных свойств и рекомендательных систем.
Архитектура выбирается под структуру данных:
А в реальных проектах часто комбинируют несколько: CNN для feature extraction + Transformer для reasoning, или GNN для связей между пользователями + RNN для рекомендаций.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍2
Один из самых культовых курсов по компьютерному зрению от профессора Fei-Fei Li и Ehsan Adeli доступен в свежей записи!
Курс охватывает всё: от базовых линейных классификаторов до современных моделей — Transformers, GAN'ы, 3D-зрение и робототехника.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍1
Please open Telegram to view this post
VIEW IN TELEGRAM
😁24❤3👍2
Инженеры показали, что искусственный интеллект может автоматически генерировать оптимизированные GPU-ядра для Metal, что в среднем ускоряет выполнение PyTorch-моделей на устройствах Apple на 87% (по результатам тестов на 215 модулях).
⚡️ В некоторых случаях ускорение оказалось в сотни раз быстрее по сравнению с базовым исполнением.
Как это работает:
Результат: PyTorch на Mac и iOS становится ближе к полноценному high-performance inference, открывая дорогу для реальных AI-приложений без внешних GPU.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍1
⚡️ Ускоряем Python-массивы с NumExpr: от 650 ms до 60 ms
Иногда всё, что тормозит ваш код, — это «наивные» циклы и гигантские временные массивы. NumExpr решает это красиво и быстро:
✅ Вычисления по чанкам прямо в кэше – массивы делятся на блоки и обрабатываются без создания временных копий.
✅ SIMD + Intel VML – задействует низкоуровневые инструкции и векторизацию.
✅ Мульти-кор ускорение – автоматически распределяет работу по всем ядрам, давая 5–15× прирост на сложных выражениях.
В реальном тесте: цикл на 650 ms → NumExpr всего за 60 ms (и это ещё на одном ядре).
🔗 Репозиторий
🐸 Библиотека дата-сайентиста
#буст
Иногда всё, что тормозит ваш код, — это «наивные» циклы и гигантские временные массивы. NumExpr решает это красиво и быстро:
В реальном тесте: цикл на 650 ms → NumExpr всего за 60 ms (и это ещё на одном ядре).
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤1
This media is not supported in your browser
VIEW IN TELEGRAM
🔍 AnomalyCLIP: новый шаг в видеоаналитике с помощью CLIP
Классические методы Video Anomaly Detection (VAD) умеют лишь находить что-то странное в кадре. Но в реальных системах этого мало.
Video Anomaly Recognition (VAR) идёт дальше — не просто сигнализирует о событии, а определяет какое именно произошло: кража, поджог, ДТП и т.д. Это превращает абстрактные алерты в осмысленные инсайты.
AnomalyCLIP использует возможности CLIP для распознавания аномалий:
➡️ без дорогой ручной разметки на уровне кадров,
➡️ с опорой на vision-language embeddings,
➡️ с инновациями вроде feature re-centering, semantic MIL и axial transformers.
Подробнее о том:
— почему старые подходы VAD больше не работают,
— как CLIP даёт семантическое понимание,
— чем AnomalyCLIP отличается от других решений,
👉 читайте в детальной статье.
🐸 Библиотека дата-сайентиста
#буст
Классические методы Video Anomaly Detection (VAD) умеют лишь находить что-то странное в кадре. Но в реальных системах этого мало.
Video Anomaly Recognition (VAR) идёт дальше — не просто сигнализирует о событии, а определяет какое именно произошло: кража, поджог, ДТП и т.д. Это превращает абстрактные алерты в осмысленные инсайты.
AnomalyCLIP использует возможности CLIP для распознавания аномалий:
Подробнее о том:
— почему старые подходы VAD больше не работают,
— как CLIP даёт семантическое понимание,
— чем AnomalyCLIP отличается от других решений,
👉 читайте в детальной статье.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍3
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Все говорят про LLM и diffusion, а вот про OCR как будто забыли…
dots-ocr — свежая open-source модель (1.7B), которая вырывается в лидеры для распознавания документов:
✔️ 100+ языков (мультиязычный парсинг)
✔️ Работает и с PDF, и с изображениями
✔️ Понимает таблицы, формулы, структурированный текст
✔️ SOTA качество при полностью открытом коде
Теперь можно строить свои парсеры документов и аналитические пайплайны без дорогих проприетарных сервисов.
👍 Это прям ключ для дата-сайентистов, NLP/LLM инженеров и всех, кто работает с данными «в дикой природе».
📱 Репозиторий
🐸 Библиотека дата-сайентиста
#буст
dots-ocr — свежая open-source модель (1.7B), которая вырывается в лидеры для распознавания документов:
Теперь можно строить свои парсеры документов и аналитические пайплайны без дорогих проприетарных сервисов.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8👍1
🔥 Последняя неделя перед стартом курса по AI-агентам
Старт курса уже 15го числа! Если вы планировали вписаться — сейчас ПОСЛЕДНИЙ шанс забронировать место
На курсе:
— разложим LLM по косточкам: токенизация, SFT, PEFT, инференс
— соберём RAG и научимся оценивать его адекватно
— построим настоящую мультиагентную систему — архитектуру, которая умеет расти
— разберём CoPilot, сломаем через prompt injection (спасибо Максу)
— и наконец, посмотрим, как это работает в MCP и реальных кейсах
📍 Это 5 живых вебинаров + раздатка + домашки + чат с преподавателями
И главное — возможность реально разобраться, как проектировать системы на LLM, а не просто «поиграться с API»
Промокод на 5.000₽: LASTCALL
👉 Курс здесь
Старт курса уже 15го числа! Если вы планировали вписаться — сейчас ПОСЛЕДНИЙ шанс забронировать место
На курсе:
— разложим LLM по косточкам: токенизация, SFT, PEFT, инференс
— соберём RAG и научимся оценивать его адекватно
— построим настоящую мультиагентную систему — архитектуру, которая умеет расти
— разберём CoPilot, сломаем через prompt injection (спасибо Максу)
— и наконец, посмотрим, как это работает в MCP и реальных кейсах
📍 Это 5 живых вебинаров + раздатка + домашки + чат с преподавателями
И главное — возможность реально разобраться, как проектировать системы на LLM, а не просто «поиграться с API»
Промокод на 5.000₽: LASTCALL
👉 Курс здесь
Что такое «Data Swamp»?
Anonymous Quiz
12%
Хорошо структурированное хранилище
66%
Хаотичный Data Lake без документации
4%
Система визуализации
17%
Метод очистки данных
❤1
Please open Telegram to view this post
VIEW IN TELEGRAM
😁14👍1
⚡️ Самый быстрый движок для сервинга LLM уже тут — и он open-source
LMCache — новый движок, созданный для:
➡️ мгновенного time-to-first-token;
➡️ ыыше throughput даже при длинных контекстах;
➡️ 7× быстрее доступа к KV-кешам и поддержка 100× большего объёма кеша по сравнению с vLLM;
➡️ и всё это — полностью open-source.
Если вы работаете с LLM в продакшне, LMCache может стать настоящим гейм-чейнджером для latency-чувствительных приложений.
📱 Репозиторий
🐸 Библиотека дата-сайентиста
#буст
LMCache — новый движок, созданный для:
Если вы работаете с LLM в продакшне, LMCache может стать настоящим гейм-чейнджером для latency-чувствительных приложений.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6🔥1
Forwarded from Библиотека задач по Data Science | тесты, код, задания
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2
Forwarded from Библиотека задач по Data Science | тесты, код, задания
❤2🤔2