Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

❗ Сегодня премьера

В 19:00 МСК стартует бесплатный вебинар с Максимом Шаланкиным — «ИИ-агенты: новая фаза развития искусственного интеллекта».

В программе:
— почему агенты ≠ чат-боты;
— живое демо простого агента;
— и как эта тема встроена в курс, который разработан под руководством Никиты Зелинского.

⏰ Это прямой эфир: подключиться можно через лендинг курса.

1.62K views09:12

This media is not supported in your browser

VIEW IN TELEGRAM

🎯 Нужно ли дообучать embedding-модель

(Спойлер: скорее всего, нет)

Прежде чем браться за fine-tuning, спросите себя:
❓ Проблема реально в нехватке доменных знаний, или же в настройке пайплайна.

Проверьте сначала:
😶 Какой метод чанкования используется? Попробуйте late chunking.
😶 Нужны ли точные совпадения по ключевым словам? Рассмотрите гибридный поиск.
😶 Текущая модель не ловит контекст? Возможно, поможет модель с большим числом измерений.

⚡️ Fine-tuning имеет смысл только тогда, когда модель реально проваливается именно на доменных семантических связях.

Как работает fine-tuning embedding-моделей:
😶 Используется контрастивное обучение, где положительные пары притягиваются, а отрицательные — отталкиваются.
😶 Популярные функции потерь:
→ Multiple Negatives Ranking Loss (простые пары, негативы берутся из батча)
→ Triplet Loss (требует аккуратно подобранных триплетов)
→ Cosine Embedding Loss (учёт градаций схожести)

💰 Хорошая новость: fine-tuning стоит значительно дешевле, чем pre-training. Достаточно 1k–5k качественных примеров для узких доменов и 10k+ для сложных терминологий.

➡️

Подробная статья по теме

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4🔥3❤1

1.77K viewsedited 10:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐸

Библиотека дата-сайентиста

#развлекалово

Please open Telegram to view this post

VIEW IN TELEGRAM

😁25👍3

1.76K views18:40

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📶

Как работает HNSW: секрет быстрой работы с векторами

Hierarchical navigable small world (HNSW) — алгоритм, лежащий в основе большинства современных векторных баз данных.

Разбираемся просто:

🏗 Построение индекса

HNSW создаёт иерархию слоёв графов:
— Верхние слои: только дальние связи
— Нижний слой: все векторы, плотные локальные связи

🔎На каждом следующем слое вниз добавляются больше векторов и коротких связей

🔍 Как работает поиск

Представьте это как путешествие:
— Верхний слой = дальний перелёт → приблизиться к цели
— Средние слои = поезд → попасть в нужный район
— Нижний слой = велосипед → достичь точного вектора

🔎 Каждый слой направляет поиск на следующем, пропуская нерелевантные данные без необходимости оценивать всё.

⚙️ Важные параметры
— maxConnections: плотность графа (больше = точнее, но медленнее)
— ef/efConstruction: размер «динамического списка» при поиске/индексации (больше = точнее, но медленнее)
— distance: метрика для сравнения векторов

💡 В итоге: HNSW — это многомерный skip-list, который быстро находит правильное «соседство» перед локальным детальным поиском. Именно поэтому он работает так быстро даже с миллиардами векторов.

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍2

1.65K views12:28

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📄

Новый релиз: PostgreSQL 18

PostgreSQL Global Development Group объявила релиз PostgreSQL 18 — новой версии самой продвинутой open-source базы данных в мире.

Основные улучшения:
— Новый асинхронный I/O — до 3× быстрее чтение с диска
— Быстрые апгрейды — сохраняются статистики планировщика, ускоряя работу после обновления
— Быстрее запросы — skip scan для B-tree, OR-оптимизация, параллельные сборки индексов
— Разработка проще — виртуальные generated columns, поддержка UUIDv7 для индексируемых UUID, temporal constraints
— Текст и поиск — новый PG_UNICODE_FAST collation, улучшенные LIKE и case-insensitive функции
— Безопасность — OAuth 2.0, SCRAM и SHA-2, TLS 1.3 шифры, deprecate md5

Репликация и наблюдаемость:
▶️ Логическая репликация с логами конфликтов
▶️ Параллельное применение транзакций
▶️ Расширенная статистика VACUUM и EXPLAIN ANALYZE

В целом, PostgreSQL 18 ускоряет работу с любыми нагрузками, упрощает апгрейды и делает разработку ещё удобнее.

🔗 Подробнее: https://clc.to/6TROGw

🐸

Библиотека дата-сайентиста

#свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤1

1.57K views19:32

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🗺 Geographic Data Science с Python

Географическая дата-сайенс объединяет пространственный анализ, статистику и визуализацию для поиска скрытых закономерностей в данных.

Python стал стандартом в этой области благодаря мощным библиотекам:
➡️ GeoPandas — работа с shapefiles, GeoJSON, пространственные операции (оверлеи, буферизация, расстояния),
➡️ Matplotlib & Seaborn — от базовых графиков до наглядных теплокарт и сложных визуализаций,
➡️ scikit-learn — машинное обучение для геоданных: кластеризация, классификация, прогнозирование.

Применения:
🚩 анализ экологии и поиск «горячих точек» загрязнений,
🚩 исследование демографии и выявление неравенства,
🚩 городское планирование и смарт-инфраструктура.

➡️

Отличная книга, кому интересно направление

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9❤5

1.68K views10:10

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤫 Курс «ИИ-агенты для DS-специалистов»

Каждый технологический скачок оставляет позади тех, кто «подождал ещё чуть-чуть». ИИ-агенты — это новый рывок.

Уже через пару лет именно они будут драйвить аналитику и автоматизацию. Хотите остаться на гребне?

🖥️ На курсе «ИИ-агенты для DS-специалистов» мы разберём:

— создание AI-агентов с нуля
— сборку собственной RAG-системы
— интеграцию LLM под задачи бизнеса

📌 Курс подходит:

→ ML/AI инженерам (middle+ / senior)
→ Data Scientists
→ Backend и platform-инженерам
→ Advanced CS/DS студентам

⚡️ Старт уже скоро — 3 октября.

💰 До 28 сентября действует скидка — 57.000 ₽ вместо 69.000 ₽ (по промокоду datarascals).

🔗 Узнать больше о курсе и записаться

З.ы. если вы не успели на вебинар «ИИ-агенты: новая фаза развития искусственного интеллекта» — запись уже доступна

❤2

1.51K views15:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚀 Полезная статья для тех, кто строит карьеру в ML

В материале рассказывается, как выстраивать карьеру шаг за шагом: развитие навыков, построение сети контактов, подготовка к процессу найма и долгосрочное планирование.

Что полезного:
🔤 Тактика и стратегия карьерного роста
🔤 Определение цели и план действий
🔤 Сети контактов и рефералы
🔤 Подготовка CV и интервью (программирование, системный дизайн, культура команды)
🔤 Домашние задания и онлайн-тесты
🔤 Психологические нюансы процесса найма

💓

Отличный ресурс для всех, кто хочет понять, как системно подходить к развитию карьеры в ML и LLM.

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

😁2❤1👍1

1.56K views18:46

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚀 Всё о курсе «ИИ-агенты для DS-специалистов»

❓ Зачем нужны ИИ-агенты?

Это системы, которые берут на себя задачи аналитики и автоматизации. Именно они становятся основой для работы с корпоративными данными и для поддержки принятия решений.

❓ Зачем мне курс?

Курс отвечает на три ключевых вопроса:

— Как построить собственную систему агентов с нуля?
— Каким образом использовать RAG-подход для работы с корпоративными данными?
— Как адаптировать LLM под реальные задачи бизнеса?

❓ Подходит ли это мне?

Курс рассчитан на специалистов уровня middle+ и senior: ML/AI инженеров, Data Scientists, backend и platform-разработчиков. Подойдёт и студентам CS/DS, если вы готовы к продвинутым практикам.

Запись вводной встречи «ИИ-агенты: новая фаза развития искусственного интеллекта» доступна по ссылке.

❓ Когда старт?

Обучение начинается 3 октября.

❓ Сколько стоит?

До 28 сентября действует скидка → 57 000 ₽ вместо ~~69 000 ₽~~ (промокод datarascals).

🔗 Описание программы и регистрация

❤1

1.48K views15:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐸

Библиотека дата-сайентиста

#развлекалово

Please open Telegram to view this post

VIEW IN TELEGRAM

😁4🔥1💯1

1.44K views18:26

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 Сегодня последний день скидки!

На недавнем вебинаре «ИИ-агенты: новая фаза развития AI» мы показали, как агенты уже меняют работу Data Scientists и инженеров.

Что тебя ждёт на курсе:

⚡️ создашь своего ИИ-агента с нуля
⚡️ соберёшь RAG-систему
⚡️ научишься адаптировать LLM под реальные данные бизнеса

⏳ До конца этого дня цена на курс 57 000 ₽. Уже завтра будет 69 000 ₽. Успевай записаться (используй промокод datarascals).

🔗 Записаться на курс

👍1

1.61K views06:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Почему библиотека Seaborn так называется?

Anonymous Quiz

17%

В честь создателя с фамилией Seaborn

49%

Из-за морских визуализаций

Просто красивое слово

25%

В честь героя сериала

321 voters1.44K views11:29

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕

Свежие новости для дата‑сайентистов

🔹 AI и мульти-модальные модели
— Qwen3-Omni — первый нативный end-to-end омни-модальный AI, объединяющий текст, изображения, аудио и видео без компромиссов между модальностями.
— Google Gemini 2.5 Flash и Flash-Lite — обновлённые модели DeepMind для Vertex AI и Google AI Studio с улучшенной скоростью и качеством. Flash-Lite экономит до 50% токенов при инференсе.
— Нативная аудио-модель Google — новая модель в Gemini Live API делает голосовых агентов более надёжными и способными корректно работать с пользователем.

🔹 Исследования и новые методы
— RLPT: Reinforcement Learning on Pretraining Data — новый подход, где LLM обучаются с использованием RL напрямую на данных претрейнинга, без ручной аннотации наград.
— GPT-oss и утечки данных — анализ весов GPT-oss показал возможное использование контента с adult-сайтов и частично данных с GitHub в обучении моделей семейства GPT-5.

🔹 Практика и инструменты ML
— Как работать с нейросетями эффективно — теоретические и практические рекомендации.
— Ускорение инференса ML-моделей — советы по оптимизации без лишних затрат.
— In-context learning без тренировки — статья про имплицитную динамику обучения в контексте.
— Алгоритм Isolation Forest — метод поиска аномалий в данных.
— Опрос для data-специалистов — про стек, зарплаты и трудности работы.
— Лучшие ML-фреймворки 2025 года — обзор актуальных инструментов для разработки моделей.
— Финетюнинг без греха — как безопасно кастомизировать AI и не сломать его.

🐸

Библиотека дата-сайентиста

#свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2❤1

1.49K views13:18

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⏳ Последние часы со скидкой!

Мы уже закрыли вебинар «ИИ-агенты: новая фаза развития AI», но запись всё ещё доступна.

А дальше остаётся только практика. На курсе «ИИ-агенты для DS-специалистов» ты научишься разрабатывать агентов, собирать RAG-системы и адаптировать LLM под бизнес.

⏰ Сегодня цена ещё 57.000 ₽ с промокодом datarascals.
Завтра — 69.000 ₽.

👉 Успеть оплатить до полуночи

1.59K views16:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

Залетай с разбега 👉 x.com/_proglib

😁1

1.7K views17:40

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

🐸

Библиотека задач по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

1.57K views08:21

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Что выведет код?

Anonymous Quiz

60%

{'a': 1, 'b': 2, 'c': 3, 'd': 4}

332 voters1.48K views08:21

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧩 Тонкости гиперпараметрического тюнинга

Хотите ускорить обучение XGBoost в 5–15 раз и при этом находить лучшие гиперпараметры?

В свежем видео показывают:
➡️ как использовать Optuna для автоматического тюнинга XGBoost,
➡️ почему кросс-валидация критична для реальных задач,
➡️ какие приёмы тюнинга реально работают,
➡️ и как визуализации Optuna помогают выявлять самые важные гиперпараметры.

Особый акцент — на GPU-ускорении XGBoost 3.0, которое радикально сокращает время экспериментов в табличных задачах.

🔗

Ссылка на туториал

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍2

1.59K views18:30

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤖 Курс «ИИ-агенты для DS-специалистов»

Последняя возможность в этом году освоить ИИ-агентов — курс стартует уже 3 октября! Первый вебинар пройдёт в день старта, а подробности вебинара можно найти на сайте.

📚 Бонус: при оплате до 30 сентября вы получите дополнительный лонгрид для подготовки к курсу. Это отличный способ подойти к занятиям уже с базой.

🔥 А ещё после прохождения курса у вас будет достаточно знаний, чтобы участвовать в хакатоне с призовым фондом 1 125 000 ₽.

🔗 Записаться на курс и узнать подробности

👍1

1.57K views19:09

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐸

Библиотека дата-сайентиста

#развлекалово

Please open Telegram to view this post

VIEW IN TELEGRAM

😁9🎉1

1.57K views10:16

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤖 Курс «ИИ-агенты для DS-специалистов»

Последняя возможность в этом году освоить ИИ-агентов с Proglib— старт живых вебинаров на курсе уже 3 октября!

Уже 24 студента изучают 5 лонгридов подготовительного модуля, чтобы сформировать базу к старту живых вебинаров с Никитой Зелинским.

📚 Бонус: при оплате до 30 сентября вы получите дополнительный лонгрид для подготовки к курсу. Это отличный способ подойти к занятиям уже с базой.

🔥 А ещё после прохождения курса у вас будет достаточно знаний, чтобы участвовать в хакатоне с призовым фондом 1 125 000 ₽.

🔗 Записаться на курс и узнать подробности

1.65K views15:00

About

Blog

Apps

Platform