Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.5K subscribers
2.37K photos
119 videos
64 files
4.81K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
😶 Истории подписчиков: cамый бесполезный совет от коллеги

Сегодня делимся историями, когда советы коллег звучали разумно… пока вы не попробовали их на практике.

👻 Просто запусти без параметров:
Настраивал модель XGBoost, попросил совета у старшего дата-сайентиста.
Он сказал: «Запусти без параметров, там всё по дефолту нормально».
Модель обучалась 9 часов и выдала результат хуже случайного угадывания.


👻 В SQL всегда используй SELECT *:
Коллега уверял, что так «надёжнее, вдруг что-то понадобится».
Итог — запрос возвращал по 2 ГБ данных, и ETL падал каждые выходные.


👻 Зачем тесты? У тебя же ноутбук:
Говорю: хочу написать пару unit-тестов для функции парсинга.
Ответ: «Не трать время, у тебя же всё в Jupyter, там видно же».
Через неделю нашли баг, который стоил клиенту два дня простоя.


💬 А какой самый «полезный» бесполезный совет вы получали?

🐸 Библиотека дата-сайентиста

#междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
😁2👍1🌚1
🚕 Как лог-трансформация спасла модель

Наш подписчик поделился лайфхаком, который снизил ошибку модели на 20% всего одной строкой кода.

В задаче регрессии (например, предсказание стоимости поездок Uber) оказалось, что таргет (fare) сильно скошен вправо: много маленьких значений + редкие, но вполне реальные высокие цены.

Модели сложно учиться: редкие большие значения «тянут» распределение и портят общую картину.

Простое решение — применить log1p к целевой переменной:
— большие значения сжимаются;
— малые почти не меняются;
— распределение становится ближе к нормальному;
— влияние «хвоста» снижается.

Схема:
y → log1p → модель → предсказания (log scale) → expm1 → предсказания (ориг. масштаб)


💡 Результат: MAE снизился на 20%.

Не магия, а классика — но про этот приём часто забывают. Если таргет имеет длинный правый хвост → лог-трансформация может резко улучшить качество.

🐸 Библиотека дата-сайентиста

#междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
👍117
💻 Что под капотом у дата-сайентиста?

Говорят, ноутбук дата-сайентиста живёт в двух состояниях:
— «всё летает»
— «свопнулся насмерть при fit()»

Давайте проверим, кто на чём считает градиенты.
Расскажите в комментариях:
👉 модель ноутбука
👉 чип / GPU
👉 сколько ОЗУ спасает вас от крашей при обучении модели

🐸 Библиотека дата-сайентиста

#междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
2😁2😢2🤔1