Сегодня делимся историями, когда советы коллег звучали разумно… пока вы не попробовали их на практике.
Настраивал модель XGBoost, попросил совета у старшего дата-сайентиста.
Он сказал: «Запусти без параметров, там всё по дефолту нормально».
Модель обучалась 9 часов и выдала результат хуже случайного угадывания.
Коллега уверял, что так «надёжнее, вдруг что-то понадобится».
Итог — запрос возвращал по 2 ГБ данных, и ETL падал каждые выходные.
Говорю: хочу написать пару unit-тестов для функции парсинга.
Ответ: «Не трать время, у тебя же всё в Jupyter, там видно же».
Через неделю нашли баг, который стоил клиенту два дня простоя.
#междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
😁2👍1🌚1
🚕 Как лог-трансформация спасла модель
Наш подписчик поделился лайфхаком, который снизил ошибку модели на 20% всего одной строкой кода.
В задаче регрессии (например, предсказание стоимости поездок Uber) оказалось, что таргет (fare) сильно скошен вправо: много маленьких значений + редкие, но вполне реальные высокие цены.
❌ Модели сложно учиться: редкие большие значения «тянут» распределение и портят общую картину.
➖ Простое решение — применить log1p к целевой переменной:
— большие значения сжимаются;
— малые почти не меняются;
— распределение становится ближе к нормальному;
— влияние «хвоста» снижается.
Схема:
💡 Результат: MAE снизился на 20%.
Не магия, а классика — но про этот приём часто забывают. Если таргет имеет длинный правый хвост → лог-трансформация может резко улучшить качество.
🐸 Библиотека дата-сайентиста
#междусобойчик
Наш подписчик поделился лайфхаком, который снизил ошибку модели на 20% всего одной строкой кода.
В задаче регрессии (например, предсказание стоимости поездок Uber) оказалось, что таргет (fare) сильно скошен вправо: много маленьких значений + редкие, но вполне реальные высокие цены.
— большие значения сжимаются;
— малые почти не меняются;
— распределение становится ближе к нормальному;
— влияние «хвоста» снижается.
Схема:
y → log1p → модель → предсказания (log scale) → expm1 → предсказания (ориг. масштаб)
💡 Результат: MAE снизился на 20%.
Не магия, а классика — но про этот приём часто забывают. Если таргет имеет длинный правый хвост → лог-трансформация может резко улучшить качество.
#междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤7
Говорят, ноутбук дата-сайентиста живёт в двух состояниях:
— «всё летает»
— «свопнулся насмерть при fit()»
Давайте проверим, кто на чём считает градиенты.
Расскажите в комментариях:
👉 модель ноутбука
👉 чип / GPU
👉 сколько ОЗУ спасает вас от крашей при обучении модели
#междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2😁2😢2🤔1