Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

😶

Истории подписчиков: cамый бесполезный совет от коллеги

Сегодня делимся историями, когда советы коллег звучали разумно… пока вы не попробовали их на практике.

👻

Просто запусти без параметров:

Настраивал модель XGBoost, попросил совета у старшего дата-сайентиста.
Он сказал: «Запусти без параметров, там всё по дефолту нормально».
Модель обучалась 9 часов и выдала результат хуже случайного угадывания.

👻 В SQL всегда используй SELECT *:

Коллега уверял, что так «надёжнее, вдруг что-то понадобится».
Итог — запрос возвращал по 2 ГБ данных, и ETL падал каждые выходные.

👻 Зачем тесты? У тебя же ноутбук:

Говорю: хочу написать пару unit-тестов для функции парсинга.
Ответ: «Не трать время, у тебя же всё в Jupyter, там видно же».
Через неделю нашли баг, который стоил клиенту два дня простоя.

💬

А какой самый «полезный» бесполезный совет вы получали?

🐸

Библиотека дата-сайентиста

#междусобойчик

Please open Telegram to view this post

VIEW IN TELEGRAM

😁2👍1🌚1

1.56K views18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚕 Как лог-трансформация спасла модель

Наш подписчик поделился лайфхаком, который снизил ошибку модели на 20% всего одной строкой кода.

В задаче регрессии (например, предсказание стоимости поездок Uber) оказалось, что таргет (fare) сильно скошен вправо: много маленьких значений + редкие, но вполне реальные высокие цены.

❌ Модели сложно учиться: редкие большие значения «тянут» распределение и портят общую картину.

➖

Простое решение — применить log1p к целевой переменной:
— большие значения сжимаются;
— малые почти не меняются;
— распределение становится ближе к нормальному;
— влияние «хвоста» снижается.

Схема:

y → log1p → модель → предсказания (log scale) → expm1 → предсказания (ориг. масштаб)

💡 Результат: MAE снизился на 20%.

Не магия, а классика — но про этот приём часто забывают. Если таргет имеет длинный правый хвост → лог-трансформация может резко улучшить качество.

🐸

Библиотека дата-сайентиста

#междусобойчик

Please open Telegram to view this post

VIEW IN TELEGRAM

👍11❤7

1.71K views18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💻 Что под капотом у дата-сайентиста?

Говорят, ноутбук дата-сайентиста живёт в двух состояниях:
— «всё летает»
— «свопнулся насмерть при fit()»

Давайте проверим, кто на чём считает градиенты.
Расскажите в комментариях:
👉 модель ноутбука
👉 чип / GPU
👉 сколько ОЗУ спасает вас от крашей при обучении модели

🐸

Библиотека дата-сайентиста

#междусобойчик

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2😁2😢2🤔1

1.63K views09:25

About

Blog

Apps

Platform