This media is not supported in your browser
VIEW IN TELEGRAM
📊 Нужны ли дополнительные данные для модели
Если производительность модели почти не улучшается, несмотря на feature engineering и смену моделей, возможно, данных недостаточно.
Но сбор новых данных — это трудоёмко. Вот как проверить, помогут ли они:
1. Разделите обучающую выборку на k равных частей (7–12 обычно достаточно).
2. Поочерёдно обучайте модель: на 1 части, затем на 2, затем на 3, и так далее.
3. Оцените каждую модель на валидационной выборке.
4. Постройте график, который покажет зависимость производительности от объема данных.
📈 Линия растёт? Добавление данных улучшит модель.
📉 Линия стабильна? Собранные данные исчерпали потенциал.
Простой способ избежать лишней работы!
#данные #modeloptimization
Если производительность модели почти не улучшается, несмотря на feature engineering и смену моделей, возможно, данных недостаточно.
Но сбор новых данных — это трудоёмко. Вот как проверить, помогут ли они:
1. Разделите обучающую выборку на k равных частей (7–12 обычно достаточно).
2. Поочерёдно обучайте модель: на 1 части, затем на 2, затем на 3, и так далее.
3. Оцените каждую модель на валидационной выборке.
4. Постройте график, который покажет зависимость производительности от объема данных.
📈 Линия растёт? Добавление данных улучшит модель.
📉 Линия стабильна? Собранные данные исчерпали потенциал.
Простой способ избежать лишней работы!
#данные #modeloptimization
🔥13👍6❤1
🧹 Важность очистки данных: вызовы и решения
Очистка данных — это сложная и многогранная задача, особенно когда речь идет о больших наборах данных. Чем больше данных, тем сложнее их очистить. В статье рассматриваются ключевые моменты: как балансировать между удалением и заменой пропущенных значений, почему важно понимать, почему данные отсутствуют.
👩💻 Узнайте, как эффективно подходить к очистке данных и как это влияет на качество ваших исследований!
👉 Статья
#данные #очисткаданных
Очистка данных — это сложная и многогранная задача, особенно когда речь идет о больших наборах данных. Чем больше данных, тем сложнее их очистить. В статье рассматриваются ключевые моменты: как балансировать между удалением и заменой пропущенных значений, почему важно понимать, почему данные отсутствуют.
👩💻 Узнайте, как эффективно подходить к очистке данных и как это влияет на качество ваших исследований!
👉 Статья
#данные #очисткаданных
🔥5👍3