Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.5K subscribers
2.36K photos
119 videos
64 files
4.81K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
🤔 Что такое извлечение признаков (Feature Extraction)?

Feature Extraction — это процесс преобразования исходных данных в набор признаков, используемых для последующего анализа или моделирования.

👆В основном, целью извлечения признаков является уменьшение размерности исходных данных. Специалист создаёт на базе оригинального датасета новые информативные признаки. Методы здесь применяются разные.

☑️ Для текстов:
Чаще всего здесь идёт речь о преобразовании текстов в векторы. Основные методы такие:
▪️мешок слов (Bag of Words)
▪️TF-IDF
▪️создание эмбеддингов

☑️ Для изображений:
Тут мы тоже будем пытаться извлечь как можно больше информации в как можно более сжатом виде. Можем применять:
▪️фильтры
▪️свёрточные нейронные сети (CNN)
▪️автоэнкодеры.

▶️ Также в контексте извлечения признаков часто говорят о Principal Component Analysis (PCA), методе уменьшения размерности данных.

#вопрос_с_собеседований
👍10😁32🙏1