Анализ данных (Data analysis)

⚡️ Как только вы перейдете на Parquet...
...вы никогда не вернетесь к CSV.

Parquet — это формат хранения данных, разработанный для эффективного анализа больших объемов данных.

Он обеспечивает высокую производительность чтения и записи, а также поддерживает сжатие данных, что позволяет сэкономить место на диске.

В Python существует несколько библиотек для работы с форматом Parquet, наиболее популярной из них является pyarrow.

pip install pyarrow

mport pyarrow.parquet as pq
# Чтение данных из файла Parquet
table = pq.read_table('example.parquet')
df = table.to_pandas()  # Преобразование таблицы Parquet в объект pandas DataFrame
# Запись данных в файл Parquet
table = pq.Table.from_pandas(df)
pq.write_table(table, 'example.parquet')

https://pypi.org/project/parquet/

#junior #parquet

@data_analysis_ml

🔥41👍16❤4

8.73K views07:50

Анализ данных (Data analysis)

💾 Зачем нужен Delta Lake, если есть Parquet

Обычный Parquet хранит только одно состояние таблицы.
Если вы сохранили отфильтрованный DataFrame, то старые данные исчезли навсегда.
❌ Отката (rollback) нет → потеряли 10 000 строк, осталось только 3 500.

⚡ Delta Lake работает иначе:
- каждый раз создаётся новая версия данных
- можно вернуться к любой версии в прошлом
- данные всегда под контролем и без потерь

📌 Пример:
- Parquet → фильтр → оригинал стёрт
- Delta Lake → версия 0 (10 000 строк) + версия 1 (3 500 строк) → всегда можно вернуться к версии 0

✅ Итог: с Delta Lake данные становятся версионируемыми и надёжными.

#datalake #parquet #bigdata #delta

🔥14❤8🤨4😐2

4.45K views17:03

About

Blog

Apps

Platform