331K subscribers
4.16K photos
764 videos
17 files
4.68K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
⭐️ Native-sparse-attention-pytorch – представляет собой реализацию разреженного механизма внимания на PyTorch, оптимизированного для работы с большими последовательностями.

Он позволяет существенно снизить потребление памяти и ускорить вычисления по сравнению с классическим полносвязным вниманием.

Одним из главных преимуществ данного решения является его высокая эффективность при обработке длинных последовательностей.

За счёт вычисления внимания только по выбранным элементам (а не по всем парам токенов) удаётся уменьшить сложность алгоритма.

Кроме того, инструмент интегрируется непосредственно с PyTorch и использует нативные CUDA-ядра, что позволяет достичь оптимальной производительности на GPU.

Репозитория поможет в экспериментах с архитектурами, где внимание применяется к длинным последовательностям – будь то тексты, временные ряды или изображения – и обеспечивает возможность более эффективного использования вычислительных ресурсов.

native-sparse-attention-pytorch даёт существенные преимущества в снижении затрат памяти и ускорении вычислений, что делает его ценным инструментом для глубокого обучения.

$ pip install native-sparse-attention-pytorch

Github

@ai_machinelearning_big_data


#deeplearning #artificialintelligence #attention #sparseattention #ml #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41🔥93🥰2👏2
🚀 DeepSeek-V3.2-Exp - вышла новая экспериментальная версия

Главное:
- Основана на V3.1-Terminus
- Новый механизм Sparse Attention (DSA) → быстрее и дешевле работа с длинными контекстами
- Качество почти без потерь, производительность как у V3.1
- API подешевел более чем на 50%

📊 V3.1 пока ещё будет доступна до 15 октября 2025.

💰 Цены:
- Input (cache hit): $0.07 → $0.028 (−60%)
- Input (cache miss): $0.56 → $0.28 (−50%)
- Output: $1.68 → $0.42 (−75%)

🔗 Hugging Face: https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp)
🔗 Tech Report: https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf)
🔗Github: https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

@ai_machinelearning_big_data


#DeepSeek #AI #V32 #SparseAttention #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
100👍28🔥16👏3🤩2🥱2💘2🤨1