This media is not supported in your browser
VIEW IN TELEGRAM
Кризис DRAM меняет рынок и подход к обучению современного ИИ.
✔️ Рынок захлестнул дефицит оперативной памяти и других накопителей: ИИ-гиганты выкупили огромные объёмы DRAM, HBM и NAND. Nvidia, по слухам, прекращает поставлять дистрибьюторам видеопамять в комплекте с GPU — теперь её нужно закупать отдельно. На текущий момент цены на SSD и оперативную память выросли на 50-100% по сравнению с началом года. Производители ноутбуков и смартфонов фиксируют задержки поставок, а комплект DDR5 на 64 ГБ уже стоит дороже PS5. 🤯
✔️ Мы спросили Гигачат, как кризис повлияет на развитие нейросетей и обучение моделей. ИИ-помощник формулирует так: "Дефицит памяти — это временный дисбаланс между взрывным ростом ИИ-индустрии и производственными мощностями, которые просто не успели масштабироваться под такой спрос. Высокая стоимость памяти заставляет компании переосмыслить подходы к обучению: вместо наращивания "железа напролом" фокус смещается на эффективные архитектуры и методы.". Подробнее — в видео.
@ai_machinelearning_big_data
#ai #llm #ml #ramcrisis #infrastructure
@ai_machinelearning_big_data
#ai #llm #ml #ramcrisis #infrastructure
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿70❤17😁12🤣11👍8🔥3🥱3🤬2🤗1🦄1
XiYan-SQL - это open-source решение, позволяющее генерировать, анализировать и выполнять SQL-запросы с использованием больших языковых моделей. Инструмент ориентирован на ускорение исследования данных и автоматизацию рутинных операций, связанных с запросами к базе.
Ключевые возможности:
- Генерация SQL из естественного языка -пользователь формулирует задачу обычными словами, а система преобразует её в корректный SQL-запрос.
- Интерактивная работа с базой данных - запросы можно оперативно уточнять, редактировать и выполнять, получая быстрый цикл обратной связи.
- Поддержка нескольких СУБД - PostgreSQL, MySQL, SQLite и другие.
- 🛠️ Минимальная конфигурация - подходит для анализа данных, прототипирования и облегчения доступа к базе без сложной инфраструктуры.
🔗 Репозиторий: github.com/XGenerationLab/XiYan-SQL
@ai_machinelearning_big_data
#sql #llm #ai #opensource #database #datatools #postgresql
Please open Telegram to view this post
VIEW IN TELEGRAM
👍49❤24🔥13❤🔥6🦄1
Ключевые характеристики:
- MoE-архитектура: 30B параметров всего, ~3.5B активных
- Контекст до 1 миллиона токенов
- Гибридная архитектура:
- 23 слоя Mamba-2 + MoE
- 6 attention-слоёв
- Баланс между скоростью и качеством рассуждений
Требования:
- необходимо около 24 ГБ видеопамяти для локального запуска
Модель хорошо подходит для длинных диалогов, анализа документов и reasoning-задач
Интересный пример того, как MoE и Mamba начинают реально снижать требования к железу, сохраняя масштаб контекста и качество.
Для обучения Super и Ultra используется NVFP4 и новая архитектура Latent Mixture of Experts. Она позволяет задействовать в четыре раза больше экспертов при той же стоимости инференса. По сути, модель становится «умнее» за счёт более гибкого выбора экспертов, а не за счёт постоянной активации всех параметров.
Дополнительно применяется Multi-Token Prediction, что ускоряет обучение и улучшает качество рассуждений на длинных последовательностях. Это особенно важно для agentic и multi-agent сценариев, где модели работают с длинным контекстом и сложными цепочками решений.
NVIDIA публикует не только веса, но и данные для предобучения и постобучения, а также технические детали, которые объясняют, почему эти модели одновременно быстрые и сильные.
Такой уровень открытости - редкость для моделей этого масштаба и хороший сигнал для индустрии.@ai_machinelearning_big_data
#AI #LLM #NVIDIA #Nemotron3 #OpenSource #MachineLearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥48❤20👍20🦄3👌2
SHARP - это исследовательский проект Apple, который умеет создавать фотореалистичные новые ракурсы сцены, имея всего одну фотографию.
Нейросеть за один проход предсказывает 3D-сцены в виде гауссианов.
Полученную 3D-сцену можно:
- рендерить в реальном времени
- получать высококачественные изображения с близких ракурсов
- двигать камеру в реальных метрических координатах
Главные фишки:
- используется метрическое 3D-представление с абсолютным масштабом
- поддерживаются реальные движения камеры
- модель работает zero-shot, без дообучения на новых датасетах
Модель устанавливает новый уровень качества сразу на нескольких наборах данных:
- метрика LPIPS улучшена на 25–34%
- метрика DISTS улучшена на 21–43% по сравнению с лучшими предыдущими моделями
При этом время генерации снижено в тысячи раз.
SHARP показывает, насколько далеко продвинулись методы 3D-реконструкции и view synthesis — и как быстро такие технологии начинают работать в реальном времени, а не только в лаборатории.
▪Github: https://github.com/apple/ml-sharp
▪HF: https://huggingface.co/apple/Sharp
▪ Демки: https://apple.github.io/ml-sharp/
@ai_machinelearning_big_data
#apple #llm #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍46❤14🦄5🔥3