🐋 DeepClaude
Высокопроизводительный LLM-интерфейс, который позволяет использовать возможности рассуждений DeepSeek R1 и творческие способности Claude с помощью единого и простого API и удобного иинтерфейса.
Особенности
🚀 Нулевая задержка - Очень быстрые ответы на базе высокопроизводительного API, написанного на Rust.
⚙️ Гибкая настройка соответствии с вашими потребностями
🌟 Открытый исходный код
🤖 Двойная мощь ИИ - объедините рассуждения DeepSeek R1 с и возможностями Claude
⭐️ DeepClaude объединяет обе модели, чтобы обеспечить:
- Новая SOTA 64,0% на бенчмарке aider polyglot
- 14-кратное снижение затрат по сравнению с предыдущей SOTA
- Повышенную точность генерации кода для различных языков программирования
▪ Github
▪Docs
@ai_machinelearning_big_data
#DeepSeek #Claude #llm #ml #ai #DeepClaude #opensource
Высокопроизводительный LLM-интерфейс, который позволяет использовать возможности рассуждений DeepSeek R1 и творческие способности Claude с помощью единого и простого API и удобного иинтерфейса.
Особенности
🚀 Нулевая задержка - Очень быстрые ответы на базе высокопроизводительного API, написанного на Rust.
⚙️ Гибкая настройка соответствии с вашими потребностями
🌟 Открытый исходный код
🤖 Двойная мощь ИИ - объедините рассуждения DeepSeek R1 с и возможностями Claude
- Новая SOTA 64,0% на бенчмарке aider polyglot
- 14-кратное снижение затрат по сравнению с предыдущей SOTA
- Повышенную точность генерации кода для различных языков программирования
git clone https://github.com/getasterisk/deepclaude.git
cd deepclaude
▪ Github
▪Docs
@ai_machinelearning_big_data
#DeepSeek #Claude #llm #ml #ai #DeepClaude #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤50🔥22👍19🐳6👏3🥰1😁1
Вводите промпт и ChatGPT найдет, проанализирует и синтезирует сотни онлайн-ресурсов, чтобы создать развернутый отчет за 10 минут работы, вместо нескольких часов, которые потребовались бы человеку.
Основные моменты:
— Уже доступен для пользователей Pro.
— Агент предоставит полный список источников, а также прокомментирует каждый из них;
— Хорошо подходит для решения задач, связанных с поиском в интернете.
— Набрал 26.6 % на «Последнем экзамене человечества».
ИИ превосходит существующие методы как по точности, так и по вычислительной эффективности, предлагая обновления прогнозов в реальном времени четыре раза в день через Google Cloud, BigQuery и Earth Engine.
Исследователи могут получить доступ как к текущим, так и к историческим прогнозам для анализа и планирования.
Внутри 2 мощных инструмента:
WeatherNext Graph:
- Формирует единый сверхточный прогноз.
- Обновления происходят каждые 6 часов.
- Предсказания делаются на 10 дней вперёд.
- Выдает прогнозы с максимальной точностью.
WeatherNext Gen:
- Генерирует ансамблевые прогнозы из 50 вероятных сценариев.
- Обновление прогноза происходит каждые 12 часов.
- Модель позволяет лучше оценивать риски экстремальных погодных явлений.
Преимущества над традиционными методами:
- Более высокая скорость обработки данных.
- Значительное повышение точности по сравнению с физическими моделями.
- Опенсорс
Внутри много интересного о DeepSeek, Китае, OpenAI, NVIDIA, xAI, Google, Anthropic, Meta, Microsoft, TSMC, Stargate, строительстве мегакластеров, RL, ризонинге и множестве других тем на передовых ИИ тематик.
Очень интересная и наполненная техническими деталями беседа.
- Новая модель: Qwen2.5-Plus теперь обновлен до qwen-plus-0125-exp, с новыми методами пост-тренинга. Разрыв с Qwen2.5-Max значительно сократился.
- Гибкие режимы: Убрали все ограничения на переключение между режимами в течение одной сессии! С.
- Неограниченный ввод: Поддержка текстов длиной более 10 000 символов
- Возможность загружайть файлы txt, pdf, docx, xlsx, pptx, md и другие. Теперь длинный ввод не требует усилий.
Резюме самых интересных открытий за первую неделю с момента появления DS.
Компания Reliance Group Мукеша Амбани, один из крупнейших и наиболее влиятельных индийских конгломератов, строит крупный центр обработки данных в Джамнагаре - небольшом городке в штате Гуджарат, где уже расположены крупные нефтеперерабатывающие и нефтехимические предприятия Reliance.
По сообщениям Bloomberg, общая мощность центра обработки данных, который может стать крупнейшим в мире, составит 3 гигаватта, что значительно увеличит текущую мощность индийских центров обработки данных, которая оценивается менее чем в 1 гигаватт.
Таким образом, он будет в пять раз больше, чем 600-мегаваттный центр Microsoft в Бойдтоне, штат Вирджиния.
Метахранилище - это высокомасштабируемый сервис метаданных во время выполнения, который работает с несколькими движками: BigQuery, Apache Spark, Apache Hive и Apache Flink, и поддерживает открытый формат таблиц Apache Iceberg
@ai_machinelearning_big_data
#DeepSeek #opensource #ai #ml #llm #machinelearning #guide #news #chatgpt #openai #google #deepmind #qwen #DataAnalytics #ainews #news
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍102❤26🔥10👀2
This media is not supported in your browser
VIEW IN TELEGRAM
Демо новой модели стало доступно на huggingface 🚀
Отличная модель для OCR задач, извлечения текста, распознания картинок и использования в чате.
🤗 HF: https://huggingface.co/spaces/deepseek-ai/deepseek-vl2-small
@ai_machinelearning_big_data
#deepseek #OCR #demo #prerelease
Please open Telegram to view this post
VIEW IN TELEGRAM
👍68🔥19❤6😁3
Только что китайцы представили DeepEP — это библиотека, разработанная для оптимизации работы моделей с архитектурой Mixture-of-Experts (MoE) и параллелизмом экспертов (EP).
Ее основная задача — обеспечить высокую пропускную способность и низкую задержку при обмене данными между GPU, что критически важно для эффективного обучения и инференса крупных моделей.
Что внутри
Высокая производительность:
- Библиотека предоставляет оптимизированные all-to-all GPU ядра для операций распределения (dispatch) и объединения (combine) данных, что улучшает скорость и эффективность коммуникации между экспертами в модели.
- DeepEP поддерживает операции с пониженной точностью, включая формат FP8, что способствует снижению требований к памяти и увеличению скорости вычислений без значительной потери точности.
- Оптимизация под различные домены: В соответствии с алгоритмом группового ограниченного гейтинга, предложенным в работе DeepSeek-V3, библиотека предлагает набор ядер, оптимизированных для асимметричной передачи данных между различными доменами, такими как NVLink и RDMA. Это обеспечивает высокую пропускную способность при обучении и инференсе.
- Низкая задержка для инференса: Для задач, чувствительных к задержкам, DeepEP включает набор ядер с чистой RDMA, минимизируя задержки и обеспечивая быструю обработку данных во время инференса.
- Работает как с NVLink, так и с RDMA, что позволяет организовать высокопроизводительную связь между GPU как в рамках одного сервера, так и между разными серверами.
Принцип работы:
DeepEP интегрируется в существующие рабочие процессы обучения и инференса моделей с архитектурой MoE, предоставляя эффективные механизмы для обмена данными между GPU. Используя оптимизированные коммуникационные ядра, библиотека обеспечивает быструю и надежную передачу данных, что особенно важно при работе с крупными моделями и распределенными системами. Поддержка операций с пониженной точностью и оптимизация под различные домены позволяют гибко настраивать систему под конкретные требования и аппаратные возможности.
Использование DeepEP способствует повышению эффективности и производительности моделей MoE, облегчая их масштабирование и ускоряя процессы обучения и инференса.
▪ Github
@ai_machinelearning_big_data
#ai #deepseek #opensource #DeepEP
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍45🔥16❤8
Проект написан на CUDA и рассчитан исключительно на использование тензорных ядер архитектуры NVIDIA Hopper, что уже само по себе делает его очень современным
В основе DeepGEMM лежит идея максимально эффективного выполнения операций умножения матриц с использованием 8-битной точности.
Для решения проблемы накопления в FP8 (которое может давать неточные результаты) разработчики внедрили двухуровневое накопление, которое использует возможности CUDA-ядра для повышения точности без потери производительности.
Что действительно радует – это минимализм кода.
✔ Ядро библиотеки представлено всего в одном ключевом модуле, состоящем примерно из 300 строк, что позволяет легко разобраться в его работе и даже внести собственные улучшения.
При этом все ядра компилируются «на лету» с помощью легковесного JIT-компилятора, так что нет долгого этапа сборки при установке.
DeepGEMM поддерживает разные режимы работы: обычные GEMM для плотных моделей, а также группированные операции для моделей типа Mix-of-Experts, где требуется обрабатывать данные в нескольких форматах – как в «континуальном», так и в «masked» виде. Это особенно актуально для современных решений в области глубокого обучения.
Оптимизации, заложенные в DeepGEMM, включают использование новых функций Hopper, таких как Tensor Memory Accelerator (TMA) для асинхронной передачи данных, а также тонкую настройку блоковых размеров и оптимизацию инструкций FFMA для лучшего перекрытия вычислений и загрузки данных. Результаты говорят сами за себя: производительность этой библиотеки на ряде тестовых примеров сравнима или даже превосходит решения, построенные на базе CUTLASS.
DeepGEMM – это лаконичный и эффективный инструмент, который может послужить отличной базой для исследований и практических разработок в области ускорения вычислений для глубокого обучения.
▪ Github
#ai #deepseek #opensource #DeepEP #OpenSourceWeek:
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥43👍23❤16🥰2😴1
С 26 февраля Advanced Voice на базе GPT-4o mini доступна бесплатным пользователям ChatGPT на всех платформах.
Free tier имеет ежедневные ограничения на использование входных и выходных аудиоданных. Пользователи ChatGPT Plus могут использовать полную версию Advanced Voice на основе GPT-4o с дневным лимитом, который в 5 раз превышает лимит бесплатной версии, и могут продолжать использовать функции видео и демонстрации экрана в расширенном голосовом режиме. Подписчики ChatGPT Pro не имеют дневного лимита.
OpenAI в X
Microsoft открыла всем пользователям бесплатный доступ к функциям «Think Deeper» и голосовому управлению Copilot, а также снимет предыдущие ограничения на использование для бесплатных пользователей. Это означает, что пользователи могут вести неограниченное количество "бесед" и голосовых взаимодействий с Copilot. Think Deeper работает на основе модели логического вывода OpenAI o1, которую Microsoft сделала бесплатной в прошлом месяце.
microsoft.com
Octave, TTS-модель, анонсированная в конце декабря 2024 года, стала доступной через web и API. Модель умеет не просто "читать" слова, а понимает их смысл в контексте. Octave способна отыгрывать персонажей, генерировать голоса по запросу и изменять эмоциональную окраску и стиль речи.
Благодаря функции Voice Design, Octave может создать любой ИИ-голос по текстовому описанию. От "терпеливого, чуткого консультанта с голосом ASMR" до "средневекового рыцаря" – Octave воплотит любую фантазию. В ближайшем будущем планируется запуск функции клонирования голоса.
В ходе слепого сравнительного исследования, Octave превзошла систему ElevenLabs Voice Design по качеству звука (71,6%), естественности (51,7%) и соответствию голоса заданному описанию (57,7%).
hume.ai
DeepSeek объявил о введении скидок до 75% на использование своих AI-моделей в непиковые часы. Это решение может оказать давление на конкурентов как в Китае, так и за рубежом, вынуждая их пересматривать свои ценовые стратегии. Согласно информации на сайте компании, в период с 16:30 до 00:30 по Гринвичу стоимость использования API DeepSeek будет значительно снижена. Для моделей R1 и V3 скидки составят 75% и 50% соответственно.
reuters.com
Samsung выпустит первую потребительскую серию PCIe 5.0 SSD 9100 Pro в марте. Впервые среди NVMe SSD от Samsung в линейке будет модель с 8 ТБ (ожидается, что будет доступен во второй половине 2025 года). В спецификации M.2 предусмотрены две дополнительные версии с радиатором или без него, с тремя конфигурациями: 1 ТБ (199,99 долл. США), 2 ТБ (299,99 долл. США) и 4 ТБ (549,99 долл. США).
Серия 9100 Pro демонстрирует значительные улучшения: в ней используется специализированный контроллер и флэш-память V-NAND TLC 7-го поколения. В синтетических тестах скорости последовательного чтения и записи достигают 14,8 ГБ/с и 13,4 ГБ/с, что вдвое больше, чем у предыдущего поколения 980 Pro и примерно на 2–3 ГБ/с быстрее, чем у конкурирующих продуктов, а производительность случайного чтения и записи улучшена до 2200 тыс./2600 тыс. IOPS, что более чем 2х превышает показатели PCIe 4.0.
news.samsung.com
Hf
@ai_machinelearning_big_data
#news #ai #ml #microsoft #openai #DeepSeek
Please open Telegram to view this post
VIEW IN TELEGRAM
👍39❤16🔥11
DeepSeek представили Fife-Flyer File System (3FS) – параллельную файловую систему, способную использовать всю пропускную способность современных SSD и RDMA-сетей.
• 6.6 TiB/s – суммарная скорость чтения в 180-узловом кластере
• 3.66 TiB/min – пропускная способность на GraySort в 25-узловом кластере
• 40+ GiB/s – пик производительности KVCache lookup на одном клиентском узле
Архитектура 3FS дезагрегирована и обеспечивает строгую согласованность, что делает её незаменимой для задач предварительной обработки данных, загрузки датасетов, сохранения контрольных точек и быстрого поиска эмбеддингов во время инференса (V3/R1).
Показатели 3FS демонстрируют, что будущее обработки данных лежит в использовании распределенных и дезагрегированных архитектур, где каждая компонента системы работает на максимуме своих возможностей.
В дополнение к Fife-Flyer File System, представлен Smallpond – фреймворк для обработки данных на базе этой системы, который помогает ещё больше упростить рабочие процессы с большими объёмами информации.
▪3FS → github.com/deepseek-ai/3FS
▪Smallpond → github.com/deepseek-ai/smallpond
@ai_machinelearning_big_data
#OpenSourceWee #DeepSeek #Smallpond #3FS #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍64🔥23❤10👻2👏1😁1
🚀 6 День недели опенсорса: DeepSeek-V3/R1 Inference System!
DeepSeek выкатил подробный обзор своего инференса для моделей DeepSeek-V3/R1 – с акцентом на архитектурные инновации и невероятную экономическую эффективность.
DeepSeq R1 ежедневно приносит более $560 000, причем затраты на GPU составляют всего $87 000. Что озночает рентабельность в 545 %.
При таких расчетах теоретическая годовая выручка могла бы превысить $200 млн.
Компания также отметила, что затраты на обучение моделей составили менее $6 млн. Для сравнения, американские конкуренты, такие как OpenAI, инвестируют миллиарды долларов в обучение ИИ с использованием чипов NVIDIA H100. DeepSeek использует менее мощные NVIDIA H800, но это не мешает её моделям успешно конкурировать на глобальном рынке.
Данные за 24 часа:
– Входные токены: 608 млрд (с 56.3% cache hit rate)
– Выходные токены: 168 млрд при скорости 20–22 токена/с
Разительный контраст с американскими конкурентами, работающими в убыток.
Такой уровень доходности достигается за счёт оптимизированного распределения вычислений и гибкой архитектуры.
🌟 В DeepSeek-V3/R1 используется Cross-node Expert Parallelism (EP) — метод, при котором модель делится между GPU-узлами, а каждая видеокарта обрабатывает лишь небольшую часть модели. Эксперты распределяются между узлами кластера, что снижает нагрузку на память GPU, увеличивает размер батча и позволяет равномерно загружать видеокарты, избегая простоев. Это ускоряет вычисления и минимизирует задержки.
🌟 Для обработки данных DeepSeek-V3/R1 использует двухфазную стратегию инференса.
1) Prefilling фаза — здесь bспользуется EP32, где каждый GPU получает 9 направляемых экспертов и 1 общего эксперта, что позволяет минимизировать расходы на обработку данных.
2) Для Decoding используется EP144, перераспределяющий нагрузку так, что каждый GPU управляет 2 направляемыми экспертами и 1 общим экспертом. Такая стратегия помогает достичь высокой производительности без потери качества ответа.
– ~73.7k токенов/с для prefilling
– ~14.8k токенов/с для декодинга на одном узле H800
Данные за 24 часа:
– Входные токены: 608 млрд (с 56.3% cache hit rate)
– Выходные токены: 168 млрд при скорости 20–22 токена/с
🔗 Подробнее: *клик*
@ai_machinelearning_big_data
#AI #DeepLearning #DeepSeek #ml #opensource
DeepSeek выкатил подробный обзор своего инференса для моделей DeepSeek-V3/R1 – с акцентом на архитектурные инновации и невероятную экономическую эффективность.
DeepSeq R1 ежедневно приносит более $560 000, причем затраты на GPU составляют всего $87 000. Что озночает рентабельность в 545 %.
При таких расчетах теоретическая годовая выручка могла бы превысить $200 млн.
Компания также отметила, что затраты на обучение моделей составили менее $6 млн. Для сравнения, американские конкуренты, такие как OpenAI, инвестируют миллиарды долларов в обучение ИИ с использованием чипов NVIDIA H100. DeepSeek использует менее мощные NVIDIA H800, но это не мешает её моделям успешно конкурировать на глобальном рынке.
Данные за 24 часа:
– Входные токены: 608 млрд (с 56.3% cache hit rate)
– Выходные токены: 168 млрд при скорости 20–22 токена/с
Разительный контраст с американскими конкурентами, работающими в убыток.
Такой уровень доходности достигается за счёт оптимизированного распределения вычислений и гибкой архитектуры.
1) Prefilling фаза — здесь bспользуется EP32, где каждый GPU получает 9 направляемых экспертов и 1 общего эксперта, что позволяет минимизировать расходы на обработку данных.
2) Для Decoding используется EP144, перераспределяющий нагрузку так, что каждый GPU управляет 2 направляемыми экспертами и 1 общим экспертом. Такая стратегия помогает достичь высокой производительности без потери качества ответа.
– ~73.7k токенов/с для prefilling
– ~14.8k токенов/с для декодинга на одном узле H800
Данные за 24 часа:
– Входные токены: 608 млрд (с 56.3% cache hit rate)
– Выходные токены: 168 млрд при скорости 20–22 токена/с
@ai_machinelearning_big_data
#AI #DeepLearning #DeepSeek #ml #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤32👍23🔥10👏1
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ DeepSeek V3 strikes again!
На HF Появилась новая версия DeepSeek v3.
Еще Deepseek обновили свое приложение.
Страданиям OPENAI не будет конца 😂
~700GB, Лицензирование: mit, тестим тут.
Вы можете запустить его на компьютере M3 Mac Studio с 512 ГБ памяти, ( ~10 000 долларов) если используете квантованную версию на 352 ГБ через MLX.
🟡 HF :https://huggingface.co/deepseek-ai/DeepSeek-V3-0324/tree/main
@ai_machinelearning_big_data
#deepseek
На HF Появилась новая версия DeepSeek v3.
Еще Deepseek обновили свое приложение.
Страданиям OPENAI не будет конца 😂
~700GB, Лицензирование: mit, тестим тут.
Вы можете запустить его на компьютере M3 Mac Studio с 512 ГБ памяти, ( ~10 000 долларов) если используете квантованную версию на 352 ГБ через MLX.
@ai_machinelearning_big_data
#deepseek
Please open Telegram to view this post
VIEW IN TELEGRAM
👍91❤25🤣14🔥12🤷♂2
This media is not supported in your browser
VIEW IN TELEGRAM
Сгенерировал парочку простеньких HTML-игр с интерфейсом, работает годно.
@ai_machinelearning_big_data
#deepseek #vibecoding #app
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥108👍35❤18😁9🤩2😨1
Команда DeepSeek представила DeepSeek-GRM (Generalist Reward Modeling) - новую систему для моделирования вознаграждения (RM), цель которой - улучшить согласованность LLM с общими запросами (general query alignment).
DeepSeek-GRM предлагает новый масштабируемый способ построения более надежных и универсальных систем вознаграждения.
DeepSeek-GRM-27B с масштабированием во время инференса показывает SOTA (или близкие к SOTA) результаты на RM бенчмарках, будучи при этом эффективнее по параметрам, чем гигантские модели, и имея меньше проблем с систематическими ошибками.
LLM-as-a-Judge показывает схожие показатели, но с более низкой производительностью.
Это интересный вектор развития RM, переносящий часть "интеллекта" оценки на этап инференса для повышения качества моделей.
#LLM #AI #MachineLearning #RewardModeling #DeepSeek #ReinforcementLearning #NLP #OpenSource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍46🔥16❤7🤬1
DeepSeek объявила о публикации в открытый доступ кода своего механизма инференса, построенного на vLLM. Компания будет предоставлять отдельные функции и оптимизации из своей внутренней инфраструктуры, специально разработанные для ее моделей DeepSeek-V3 и R1.
Этот шаг - часть стратегии поддержки будущих моделей с доступом к улучшениям в сообществе разработчиков с открытым исходным кодом. Кроме того, DeepSeek опубликовала дорожную карту, в которой подробно описана стратегия использования открытого кода и планы сотрудничества с существующими оперсорс-проектами для расширения экосистемы инфраструктуры ИИ.
@ai_machinelearning_big_data
#DeepSeek #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤86👍40🔥16🤔5
🚀Масштабная архитектура на базе, которая содержит 671 млрд параметров, что в 96 раз больше, чем у предыдущей версии Prover-V1.5 (7 млрд).
Построен на базе архитектуры «смеси экспертов» (MoE), что снижает затраты на обучение и повышает эффективность решения задач.
Модель заточена на формальное доказательство теорем с помощью языка программирования Lean 4, обеспечивая 100% логическую точность.
Lean 4 — это зависимо типизированный функциональный язык программирования и интерактивное средство доказательства теорем.
Результаты:
• Новая Sota( 88,9%) на MiniF2F-test.
• DeepSeek-Prover-V2 смогла доказать 49 теорем из 658.
Для тренировки использовались 8 млн синтетических примеров, созданных через рекурсивный поиск решений теорем.
🔍 Как это работает:
1) Разложение теорем: DeepSeek-V3 по prompt'у разбивает сложные задачи на подцели.
2) Формализация: Пошаговые рассуждения переводятся в доказательства на Lean 4.
3) Cold-start: Полученные цепочки рассуждений и формальные доказательства используются как начальные данные для обучения модели.
• 7 B — базовый вариант.
• 671 B — расширенная версия на базе DeepSeek-V3-Base.
https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B
@ai_machinelearning_big_data
#DeepSeek
Please open Telegram to view this post
VIEW IN TELEGRAM
👍89🔥36❤21👌5😍5
Главное:
• Глубокое рассуждение — на уровне моделей Google
• Улучшена генерация текста — более естественно, структурировано и аккуратно
• Уникальный стиль reasoning — не просто быстро, а вдумчиво и последовательно
• Может работать над одной задачей 30–60 минут, удерживая контекст
Новая модель показывает результат почти на уровне o3 (High) на бенчмарк LiveCodeBench.
https://huggingface.co/deepseek-ai/DeepSeek-R1-0528
@ai_machinelearning_big_data
#DeepSeek #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
👍101🔥35❤25😁9🥱5❤🔥4🙈1🎄1
🐋 Гигантский кит приплыл на HF!
🚀 DeepSeek раскатывает Base релиз новой версии V3.1 — гибридной модели, способной совмещать рассуждения и быстрые задачи.
Следите за новостями, волна только набирает силу.
⚡ 685B параметров
📏 Контекстное окно 128k
https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base
@ai_machinelearning_big_data
#DeepSeek #AI #LLM #V3_1 #MachineLearning
🚀 DeepSeek раскатывает Base релиз новой версии V3.1 — гибридной модели, способной совмещать рассуждения и быстрые задачи.
Следите за новостями, волна только набирает силу.
⚡ 685B параметров
📏 Контекстное окно 128k
https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base
@ai_machinelearning_big_data
#DeepSeek #AI #LLM #V3_1 #MachineLearning
🔥98❤25👍24🐳6😨5🎉1
🐋 DeepSeek-V3.1 теперь можно запускать локально
Оригинальная модель весила 715GB, но её удалось уменьшить до 170GB RAM (−80%) с помощью новой техники квантовки Dynamic 1-bit GGUF.
⚡ Огромная экономия памяти
👉 Подробный гайд: https://docs.unsloth.ai/basics/deepseek-v3.1
👉 GGUF-модель: https://huggingface.co/unsloth/DeepSeek-V3.1-GGUF
Теперь топовую DeepSeek реально запустить даже на локальной машине, а не только в дата-центре 🚀
@ai_machinelearning_big_data
#DeepSeek #GGUF
Оригинальная модель весила 715GB, но её удалось уменьшить до 170GB RAM (−80%) с помощью новой техники квантовки Dynamic 1-bit GGUF.
⚡ Огромная экономия памяти
👉 Подробный гайд: https://docs.unsloth.ai/basics/deepseek-v3.1
👉 GGUF-модель: https://huggingface.co/unsloth/DeepSeek-V3.1-GGUF
Теперь топовую DeepSeek реально запустить даже на локальной машине, а не только в дата-центре 🚀
@ai_machinelearning_big_data
#DeepSeek #GGUF
❤119🔥50🤣45👍24🤔8🌚4☃3🙈2
🐳 Обновленная DeepSeek-V3.1-Terminus
Она даёт более стабильные и полные результаты на тестах по сравнению с предыдущей версией.
Языковая консистентность -китайцы значительно улучшили вывод модель - меньше случайных иероглифов и мешанины CN/EN.
Ряд Агентных апгрейдов рузльтаты на Code Agent и Search Agent стали заметно сильнее.
Доступна в приложении и в веб-версии и через API.
🔗 Открытые веса: https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus
@ai_machinelearning_big_data
#DeepSeek #opensource #llm
Она даёт более стабильные и полные результаты на тестах по сравнению с предыдущей версией.
Языковая консистентность -китайцы значительно улучшили вывод модель - меньше случайных иероглифов и мешанины CN/EN.
Ряд Агентных апгрейдов рузльтаты на Code Agent и Search Agent стали заметно сильнее.
Доступна в приложении и в веб-версии и через API.
🔗 Открытые веса: https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus
@ai_machinelearning_big_data
#DeepSeek #opensource #llm
👍68❤24🔥10🤨2💘1
🚀 DeepSeek-V3.2-Exp - вышла новая экспериментальная версия
⚡ Главное:
- Основана на V3.1-Terminus
- Новый механизм Sparse Attention (DSA) → быстрее и дешевле работа с длинными контекстами
- Качество почти без потерь, производительность как у V3.1
- API подешевел более чем на 50%
📊 V3.1 пока ещё будет доступна до 15 октября 2025.
💰 Цены:
- Input (cache hit): $0.07 → $0.028 (−60%)
- Input (cache miss): $0.56 → $0.28 (−50%)
- Output: $1.68 → $0.42 (−75%)
🔗 Hugging Face: https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp)
🔗 Tech Report: https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf)
🔗Github: https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
@ai_machinelearning_big_data
#DeepSeek #AI #V32 #SparseAttention #LLM
⚡ Главное:
- Основана на V3.1-Terminus
- Новый механизм Sparse Attention (DSA) → быстрее и дешевле работа с длинными контекстами
- Качество почти без потерь, производительность как у V3.1
- API подешевел более чем на 50%
📊 V3.1 пока ещё будет доступна до 15 октября 2025.
- Input (cache hit): $0.07 → $0.028 (−60%)
- Input (cache miss): $0.56 → $0.28 (−50%)
- Output: $1.68 → $0.42 (−75%)
🔗 Hugging Face: https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp)
🔗 Tech Report: https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf)
🔗Github: https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
@ai_machinelearning_big_data
#DeepSeek #AI #V32 #SparseAttention #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤102👍29🔥17👏3🤩2🥱2💘2🤨1
📄 DeepSeek-OCR - модель для распознавания текста 🔍
DeepSeek выпустили мощную OCR-модель, способную преобразовывать изображения документов прямо в Markdown или текст.
Что умеет:
- Распознаёт текст на изображениях и в PDF
- Работает с документами, таблицами и сложными макетами
- Поддерживает разные режимы: Tiny, Small, Base, Large
- Оптимизирована под GPU (PyTorch + CUDA 11.8)
- MIT-лицензия — можно свободно использовать и модифицировать
DeepSeek-OCR достигает высокой точности и эффективности за счёт компрессии визуальных токенов. На Omnidocbench - лучшая точность при минимуме визуальных токенов, превосходит другие OCR-модели по эффективности и скорости.
🟠 HF: https://huggingface.co/deepseek-ai/DeepSeek-OCR
🟠 Github: https://github.com/deepseek-ai/DeepSeek-OCR
🟠 Paper: https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf
@ai_machinelearning_big_data
#ocr #DeepSeek
DeepSeek выпустили мощную OCR-модель, способную преобразовывать изображения документов прямо в Markdown или текст.
Что умеет:
- Распознаёт текст на изображениях и в PDF
- Работает с документами, таблицами и сложными макетами
- Поддерживает разные режимы: Tiny, Small, Base, Large
- Оптимизирована под GPU (PyTorch + CUDA 11.8)
- MIT-лицензия — можно свободно использовать и модифицировать
DeepSeek-OCR достигает высокой точности и эффективности за счёт компрессии визуальных токенов. На Omnidocbench - лучшая точность при минимуме визуальных токенов, превосходит другие OCR-модели по эффективности и скорости.
@ai_machinelearning_big_data
#ocr #DeepSeek
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍246❤59🔥51👏18🤩9🥰6💯4😁2❤🔥1🤗1
📊 GenAI Traffic - статистика по ИИ трафику.
Свежие данные показывают, как меняется расстановка сил среди генеративных ИИ:
- ChatGPT продолжает терять долю рынка.
- Perplexity впервые перешагнул порог 2%.
🗓️ Год назад:
ChatGPT — 87.1%
Gemini — 6.4%
Perplexity — 1.7%
Claude — 1.7%
Copilot — 1.1%
🗓️ 6 месяцев назад:
ChatGPT — 78.8%
DeepSeek — 6.8%
Gemini — 5.5%
Grok — 3.1%
Perplexity — 1.5%
Claude — 1.3%
Copilot — 1.3%
🗓️ 3 месяца назад:
ChatGPT — 78.3%
Gemini — 8.7%
DeepSeek — 4.5%
Grok — 2.6%
Perplexity — 1.6%
Claude — 1.5%
Copilot — 1.2%
🗓️ Месяц назад:
ChatGPT — 76.4%
Gemini — 10.8%
DeepSeek — 4.0%
Grok — 2.2%
Perplexity — 2.0%
Claude — 1.9%
Copilot — 1.2%
🗓️ Сегодня:
ChatGPT — 74.1%
Gemini — 12.9%
DeepSeek — 3.7%
Perplexity — 2.4%
Grok — 2.0%
Claude — 2.0%
Copilot — 1.2%
📈 Тенденция очевидна:
ChatGPT теряет медленно, но верно трафик, рынок становится более сбалансированным, а Gemini и Perplexity показывают стабильный рост интереса пользователей. С выходом Gemini 3.0 рост, Google может ещё больше улучшить свои позиции.
@ai_machinelearning_big_data
#AI #GenAI #Analytics #ChatGPT #Gemini #Perplexity #Claude #DeepSeek #Copilot
Свежие данные показывают, как меняется расстановка сил среди генеративных ИИ:
- ChatGPT продолжает терять долю рынка.
- Perplexity впервые перешагнул порог 2%.
🗓️ Год назад:
ChatGPT — 87.1%
Gemini — 6.4%
Perplexity — 1.7%
Claude — 1.7%
Copilot — 1.1%
🗓️ 6 месяцев назад:
ChatGPT — 78.8%
DeepSeek — 6.8%
Gemini — 5.5%
Grok — 3.1%
Perplexity — 1.5%
Claude — 1.3%
Copilot — 1.3%
🗓️ 3 месяца назад:
ChatGPT — 78.3%
Gemini — 8.7%
DeepSeek — 4.5%
Grok — 2.6%
Perplexity — 1.6%
Claude — 1.5%
Copilot — 1.2%
🗓️ Месяц назад:
ChatGPT — 76.4%
Gemini — 10.8%
DeepSeek — 4.0%
Grok — 2.2%
Perplexity — 2.0%
Claude — 1.9%
Copilot — 1.2%
🗓️ Сегодня:
ChatGPT — 74.1%
Gemini — 12.9%
DeepSeek — 3.7%
Perplexity — 2.4%
Grok — 2.0%
Claude — 2.0%
Copilot — 1.2%
📈 Тенденция очевидна:
ChatGPT теряет медленно, но верно трафик, рынок становится более сбалансированным, а Gemini и Perplexity показывают стабильный рост интереса пользователей. С выходом Gemini 3.0 рост, Google может ещё больше улучшить свои позиции.
@ai_machinelearning_big_data
#AI #GenAI #Analytics #ChatGPT #Gemini #Perplexity #Claude #DeepSeek #Copilot
👍102🤔90🔥19❤16👏13🤩11💯7🤗3😁1