VidTok – универсальный и открытый видео токенизатор, демонстрирующий высокую производительность как в непрерывной, так и в дискретной токенизации.
Токенизация видео, преобразующая исходные данные в компактные латентные токены - важнейший шаг для задач генерации и понимания видео. VidTok предлагает ряд улучшений, которые позволяют ему превзойти существующие методы: модельную архитектуру, методы квантования и стратегии обучения.
В архитектуре VidTok пространственное и временное сэмплирование обрабатываются раздельно, используя 2D свертки для пространственных модулей и оператор AlphaBlender для временных, при этом сохраняя 3D свертки для слияния информации.
Для дискретной токенизации используется конечное скалярное квантование (FSQ), которое оптимизирует неявный кодовый словарь, улучшая стабильность обучения. Эффективность обучения достигается двухэтапной стратегией: предварительное обучение на видео с низким разрешением, а затем дообучение декодера на видео с высоким разрешением.
VidTok обучался на датасете видеоданных с разным разрешением (400 000 видео 480p и 10 000 видео 1080p). Производительность измерялась с использованием метрик PSNR, SSIM, LPIPS и FVD, результаты показали превосходство VidTok по сравнению с другими токенизаторами как в дискретной, так и в непрерывной токенизации.
При сравнении с MAGVIT-v2, OmniTokenizer, CV-VAE, Open-Sora и Cosmos-Tokenizer, VidTok достиг лучших показателей, с меньшим размером модели.
vidtok - базовое название;kl или fsq - тип регуляризации и квантования латентного пространства;causal или noncausal - тип обработки временной информации (покадрово или все кадры сразу);488 или 41616 - компрессионное соотношение (VCR), которое определяет степень сжатия видео по времени, высоте и ширине. Например, 4x8x8 и 4x16x16;4chn, 8chn или 16chn - количество каналов в латентном пространстве для непрерывных токенизаторов. Чем больше каналов - тем качественней видео;262144, 32768 или 4096 - размер codebook для дискретных токенизаторов с использованием FSQ. Чем больше - тем точнее представлятся информация.# Clone repo
git clone https://github.com/microsoft/VidTok
cd VidTok
# Create conda env
conda env create -f environment.yaml
conda activate vidtok
# Inference
import torch
from scripts.inference_evaluate import load_model_from_config
cfg_path = "configs/vidtok_kl_causal_488_4chn.yaml"
ckpt_path = "checkpoints/vidtok_kl_causal_488_4chn.ckpt"
is_causal = True
device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
# load pre-trained model
model = load_model_from_config(cfg_path, ckpt_path)
model.to(device).eval()
# random input
num_frames = 17 if is_causal else 16
x_input = (torch.rand(1, 3, num_frames, 256, 256) * 2 - 1).to(device) # [B, C, T, H, W], range -1~1
# model forward
_, x_recon, _ = model(x_input)
assert x_input.shape == x_recon.shape
@ai_machinelearning_big_data
#AI #ML #Microsoft #VidTok
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍26❤7🔥4
🔥 Microsoft только что выпустила Phi-4 LLM, обученный на 9,4 триллионах токенов.
Лицензия MIT!
🤗 HF: https://huggingface.co/microsoft/phi-4
🧠 Demo: https://huggingface.co/spaces/Tonic/Phi-4
@ai_machinelearning_big_data
#phi4 #llm #Microsoft
Лицензия MIT!
🤗 HF: https://huggingface.co/microsoft/phi-4
@ai_machinelearning_big_data
#phi4 #llm #Microsoft
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍68❤18🔥11🤔2🤬1😐1
⚡Microsoft на высоте!
rStar-Math SoTA для решения математических задач с точностью 90,0% (по сравнению с 58,8% Qwen2.5-Math-7B) и 86,4% (по сравнению с 41,4% Phi3-mini-3.8B), 🔥
превосходя o1-preview на 4,5% и 0,9%, решает 53,3% задач математической олимпиады США, попадая в 20% лучших математиков старшей школы
Код будет опубликован в ближайшее время! 🤗
https://huggingface.co/papers/2501.04519с
@ai_machinelearning_big_data
#microsoft #llm
rStar-Math SoTA для решения математических задач с точностью 90,0% (по сравнению с 58,8% Qwen2.5-Math-7B) и 86,4% (по сравнению с 41,4% Phi3-mini-3.8B), 🔥
превосходя o1-preview на 4,5% и 0,9%, решает 53,3% задач математической олимпиады США, попадая в 20% лучших математиков старшей школы
Код будет опубликован в ближайшее время! 🤗
https://huggingface.co/papers/2501.04519с
@ai_machinelearning_big_data
#microsoft #llm
❤64👍36🔥24🤔4❤🔥1🤩1
📄 ML NEWS
🤖 Microsoft Research только что опубликовали новую версию AutoGen - суперпопулярного фреймворка для работы с агентами с открытым исходным кодом
AutoGen v0.4 это переработанный фреймворк, в котором значительно улучшена масштабируемость, добавлена модульность и новая система отладки процессов agentic AI за счет внедрения асинхронной архитектуры, управляемой событиями.
▪ Github
🖥 Google представил архитектуру Titans, которая возможно станет очень важным элементом развития больших языковых моделей (LLM) в 2025 году.
Архитектура состоит из 3х типов памяти:
- Краткосрочная память – для оперативной обработки данных.
- Долгосрочная память – для всей сохранения значимой информации.
- Постоянная память – для фиксации важной информации.
По заявлениям разработчиков Titans может эффективно обрабатывать контекст превышающим 2 миллионов токенов.
▪Подробнее
🖥 ChatGPT теперь таск-менеджер:
ИИ теперь способен инициировать диалог благодаря новой функции Tasks. Ранее он только отвечал на запросы, а теперь способен самостоятельно выполнять задачи.
Tasks позволяют пользователям давать ChatGPT задачи с указанием времени выполнения.
▪Подробнее
📱 DeepSeek V3 вышел на айфонах
Приложение доступно AppStore бесплатно и работает очень быстро
▪Скачать можно здесь.
⚡️ Выпущена новая открытая модель Omni!
MiniCPM-o 2.6 - мультимодальная модель с 8B параметрами, работающая на edge девайсах.
- 8B параметров (SigLip-400M + Whisper-300M + ChatTTS-200M + Qwen2.5-7B)
- Превосходит GPT-4V в vision задачах с 70. 2 баллами на OpenCompass
- Лучшие в своем классе возможности двуязычной речи с разговором в реальном времени и клонированием голоса
▪ Model
👩💻 Stable point-aware 3D от Stability AI
Свежий инструмент с открытым исходным кодом, который отлично справляется с созданием 3D объектов по одному изображению.
▪Github
@ai_machinelearning_big_data
#news #ml #digest #Stability #chatgpt #google #microsoft #deepSeek #MiniCPM
AutoGen v0.4 это переработанный фреймворк, в котором значительно улучшена масштабируемость, добавлена модульность и новая система отладки процессов agentic AI за счет внедрения асинхронной архитектуры, управляемой событиями.
▪ Github
Архитектура состоит из 3х типов памяти:
- Краткосрочная память – для оперативной обработки данных.
- Долгосрочная память – для всей сохранения значимой информации.
- Постоянная память – для фиксации важной информации.
По заявлениям разработчиков Titans может эффективно обрабатывать контекст превышающим 2 миллионов токенов.
▪Подробнее
ИИ теперь способен инициировать диалог благодаря новой функции Tasks. Ранее он только отвечал на запросы, а теперь способен самостоятельно выполнять задачи.
Tasks позволяют пользователям давать ChatGPT задачи с указанием времени выполнения.
▪Подробнее
Приложение доступно AppStore бесплатно и работает очень быстро
▪Скачать можно здесь.
⚡️ Выпущена новая открытая модель Omni!
MiniCPM-o 2.6 - мультимодальная модель с 8B параметрами, работающая на edge девайсах.
- 8B параметров (SigLip-400M + Whisper-300M + ChatTTS-200M + Qwen2.5-7B)
- Превосходит GPT-4V в vision задачах с 70. 2 баллами на OpenCompass
- Лучшие в своем классе возможности двуязычной речи с разговором в реальном времени и клонированием голоса
▪ Model
Свежий инструмент с открытым исходным кодом, который отлично справляется с созданием 3D объектов по одному изображению.
▪Github
@ai_machinelearning_big_data
#news #ml #digest #Stability #chatgpt #google #microsoft #deepSeek #MiniCPM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍36❤26🔥8
This media is not supported in your browser
VIEW IN TELEGRAM
В отличие от традиционных методов скрининга, он генерирует новые материалы, используя диффузионную модель, изменяя такие свойства, как химический состав, механическая прочность или магнитные характеристики.
Результат экспериментально подтвержден успешным синтезом материалов.
→ MatterGen представляет собой переход от традиционных методов проб и ошибок и вычислительного скрининга, напрямую генерируя новые материалы в соответствии с конкретными проектными заданиями, что значительно сокращает время создания и потребность в ресурсах.
→ Модель построена на основе специализированной диффузионной архитектуры и учитывает 3D-геометрию и наличие материалов, используя обучающий набор из более чем 608 000 стабильных соединений из известных баз данных материалов.
→ Модель превосходит традиционный скрининг, особенно в неисследованных материалов, что подтверждается ее способностью генерировать стабильные материалы со специфическими свойствами, выходящими за рамки существующих известных материалов.
→ Экспериментальная проверка подтвердила успешный синтез материала TaCr2O6, в точности совпадающий с предсказаниями модели, продемонстрировав практическую пригодность MatterGen в создании реальных материалов.
→ Выпущенная под лицензией MIT, модель MatterGen вместе с обучающими наборами данных предоставляет исследователям развивать и расширять этот инновационный подход.
📌 Читать
@ai_machinelearning_big_data
#microsoft #tech #MatterGen
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥69👍22❤11🥰3👾3👏1
🚀rStar-Math от Microsoft - техника, которая позволяет улучшать небольшие модели, такие как Qwen-7B и Phi3-mini, позволяя им работать на уровне OpenAI o1 и выше в решении математических задач.
Ключевые моменты:
🔗Пошаговое рассуждение (Monte Carlo Tree Search ): Модель симулирует глубокое мышление, анализируя каждый шаг решения для повышения точности.
Проверка решений через код: На каждом шаге генерируется текстовое объяснение и код на Python, который автоматически проверяется, чтобы отсеивать ошибки.
Самообучение: Модели улучшают друг друга за счет итеративного обучения в 4 итерации, что значительно повышает их росту производительности на тестах. Обучение на основе предпочтений: Модель вознаграждения процессов (PPM) сравнивает шаги рассуждения, чтобы улучшать их без ручного вмешательства, выбирая лучшие траектории.
Большие данные для обучения: Используется 747 000 математических задач с проверенными решениями для тренировки модели.
📊 Результаты:
🤯Точность Qwen2.5-Math-7B на тесте MATH выросла с 58,8% до 90,0%.
🤯🤯Phi3-mini-3.8B улучшилась с 41,4% до 86,4%.
🤯🤯🤯Модель решает 53,3% задач USA Math Olympiad, что соответствует уровню топ-20% среди старшеклассников.
Технология сочетает глубокое рассуждение, автоматическую проверку и самообучение для достижения высоких результатов.
◾️GitHub
@ai_machinelearning_big_data
#rstar #microsoft #mah
Ключевые моменты:
🔗Пошаговое рассуждение (Monte Carlo Tree Search ): Модель симулирует глубокое мышление, анализируя каждый шаг решения для повышения точности.
Проверка решений через код: На каждом шаге генерируется текстовое объяснение и код на Python, который автоматически проверяется, чтобы отсеивать ошибки.
Самообучение: Модели улучшают друг друга за счет итеративного обучения в 4 итерации, что значительно повышает их росту производительности на тестах. Обучение на основе предпочтений: Модель вознаграждения процессов (PPM) сравнивает шаги рассуждения, чтобы улучшать их без ручного вмешательства, выбирая лучшие траектории.
Большие данные для обучения: Используется 747 000 математических задач с проверенными решениями для тренировки модели.
📊 Результаты:
🤯Точность Qwen2.5-Math-7B на тесте MATH выросла с 58,8% до 90,0%.
🤯🤯Phi3-mini-3.8B улучшилась с 41,4% до 86,4%.
🤯🤯🤯Модель решает 53,3% задач USA Math Olympiad, что соответствует уровню топ-20% среди старшеклассников.
Технология сочетает глубокое рассуждение, автоматическую проверку и самообучение для достижения высоких результатов.
◾️GitHub
@ai_machinelearning_big_data
#rstar #microsoft #mah
❤29👍25🔥15🐳2😁1
В релиз добавлен ряд улучшений:
🔥 torch.compile теперь поддерживает Python 3.13
🔥 Новый torch.compiler.set_stance
🔥 Улучшения в AOTInductor
🔥 Поддержка FP16 на процессорах X86.
Сегодня утром был опубликован Международный отчет о безопасности искусственного интеллекта, и OpenAI поделилась предварительными результатами тестов o3.
«значительно более высокие показатели, чем у любой предыдущей модели, в ряде самых сложных тестов в области программирования, абстрактного мышления и научного мышления»
- LLama 4 и LLama 4 mini (на претренинге)
- Подтверждает ризонинг в LLaMa!
- Llama 4 будет изначально мультимодальной
- это омни-модель
- она будет иметь агентские возможности.
- 👓 — идеальный форм-фактор для ИИ
- строительство центра обработки данных размером с Манхэттен
Компания Wiz Research обнаружила «DeepLeak» — общедоступную базу данных ClickHouse, принадлежащую DeepSeek, которая раскрывает крайне конфиденциальную информацию, включая секретные ключи, текстовые сообщения чата, сведения о бэкэнде и журналы.
Codegen - это новый SDK к мощному многоязычному языковому серверу,
Который позволяет делать рефакторинг, применение паттернов, анализ целых проектов и т. д.
Несмотря на открытие завода в Аризоне, TSMC по-прежнему производит большую часть своих чипов на Тайване.
А поскольку чипы TSMC обычно отправляются в Китай и другие азиатские страны для сборки, прежде чем попасть в США, эти пошлины в случае их введения могут привести к росту стоимости такой электроники, как iPhone, игровые графические процессоры и ноутбуки.
- превосходит лучшие малые модели в задачах оценки на 11 бенчмарках
- превосходит GPT-4o в RewardBench и EvalBiasBench
- отлично работает в реальных приложениях
Коллекция записных книжек, демонстрирующих варианты использования Qwen2.5-VL, включая локальную модель и API. Примеры включают в себя использование вычислений, пространственное понимание, разбор документов, мобильный агент, распознавание текста, Универсальное распознавание, понимание видео.
@ai_machinelearning_big_data
#pytorch #pytorchrelease #opensource #LLama #LLama4 #openai #chatgpt #ai #news #ml #llm #ainews #LumaLabsAI #Microsoft #DeepSeek #qwen
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥86👍31❤27💯2😁1🕊1
CEO OpenAI Сэм Альтман опубликовал в X (Twitter) планы по выпуску GPT-4.5 и GPT-5.
GPT-4.5, которую раньше называли Orion, станет последней моделью без использования цепочек рассуждений. GPT-5 будет представлена как система, объединяющая сразу несколько технологий, включая бэкграунд o3. Как отдельная модель, о3 перестанет существовать.
Бесплатные пользователи ChatGPT получат неограниченный доступ к GPT-5 на стандартном уровне возможностей модели, а подписчики Plus и Pro — на более высоких уровнях. Точные сроки выпуска GPT-4.5 и GPT-5 не названы, но ожидаются в течение нескольких недель или месяцев. OpenAI также стремится упростить свой продуктовый ряд, отказавшись от выбора моделей и стремясь к «магическому унифицированному интеллекту».
x.com
Генератор видео от Adobe - Generate Video позволяет создавать видео из текста или изображений. Инструмент доступен через веб-приложение Firefly и интегрирован с Creative Cloud, Photoshop и Premiere Pro. Пользователи могут настраивать стиль, углы камеры, движение и расстояние съемки. Видео выводится в формате 1080p при 24 кадрах в секунду. Для генерации клипов продолжительностью до 5 секунд требуется в среднем 90 секунд.
Помимо Generate Video, Adobe представила 2 новых инструмента: Scene to Image и Translate Audio and Video и открыла планы подписки на Firefly: Standard (9,99 долл. США в месяц) и Firefly Pro (29,99 долл. США в месяц). Подписка дает кредиты на создание видео/аудио.
blog.adobe.com
Perplexity запустила обновленную версию поисковой модели Sonar, которая основана на Llama 3.3 70B и работает на мощностях от Cerebras Systems. Внутренние тесты, проведенные Perplexity показали, что Sonar превосходит GPT-4o mini и Claude 3.5 Haiku по удовлетворенности пользователей и сравнивается с GPT-4o и Claude 3.5 Sonnet в поисковых задачах.
Cerebras Systems использует уникальные Wafer Scale Engines, позволяющие Sonar обрабатывать 1200 токенов в секунду, что дает почти мгновенные ответы. Доступ к Sonar ограничен для платных пользователей Pro, но Perplexity планирует сделать его более широко доступным в будущем.
perplexity.ai
Microsoft официально подтвердила, что полностью прекращает разработку оборудования HoloLens и объявила о прекращении разработки HoloLens 2. Робин Сейлер, вице-президент подразделения смешанной реальности Microsoft, заявил, что компания перейдет от разработки оборудования к облачным технологиям и технологиям ИИ, но по-прежнему будет предоставлять аппаратную и программную поддержку для HoloLens 2 до 2027 года.
theverge.com
Новые конструкции роботов-насекомых легче и имеют достаточно места для размещения батарей. Эти роботы, размером меньше скрепки, могут выполнять опыление и увеличить урожайность без вреда для окружающей среды.
Предыдущие модели имели 8 крыльев и имели меньшую производительность. Новая конструкция состоит из 4 блоков, каждый с одним крылом, что позволяет стабилизировать вертикальное движение. Улучшенная точность и ловкость роботов, ставшая возможной за счет внедрения новой системы, имитирующей механику мышц, уменьшили нагрузку на крылья. Ученые планируют интегрировать в этих роботов датчики, батареи и вычислительные возможности в ближайшие 5 лет.
livescience.com
Github
✨ 1B/ 2B /4B/8B/16B/34B
HF
@ai_machinelearning_big_data
#news #ai #ml #openai #chatgpt #MIT #Microsoft #Adobe
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51❤15🔥11🥰3🤣2😢1
Курс содержит пошаговые инструкции с примерами кода, которые помогут научиться создавать автономных агентов с использованием машинного обучения.
Фокус на AI-агентах:
Если вас интересует именно разработка агентов — например, для симуляций, игр или интерактивных систем — данный курс будет полезен.
Каждый урок включает в себя:
- Лекцию, (видео уроки появятся в марте 2025 года)
- Примеры кода на Python с поддержкой Azure AI Foundry и Github Models
- Практические задания
- Ссылки на полезные дополнительные ресурсы
Если это ваш первый опыт работы с агентами, у Microsoft есть еще 1 курс «Генеративный ИИ для начинающих», который содержит 21 урок по построению моделей с помощью GenAI, лучше начать с него.
Переведен на 9 различных языков (русского нет).
▪ Github
@ai_machinelearning_big_data
#course #Microsoft #aiagents #ai #ml #opensource #freecourse
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤49👍20🔥12😁3🥱3
В статье исследуется применение обучения с подкреплением (RL) к большим языковым моделям (LLMs) улучшает их способность решать сложные задачи программирования и рассуждений. Авторы сравнивают три модели: общую модель o1, её специализированную версию o1-ioi (адаптированную для соревнований IOI) и более продвинутую модель o3.
Модель o1 значительно превосходит модели без цепочек рассуждений (например, gpt-4o) по показателям на платформе CodeForces.
Специализированная o1-ioi, оптимизированная для соревнований IOI, показывает хорошие результаты с ручными стратегиями, но её успех зависит от дополнительной настройки и тестовых стратегий.
Модель o3, обученная только с RL и без доменно-специфичных стратегий, демонстрирует ещё более высокую производительность, достигая результатов на уровне элитных программистов мира как на CodeForces, так и на IOI.
Применение в реальных задачах:
Масштабирование RL для общего использования, а не применение специализированных ручных стратегий, является эффективным путём достижения передового уровня ИИ в задачах рассуждения и программирования.
Статья
Тред
Релиз состоится 18 февраля в 04:00 (GMT+3). Похоже, что Grok-3 выйдет с режимом рассуждений.
выпустили новую очень сложную оценку рассуждений LLM:
EnigmaEval: 1184 мультимодальные головоломки, настолько сложные, что на их решение группам людей требуется от многих часов до нескольких дней.
Все топ-модели набрали 0% в Hard set и < 10% в Normal set
Scale
От оценки позы до обнаружения объектов в реальном времени - свежие, передовые инструменты компьютерного зрения на Hugging Face, которые очень просты в использовании.
- ViTPose для оценки позы
- RT-DETRv2 для обнаружения объектов в реальном времени
- DAB-DETR улучшает оригинальный DETR, решая проблемы медленного обучения
- DepthPro от Apple для оценки глубины на одном изображении, выдавая расстояния на уровне пикселей в метрах менее чем за секунду.
Свежий инструмент, который представляет собой готовое решение для создания десктопного GUI-агента. С его помощью можно отдавать команды и автоматизировать задачи на ПК (Windows и macOS) через веб-интерфейс, доступный с любого устройства с интернетом.
Github
@ai_machinelearning_big_data
#news #ai #ml #openai #grok #grok3 #Microsoft #ScaleAI #elonmusk #cv #sota #opensource #agents
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍50❤14🔥9😁2🐳1