Модель обучена на разнообразных мультимодальных данных и может объединять разные типы входных сигналов в общее векторное представление.
- Поддержка всех типов данных: текст, изображение, аудио, видео.
- Основана на архитектуре Qwen Omni (Thinker-модуль, без генерации текста).
- Контекст - до 32 768 токенов, размер embedding — 2048.
- Оптимизирована под GPU, поддерживает FlashAttention 2.
Это делает её идеальной для:
- кросс-модального поиска (поиск текста по видео или изображению);
- улучшения RAG-проектов;
- систем мультимодального понимания контента.
Просто, быстро и эффективно - всё в одном открытом решении.
🌐 Открытая модель: https://huggingface.co/nvidia/omni-embed-nemotron-3b
@ai_machinelearning_big_data
#crossmodal #retrieval #openAI #NVIDIA #OmniEmbed #multimodal #AIModels #OpenSource #Search #UnifiedEmbedding
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍75🔥39❤15🥰5💘2
Ошеломляющий контраст: одна NVIDIA ($4.6 трлн) сейчас стоит дороже, чем все банки США и Канады вместе ($4.2 трлн) 🫧
@ai_machinelearning_big_data
#nvidia
@ai_machinelearning_big_data
#nvidia
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥169😁60🤔37😨24❤14👏12🎉7🤩7🥱6👍4❤🔥2
OmniVinci - модель, способная одновременно понимать и обрабатывать разные типы информации: текст, изображения, видео и звук.
Модель крайне эффективна, несмотря на то, что была обучена всего на 200 млрд. токенов (что в 6 раз меньше, чем у Qwen2.5-Omni - 1.2 трлн.). Это стало возможным благодаря архитектурным фишкам и тщательному подходу к подготовке данных.
В основе OmniVinci 3 компонента:
Абляция показала, что вклад каждого элемента играет свою важную роль: базовая модель с простой конкатенацией токенов набирает в среднем 45.51 балла. Добавление TEG поднимает результат до 47.72 (+2.21), CRTE — до 50.25 (+4.74 от базовой), а финальный слой в виде OmniAlignNet доводит средний балл до 52.59, что в сумме дает прирост в 7.08 пункта.
Данные для обучения - 24 млн. диалогов, которые пропустили через систему, где отдельная LLM анализирует и объединяет описания из нескольких модальностей, создавая единую и корректную аннотацю.
Итоговый датасет на 36% состоял из изображений, на 21% из звуков, на 17% из речи, 15% - из смешанных данных и на 11% из видео.
В бенчах OmniVinci обошла всех конкурентов. На Worldsense модель набрала 48.23 балла против 45.40 у Qwen2.5-Omni. На Dailyomni - 66.50 против 47.45. В аудио-задачах OmniVinci тоже молодец: 58.40 в MMAR и 71.60 в MMAU.
В распознавании речи модель показала WER 1.7% на датасете LibriSpeech-clean.
Применение модели протестили на практике. В задаче классификации дефектов полупроводниковых пластин, OmniVinci достигла точности 98.1%, что лучше, чем у специализированной NVILA (97.6%), и у более крупную 40-миллиардную VILA (90.8%).
@ai_machinelearning_big_data
#AI #ML #NVIDIA #OmniVinci
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52❤20🔥12🤣3🤗3💅3🕊2
💴 Капитализация Nvidia превысила $5 трлн - впервые в истории компания достигла такой оценки.
За пять лет акции $NVDA подскочили более чем на 1500%. Производитель чипов зарабатывает на взрывном спросе со стороны Microsoft, OpenAI и других игроков ИИ-рынка.
Пока все искали золото, Nvidia продавала лопаты - и стала самой дорогой компанией в мире.
@ai_machinelearning_big_data
#Nvidia
За пять лет акции $NVDA подскочили более чем на 1500%. Производитель чипов зарабатывает на взрывном спросе со стороны Microsoft, OpenAI и других игроков ИИ-рынка.
Пока все искали золото, Nvidia продавала лопаты - и стала самой дорогой компанией в мире.
@ai_machinelearning_big_data
#Nvidia
👍159🎉60😁36🔥22❤12👏9🥱9🤔7🤩5😍2💅1
This media is not supported in your browser
VIEW IN TELEGRAM
С ним за столом сидели руководители Samsung и Hyundai.
@ai_machinelearning_big_data
#Nvidia
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤224👍66🍾39😁14🥰11🥱6👏5🔥2🗿1