330K subscribers
4.17K photos
768 videos
17 files
4.69K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟 Megrez-3B-Omni: модель обработки 3-х модальностей: изображений, речи и аудио.

Megrez-3B-Omni - это мультимодальная модель для использования устройствах, разработанная Infinigence AI. Она является расширением модели Megrez-3B-Instruct и поддерживает анализ изображений, текста и аудио.

Модель демонстрирует высокие результаты во всех трех целевых областях знаний:

🟢Понимание изображений: благодаря использованию SigLip-400M для создания токенов изображений, Megrez-3B-Omni превосходит модели с большим количеством параметров, например, LLaVA-NeXT-Yi-34B.
Согласно тестам MME, MMMU и OCRBench, Megrez-3B-Omni является одной из лучших моделей понимания изображений и показывает отличные результаты в задачах понимания сцен и оптического распознавания текста.

🟢Понимание языка: по сравнению с одномодальным аналогом (Megrez-3B-Instruct), разница в точности составляет менее 2%, при этом сохраняются лидирующие показатели на тестах C-EVAL, MMLU/MMLU Pro и AlignBench. Модель также превосходит предыдущие поколения моделей с 14 млрд. параметров.

🟢Понимание речи: Megrez-3B-Omni оснащена энкодерами Qwen2-Audio(для китайского)/whisper-large-v3(для английского) и речевой ввод, многоходовые диалоги и голосовые вопросы по входным изображениям. Она может реагировать на голосовые команды текстом и показывает лидирующие результаты на различных контрольных тестах.

Инференс модели возможен с Transformers , в vLLM и в webUI Gradio.


▶️Локальная установка и запуск web demo c GrarioUI:

# Clone repo
git clone https://github.com/infinigence/Infini-Megrez-Omni.git
cd Infini-Megrez-Omni

# Create conda env
conda create -n Megrez-Omni -y
conda activate Megrez-Omni

# Install dependencies
pip install -r requirements.txt

# Run webUI
python gradio_app.py --model_path {model_path} --port {port}


📌Лицензирование: Apache 2.0 License.


🟡Модель
🟡Demo
🖥Github


@ai_machinelearning_big_data

#AI #ML #MMLM #Megrez3BOmni
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
20👍9🔥6😁2