Это подборка интерактивных ноутбуков, демонстрирующих возможности Qwen3-VL - как при локальном запуске, так и через API.
Внутри - десятки реальных примеров с разборами:
▪ Работа с изображениями и рассуждение по ним
▪ Агент для взаимодействия с интерфейсами (Computer-Use Agent)
▪ Мультимодальное программирование
▪ Распознавание объектов и сцен (Omni Recognition)
▪ Продвинутое извлечение данных из документов
▪ Точное определение объектов на изображении
▪ OCR и извлечение ключевой информации
▪ 3D-анализ и привязка объектов
▪ Понимание длинных документов
▪ Пространственное рассуждение
▪ Мобильный агент
▪ Анализ и понимание видео
@ai_machinelearning_big_data
#Qwen #Qwen3VL #AI #VisionLanguage #Multimodal #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤76🔥26👍22💘1
📄 PaddleOCR-VL (0.9B) — компактная Vision-Language модель нового поколения
Команда Baidu AI представила PaddleOCR-VL (0.9B) — сверхлёгкую VLM-модель, которая достигает SOTA-точности в задачах распознавания:
- текстов,
- таблиц,
- формул,
- графиков
💡 Под капотом:
- NaViT - динамический vision-энкодер
- ERNIE - облегчённая языковая модель от Baidu
⚡️ Поддержка 109 языков.
🟠 GitHub: https://github.com/PaddlePaddle/PaddleOCR)
🟠 HuggingFace: https://huggingface.co/PaddlePaddle/PaddleOCR-VL
🟠 Docs https://paddleocr.ai/latest/en/index.html
@ai_machinelearning_big_data
#BaiduAI #PaddlePaddle #Ernie #PaddleOCR #VisionLanguage #AI #OCR
Команда Baidu AI представила PaddleOCR-VL (0.9B) — сверхлёгкую VLM-модель, которая достигает SOTA-точности в задачах распознавания:
- текстов,
- таблиц,
- формул,
- графиков
💡 Под капотом:
- NaViT - динамический vision-энкодер
- ERNIE - облегчённая языковая модель от Baidu
@ai_machinelearning_big_data
#BaiduAI #PaddlePaddle #Ernie #PaddleOCR #VisionLanguage #AI #OCR
Please open Telegram to view this post
VIEW IN TELEGRAM
❤41🔥21👍13😁2💘1