This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
> Zero-shot - клонирование голоса > Многоязычный (en, jp, ko, zh, fr, de)
> Обучен 20 000 часам аудиозаписей
> Работает от OLMo-1B и Qwen 2.5 0.5B
> > Функции контроль скорости речь и эмоций
🤗 Hugging Face выпустили открытый курс по изучению AI-агентов на практике.
За прохождение курса можно получить сертификат и самое главное, что при обучении упор идет на практику.
Вы погрузитесь в популярные фреймворки агентов, такие как LangChain, LlamaIndex и smolagents. Эти инструменты предоставляют строительные блоки для создания сложных поведений агентов.
🎥 Компания Luma AI только что выпустила #Ray2 - новую модель видео с искусственным интеллектом, которая создает реалистичные видеоролики с естественным и последовательным движением. Поддерживает text-to-video и image-to video. Доступна платно.
🎓 Transformer2: Self-adaptive LLMs
SakanaAi представили новую структуру самоадаптации моделей, при которой LLM адаптируется для невидимых задач в реальном времени, выборочно корректируя только отдельные компоненты своих весовых матриц.
Во время вывода используется система диспетчеризации, которая определяет свойства задачи, а затем использует векторы «экспертов» для конкретной задачи, обученные с помощью reinforcement learning👀
🧞Omni-RGPT: очередная SOTA MLLM
NVIDIA представляли Omni-RGPT, MLLM, для понимания изображений и видео на уровне отдельных объектов и регионов на видео.
⚡️ Bespoke Curator
Curator - библиотека с открытым исходным кодом, разработанная для упрощения создания синтетических данных!
🌏 Earth View предлагает огромную коллекцию мультиспектральных изображений
Земли из нескольких спутниковых источников, включая Satellogic, Sentinel-1, NEON и предстоящий Sentinel-2.
@ai_machinelearning_big_data
#ml #news #digest #machinelearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24❤11🔥8
- VideoChat2-Flash, мощный MLLM, построенный на базе видеокодера (UMT) и LLM (Qwen).
Внутри новая высокоэффективная архитектура модели с исключительной скоростью инференса, которая позволяет кодировать каждый видеокадр всего в 16 токенов, что в 5-10 раз быстрее, чем в предыдущей модели OpenGVLab.
Модели представлены в размерах 2B и 7B и разрешении 224 и 448.
- BytedanceTalk выпустил модель SA2VA с параметрами 26B.
Sa2VA - это MLM, способный отвечать на вопросы, понимать изображения и видео выполнять сегментацию. Модель, сопоставима с SOTA моделями в своем классе Qwen2-VL и InternVL2.5 в QA тестах.
- VRC-Bench - это новый бенчмарк для оценки эффективности мультимодальных LLM.
- MiniCPM-o 2.6 - это новая мультимодальная модель с 8B параметрами, работающая на edge девайсах. Лучшая в своем классе возможности двуязычной речи с разговором в реальном времени и клонированием голоса.
💬 LLM
- MiniMax-Text-01 - новая языковая модель, которая стабильно обходит GPT-4o и Gemini-2 на бенчмарках с длинным контекстом, сохраняя высокие оценки (0.910-0.963) при длине контекста до 4M токенов🤯
- Датасет: Sky-T1-data-17k - это разнообразный набор данных, используемый для обучения Sky-T1-32B - ризонинг модели, которую можно обучить всего за 450 долларов!
- Kyutai labs выпустили Helium-1 Preview 2B - многоязычный LLM для edge девайсов и мобильных устройств.
- Wayfarer-12B - новая модель генерации текстовой приключенческой ролевой игры от AI Dungeon🧙🏻
- ReaderLM-v2 - это новая модель синтаксического анализа HTML от JinaAI.
- Вriaforall выпустила Dria-Agent-a-3B, новую модель генерации кода (для Python), основанную на Qwen2.5.
- UnslothAI адаптировали Phi-4 к архитектуре Llama 3.3 сделав, более быструю и экономичную по памяти версию.
👀 Vision
- MatchAnything - это новая универсальная модель для сопоставления изображений.
- FitDit - это высококачественная модель виртуальной примерочной, основанная на архитектуре DiT.
⭐️ Аудио
- OuteTTS-0.3-1B - это новая многоязычная модель преобразования текста в речь с возможностью клонирования голоса и управления эмоциями.
📖 Поиск
- Lightblue выпустила новую модель для поиска связи в тексте, основанную на Qwen2.5. LB-reranker-0.5B-v1.0, которая поддерживает более 95 языков
- cde-small-v2 - это новая SOTA модель эмбедингов текста небольшого размера.
LeetGPU - бесплатная платформа для написания и запуска кода на CUDA.
Вы можете практиковаться и изучать CUDA онлайн, без использования графического процессора!
@ai_machinelearning_big_data
#ml #digest #datasets #opensource #ai #llm #news
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍54🔥12❤7🦄2
Релиз R1 и новости об инвестировании в развитие отрасли, вызвали падение акций американских ИТ-гигантов на бирже NASDAQ. Акции NVIDIA упали уже на 14% за сутки. Компания потеряла 465 млрд долларов и это антирекорд.
Но помимо R1 в этом месяце разработчики из Китая выпустили еще очень много интересных моделей 🔥 Китай набирает очень серьезные обороты,
Давайте посмотрим на список самых ярких релизов из Поднебесной за январь:
LLM:
✨ InternLM3-8B-Instruct
✨ MiniMax-Text-01
✨ RWKV-7 RNN + трансформер 👀
✨ Собственно сам DeepSeek-R1
✨ Baichuan-M1-14B медицинский LLM 🩺
✨ Qwen2.5-Math-PRM от Alibaba
✨ Qwen2.5 -1M
Модели кодинга:
✨ Tare от BytedanceTalk
TTS модели синтеза и генерации речи:
✨ T2A-01-HD от MiniMax AI
✨ LLaSA
МЛЛМ:
✨ Kimi k1.5 от Moonshot AI
✨ MiniCPM-o-2_6 от OpenBMB
✨ Sa2VA-4B от ByteDanceOSS
✨ VideoLLaMA 3 от Alibaba DAMO
✨ LLaVA-Mini от Китайской академии наук
✨Hunyuan-7B от TXhunyuan
✨ Hunyuan 3D 2.0
ИИ-агенты:
✨ UI-TARS от ByteDanceOSS
✨ GLM-PC
Датасеты:
✨ Fineweb-Edu-Chinese-V2.1
✨ Multimodal_textbook от Alibaba
✨ MME-Finance от Hithink AI
✨ GameFactory от KwaiVGI
@ai_machinelearning_big_data
#ai #ml #digest #china #deepseek #Alibaba
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥74👍23❤15😎5🥰3😁1🎄1
MLLM:
• Ovis2 - мультимодальная LLM, выпущенная командой Alibaba AIDC.
Аудио:
• Step Audio TTS от StepFun ai качественная модель синтеза речи.
• InspireMusic от Alibaba – модель для генерации музыки.
• Baichuan Audio от BaichuanAI – Audio LLM
Видео:
• Wan2.1 от Alibaba – мощный опенсорсный генератор видео,
URL:
• Stepvideo-T2V модель Text-to-Video
• SkyReels-V1 еще один Text-to-Video.
С фокусом на человека в кадре
• LLaDA-8B – диффузионная 8B модель обученная полностью с нуля и конкурирующую с LLaMA3 8B по производительности.
MoE:
• Moonlight-16B - мощная модель с архитектурой MoE для сложных задач.
Reasoning:
• TinyR1-32B - перспективная модель рассуждений на 32B
• Целая неделя опенсорса от DeepSeek.
Датасет:
• Chinese DeepSeek R1-Distill data -110k – масштабный датаяет обучения и на китайском.
•ByteScale представили новую стратегию параллелизма, и рассказ про эффективное масштабирование обучения LLM с длиной контекста 2048 КБ на более чем 12 000 графических процессоров
@ai_machinelearning_big_data
#ai #releases #opensource #digest
Please open Telegram to view this post
VIEW IN TELEGRAM
👍34🔥15❤6