330K subscribers
4.18K photos
771 videos
17 files
4.7K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🧠 ML DIGEST

💬Выпущена Новая TTS модель OuteTTS 0.3, 1 B и 500M

> Zero-shot - клонирование голоса > Многоязычный (en, jp, ko, zh, fr, de)
> Обучен 20 000 часам аудиозаписей
> Работает от OLMo-1B и Qwen 2.5 0.5B
> > Функции контроль скорости речь и эмоций
HF


🤗 Hugging Face выпустили открытый курс по изучению AI-агентов на практике.

За прохождение курса можно получить сертификат и самое главное, что при обучении упор идет на практику.
Вы погрузитесь в популярные фреймворки агентов, такие как LangChain, LlamaIndex и smolagents. Эти инструменты предоставляют строительные блоки для создания сложных поведений агентов.
Записаться можно здесь


🎥 Компания Luma AI только что выпустила #Ray2 - новую модель видео с искусственным интеллектом, которая создает реалистичные видеоролики с естественным и последовательным движением. Поддерживает text-to-video и image-to video. Доступна платно.
Подробнее


🎓 Transformer2: Self-adaptive LLMs

SakanaAi представили новую структуру самоадаптации моделей, при которой LLM адаптируется для невидимых задач в реальном времени, выборочно корректируя только отдельные компоненты своих весовых матриц.

Во время вывода используется система диспетчеризации, которая определяет свойства задачи, а затем использует векторы «экспертов» для конкретной задачи, обученные с помощью reinforcement learning👀
Статья
GitHub


🧞Omni-RGPT: очередная SOTA MLLM
NVIDIA представляли Omni-RGPT, MLLM, для понимания изображений и видео на уровне отдельных объектов и регионов на видео.
Статья
Проект


⚡️ Bespoke Curator
Curator - библиотека с открытым исходным кодом, разработанная для упрощения создания синтетических данных!
Github


🌏 Earth View предлагает огромную коллекцию мультиспектральных изображений
Земли из нескольких спутниковых источников, включая Satellogic, Sentinel-1, NEON и предстоящий Sentinel-2.
HF

@ai_machinelearning_big_data


#ml #news #digest #machinelearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2411🔥8
⭐️ Самые интересные Open Source AI релизы за неделю

- VideoChat2-Flash, мощный MLLM, построенный на базе видеокодера (UMT) и LLM (Qwen).
Внутри новая высокоэффективная архитектура модели с исключительной скоростью инференса, которая позволяет кодировать каждый видеокадр всего в 16 токенов, что в 5-10 раз быстрее, чем в предыдущей модели OpenGVLab.
Модели представлены в размерах 2B и 7B и разрешении 224 и 448.

- BytedanceTalk выпустил модель SA2VA с параметрами 26B.
Sa2VA - это MLM, способный отвечать на вопросы, понимать изображения и видео выполнять сегментацию. Модель, сопоставима с SOTA моделями в своем классе Qwen2-VL и InternVL2.5 в QA тестах.

- VRC-Bench - это новый бенчмарк для оценки эффективности мультимодальных LLM.

- MiniCPM-o 2.6 - это новая мультимодальная модель с 8B параметрами, работающая на edge девайсах. Лучшая в своем классе возможности двуязычной речи с разговором в реальном времени и клонированием голоса.

💬 LLM
- MiniMax-Text-01 - новая языковая модель, которая стабильно обходит GPT-4o и Gemini-2 на бенчмарках с длинным контекстом, сохраняя высокие оценки (0.910-0.963) при длине контекста до 4M токенов🤯

- Датасет: Sky-T1-data-17k - это разнообразный набор данных, используемый для обучения Sky-T1-32B - ризонинг модели, которую можно обучить всего за 450 долларов!

- Kyutai labs выпустили Helium-1 Preview 2B - многоязычный LLM для edge девайсов и мобильных устройств.

- Wayfarer-12B - новая модель генерации текстовой приключенческой ролевой игры от AI Dungeon🧙🏻

- ReaderLM-v2 - это новая модель синтаксического анализа HTML от JinaAI.

- Вriaforall выпустила Dria-Agent-a-3B, новую модель генерации кода (для Python), основанную на Qwen2.5.

- UnslothAI адаптировали Phi-4 к архитектуре Llama 3.3 сделав, более быструю и экономичную по памяти версию.

👀 Vision
- MatchAnything - это новая универсальная модель для сопоставления изображений.
- FitDit - это высококачественная модель виртуальной примерочной, основанная на архитектуре DiT.

⭐️ Аудио
- OuteTTS-0.3-1B - это новая многоязычная модель преобразования текста в речь с возможностью клонирования голоса и управления эмоциями.

📖 Поиск
- Lightblue выпустила новую модель для поиска связи в тексте, основанную на Qwen2.5. LB-reranker-0.5B-v1.0, которая поддерживает более 95 языков
- cde-small-v2 - это новая SOTA модель эмбедингов текста небольшого размера.

🧠 Playground
LeetGPU - бесплатная платформа для написания и запуска кода на CUDA.
Вы можете практиковаться и изучать CUDA онлайн, без использования графического процессора!

@ai_machinelearning_big_data


#ml #digest #datasets #opensource #ai #llm #news
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍54🔥127🦄2
⚡️ Мл сообщество активно обсуждает успехи Китая и DeepSeek-R1, в частности, в гонке за доминирование на рынке ИИ.

Релиз R1 и новости об инвестировании в развитие отрасли, вызвали падение акций американских ИТ-гигантов на бирже NASDAQ. Акции NVIDIA упали уже на 14% за сутки. Компания потеряла 465 млрд долларов и это антирекорд.

Но помимо R1 в этом месяце разработчики из Китая выпустили еще очень много интересных моделей 🔥 Китай набирает очень серьезные обороты,

Давайте посмотрим на список самых ярких релизов из Поднебесной за январь:

LLM:
InternLM3-8B-Instruct
MiniMax-Text-01
RWKV-7 RNN + трансформер 👀
Собственно сам DeepSeek-R1
Baichuan-M1-14B медицинский LLM 🩺
Qwen2.5-Math-PRM от Alibaba
Qwen2.5 -1M


Модели кодинга:
Tare от BytedanceTalk

TTS модели синтеза и генерации речи:
T2A-01-HD от MiniMax AI
LLaSA

МЛЛМ:
Kimi k1.5 от Moonshot AI
MiniCPM-o-2_6 от OpenBMB
Sa2VA-4B от ByteDanceOSS
VideoLLaMA 3 от Alibaba DAMO
LLaVA-Mini от Китайской академии наук

Hunyuan-7B от TXhunyuan
Hunyuan 3D 2.0

ИИ-агенты:
UI-TARS от ByteDanceOSS
GLM-PC

Датасеты:
Fineweb-Edu-Chinese-V2.1
Multimodal_textbook от Alibaba
MME-Finance от Hithink AI
GameFactory от KwaiVGI

@ai_machinelearning_big_data


#ai #ml #digest #china #deepseek #Alibaba
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥74👍2315😎5🥰3😁1🎄1
🔥 Самые интересные ИИ Релизы из Китая за февраль 2025

MLLM:
Ovis2 - мультимодальная LLM, выпущенная командой Alibaba AIDC.

Аудио:
Step Audio TTS от StepFun ai качественная модель синтеза речи.
InspireMusic от Alibaba – модель для генерации музыки.
Baichuan Audio от BaichuanAI – Audio LLM

Видео:
Wan2.1 от Alibaba – мощный опенсорсный генератор видео,
URL:
Stepvideo-T2V модель Text-to-Video
SkyReels-V1 еще один Text-to-Video.
С фокусом на человека в кадре
LLaDA-8B – диффузионная 8B модель обученная полностью с нуля и конкурирующую с LLaMA3 8B по производительности.

MoE:
Moonlight-16B - мощная модель с архитектурой MoE для сложных задач.

Reasoning:
TinyR1-32B - перспективная модель рассуждений на 32B

• Целая неделя опенсорса от DeepSeek.

Датасет:
Chinese DeepSeek R1-Distill data -110k – масштабный датаяет обучения и на китайском.

•ByteScale представили новую стратегию параллелизма, и рассказ про эффективное масштабирование обучения LLM с длиной контекста 2048 КБ на более чем 12 000 графических процессоров

@ai_machinelearning_big_data


#ai #releases #opensource #digest
Please open Telegram to view this post
VIEW IN TELEGRAM
👍34🔥156