Machinelearning

⚡️

Мл сообщество активно обсуждает успехи Китая и DeepSeek-R1, в частности, в гонке за доминирование на рынке ИИ.

Релиз R1 и новости об инвестировании в развитие отрасли, вызвали падение акций американских ИТ-гигантов на бирже NASDAQ. Акции NVIDIA упали уже на 14% за сутки. Компания потеряла 465 млрд долларов и это антирекорд.

Но помимо R1 в этом месяце разработчики из Китая выпустили еще очень много интересных моделей 🔥 Китай набирает очень серьезные обороты,

Давайте посмотрим на список самых ярких релизов из Поднебесной за январь:

LLM:
✨ InternLM3-8B-Instruct
✨ MiniMax-Text-01
✨ RWKV-7 RNN + трансформер 👀
✨ Собственно сам DeepSeek-R1
✨ Baichuan-M1-14B медицинский LLM 🩺
✨ Qwen2.5-Math-PRM от Alibaba
✨ Qwen2.5 -1M

Модели кодинга:
✨ Tare от BytedanceTalk

TTS модели синтеза и генерации речи:
✨ T2A-01-HD от MiniMax AI
✨ LLaSA

МЛЛМ:
✨ Kimi k1.5 от Moonshot AI
✨ MiniCPM-o-2_6 от OpenBMB
✨ Sa2VA-4B от ByteDanceOSS
✨ VideoLLaMA 3 от Alibaba DAMO
✨ LLaVA-Mini от Китайской академии наук

✨Hunyuan-7B от TXhunyuan
✨ Hunyuan 3D 2.0

ИИ-агенты:
✨ UI-TARS от ByteDanceOSS
✨ GLM-PC

Датасеты:
✨ Fineweb-Edu-Chinese-V2.1
✨ Multimodal_textbook от Alibaba
✨ MME-Finance от Hithink AI
✨ GameFactory от KwaiVGI

@ai_machinelearning_big_data

#ai #ml #digest #china #deepseek #Alibaba

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1🔥74👍23❤15😎5🥰3😁1🎄1

29.9K views15:57

Machinelearning

🔥 Самые интересные ИИ Релизы из Китая за февраль 2025

MLLM:
• Ovis2 - мультимодальная LLM, выпущенная командой Alibaba AIDC.

Аудио:
• Step Audio TTS от StepFun ai качественная модель синтеза речи.
• InspireMusic от Alibaba – модель для генерации музыки.
• Baichuan Audio от BaichuanAI – Audio LLM

Видео:
• Wan2.1 от Alibaba – мощный опенсорсный генератор видео,
URL:
• Stepvideo-T2V модель Text-to-Video
• SkyReels-V1 еще один Text-to-Video.
С фокусом на человека в кадре
• LLaDA-8B – диффузионная 8B модель обученная полностью с нуля и конкурирующую с LLaMA3 8B по производительности.

MoE:
• Moonlight-16B - мощная модель с архитектурой MoE для сложных задач.

Reasoning:
• TinyR1-32B - перспективная модель рассуждений на 32B

• Целая неделя опенсорса от DeepSeek.

Датасет:
• Chinese DeepSeek R1-Distill data -110k – масштабный датаяет обучения и на китайском.

•ByteScale представили новую стратегию параллелизма, и рассказ про эффективное масштабирование обучения LLM с длиной контекста 2048 КБ на более чем 12 000 графических процессоров

@ai_machinelearning_big_data

#ai #releases #opensource #digest

Please open Telegram to view this post

VIEW IN TELEGRAM

👍34🔥15❤6

15.3K viewsedited 14:42

About

Blog

Apps

Platform