🤗 Кто реально двигает open-source ИИ: анализ топ-50 самых скачиваемых моделей на Hugging Face
Исследование показывает, какие организации и типы моделей определяют экосистему открытых моделей.
🔥 Главное:
📦 Топ-50 - это всего 3.4% всех моделей на Hugging Face, но именно они собирают более 80% из 45 миллиардов скачиваний.
Подавляющее большинство активности сосредоточено вокруг небольшой группы лидеров -
именно эти модели формируют лицо всего open-source ИИ.
📉 Размер имеет значение (и чем меньше — тем лучше):
- 92.5% загрузок — модели < 1B параметров
- 86.3% — < 500M
- 70% — < 200M
- 40% — < 100M
Очевидны выводы: в open-source побеждают малые и лёгкие модели, пригодные для локального развёртывания и edge-инференса.
🧠 Популярные направления:
- NLP — 58.1%
- Computer Vision — 21.2%
- Audio — 15.1%
- Multimodal — 3.3%
- Time Series — 1.7%
Кто создаёт самые скачиваемые модели:
- Компании - 63.2% (Google лидер)
- Университеты - 20.7%
- Индивидуальные авторы - 12.1%
- НКО - 3.8%
- Прочие лаборатории - 0.3%
Какие типы моделей побеждают:
- Текстовые энкодеры - 45% всех загрузок
- Декодеры - всего 9.5%
- Энкодер-декодеры - 3%
📌 Несмотря на хайп вокруг LLM, массово скачиваются не гиганты, а утилитарные модельки для интеграции в собственные продукты.
🇺🇸 Лидеры по странам:
США доминируют по всем категориям:
- встречаются 18 раз среди топ-50 скачиваний
- на США приходится 56.4% всех загрузок
Open-source ИИ живёт не за счёт гигантских LLM, а благодаря компактным, быстрым и практичным моделям, мкоторые реально работают в продуктах и проектах.
🟠 Почитать полностью: https://huggingface.co/blog/lbourdois/huggingface-models-stats
@ai_machinelearning_big_data
#AI #HuggingFace #OpenSource #ML #Research #LLM #AITrends
Исследование показывает, какие организации и типы моделей определяют экосистему открытых моделей.
🔥 Главное:
📦 Топ-50 - это всего 3.4% всех моделей на Hugging Face, но именно они собирают более 80% из 45 миллиардов скачиваний.
Подавляющее большинство активности сосредоточено вокруг небольшой группы лидеров -
именно эти модели формируют лицо всего open-source ИИ.
📉 Размер имеет значение (и чем меньше — тем лучше):
- 92.5% загрузок — модели < 1B параметров
- 86.3% — < 500M
- 70% — < 200M
- 40% — < 100M
Очевидны выводы: в open-source побеждают малые и лёгкие модели, пригодные для локального развёртывания и edge-инференса.
🧠 Популярные направления:
- NLP — 58.1%
- Computer Vision — 21.2%
- Audio — 15.1%
- Multimodal — 3.3%
- Time Series — 1.7%
Кто создаёт самые скачиваемые модели:
- Компании - 63.2% (Google лидер)
- Университеты - 20.7%
- Индивидуальные авторы - 12.1%
- НКО - 3.8%
- Прочие лаборатории - 0.3%
Какие типы моделей побеждают:
- Текстовые энкодеры - 45% всех загрузок
- Декодеры - всего 9.5%
- Энкодер-декодеры - 3%
📌 Несмотря на хайп вокруг LLM, массово скачиваются не гиганты, а утилитарные модельки для интеграции в собственные продукты.
🇺🇸 Лидеры по странам:
США доминируют по всем категориям:
- встречаются 18 раз среди топ-50 скачиваний
- на США приходится 56.4% всех загрузок
Open-source ИИ живёт не за счёт гигантских LLM, а благодаря компактным, быстрым и практичным моделям, мкоторые реально работают в продуктах и проектах.
@ai_machinelearning_big_data
#AI #HuggingFace #OpenSource #ML #Research #LLM #AITrends
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥88❤45❤🔥12👍6✍4💘3😐2🆒2
Media is too big
VIEW IN TELEGRAM
Такой вывод сделал Центр демократии и технологий (CDT) в новом отчёте о влиянии искусственного интеллекта на школьную жизнь.
ИИ стремительно становится нормой: 85% учителей и 86% учеников уже им пользуются, причём чаще - в личных целях, а не для учёбы. Почти половина школ (46%) официально разрешают использование ИИ-инструментов.
Подростки активно взаимодействуют с чатботами - 56% делают это еженедельно, а 31% используют для этого школьные аккаунты и устройства. При этом в классах, где ИИ используется чаще, ученики чувствуют меньшую связь с преподавателями и чаще обращаются за помощью к алгоритмам.
Отчёт фиксирует и проблемы: утечки данных происходят в 23% школ, системы мониторинга следят за учениками даже вне школы и на личных устройствах, но доверие к ним низкое. Лишь 21% учебных заведений имеют протоколы для случаев deepfake или утечки интимных изображений.
cdt
Claude Skills - это настраиваемые папки с инструкциями, скриптами и ресурсами, которые модель автоматически загружает для выполнения конкретных задач. Теперь Claude может самостоятельно создавать таблицы Excel с формулами, презентации PowerPoint, документы Word и заполняемые PDF-файлы.
Функция доступна пользователям тарифов Pro, Max, Team и Enterprise, которые могут создавать, изменять и делиться своими Skill-папками в приложениях Claude, Claude Code и через API. Это позволяет адаптировать модель под нужды компании или конкретной команды.
Anthropic также запустила интеграцию с Microsoft 365 через MCP-коннектор. Благодаря этому Claude теперь умеет искать документы в SharePoint и OneDrive, анализировать переписки в Outlook, находить инсайты в чатах Teams и выполнять поиск по всем корпоративным приложениям сразу.
anthropic
Сегодня нет единого понимания, что именно считать AGI. OpenAI уже несколько раз меняла своё определение и теперь использует 5-уровневую шкалу развития, а Google DeepMind применяет собственные критерии. Из-за этого прогнозы появления AGI сильно различаются.
Авторы нового исследования считают, что унифицированное определение необходимо, чтобы чётко фиксировать прогресс и прекратить использовать термин «AGI» как маркетинговый слоган.
Исследователь koltregaskes предложил следующее определение:
AGI - это искусственный интеллект, который демонстрирует способности на уровне или выше среднего человека в десяти когнитивных областях из модели Кэттелла–Хорна–Кэрролла (CHC), описывающей структуру человеческого интеллекта.
В работе также сравниваются подходы OpenAI и Google DeepMind, что делает её первой попыткой сформировать научно измеримое определение AGI, а не абстрактное маркетинговое обещание.
X
Исследователи из Huawei CSL разработали технику Sinkhorn-Normalized Quantization (SINQ) — быстрый и точный метод уменьшения размера моделей без предварительной калибровки и потери качества.
Главная идея - применять двойное масштабирование весов по строкам и колонкам, что помогает равномерно распределить ошибку квантования и сохранять стабильность модели даже при понижении разрядности до 4 бит.
Метод показал впечатляющие результаты:
- квантование модели Qwen3-14B занимает всего 21 секунду,
- для DeepSeekV2.5-236B — около 5 минут на одной GPU.
SINQ не требует повторного обучения и работает с любыми архитектурами - это делает его удобным решением для разработчиков, которые хотят запускать крупные модели на слабом железе.
github
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥55❤29👍13😁5💘3😢2
В новом интервью Андрей Карпаты рассказал, почему современные языковые модели не учатся как люди - и почему нас ждёт медленная, но неизбежная потеря контроля.
Он считает, что обучение с подкреплением и это тупиковый путь: модели не думают, а просто копируют и повторяют.
«Reinforcement learning ужасен. Просто всё, что было до него, ещё хуже.»
Андрей отмечает, что люди учатся, создавая собственные данные - размышляя, связывая новое со старым, делая выводы. LLM этого не умеют, они просто запоминают.
Главное, по его словам, впереди - не сингулярность, а тихое делегирование мышления алгоритмам.
«ИИ лишит человечество возможности принимать решения. Мы перестанем думать и выбирать сами.»
Карпаты считает, что нынешние агенты — «полное г…», а настоящего AGI стоит ждать не раньше чем через 10 лет.
Он боится не бунта машин, а того, что люди незаметно перестанут быть разумными - просто передав все решения системам, которые “знают лучше”.
Полное интервью
Исследователи из Epoch AI проверили, насколько современные модели действительно умеют «думать» в математике.
Они использовали тест FrontierMath - 290 задач, которые требуют не запоминания формул, а настоящего рассуждения и способности к обобщению.
Результаты оказались отрезвляющими.
Даже GPT-5, одна из самых мощных моделей на сегодня, смогла решить только 29 % задач в одном прогоне.
После 32 запусков (чтобы компенсировать случайность) показатель вырос до 46 %, но затем перестал расти.
Даже если объединить результаты десятков моделей - от ChatGPT Agent и Gemini 2.5 Deep Think до o4-mini, совокупная решаемость достигает лишь 57 %.
По оценкам авторов, даже при бесконечных попытках предел будет меньше 70 %.
Итог: несмотря на огромный прогресс, современные LLM остаются далеки от настоящего "AGI" - они всё ещё плохо справляются с глубинным рассуждением и гибким решением задач, где нужно не память, а мышление.
Исследователи сообщили о тревожном эффекте - у больших языковых моделей (LLM) может развиваться “Brain Rot”, то есть постепенное «когнитивное разложение».
Причина - постоянное дообучение на низкокачественных и “вирусных” текстах из интернета, что приводит к стойкому снижению способностей к рассуждению, работе с длинным контекстом и безопасному поведению.
Главный симптом - “отсутствие мышления” (thought-skipping): модель перестаёт рассуждать шаг за шагом и начинает выдавать поверхностные ответы, а в некоторых случаях даже приобретает “тёмные” черты личности - нарциссизм, агрессию и низкую склонность к сотрудничеству.
Даже сильные методы коррекции, лишь частично устраняют последствия, что делает отбор обучающих данных ключевым фактором безопасности при развитии ИИ.
openreview
Это компактная языковая модель (~1 млрд параметров) и несмотря на размер, она превосходит Gemma 3 1B и Llama 3.2 1B в задачах рассуждения, знаний и работы с длинным контекстом - до 128 000 токенов.
Внутри гибридное внимание (локальное + глобальное в соотношении 3:1, окно 512) это низкую задержку и экономию KV-памяти.
Подробнее
Инструмент, в который встроено более 100 опенсорсных моделей от ведущих разработчиков.
Внутри: модели от OpenAI, Qwen, Google, Nvidia, DeepSeek и десятков других. Система сама выбирает оптимальную модель под конкретный запрос.
Попробовать
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍122❤51💯11🔥7😁5🥱4💘2🤬1
📊 GenAI Traffic - статистика по ИИ трафику.
Свежие данные показывают, как меняется расстановка сил среди генеративных ИИ:
- ChatGPT продолжает терять долю рынка.
- Perplexity впервые перешагнул порог 2%.
🗓️ Год назад:
ChatGPT — 87.1%
Gemini — 6.4%
Perplexity — 1.7%
Claude — 1.7%
Copilot — 1.1%
🗓️ 6 месяцев назад:
ChatGPT — 78.8%
DeepSeek — 6.8%
Gemini — 5.5%
Grok — 3.1%
Perplexity — 1.5%
Claude — 1.3%
Copilot — 1.3%
🗓️ 3 месяца назад:
ChatGPT — 78.3%
Gemini — 8.7%
DeepSeek — 4.5%
Grok — 2.6%
Perplexity — 1.6%
Claude — 1.5%
Copilot — 1.2%
🗓️ Месяц назад:
ChatGPT — 76.4%
Gemini — 10.8%
DeepSeek — 4.0%
Grok — 2.2%
Perplexity — 2.0%
Claude — 1.9%
Copilot — 1.2%
🗓️ Сегодня:
ChatGPT — 74.1%
Gemini — 12.9%
DeepSeek — 3.7%
Perplexity — 2.4%
Grok — 2.0%
Claude — 2.0%
Copilot — 1.2%
📈 Тенденция очевидна:
ChatGPT теряет медленно, но верно трафик, рынок становится более сбалансированным, а Gemini и Perplexity показывают стабильный рост интереса пользователей. С выходом Gemini 3.0 рост, Google может ещё больше улучшить свои позиции.
@ai_machinelearning_big_data
#AI #GenAI #Analytics #ChatGPT #Gemini #Perplexity #Claude #DeepSeek #Copilot
Свежие данные показывают, как меняется расстановка сил среди генеративных ИИ:
- ChatGPT продолжает терять долю рынка.
- Perplexity впервые перешагнул порог 2%.
🗓️ Год назад:
ChatGPT — 87.1%
Gemini — 6.4%
Perplexity — 1.7%
Claude — 1.7%
Copilot — 1.1%
🗓️ 6 месяцев назад:
ChatGPT — 78.8%
DeepSeek — 6.8%
Gemini — 5.5%
Grok — 3.1%
Perplexity — 1.5%
Claude — 1.3%
Copilot — 1.3%
🗓️ 3 месяца назад:
ChatGPT — 78.3%
Gemini — 8.7%
DeepSeek — 4.5%
Grok — 2.6%
Perplexity — 1.6%
Claude — 1.5%
Copilot — 1.2%
🗓️ Месяц назад:
ChatGPT — 76.4%
Gemini — 10.8%
DeepSeek — 4.0%
Grok — 2.2%
Perplexity — 2.0%
Claude — 1.9%
Copilot — 1.2%
🗓️ Сегодня:
ChatGPT — 74.1%
Gemini — 12.9%
DeepSeek — 3.7%
Perplexity — 2.4%
Grok — 2.0%
Claude — 2.0%
Copilot — 1.2%
📈 Тенденция очевидна:
ChatGPT теряет медленно, но верно трафик, рынок становится более сбалансированным, а Gemini и Perplexity показывают стабильный рост интереса пользователей. С выходом Gemini 3.0 рост, Google может ещё больше улучшить свои позиции.
@ai_machinelearning_big_data
#AI #GenAI #Analytics #ChatGPT #Gemini #Perplexity #Claude #DeepSeek #Copilot
👍98🤔90🔥18❤16👏13🤩11💯7🤗3😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Любопытны пост, где автор объяснил на примере очень простую и очевидную, но мощную идею.
Он заметил, что то, что мы называем диффузией текста, на самом деле - это просто обобщённая версия классического обучения BERT.
Как работает BERT?
В BERT модель берёт текст и маскирует часть слов, а потом учится угадывать, какие слова были скрыты.
В диффузии происходит почти то же самое, только шагов больше: на каждом шаге модель немного «портит» текст (добавляет шум), а затем восстанавливает его, всё меньше и меньше теряя смысл, пока не соберёт финальный чистый текст.
То есть BERT делает один шаг очистки - угадывает замаскированные слова.
А диффузионная модель делает много таких шагов подряд, постепенно превращая случайный набор токенов в осмысленный текст.
Барри дообучил RoBERTa, чтобы показать это на практике - и получил настоящий текстовый диффузионный генератор.
В примере:
- Используется RoBER (улучшенная версия модели BERT,) и датасет WikiText.
- На каждом шаге часть токенов заменяется на
<MASK>, модель восстанавливает их, потом снова маскирует — и так несколько раз.
- После нескольких итераций модель способна генерировать связный текст,
даже без автогенеративного декодера (как у GPT).
📈 Результаты
- Модель генерирует осмысленный текст, хотя и не идеально связный.
- Качество улучшалось по мере добавления шагов диффузии.
- По времени генерации RoBERTa Diffusion была немного медленнее, чем GPT-2 (~13 сек против 9 сек), но архитектура осталась полностью encoder-only.
Автор упоминает, что позже наткнулся на работу DiffusionBERT, где идею реализовали глубже и подтвердили результатами.
Главная мысль:
BERT можно считать одноступенчатой версией текстовой диффузии.
Если добавить больше шагов, то vs получаем диффузионный генератор текста.
Если BERT - это один шаг диффузии, то будущее может принадлежать моделям, совмещающим "понимание" и "генерацию" текста в одном процессе.
https://nathan.rs/posts/roberta-diffusion/
@ai_machinelearning_big_data
#AI #Diffusion #RoBERTa #BERT #LanguageModel #MLM #Research
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥171❤35👍22👏19🤓19👨💻7🤗2🥰1😁1🥱1🤝1
Media is too big
VIEW IN TELEGRAM
Учёные из UMass Amherst создали первый искусственный нейрон, который общается с живыми нейронами с тем же микроскопическим напряжением около 0,1 В, как в мозге.
Устройство использует белковые нанопроволоки бактерий, устойчивые к влаге, что позволяет прямую и энергоэффективную связь с живыми клетками. Большинство предыдущих искусственных нейронов работали на гораздо более высоких напряжениях и мощностях, авторы отмечают, что их устройство потребляет в 10 раз меньше напряжения и в ~100 раз меньше мощности по сравнению с ранними версиями.
sciencealert
Компания Krea AI выложила в открытый доступ Krea Realtime: 14B модель, которая генерирует видео в реальном времени со скоростью 11 кадров в секунду на одной NVIDIA B200.
Модель основана на Wan 2.1 14B и обучена с помощью метода Self-Forcing, что позволило добиться высокой скорости при всего 4 шагах инференса.
HF
Gemini теперь использует живые данные Google Maps - часы работы, рейтинги, маршруты и фото из 250 млн локаций. Модель отвечает на вопросы о местах не догадками, а на основе реальных данных. Разработчики могут передавать координаты и встраивать интерактивный виджет карт прямо в приложения.
Фича уже доступна в последних моделях Gemini и может сочетаться с другими инструментами.
Anthropic расширила возможности Claude, запустив версию Claude for Life Sciences, созданную для биомедицинских и лабораторных задач. Модель ревзошла человека в тесте Protocol QA (0.83 против 0.79) и интегрируется с ведущими научными платформами - Benchling, BioRender, PubMed, Wiley Scholar Gateway и 10x Genomics.
Claude теперь может выполнять автоматизацию лабораторных процессов - от проверки RNA-seq данных до генерации экспериментальных протоколов, используя систему Agent Skills.
Anthropic также запустила программу AI for Science с бесплатными API-кредитами для исследователей, чтобы ускорить внедрение ИИ в науку.
Claude
IBM разработала CyberPal 2.0 (4B–20B параметров), обученные на новом датасете SecKnowledge 2.0 с экспертными форматами и доказательной базой.
Модели показывают на 7-14% лучшие результаты, чем крупные аналоги, в задачах классификации уязвимостей и поиска первопричин.
Успех обеспечен не мощностью, а структурой и логикой рассуждений.
Paper
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥51❤28👍8🥰6🤔5😁2🐳2🤝2🤗1
Media is too big
VIEW IN TELEGRAM
Теперь он создаёт не только отчёты, но и готовые веб-страницы и подкасты.
Работает связка Qwen3-Coder, Qwen-Image и Qwen3-TTS.
@ai_machinelearning_big_data
#Qwen #AI #DeepResearch #Qwen3 #AItools
Please open Telegram to view this post
VIEW IN TELEGRAM
❤38🔥24👍12🥰4🐳3🤔2
OmniVinci - модель, способная одновременно понимать и обрабатывать разные типы информации: текст, изображения, видео и звук.
Модель крайне эффективна, несмотря на то, что была обучена всего на 200 млрд. токенов (что в 6 раз меньше, чем у Qwen2.5-Omni - 1.2 трлн.). Это стало возможным благодаря архитектурным фишкам и тщательному подходу к подготовке данных.
В основе OmniVinci 3 компонента:
Абляция показала, что вклад каждого элемента играет свою важную роль: базовая модель с простой конкатенацией токенов набирает в среднем 45.51 балла. Добавление TEG поднимает результат до 47.72 (+2.21), CRTE — до 50.25 (+4.74 от базовой), а финальный слой в виде OmniAlignNet доводит средний балл до 52.59, что в сумме дает прирост в 7.08 пункта.
Данные для обучения - 24 млн. диалогов, которые пропустили через систему, где отдельная LLM анализирует и объединяет описания из нескольких модальностей, создавая единую и корректную аннотацю.
Итоговый датасет на 36% состоял из изображений, на 21% из звуков, на 17% из речи, 15% - из смешанных данных и на 11% из видео.
В бенчах OmniVinci обошла всех конкурентов. На Worldsense модель набрала 48.23 балла против 45.40 у Qwen2.5-Omni. На Dailyomni - 66.50 против 47.45. В аудио-задачах OmniVinci тоже молодец: 58.40 в MMAR и 71.60 в MMAU.
В распознавании речи модель показала WER 1.7% на датасете LibriSpeech-clean.
Применение модели протестили на практике. В задаче классификации дефектов полупроводниковых пластин, OmniVinci достигла точности 98.1%, что лучше, чем у специализированной NVILA (97.6%), и у более крупную 40-миллиардную VILA (90.8%).
@ai_machinelearning_big_data
#AI #ML #NVIDIA #OmniVinci
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51❤20🔥12🤣3🤗3💅3🕊2
Media is too big
VIEW IN TELEGRAM
Qwen3-VL-32B превосходи GPT-5 mini и Claude 4 Sonnet* в задачах STEM, визуальных вопросах (VQA), OCR, анализе видео и агентных сценариях.
При этом у модели всего 32 млрд параметров и она сопоставима, а на некоторых бенчмарках даже превосходит модели на 235 млрд параметров (лучше всего показывает себя на *OSWorld*).
Попробовать / HF
Значительно прокачали возможности студии по генерации кода. Сгенерированный проекты можно просматривать или дорабатывать прямо в браузере и деплоить. Также добавили прикольный режим «I’m Feeling Lucky», который генерирует случайную идею для вайбкодинга.
aistudio
На первый взгляд DeepSeek-OCR кажется просто моделью для распознавания текста. Но на деле - это совершенно новый способ того, как ИИ может хранить и обрабатывать информацию.
Обычно модели работают с текстовыми токенами - каждый кусочек слова превращается в отдельный токен, и при длинных документах их число растёт квадратично, делая работу медленной и дорогой. DeepSeek решает эту проблему иначе: она превращает длинный текст в изображение, кодирует его в набор компактных визуальных токенов и затем восстанавливает текст обратно.
Эксперименты показали: даже при 9–10-кратном сжатии точность OCR остаётся около 97%, а при 20-кратном - около 60%. Это доказывает, что плотные визуальные представления способны нести ту же информацию куда эффективнее, чем обычные текстовые токены.
Ключевая инновация DeepSeek- новый энкодер DeepEncoder, который умеет обрабатывать страницы высокого разрешения без переполнения памяти. Он делает это в три шага: сначала применяет локальное внимание для мелких деталей, затем 16× свёрточное сжатие, а потом глобальное внимание для понимания всей структуры документа. Такая последовательная архитектура сохраняет точность, но радикально снижает число токенов и объём активаций.
Авторы также предлагают механизм «забывания»: старый контекст можно постепенно уменьшать в разрешении, чтобы свежая информация оставалась чёткой, а старая занимала меньше места. DeepSeek - как всегда умницы.
DeepSeek-OCR
США входят в фазу "
jobless growth"- производительность растёт благодаря ИИ, но найм почти остановился. Goldman отмечает: компании делают больше с теми же людьми, а реальный рост занятости вне здравоохранения стал отрицательным. Джером Пауэлл описал рынок как “очень мало найма, мало увольнений”, а выпускники всё чаще не могут найти первую работу.
По данным Challenger, планы по найму - на минимуме с 2009 года. Рост есть, рабочих мест - всё меньше.
futurism
Anthropic объявила о публичном релизе Claude Desktop - приложения для Mac и Windows.
На Mac теперь можно делать скриншоты, кликать по окнам, чтобы поделиться контекстом с Claude, и управлять агентом голосом.
Скачать для Mac и Windows
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍82❤39🔥14🤗10👏5🥰2🤔2🦄2🎉1
Media is too big
VIEW IN TELEGRAM
Версия Hunyuan World 1.0 умела создавать 3D-сцены по тексту или одному изображению (и была заточена на работу даже на обычных видеокартах), новая версия 1.1 способна строить 3D-мир из видео и мультиракурсных изображений.
Чем интересная
🔹 Поддерживает любые входные данные:
Модель принимает на вход всё - видео, фото, карты глубины, описание позы и параметры камеры. Моделька точно восстанавливает геометрию сцены без искажений.
🔹 Любой формат вывода:
На выходе выдает
плотные облака точек, карты глубины, нормали поверхностей, параметры камеры и 3D Gaussian Splattings.
🔹 Быстрая работа на GPU:
Модель полностью feed-forward, делает один проход и выдаёт готовый 3D-результат всего за несколько секунд.
🌐 Проект: https://3d-models.hunyuan.tencent.com/world/
🔗 GitHub: https://github.com/Tencent-Hunyuan/HunyuanWorld-Mirror
🤗 HF: https://huggingface.co/tencent/HunyuanWorld-Mirror
✨ Демо — https://huggingface.co/spaces/tencent/HunyuanWorld-Mirror
📄 Технический отчёт — https://3d-models.hunyuan.tencent.com/world/worldMirror1_0/HYWorld_Mirror_Tech_Report.p
@ai_machinelearning_big_data
#AI #3D #VR #Gaming #OpenSource
Please open Telegram to view this post
VIEW IN TELEGRAM
👍138👏25❤21🔥18🤩15🎉8🤗3🦄3❤🔥1
🔍 Qwen3-VL-2B-Thinking — новая маленькая мультимодальная модель, заточенная под рассуждения
Компактная версия семейства Qwen3-VL, ориентированная на глубокое мышление, аналитику и агентные применения.
В линейке Qwen-VL предусмотрены два ключевых режима:
- *Instruct* — для диалогов и инструкций,
- *Thinking* — для логических рассуждений, кода и комплексных задач.
💡 Особенности
- Архитектура поддерживает мультимодальность: модель понимает текст и изображения, способна анализировать контент и выстраивать причинно-следственные связи.
- Оптимизирована для reasoning-задач, где важна не генерация текста, а последовательное мышление и вывод.
- Благодаря размеру в 2B параметров, модель легко разворачивается на локальных GPU и в облачных окружениях.
- Поддерживает tool calling и интеграцию в агентные фреймворки.
Qwen3-VL-2B-Thinking - отличная модель при минимальных ресурсах.
👉 https://huggingface.co/Qwen/Qwen3-VL-2B-Thinking
@ai_machinelearning_big_data
#Qwen3VL #Qwen #Reasoning #AI #Multimodal #OpenSource
Компактная версия семейства Qwen3-VL, ориентированная на глубокое мышление, аналитику и агентные применения.
В линейке Qwen-VL предусмотрены два ключевых режима:
- *Instruct* — для диалогов и инструкций,
- *Thinking* — для логических рассуждений, кода и комплексных задач.
💡 Особенности
- Архитектура поддерживает мультимодальность: модель понимает текст и изображения, способна анализировать контент и выстраивать причинно-следственные связи.
- Оптимизирована для reasoning-задач, где важна не генерация текста, а последовательное мышление и вывод.
- Благодаря размеру в 2B параметров, модель легко разворачивается на локальных GPU и в облачных окружениях.
- Поддерживает tool calling и интеграцию в агентные фреймворки.
Qwen3-VL-2B-Thinking - отличная модель при минимальных ресурсах.
👉 https://huggingface.co/Qwen/Qwen3-VL-2B-Thinking
@ai_machinelearning_big_data
#Qwen3VL #Qwen #Reasoning #AI #Multimodal #OpenSource
👍222❤59🔥46😎11🎉9👏7🤔7🥰6🤩5🤗3🦄3
На платформе представлено почти 3000 курсов, лабораторных и практических треков, охватывающих темы от основ python и машинного обучения до продвинутого MLOps, Vertex AI, Gemini и Prompt Design.
Чему можно научиться
- Встроить генеративный ИИ в свой дата-пайплайн;
- Научиться деплоить и обслуживать модели;
- Создать собственное приложение с Gemini и Streamlit;
- Пройти обучение с наставниками или в сообществе Google Cloud Innovators.
Разные уровни от новичков до тимлидов.
По завершении даже выдают сертификаты, которые можно добавить в резюме и на LinkedIn.
@ai_machinelearning_big_data
#googel #ai #freecourse
Please open Telegram to view this post
VIEW IN TELEGRAM
👍60👨💻49🔥19🎉16❤11👏4🤩3💅3
🔥 GOOGLE AI опубликовали пост о настоящем прорыве в области QUANTUM AI
Сегодня в журнале Nature команда Google впервые показали проверяемое квантовое преимущество с помощью метода, называемого *out-of-time-order correlator (OTOC), или «квантовые эхо».
Эксперимент проведён на квантовом чипе Willow, и он показывает, что квантовые устройства уже способны решать задачи, которые невозможно эффективно симулировать на классических компьютерах.
Квантовый процессор Google выполнил алгоритм под названием Quantum Echoes - в 13 000 раз быстрее, чем лучший классический алгоритм на одном из самых мощных суперкомпьютеров в мире.
🟠 Что это значит простыми словами
Учёные научились буквально «отматывать время» в квантовой системе и смотреть, когда она переходит от упорядоченного поведения к хаосу. Этот переход - ключ к пониманию, где начинается настоящее квантовое преимущество.
Проще говоря:
1) Учёные запускают квантовую систему вперёд во времени, позволяя ей запутаться и “рассеять” информацию.
2) Затем применяют обратные операции, как будто “перематывают” процесс назад.
3) Если всё сделано идеально, система должна вернуться в исходное состояние,но из-за квантового хаоса это происходит лишь частично.
4) Разница между “до” и “после” показывает, насколько глубоко информация ушла в хаос.
Работа показывает, что можно извлекать информацию из хаотичных квантовых состояний, ранее считавшихся полностью случайными.
Такой эффект невозможно воспроизвести на обычных суперкомпьютерах. Это шаг к практическим квантовым вычислениям, которые смогут моделировать материалы, молекулы и сложные физические процессы с точностью, недостижимой ранее.
«Quantum Echoes может стать основой будущих квантовых разработок для реального применения.
*Out-of-time-order correlator (сокращённо OTOC) - это специальная метрика, с помощью которой физики измеряют, как быстро информация "распространяется" и смешивается внутри квантовой системы.
🟢 Статья: https://www.nature.com/articles/s41586-025-09526-6
@ai_machinelearning_big_data
#QuantumComputing #Google #AI #Nature #Physics
Сегодня в журнале Nature команда Google впервые показали проверяемое квантовое преимущество с помощью метода, называемого *out-of-time-order correlator (OTOC), или «квантовые эхо».
Эксперимент проведён на квантовом чипе Willow, и он показывает, что квантовые устройства уже способны решать задачи, которые невозможно эффективно симулировать на классических компьютерах.
Квантовый процессор Google выполнил алгоритм под названием Quantum Echoes - в 13 000 раз быстрее, чем лучший классический алгоритм на одном из самых мощных суперкомпьютеров в мире.
Учёные научились буквально «отматывать время» в квантовой системе и смотреть, когда она переходит от упорядоченного поведения к хаосу. Этот переход - ключ к пониманию, где начинается настоящее квантовое преимущество.
Проще говоря:
1) Учёные запускают квантовую систему вперёд во времени, позволяя ей запутаться и “рассеять” информацию.
2) Затем применяют обратные операции, как будто “перематывают” процесс назад.
3) Если всё сделано идеально, система должна вернуться в исходное состояние,но из-за квантового хаоса это происходит лишь частично.
4) Разница между “до” и “после” показывает, насколько глубоко информация ушла в хаос.
Работа показывает, что можно извлекать информацию из хаотичных квантовых состояний, ранее считавшихся полностью случайными.
Такой эффект невозможно воспроизвести на обычных суперкомпьютерах. Это шаг к практическим квантовым вычислениям, которые смогут моделировать материалы, молекулы и сложные физические процессы с точностью, недостижимой ранее.
«Quantum Echoes может стать основой будущих квантовых разработок для реального применения.
*Out-of-time-order correlator (сокращённо OTOC) - это специальная метрика, с помощью которой физики измеряют, как быстро информация "распространяется" и смешивается внутри квантовой системы.
@ai_machinelearning_big_data
#QuantumComputing #Google #AI #Nature #Physics
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥284👍252❤97🤔70👏53🥰31😐21🤩17🤗13🤓6👌5