383K subscribers
4.49K photos
870 videos
17 files
4.92K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
📌 Андрей Карпаты написал ИИ-пайплайн для проверки IT-прогнозов десятилетней давности.

Андрей опубликовал разбор своего нового пет-проекта. Он создал систему, которая анализирует архивные треды Hacker News и с помощью LLM проверяет, сбылись ли предсказания пользователей спустя 10 лет.

Проект использует так называемые «послезнание» (hindsight), чтобы сравнивать старые комментарии с реальностью, выявлять визионеров и находить самые громкие ошибки.

Технически решение представляет собой пайплайн, который собирает данные через API Algolia и обрабатывает их с помощью структурированного промпта.

Тестовый прогон на 930 обсуждениях (месячный архив статей Hacker News) занял около часа и обошелся всего в 58 долларов.

На выходе система генерирует статический сайт с «Залом славы» аналитиков и рейтингом точность прогнозов.

Исходный вайб-код проекта, по традиции - в открытом доступе.


@ai_machinelearning_big_data

#AI #ML #LLM #Tutorial #Karpaty
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥4922👍10💘4😁3❤‍🔥1😴1
Media is too big
VIEW IN TELEGRAM
✔️ HY World 1.5: модель для генерации 3D-миров в реальном времени.

Tencent релизнула HY World 1.5 - "модель мира" для генерации бесконечных интерактивных 3D-пространств с фрейм-рейтом 24 FPS.

В этом релизе решили проблему амнезии модели. Это значит, что при возвращении в ранее сгенерированную локацию она сохранит свой исходный облик, а не перестроится случайным образом.

Под капотом - связка Diffusion Transformer и 3D VAE, предсказывающая чанки по 16 кадров на лету. Управление от первого или третьего лица реализовано через гибридную систему Dual Action (клавиши WASD плюс положение камеры).
3d-models.hunyuan.tencent.com

✔️ Microsoft обновила 3D-модель TRELLIS.

TRELLIS 2 получила 4 млрд. параметров и способность генерировать детализированные 3D-меши с разрешением до 1536³ по тексту или изображению. Модель отличается реалистичной проработкой материалов и улучшенной топологией мешей по сравнению с первой версией.

В основе системы - высокопроизводительная архитектура O-Voxel: черновой вариант генерируется всего за 3 секунды, а версия в максимальном качестве — около минуты.
microsoft.github.io

✔️ Adobe добавил видеоредактор в Firefly.

Adobe выпустила обновление Firefly. Теперь там есть полноценный видеоредактор, позволяющий вносить точечные изменения в ролики с помощью текстовых команд. Через промпты можно корректировать отдельные элементы, цветовую гамму и ракурсы камеры. Для удобства работы добавлен интерфейс с привычным таймлайном.

Компания также расширила экосистему, добавив модели FLUX.2 и Topaz Astra для апскейла видео до 4K. Кроме того, собственная видеомодель Adobe научилась повторять движение камеры, используя первый кадр и референсное видео.

Функции вышли из стадии закрытой беты и уже доступны на тарифах Firefly Pro, Firefly Premium бесплатно до 15 января.
blog.adobe.com

✔️ Google Labs делает экспериментального ИИ-агента для автоматизации рутины.

Это ИИ-ассистент под названием CC на базе Gemini, который берет на себя роль умного секретаря. Сервис интегрируется с Gmail, Google Calendar и Drive, чтобы каждое утро присылать пользователю структурированный бриф с планами на день и важными задачами.

Бот умеет не просто агрегировать информацию, но и выделять контекст: он подскажет, когда нужно подготовиться к встрече или оплатить счет, а также может сам составить черновик письма или создать событие в календаре.

Взаимодействие с ассистентом происходит исключительно через электронную почту: вы обучаете его, просто отвечая на письма. Ранний доступ к СС открыт только для пользователей из США и Канады через лист ожидания.
blog.google

✔️ Perplexity обновила свое приложение для iPad.

Perplexity выпустила новую версию приложения для iPad, ориентированную на студентов и бизнес-пользователей, которым нужны глубокие исследования.

Теперь это не просто растянутая версия с iPhone: интерфейс полностью переработан с учетом эргономики планшетов. Появилась удобная боковая панель для навигации и поддержка режима Split View для полноценной многозадачности.

В компании не скрывают, что улучшение UX бля больших экранов — это стратегический шаг для наращивания базы платных подписчиков, так как безлимитный доступ к расширенным исследовательским функциям открывается именно в Pro-тарифе.
bloomberg.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
60👍12🔥10🤬1🦄1
🌟 TurboDiffusion: ускорение генерации видео в 100+ раз.

Суровая реальность нашего времени: вы хотите сгенерировать 5-секундное видео на большой SOTA-модели. Вы запускаете промпт, идете пить кофе, возвращаетесь, а процесс все еще идет. И зачастую генерация может занимать больше часа.

Главные виновники - чудовищная вычислительная сложность механизма внимания в трансформерах, необходимость сотен шагов денойзинга и огромный объем памяти для весов в полной точности.


Авторы проекта TurboDiffusion из Цинхуа и Беркли решили собрать все эффективные методы сжатия и ускорения в один пайплайн. Их идея заключалась в том, что разреженность и квантование — это техники, которые не мешают друг другу.

🟡Архитектура держится на 3-х китах оптимизации:

🟢Заменили стандартное внимание на гибрид из SageAttention2++ и Sparse-Linear Attention (SLA), который превратил квадратичную сложность в линейную. чтобы модель фокусировалась только на важных токенах.

🟢Дистиллировали сэмплинг через rCM - вместо стандартных 50–100 шагов модель приходит к результату всего за 3-4 шага без потери сути изображения.

🟢Перевели и веса и активации линейных слоев в INT8 используя блочное квантование, чтобы не потерять точность.

В довершении ко всему смогли объединить после файнтюнинга под SLA и дистилляции rCM веса в единую модель, избежав конфликтов.

🟡Результаты бенчмарков выглядят как опечатка, но это не она.

На RTX 5090 время генерации для тяжелой модели Wan2.2-I2V 14B упало с 69 минут до 35.4 секунд. А для более легкой Wan 2.1-1.3B - с почти 3-х минут до 1.8 секунды.

Это ускорение больше чем в 100 раз.

При этом, судя по примерам, визуальное качество осталось практически неотличимым от оригинала.


📌Лицензирование: Apache 2.0 License.


🟡Набор моделей
🟡Техотчет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #I2V #T2V #TurboDiffusion
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍45🔥3214🤗2😁1💘1🦄1