361K subscribers
4.28K photos
800 videos
17 files
4.76K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
⚡️ Qwen2 - самый крутой релиз откртых LLM со времен Llama 3!

Alibaba только что выпустили свое новое семейство мультиязычных моделей, которых превосходят по производительности Llama 3 по многим параметрам.

🤯 Qwen2 выпущен в 5 размерах и понимает 27 языков. В таких задачах, как написания кода и решения математических задач, Llama3 остает на всех тестах.


5️⃣ Размеры: 0.5B, 1.5B, 7B, 57B-14B (MoE), 72B.
Контекст: 32k для 0.5B & 1.5B, 64k для 57B MoE, 128k для 7B и 72B
Поддерживает 29 языков.
📜 Выпущены под лицензией Apache 2.0, за исключением версии 72B.

📖 BLOG: https://qwenlm.github.io/blog/qwen2/
🤗 HF collection: https://huggingface.co/collections/Qwen/qwen2-6659360b33528ced941e557f
🤖 https://modelscope.cn/organization/qwen
💻 GitHub: https://github.com/QwenLM/Qwen2

@ai_machinelearning_big_data
🔥65👍153🥰1
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 Мультиплеер Stable Audio, который можно запустить на Hugging Face

Генерируйте аудио из текстового описания, делитесь и учитесь у других, как наилучшим образом использовать эту новую модель.

🤗 Попробовать на Hugging Face

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🔥113😁2
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 NeRF-Insert — редактирование 3D-сцены с помощью текстового промпта или с помощью изображения

NeRF-Insert позволяет добавить объект в 3D-сцену с помощью мультимодальных входных сигналов: текстового промпта или опорного изображения.
Можно определить область 3D-сцены, которая будет меняться, нарисовав всего 2-3 маски.
При желании можно отображать полигональную сетку, чтобы иметь больше контроля над положением или формой вставляемого объекта.

▶️ Страничка NeRF-Insert
🟡 Arxiv

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍28🔥112😍2
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 aider — AI-напарник для программирования с консольным интерфейсом

pip install aider-chat

# для работы с GPT-4o
export OPENAI_API_KEY=your-key-goes-here
aider

# для использование Claude 3 Opus:
export ANTHROPIC_API_KEY=your-key-goes-here
aider --opus


Aider получил высший балл на SWE Bench — сложном бенчмарке, в котором Aider решал реальные проблемы на GitHub из популярных проектов с открытым исходным кодом, таких как django, scikitlearn, matplotlib и др.

🖥 GitHub
🟡 Доки

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍375🔥4🤣1
This media is not supported in your browser
VIEW IN TELEGRAM
🎙 Real-time in-browser speech recognition

Распознавание речи в браузере в режиме реального времени с помощью OpenAI Whisper! ⚡️

Модель полностью работает на девайсах, на основе Transformers.js и ANNEX Runtime Web и поддерживает 100 различных языков! 🔥

Демо-версиия (+ исходный код)! 👇

Сode: https://github.com/xenova/transformers.js/tree/v3/examples/webgpu-whisper
Hf: https://huggingface.co/spaces/Xenova/realtime-whisper-webgpu

@ai_machinelearning_big_data
👍35🔥186🦄1
Flash Diffusion — ускорение любой диффузионной модели генерации изображений в несколько шагов

Так называется работа, которую на днях опубликовали Clément Chadebec, Onur Tasar и их коллеги.
Это метод дистилляции для создания быстрых диффузионных моделей.
При обучении модели таким методом на наборах данных COCO2014 и COCO2017 показатели FID и CLIP-Score достигают хороших значений; при этом требуется всего несколько часов обучения на GPU и меньшее количество параметров модели, чем требуют существующие методы.

🟡 Страничка Flash Diffusion
🖥 GitHub

🤗 Flash SD
🤗 Flash SDXL

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥27👍182
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 Micro Agent будет писать код до тех пор, пока тот не будет соответствовать тестам

npm install -g @builder.io/micro-agent

Micro Agent — это маленький AI-агент, который заточен под одно применение: агент пишет тест, а потом пишет под этот тест код.
По задумке, такой подход должен гарантировать как минимум валидность кода, а как максимум — код будет решать все поставленные задачи

🖥 GitHub

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍71🔥154🤔4🥰2🤣2
🌟 xLSTM — Расширенная долговременная краткосрочная память

pip install xlstm

Не так давно был пост со статьёй Arxiv об архитектуре xLSTM, и вот команда исследователей xLSTM опубликовала код на GitHub.
xLSTM — это новая архитектура рекуррентной нейронной сети, основанная на идеях привычной нам LSTM. Благодаря экспоненциальному гейтингу с соответствующими методами нормализации и стабилизации и новой матричной памяти она преодолевает ограничения оригинальной LSTM и демонстрирует производительность при обработке естественного языка по сравнению с трансформерами или другими архитектурами.

🖥 GitHub
🟡 Arxiv

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
26👍26🔥7
⚡️ AGiXT — open-source платформа, которая позволяет легко организовать выполнение сложных задач различными AI-агентами

git clone https://github.com/Josh-XT/AGiXT
cd AGiXT
./AGiXT.ps1


AGiXT — это платформа для эффективного управления AI-системами с помощью различных инструментов. Наши агенты оснащены адаптивной памятью, и это универсальное решение предлагает мощную систему плагинов, поддерживающую широкий спектр команд, включая просмотр веб-страниц.

AGiXT имеет множество удобных плагинов для создания эффективных AI-решений

🖥 GitHub
🟡 Доки
🟡 Примеры использования

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍20🔥64
🍏 Прошла конференция Apple и если вы пропустили ее, вот самое интерсное из нее.

Siri превратили в ИИ-помощника, теперь она сможет использовать ваши приложения, объяснять информацию на экране и искать то, что вам нужно практически в любых приложениях и заметках;

Что инетресно, Apple еще в апреле опубликовала статью о своей модели машинного обучения Ferret-UI для распознавания элементов пользовательского интерфейса, в которой раскрыто гораздо больше деталей, чем мы обычно ожидаем от Apple.

"Ferret-UI", мультимодальная модель визуального языка, которая распознает иконки, виджеты и текст на экране мобильного устройства iOS, а также объясняет их расположение и функциональное значение.

Примеры вопросов, которые вы можете задать Ferret-UI:
- Предоставьте краткое описание этого скриншота;
- Для интерактивного элемента укажите фразу, которая наилучшим образом описывает его функциональность;
- Определите, можно ли использовать элемент пользовательского интерфейса.
и тд

В статье даже рассказывается о деталях созданиях датасета и бенчмарка для тестов Apple. Редкая открытость со стороны яблочников!

Они по-настоящему переосмысливают свое направление исследований в области искусственного интеллекта.

Статья была опубликована в апреле без особой пиар-шумихи: https://arxiv.org/abs/2404.05719

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24🥱128🔥8
⚡️L-MAGIC: Language Model Assisted Generation of Images with Coherence

Новая модель Intel- L-MAGIC
может создавать качественные панорамные сцены на основе одного входного изображения и текстового промпта!

Многочисленные тесты показывают, что модель генерирует панорамные сцены с лучшим расположением сцен и качеством рендеринга по сравнению с аналогичными моделями.

Github: https://github.com/IntelLabs/MMPano
Paper: https://arxiv.org/abs/2406.01843
Project: https://zhipengcai.github.io/MMPano/
Video: https://youtu.be/XDMNEzH4-Ec

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍26🔥54🥱2
This media is not supported in your browser
VIEW IN TELEGRAM
📖 В Букмейте появился виртуальный рассказчик, умеющий читать книги в реальном времени

Разработан рассказчик на базе комплекса речевых технологий Яндекса с привлечением профессиональных дикторов. При этом воспроизведение текста максимально приближено к естественной речи, поэтому читатели могут с комфортом слушать произведения на протяжении долгого времени.

На Хабре разработчик функции описал процесс адаптации речевых технологий для книг. Сложность состояла в том, что в литературных произведениях есть необычные сокращения и редкие термины — нужно было обучить модель правильному произношению.

▪️ Habr: https://habr.com/ru/companies/yandex/news/820525/

@ai_machinelearning_big_data
🔥45👍17🤔2🎅211
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 SF-V — новый метод генерации видео от Snapchat.

SF-V — это метод генерации видео, который позволяет генерировать динамические и согласованные видео за 1 проход.
В исследовании команда из Snapchat берёт обычную многошаговую диффузионную модель, и обучает её улавливать как временные, так и пространственные зависимости в видеоданных для получения цельных видео.

🟡 Страничка SF-V
🖥 GitHub

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20👍112
🗣 VALLEY 2: Neural Codec Language Models are Human Parity Zero-Shot Text to Speech Synthesizers

В этой статье Microsoft представили VALL-E 2, новейшее достижение в области языковых моделей , которое знаменует собой важную веху в области синтеза текста в речь (TTS), впервые достигая человеческого уровня.

Эксперименты с датасетами LibriSpeech и VCTK показали, что VALL-E 2 превосходит все предыдущие модели по качеству сгенерированной речи и ее естественности.

Подробности: https://arxiv.org/abs/2406.05370
Демо VALL-E 2 будети доступна здесь: https://www.bing.com/?ref=aka&shorturl=valle2

@ai_machinelearning_big_data
🔥23👍122