Machinelearning

🗣 MARS 5 TTS: новая модель от компании Camb AI для генерации голоса и преобразования текста в речь с открытым исходным кодом 🔥

> Поддержка более чем 140 языков
> Модели достаточно 5 секундного фрагмента для клонирования голоса и генерации речи
> Архитектура модели с авторегрессией (750M) + без авторегрессии (450M)
> В MARS 5 используется токенизатор BPE для управления знаками препинания, паузами, остановками и т.д.

▪Github: https://github.com/Camb-ai/MARS5-TTS
▪Demo: https://www.camb.ai/
▪HF: https://huggingface.co/CAMB-AI/MARS5-TTS
▪Colab: https://colab.research.google.com/github/Camb-ai/mars5-tts/blob/master/mars5_demo.ipynb

@ai_machinelearning_big_data

🔥57👍11❤7🤔2

14.7K viewsedited 20:47

Machinelearning

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

0:11

This media is not supported in your browser

VIEW IN TELEGRAM

🌟

SEE-2-SOUND — метод генерации сложного пространственного звука на основе изображений и видео

— pip install see2sound

SEE-2-SOUND — новая разработка университета Торонто, передовой метод генерации пространственного звука из изображений, анимации и видео.

Модель состоит из трех основных компонентов: оценка источника звука, генерация звука и пространственная генерация объемного звука.

🟡

Страничка SEE-2-SOUND

🖥

GitHub

🟡

Hugging Face

🟡

Arxiv

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥27👍16❤4🥰1

12.4K views10:48

Machinelearning

👁‍🗨 LongVA: Long Context Transfer from Language to Vision

Vision модель с длинныи конетекстом , которая:

- Может обрабатывать 2000 кадров или 200к токенов
- Достигает Sota на VideoMME среди моделей 7B

▪Github: https://github.com/EvolvingLMMs-Lab/LongVA
▪Paper: https://arxiv.org/abs/2406.16852
▪Project: https://lmms-lab.github.io/posts/longva/
▪Demo: https://longva-demo.lmms-lab.com/

@ai_machinelearning_big_data

👍26❤6🔥4❤‍🔥1

12.1K views12:16

🧬 ESM3 - это новая, мощнейшая мультимодальная генеративная языковая модель для биологии.

ESM3 может cмоделировать 500 миллионов лет эволюции для генерации новых белков и молекул.

Модель обучена с использованием более 1x1024 FLOPS и 98B параметров!

Используя модель авторы смоделировали эволюционный процесс и создали новый тип белка GFP (зеленый флуоресцентный белок), отличающийся от всего, что встречается в природе. Это буквально модель для программирования биологии.

▪Почитать подробнее: https://www.evolutionaryscale.ai/blog/esm3-release
▪Статья: https://evolutionaryscale-public.s3.us-east-2.amazonaws.com/research/esm3.pdf

@ai_machinelearning_big_data

🔥62👍16❤5🤩4🤔2

17.9K viewsedited 13:00

Machinelearning

2:00

This media is not supported in your browser

VIEW IN TELEGRAM

🌟

Video-Infinity — быстрая генерация длинных видеороликов

conda create -n video_infinity_vc2 python=3.10
conda activate video_infinity_vc2
pip install -r requirements.txt

python inference.py --config examples/config.json

Video-Infinity позволяет быстро генерировать длинные видеоролики с использованием нескольких GPU.
Скорость на уровне 2300 кадров за 5 минут, что в 100 раз быстрее, предыдущих методов.

🟡

Страничка Video-Infinity

🖥

GitHub

🟡

Arxiv

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥22👍11❤6🤣4🙈1

12.7K views17:04

Machinelearning

🌟

MG-LLaVA — мультимодальная LLM с продвинутыми возможностями работы с визуальной информацией

Буквально только что ребята из Шанхайского университета выкатили MG-LLaVA — MLLM, которая расширяет возможности обработки визуальной информации за счет использования дополнительных компонентов: специальных компонентов, которые отвечают за работу с низким и высоким разрешением.

В MG-LLaVA интегрирован дополнительный визуальный энкодер высокого разрешения для захвата мелких деталей, которые затем объединяются с базовыми визуальными признаками с помощью сети Conv-Gate.

Обученная исключительно на общедоступных мультимодальных данных, MG-LLaVA демонстрирует отличные результаты.

🟡

Страничка MG-LLaVA

🖥

GitHub

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍35❤7🔥7

13.6K views09:27

Machinelearning

🌟 Быстрый способ переводить экраны любых приложений на русский язык

Пользователь Хабра опубликовал рабочий способ переводить на русский экраны приложений на айфоне по одному двойному тапу. Лайфхак сильно упрощает жизнь, когда нужно разобраться в приложениях на других языках.

▪️Статья: https://habr.com/ru/companies/yandex/posts/824706

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

👍27❤7😐4🔥3😁1

12.4K views14:12

Machinelearning

0:14

This media is not supported in your browser

VIEW IN TELEGRAM

🌟

Тонкая настройка VLM модели Florence-2

Andres Marafioti с коллегами немного прокачали Florence-2 на датасете DocVQA, и теперь Florence может давать визуальные ответы на вопросы (VQA)
Блокнот Colab с пошаговой настройкой Florence-2 ниже

🟡

Fine-tuning Florence-2

🟡

Google Colab
🤗 Hugging Face

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥15👍10❤4🥰1

11.9K views16:28

About

Blog

Apps

Platform