This media is not supported in your browser
    VIEW IN TELEGRAM
  🗣 MARS 5 TTS: новая модель  от компании Camb AI для  генерации голоса и преобразования текста в речь с открытым исходным кодом 🔥
> Поддержка более чем 140 языков
> Модели достаточно 5 секундного фрагмента для клонирования голоса и генерации речи
> Архитектура модели с авторегрессией (750M) + без авторегрессии (450M)
> В MARS 5 используется токенизатор BPE для управления знаками препинания, паузами, остановками и т.д.
▪Github: https://github.com/Camb-ai/MARS5-TTS
▪Demo: https://www.camb.ai/
▪HF: https://huggingface.co/CAMB-AI/MARS5-TTS
▪Colab: https://colab.research.google.com/github/Camb-ai/mars5-tts/blob/master/mars5_demo.ipynb
@ai_machinelearning_big_data
> Поддержка более чем 140 языков
> Модели достаточно 5 секундного фрагмента для клонирования голоса и генерации речи
> Архитектура модели с авторегрессией (750M) + без авторегрессии (450M)
> В MARS 5 используется токенизатор BPE для управления знаками препинания, паузами, остановками и т.д.
▪Github: https://github.com/Camb-ai/MARS5-TTS
▪Demo: https://www.camb.ai/
▪HF: https://huggingface.co/CAMB-AI/MARS5-TTS
▪Colab: https://colab.research.google.com/github/Camb-ai/mars5-tts/blob/master/mars5_demo.ipynb
@ai_machinelearning_big_data
🔥57👍11❤7🤔2
  —
pip install see2soundSEE-2-SOUND — новая разработка университета Торонто, передовой метод генерации пространственного звука из изображений, анимации и видео.
Модель состоит из трех основных компонентов: оценка источника звука, генерация звука и пространственная генерация объемного звука.
@ai_machinelearning_big_data
Please open Telegram to view this post
    VIEW IN TELEGRAM
  Please open Telegram to view this post
    VIEW IN TELEGRAM
  🔥27👍16❤4🥰1
  👁🗨 LongVA: Long Context Transfer from Language to Vision
Vision модель с длинныи конетекстом , которая:
- Может обрабатывать 2000 кадров или 200к токенов
- Достигает Sota на VideoMME среди моделей 7B
▪Github: https://github.com/EvolvingLMMs-Lab/LongVA
▪Paper: https://arxiv.org/abs/2406.16852
▪Project: https://lmms-lab.github.io/posts/longva/
▪Demo: https://longva-demo.lmms-lab.com/
@ai_machinelearning_big_data
Vision модель с длинныи конетекстом , которая:
- Может обрабатывать 2000 кадров или 200к токенов
- Достигает Sota на VideoMME среди моделей 7B
▪Github: https://github.com/EvolvingLMMs-Lab/LongVA
▪Paper: https://arxiv.org/abs/2406.16852
▪Project: https://lmms-lab.github.io/posts/longva/
▪Demo: https://longva-demo.lmms-lab.com/
@ai_machinelearning_big_data
👍26❤6🔥4❤🔥1
  Media is too big
    VIEW IN TELEGRAM
  🧬 ESM3 - это новая, мощнейшая мультимодальная генеративная языковая модель для биологии.
ESM3 может cмоделировать 500 миллионов лет эволюции для генерации новых белков и молекул.
Модель обучена с использованием более 1x1024 FLOPS и 98B параметров!
Используя модель авторы смоделировали эволюционный процесс и создали новый тип белка GFP (зеленый флуоресцентный белок), отличающийся от всего, что встречается в природе. Это буквально модель для программирования биологии.
▪Почитать подробнее: https://www.evolutionaryscale.ai/blog/esm3-release
▪Статья: https://evolutionaryscale-public.s3.us-east-2.amazonaws.com/research/esm3.pdf
@ai_machinelearning_big_data
ESM3 может cмоделировать 500 миллионов лет эволюции для генерации новых белков и молекул.
Модель обучена с использованием более 1x1024 FLOPS и 98B параметров!
Используя модель авторы смоделировали эволюционный процесс и создали новый тип белка GFP (зеленый флуоресцентный белок), отличающийся от всего, что встречается в природе. Это буквально модель для программирования биологии.
▪Почитать подробнее: https://www.evolutionaryscale.ai/blog/esm3-release
▪Статья: https://evolutionaryscale-public.s3.us-east-2.amazonaws.com/research/esm3.pdf
@ai_machinelearning_big_data
🔥62👍16❤5🤩4🤔2
  conda create -n video_infinity_vc2 python=3.10
conda activate video_infinity_vc2
pip install -r requirements.txt
python inference.py --config examples/config.json
Video-Infinity позволяет быстро генерировать длинные видеоролики с использованием нескольких GPU.
Скорость на уровне 2300 кадров за 5 минут, что в 100 раз быстрее, предыдущих методов.
@ai_machinelearning_big_data
Please open Telegram to view this post
    VIEW IN TELEGRAM
  Please open Telegram to view this post
    VIEW IN TELEGRAM
  🔥22👍11❤6🤣4🙈1
  Буквально только что ребята из Шанхайского университета выкатили MG-LLaVA — MLLM, которая расширяет возможности обработки визуальной информации за счет использования дополнительных компонентов: специальных компонентов, которые отвечают за работу с низким и высоким разрешением.
В MG-LLaVA интегрирован дополнительный визуальный энкодер высокого разрешения для захвата мелких деталей, которые затем объединяются с базовыми визуальными признаками с помощью сети Conv-Gate.
Обученная исключительно на общедоступных мультимодальных данных, MG-LLaVA демонстрирует отличные результаты.
@ai_machinelearning_big_data
Please open Telegram to view this post
    VIEW IN TELEGRAM
  Please open Telegram to view this post
    VIEW IN TELEGRAM
  👍35❤7🔥7
  Пользователь Хабра опубликовал рабочий способ переводить на русский экраны приложений на айфоне по одному двойному тапу. Лайфхак сильно упрощает жизнь, когда нужно разобраться в приложениях на других языках.
▪️Статья: https://habr.com/ru/companies/yandex/posts/824706
@ai_machinelearning_big_data
Please open Telegram to view this post
    VIEW IN TELEGRAM
  👍27❤7😐4🔥3😁1
  This media is not supported in your browser
    VIEW IN TELEGRAM
  Andres Marafioti с коллегами немного прокачали Florence-2 на датасете DocVQA, и теперь Florence может давать визуальные ответы на вопросы (VQA)
Блокнот Colab с пошаговой настройкой Florence-2 ниже
🤗 Hugging Face
@ai_machinelearning_big_data
Please open Telegram to view this post
    VIEW IN TELEGRAM
  🔥15👍10❤4🥰1
  