This media is not supported in your browser
VIEW IN TELEGRAM
🗣 Kokoro-TTS
Мощнейшая TTS-модель всего лишь на 82M параметров.
Она превосходит более крупные модели и генерирует минуты речи за секунды.
Самое главное - это открытый исходный код!
Попробуйте и убедитесь сами: 👇
🤗 Hf: https://huggingface.co/spaces/hexgrad/Kokoro-TTS
#tts #ml #opensource
Мощнейшая TTS-модель всего лишь на 82M параметров.
Она превосходит более крупные модели и генерирует минуты речи за секунды.
Самое главное - это открытый исходный код!
Попробуйте и убедитесь сами: 👇
🤗 Hf: https://huggingface.co/spaces/hexgrad/Kokoro-TTS
#tts #ml #opensource
👍13🔥7❤5
This media is not supported in your browser
VIEW IN TELEGRAM
ZyphraAI только что выпустили - лицензированную Apache 2.0, многоязычную модель Zonos для преобразования текста в речь с МГНОВЕННЫМ клонированием голоса! 🔥
> TTS с нулевой скоростью задержки и клонированием голоса: введите текст и 10–30-секундный образец речи для создания высококачественной генерации текста в речь
> Качество звука и контроль эмоций: точная настройка скорости речи, высоты тона, частоты, качества звука и эмоций (например, счастья, гнева, грусти, страха)
> Позволяет реализовать такие фишки, как шепот, которые трудно реализовать с помощью одного лишь клонирования голоса.
> Многоязычная поддержка: поддерживает английский, японский, китайский, французский и немецкий языки.
> Высокая производительность: работает примерно в 2 раза быстрее реального времени на RTX 4090
> Доступно на Hugging Face Hub 🤗
https://huggingface.co/Zyphra/Zonos-v0.1-hybrid
#ai #ml #tts #opensource #ZyphraAI
> TTS с нулевой скоростью задержки и клонированием голоса: введите текст и 10–30-секундный образец речи для создания высококачественной генерации текста в речь
> Качество звука и контроль эмоций: точная настройка скорости речи, высоты тона, частоты, качества звука и эмоций (например, счастья, гнева, грусти, страха)
> Позволяет реализовать такие фишки, как шепот, которые трудно реализовать с помощью одного лишь клонирования голоса.
> Многоязычная поддержка: поддерживает английский, японский, китайский, французский и немецкий языки.
> Высокая производительность: работает примерно в 2 раза быстрее реального времени на RTX 4090
> Доступно на Hugging Face Hub 🤗
apt install espeak-nghttps://huggingface.co/Zyphra/Zonos-v0.1-hybrid
#ai #ml #tts #opensource #ZyphraAI
🔥22👍8❤6
This media is not supported in your browser
VIEW IN TELEGRAM
💡 Модель Ming-UniAudio — это универсальный фреймворк, сочетающий понимание речи, генерацию и редактирование.
- Модель Ming-UniAudio — это универсальный фреймворк, сочетающий *понимание речи*, *генерацию* и *редактирование*.
- В её основе лежит единый непрерывный токенизатор речи, интегрирующий семантические и акустические признаки.
- Поддерживается инструкционное редактирование: можно менять звук, содержание или тональность без указания временных фрагментов.
- В бенчмарках показывает конкурентные результаты и для распознавания, и для генерации речи.
- Лицензия: Apache-2.0.
💻 GitHub: https://github.com/inclusionAI/Ming-UniAudio
🤗 Tokenizer: https://huggingface.co/inclusionAI/MingTok-Audio
🤗 Model:
base: https://huggingface.co/inclusionAI/Ming-UniAudio-16B-A3B
edit: https://huggingface.co/inclusionAI/Ming-UniAudio-16B-A3B-Edit
🤗 Benchmark: https://huggingface.co/datasets/inclusionAI/Ming-Freeform-Audio-Edit-Benchmark
🌍 blog: https://xqacmer.github.io/Ming-Unitok-Audio.github.io/
#AI #Speech #SpeechLLM #LLM #GenerativeAI #Audio #ASR #TTS #SpeechEditing
- Модель Ming-UniAudio — это универсальный фреймворк, сочетающий *понимание речи*, *генерацию* и *редактирование*.
- В её основе лежит единый непрерывный токенизатор речи, интегрирующий семантические и акустические признаки.
- Поддерживается инструкционное редактирование: можно менять звук, содержание или тональность без указания временных фрагментов.
- В бенчмарках показывает конкурентные результаты и для распознавания, и для генерации речи.
- Лицензия: Apache-2.0.
💻 GitHub: https://github.com/inclusionAI/Ming-UniAudio
🤗 Tokenizer: https://huggingface.co/inclusionAI/MingTok-Audio
🤗 Model:
base: https://huggingface.co/inclusionAI/Ming-UniAudio-16B-A3B
edit: https://huggingface.co/inclusionAI/Ming-UniAudio-16B-A3B-Edit
🤗 Benchmark: https://huggingface.co/datasets/inclusionAI/Ming-Freeform-Audio-Edit-Benchmark
🌍 blog: https://xqacmer.github.io/Ming-Unitok-Audio.github.io/
#AI #Speech #SpeechLLM #LLM #GenerativeAI #Audio #ASR #TTS #SpeechEditing
❤9🔥3👍2
🔊 Google представила обновления моделей Gemini 2.5 Flash и Pro для Text-to-Speech (TTS)
Что нового:
- Более гибкая передача эмоций и тональности
- Контекстно-зависимая настройка темпа речи
- Улучшенная работа с несколькими говорящими
Теперь разработчики получают куда больше контроля над тем, как именно модель озвучивает тексты - от эмоционального стиля до динамики повествования.
https://blog.google/technology/developers/gemini-2-5-text-to-speech/
@ai_machinelearning_big_data
#tts #Gemini #google
Что нового:
- Более гибкая передача эмоций и тональности
- Контекстно-зависимая настройка темпа речи
- Улучшенная работа с несколькими говорящими
Теперь разработчики получают куда больше контроля над тем, как именно модель озвучивает тексты - от эмоционального стиля до динамики повествования.
https://blog.google/technology/developers/gemini-2-5-text-to-speech/
@ai_machinelearning_big_data
#tts #Gemini #google
👍6❤1🔥1