Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Qwen обновила свой синтезатор речи Qwen-TTS, его обучали на миллионах часов аудиозаписей. Новая версия адаптирует интонацию, ритм и эмоции под контекст текста и приближает звучание к человеческому. Добавили 3 китайских диалекта и поддержку 7 двуязычных голосов (Cherry, Ethan, Jada и др.).
Тесты в SeedTTS-Eval показали высокую точность (WER 1.209) и естественность (SIM 1.967). Модель доступна только через API. В будущем обещают новые языки и стили речи.
qwenlm.github.io
Совместное исследование ERGO Innovation Lab и ECODYNAMICS показало, что ИИ-системы не просто выдают популярные ссылки, они анализируют структуру, читаемость и ясность контента. Это ставит под сомнение традиционные методы SEO в для традиционных сайтов.
Аналитики изучили 33 тыс. запросов и 600 сайтов из области услуг страхования. Результат: LLM оценивают не только ключевые слова, но и логичность подачи информации, удобство навигации и глубину раскрытия темы.
Специалисты советуют пересмотреть стратегии: упростить тексты, структурировать данные и адаптировать контент под агентные системы. Чем раньше компании пересмотрят свои SEO-стратегии, тем выше вероятность оставаться на виду, когда алгоритмы станут сложнее. Полную версию отчета можно почитать по ссылке.
ergo.com
Конкуренция за лучших специалистов в сфере ИИ достигла критической точки. После того как компания Цукерберга переманила 4 ключевых сотрудников OpenAI для работы над «суперинтеллектом», глава исследований Марк Чэн призвал команду Сэма Альтмана оставаться верной компании, пообещав пересмотреть зарплаты и улучшить условия.
По данным источников, Цукерберг предлагает бонусы до $100 млн и лично контактирует с потенциальными кандидатами. Внутри OpenAI сотрудники жалуются на перегрузки, многие работают по 80 часов в неделю. В ответ на агрессивный хэдхантинг, Open AI объявила о «перезагрузке» на неделю, при этом напомнив, что из главная цель - развитие ИИ, а не соревнование с конкурентами.
wired.com
Microsoft разработала ИИ-инструмент MAI-DxO, который в 4 раза эффективнее опытных врачей в решении сложных диагностических задач. Система использует «оркестратор», создавая сеть из 5 ИИ-агентов, выполняющих роли от генератора гипотез до выбора тестов, которые взаимодействуют и «спорят» для принятия решений.
Тестирование на 304 сложных клинических случаях из NEJM показало точность 85,5% при использовании OpenAI o3 — против 20% у людей без доступа к справочникам или коллегам. Технология может быть интегрирована в Copilot и Bing, которые суммарно обрабатывают около 50 млн. медицинских запросов ежедневно.
ft.com
В минувшую субботу, в Пекине прошел первый в Китае турнир по футболу полностью автономных роботов-гуманоидов. Команда университета Циньхуа победила в финале, обыграв соперников из сельскохозяйственного университета со счетом 5:3. Обе команды использовали одинаковое оборудование от Booster Robotics, но разрабатывали собственные алгоритмы для управления зрением, балансом и движениями.
Матч стал испытанием для технологий: роботы падали, теряли равновесие, а иногда их приходилось уносить на носилках - все это помогает тестировать системы управления и безопасности перед массовым внедрением. Организаторы назвали матч "трейлером" предстоящих Всемирных игр роботов в августе, где будут представлены 11 видов спорта.
bloomberg.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8🔥4👍3
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Veo 3 Fast - это ускоренная версия модели для создания видео из текста. Она обрабатывает запросы более чем в два раза быстрее Veo 3, но с ограничением по качеству: максимум 720p.
Сервис доступен в 159 странах, включая все страны Европы. Пользователи Gemini Pro получают три генерации в день, а подписчики Ultra — до 125 видео в месяц. Дополнительно, снизили частоту отклонения пользовательских промптов.
Google уже готовит добавление функции Image-to-video, она находится «на финальной стадии».
Josh Woodward (VP Google) в сети X
Ученые из Helmholtz Munich создали модель Centaur, способную предсказывать решения людей в любых психологических задачах, от выбора риска до обучения. Команда адаптировала Llama 3.1, обучив ее на данных из 10 млн. решений. По тестам Centaur превзошел специализированные алгоритмы, которые разрабатывали годами. Модель угадывает поведение даже в новых сценариях при изменении контекста задачи или добавления новых опций.
Внутренние процессы Centaur начали напоминать активность человеческого мозга без прямого обучения на нейронных данных. Цифровой «мозг» даже открыл новую стратегию принятия решений.
Исследователи открыли доступ к модели и датасету Psych-101, обещая прорыв в психологии, образовании и дизайне продуктов.
nature.com
Компания разрабатывает функцию для чат-ботов в своем AI Studio: они смогут инициировать диалог с пользователями, если те ранее активно общались с ботом (не менее 5 сообщений за 2 недели). После первого ответного сообщения от пользователя боты продолжат общение, но только в течение 14 дней, и прекратят попытки, если ответа не последует.
Цель функции - удерживать аудиторию, увеличивая вовлеченность, это напрямую связано со стратегией монетизации ИИ-продуктов (прогнозируемый доход $2–3 млрд. в 2025 году). Пилотный тест уже запущен, но детали реализации остаются расплывчатыми.
businessinsider.com
Более 45 технологических и промышленных гигантов призвали Еврокомиссию перенести сроки вступления в силу закона об искусственном интеллекте на два года. Они утверждают, что текущие требования к мощным ИИ-моделям слишком расплывчаты и угрожают развитию инноваций.
Регулирование должно начаться в августе, инициативу отрытого обращения к ЕК запустили General Catalyst, SAP и Spotify, хотя последние двое не подписали письмо.
bloomberg.com
Облачный провайдер CoreWeave первым установил серверы Nvidia GB300 NVL72 с новыми GPU Blackwell Ultra. Платформа, собранная Dell, объединяет 72 видеокарты и 36 процессоров Grace, обеспечивает 50-кратный роста производительности при инференсе и 5-кратную энергоэффективность по сравнению с архитектурой Hopper. Инсталляция ориентирована на тяжелые нейросетевые задачи и агентные вычисления.
Система уже доступна клиентам, раннее внедрение может стать козырем провайдера в конкуренции за внимание технической аудитории.
cnbc.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7🔥3👍2
Forwarded from Machinelearning
Глубокие исследовательские агенты — не просто чат‑боты, а полноценные ИИ‑ассистенты, способные искать информацию, взаимодействовать с инструментами, планировать и писать отчёты. Ниже — 10 мощных open‑source проектов, которые уже можно протестировать:
1. DeerFlow — модульная система от Bytedance: DeerFlow — open‑source фреймворк от Bytedance для создания модульных LLM-агентов.
Поддерживает:
- планирование действий,
- анализ кода,
- генерацию отчётов (включая Text-to-Speech),
- адаптивную интеграцию инструментов.
Создан для исследований, автоматизации и построения сложных агентных пайплайнов.
https://github.com/bytedance/deer-flow
2. Alita — самообучающийся агент с поддержкой Model Context Protocols (MCP), всё в одном модуле. Alita — агент, который сам придумывает, как ему расширить себя, не полагаясь на заранее написанные сценарии, и уже демонстрирует топовые результаты на сложных тестах.
https://github.com/CharlesQ9/Alita
3. WebThinker — автономный веб‑поиск с логикой "думай‑ищи‑пиши", RL‑обучением и глубокой навигацией
https://github.com/RUC-NLPIR/WebThinker
4. SimpleDeepSearcher — это лёгкий, но эффективный open‑source фреймворк от RUCAIBox, предназначенный для автономного веб-поиска через импровизированные многотуровые сессии:
- Использует Supervised Fine‑Tuning (SFT) вместо сложного RL, что значительно упрощает обучение и снижает вычислительные затраты
- Генерирует реалистичные траектории поиска и рассуждений, симулируя поведение пользователя в живом поисковом окружении .
- Критически отбирает данные по нескольким критериям качества: разнообразие запросов, сложность, структура ответов
5. AgenticSeek — приватный on‑device ассистент с выбором эксперта под задачу и голосовым управлением
https://github.com/Fosowl/agenticSeek
6. Suna — универсальный ассистент: браузер, CLI, работа с файлами, API, деплой
https://github.com/kortix-ai/suna
7. DeepResearcher — это комплексный open-source фреймворк от GAIR‑NLP, предназначенный для обучения LLM‑агентов, способных проводить глубокие исследования в автономном режиме, взаимодействуя с вебом. Использует несколько агентов‑браузеров, которые совместно исследуют веб и обрабатывают информацию
https://github.com/GAIR-NLP/DeepResearcher
8. Search‑R1 — агент на PPO/GRPO с поддержкой LLaMA3, Qwen2.5 и кастомных поисковиков. Агент учится эффективному циклу «думай — ищи — думай — отвечай» через RL, достигая важных улучшений в точности ответов и эффективности поиска.
https://github.com/PeterGriffinJin/Search-R1
9. ReCall — это фреймворк на основе RL, который учит LLM "должным образом" вызывать и комбинировать инструменты, используя сгенерированные задачи, без необходимости вручную собирать примеры вызовов — и всё это в открытом доступе.
https://github.com/Agent-RL/ReCall
10. OWL — мультиагентная система на CAMEL‑AI для динамического взаимодействия между агентами
https://github.com/camel-ai/owl
Агенты умеют планировать, взаимодействовать с браузером, запускать скрипты, интегрироваться с API и работать автономно.
Всё проекты — с открытым кодом. Можно изучить, собрать и доработать под свои задачи.
@ai_machinelearning_big_data
#ml #rl #aiagents #ai #agents
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13👍6🔥3