This media is not supported in your browser
VIEW IN TELEGRAM
Вместо того, чтобы усложнять одну модель, авторы запускают несколько агентов параллельно и затем выбирают лучший результат.
Метод назвили **Behavior Best-of-N (bBoN).
Как работает:
- Каждый агент пробует решить задачу.
- Его действия переводятся в поведенческий нарратив - короткое описание, что реально изменилось на экране.
- Специальный судья сравнивает эти нарративы и выбирает лучший.
Результаты:
- GPT-5 с 10 параллельными агентами → 69.9% успеха
- Для примера у GPT-5 Mini → 60.2%
- Agent S3* набирает на +10% выше предыдущей SOTA
📄 Paper: http://arxiv.org/abs/2510.02250
💻 Code: http://github.com/simular-ai/Agent-S
📝 Blog: http://simular.ai/articles/agent-s3
@ai_machinelearning_big_data
#AI #Agents #AgentS3 #OSWorld #SimularAI #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥57👍19❤17💘3🤔1