ИИ идут ва-банк: исследователь устроил настоящий покерный турнир между топовыми LLM.
Покер — игра с неполной информацией, а значит идеальный полигон, чтобы проверить, как модели ведут себя в условиях риска, стратегии и блефа.
Без подсказок и внешней помощи — только один промпт и чистая логика. При этом каждая модель выбирает свою стратегию, будто у неё есть «характер».
В топе — Grok 4 с прибылью $25 000, за ним идут OpenAI o3 и Claude 4.5. 🤑
Следить за игрой и мыслями ИИ можно здесь: https://pokerbattle.ai/event
Покер — игра с неполной информацией, а значит идеальный полигон, чтобы проверить, как модели ведут себя в условиях риска, стратегии и блефа.
Без подсказок и внешней помощи — только один промпт и чистая логика. При этом каждая модель выбирает свою стратегию, будто у неё есть «характер».
В топе — Grok 4 с прибылью $25 000, за ним идут OpenAI o3 и Claude 4.5. 🤑
Следить за игрой и мыслями ИИ можно здесь: https://pokerbattle.ai/event
👍12🔥7❤2😁1
📘 На Stepik вышел курс — «LangChain: с нуля до продакшн LLM-приложений»
Нужен не игрушечный бот, а воспроизводимый RAG-пайплайн с метриками и сервисом? Этот курс — про путь «ноутбук → FastAPI → прод».
🔍 Что вы получите
• RAG по PDF с цитированием источников и гибридным поиском (BM25 + вектор + rerank); контроль галлюцинаций через метрики (precision/recall@K, citation-rate)
• Инструменты и агенты для анализа данных: Pandas-задачи, структурированный JSON-вывод под отчёты/дашборды
• Продакшн-контур: FastAPI-сервис, логирование латентности/токенов, PromptOps (версии/A/B), базовый SLA-мониторинг
🎓 Сертификат по завершении — можно добавить в резюме или LinkedIn
🚀 Начните сегодня и получите скидку 25% в течение 72 часов
👉 Пройти курс на Stepik
Нужен не игрушечный бот, а воспроизводимый RAG-пайплайн с метриками и сервисом? Этот курс — про путь «ноутбук → FastAPI → прод».
🔍 Что вы получите
• RAG по PDF с цитированием источников и гибридным поиском (BM25 + вектор + rerank); контроль галлюцинаций через метрики (precision/recall@K, citation-rate)
• Инструменты и агенты для анализа данных: Pandas-задачи, структурированный JSON-вывод под отчёты/дашборды
• Продакшн-контур: FastAPI-сервис, логирование латентности/токенов, PromptOps (версии/A/B), базовый SLA-мониторинг
🎓 Сертификат по завершении — можно добавить в резюме или LinkedIn
🚀 Начните сегодня и получите скидку 25% в течение 72 часов
👉 Пройти курс на Stepik
🤣8❤3👍3
⚡️ Train an LLM on NVIDIA Blackwell with Unsloth—and Scale It
NVIDIA представила статью «Train an LLM on NVIDIA Blackwell with Unsloth—and Scale It», в которой рассказывает о том, как разработчики благодаря открытому проекту Unsloth и новым GPU семейства NVIDIA Blackwell Series могут обучать и до-настраивать большие языковые модели (LLM) прямо на настольных или офисных системах, а затем без изменений масштабировать ту же инфраструктуру на промышленный уровень.
Unsloth - это фреймворк с открытым исходным кодом, упрощающий до-настройку и reinforcement learning (RL) для LLM. Он оптимизирован под Blackwell-GPU с следующими преимуществами: обучение в 2 раза быстрее, использование видеопамяти (VRAM) сокращено на ~70%, и поддержка крайне длинных контекстов (до 12× по сравнению с предыдущими методами). Статья показывает, что на одной Blackwell-видеокарте можно до-настроить модели с параметрами порядка 40 миллиардов и даже больше.
Кроме того, процесс установки и запуска описан подробно: от команды pip install unsloth до примеров запуска моделей типа “gpt-oss-20b” с квантованием 4-bit. После начальной до-настройки на локальной машине тот же код можно без переделок перенести на облачные решения, такие как DGX Cloud или серверсистемы NVIDIA.
Главный вывод: барьеры входа в обучение крупных языковых моделей резко снижаются — теперь индивидуальные разработчики и небольшие команды получают доступ к инструментам, которые раньше были доступны только крупным дата-центрам.
developer.nvidia.com/blog/train-an-llm-on-an-nvidia-blackwell-desktop-with-unsloth-and-scale-it/
NVIDIA представила статью «Train an LLM on NVIDIA Blackwell with Unsloth—and Scale It», в которой рассказывает о том, как разработчики благодаря открытому проекту Unsloth и новым GPU семейства NVIDIA Blackwell Series могут обучать и до-настраивать большие языковые модели (LLM) прямо на настольных или офисных системах, а затем без изменений масштабировать ту же инфраструктуру на промышленный уровень.
Unsloth - это фреймворк с открытым исходным кодом, упрощающий до-настройку и reinforcement learning (RL) для LLM. Он оптимизирован под Blackwell-GPU с следующими преимуществами: обучение в 2 раза быстрее, использование видеопамяти (VRAM) сокращено на ~70%, и поддержка крайне длинных контекстов (до 12× по сравнению с предыдущими методами). Статья показывает, что на одной Blackwell-видеокарте можно до-настроить модели с параметрами порядка 40 миллиардов и даже больше.
Кроме того, процесс установки и запуска описан подробно: от команды pip install unsloth до примеров запуска моделей типа “gpt-oss-20b” с квантованием 4-bit. После начальной до-настройки на локальной машине тот же код можно без переделок перенести на облачные решения, такие как DGX Cloud или серверсистемы NVIDIA.
Главный вывод: барьеры входа в обучение крупных языковых моделей резко снижаются — теперь индивидуальные разработчики и небольшие команды получают доступ к инструментам, которые раньше были доступны только крупным дата-центрам.
developer.nvidia.com/blog/train-an-llm-on-an-nvidia-blackwell-desktop-with-unsloth-and-scale-it/
❤12👍4🔥4
🦾 Потрясающе: производитель домашнего робота Neo признался, что в сложных ситуациях устройством будет управлять живой оператор.
Покупателям придётся согласиться на удалённый доступ и сбор данных — компания утверждает, что это нужно для обучения системы. Лица пользователей, обещают, будут размываться.
«Если у нас нет ваших данных, мы не сможем улучшать продукт», - заявил CEO.
Цена вопроса - 20 000 $ за робота, которого в трудный момент может подменить человек. ☕️
https://www.1x.tech/order
Покупателям придётся согласиться на удалённый доступ и сбор данных — компания утверждает, что это нужно для обучения системы. Лица пользователей, обещают, будут размываться.
«Если у нас нет ваших данных, мы не сможем улучшать продукт», - заявил CEO.
Цена вопроса - 20 000 $ за робота, которого в трудный момент может подменить человек. ☕️
https://www.1x.tech/order
🤣23🔥5❤3🤨3👍2
Главная причина роста — спрос на генеративные модели и ML-инструменты, которые компании используют для автоматизации, аналитики и клиентских сервисов. Всё это объединено в Yandex AI Studio — платформу, где можно собрать собственного AI-агента за несколько часов и встроить его в бизнес-процесс.
Для тех, кто работает с чувствительными данными, есть on-premises-версии: YandexGPT, SpeechKit и SpeechSense можно развернуть прямо в корпоративной инфраструктуре, сохраняя контроль и безопасность.
А ещё в третьем квартале усилилось направление кибербезопасности: каждый четвёртый коммерческий клиент Yandex Cloud пользуется сервисами защиты, а выручка ИБ-направления выросла в 2,5 раза год к году.
Чтобы ускорить развитие этого сегмента, Yandex B2B Tech и SolidSoft создали совместное предприятие — оно помогает бизнесу защищаться от растущих киберугроз и повышает уровень безопасности облачных сервисов.
Please open Telegram to view this post
VIEW IN TELEGRAM
🥱10❤3🔥3👍2
💴 Капитализация Nvidia превысила $5 трлн - впервые в истории компания достигла такой оценки.
За пять лет акции $NVDA подскочили более чем на 1500%. Производитель чипов зарабатывает на взрывном спросе со стороны Microsoft, OpenAI и других игроков ИИ-рынка.
Пока все искали золото, Nvidia продавала лопаты — и стала самой дорогой компанией в мире.
За пять лет акции $NVDA подскочили более чем на 1500%. Производитель чипов зарабатывает на взрывном спросе со стороны Microsoft, OpenAI и других игроков ИИ-рынка.
Пока все искали золото, Nvidia продавала лопаты — и стала самой дорогой компанией в мире.
🔥15❤4👍3😁3🤔2
Работа над ним всё ещё в альфа-стадии, но уже видно: это не просто фреймворк - это попытка переосмыслить, как строятся веб-приложения в эпоху ИИ.
Что делает Air особенным
- Совместимость с FastAPI / Starlette: маршруты, middleware, OpenAPI — всё на месте.
- Интеграция с базами данных через air.ext.sqlmodel (SQLModel / SQLAlchemy).
- Базовая авторизация готова «из коробки» — OAuth, логин через GitHub.
- Подход к интерфейсам: шаблоны + декларативные теги, реактивность без тяжёлого JS — вдохновлено HTMX.
- Каждый компонент и API стремятся быть понятными, простыми, как в Django, но с добавлением ИИ-ориентированности.
Но важно помнить
Air сейчас — это эксперимент.
APIs могут меняться, функционал не всё реализован.
Авторы просят относиться с пониманием и участвовать в становлении фреймворка.
Если ты устал от “обычных” веб-фреймворков и думаешь над тем, как встроить ИИ в архитектуру с самого начала — Air может быть тем самым началом нового пути.
🔗 Подробнее: https://audrey.feldroy.com/articles/2025-10-06-air-pioneering-ai-first-python-web-framework
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥4❤3
🚀 DeepSeek-OCR: новый подход к памяти в ИИ
DeepSeek показали, что OCR-модель может быть не только про чтение документов, но и про расширение «памяти» модели.
Идея простая и смелая: хранить контекст не в текстовых токенах, а в виде изображений страниц, а потом считывать нужный фрагмент через OCR.
Когда мы храним историю диалога как изображения, каждый визуальный патч покрывает больше информации, чем один текстовый токен. Модель работает с компактным визуальным представлением, а точные цитаты подтягивает только по запросу. Получается сохранять больше деталей, тратить меньше токенов и экономить на длинном контексте.
Что происходит внутри
- История упаковывается в страницы и разбивается на 2D-патчи
- Недавние страницы хранятся в высоком качестве
- Старые сжимаются сильнее, но не исчезают полностью
- OCR вызывается только когда нужно точное слово или строка
Это похоже на мягкое «угасание памяти» вместо жёсткого обрезания контекста. Таблицы, код, структура текста сохраняются как есть, что помогает модели не терять привязки.
Практический эффект
- тысячи текстовых токенов заменяются сотнями визуальных
- дешевле в обработке
- подходит для агентных систем, которые ведут длинные сессии и возвращаются к старым действиям или логам
- можно генерировать собственные обучающие данные, рендеря страницы и OCR-лейблы на лету
Метод не делает модель идеальной в запоминании, но позволяет гораздо дольше удерживать информацию и возвращаться к ней без внешних хранилищ и сложного RAG-контура.
Хранить текст как изображения и читать их по запросу может стать новой парадигмой долгой памяти в LLM. Особенно для агентов, которым нужно помнить путь, а не только последний шаг.
technologyreview.com/2025/10/29/1126932/deepseek-ocr-visual-compression
@data_analysis_ml
DeepSeek показали, что OCR-модель может быть не только про чтение документов, но и про расширение «памяти» модели.
Идея простая и смелая: хранить контекст не в текстовых токенах, а в виде изображений страниц, а потом считывать нужный фрагмент через OCR.
Когда мы храним историю диалога как изображения, каждый визуальный патч покрывает больше информации, чем один текстовый токен. Модель работает с компактным визуальным представлением, а точные цитаты подтягивает только по запросу. Получается сохранять больше деталей, тратить меньше токенов и экономить на длинном контексте.
Что происходит внутри
- История упаковывается в страницы и разбивается на 2D-патчи
- Недавние страницы хранятся в высоком качестве
- Старые сжимаются сильнее, но не исчезают полностью
- OCR вызывается только когда нужно точное слово или строка
Это похоже на мягкое «угасание памяти» вместо жёсткого обрезания контекста. Таблицы, код, структура текста сохраняются как есть, что помогает модели не терять привязки.
Практический эффект
- тысячи текстовых токенов заменяются сотнями визуальных
- дешевле в обработке
- подходит для агентных систем, которые ведут длинные сессии и возвращаются к старым действиям или логам
- можно генерировать собственные обучающие данные, рендеря страницы и OCR-лейблы на лету
Метод не делает модель идеальной в запоминании, но позволяет гораздо дольше удерживать информацию и возвращаться к ней без внешних хранилищ и сложного RAG-контура.
Хранить текст как изображения и читать их по запросу может стать новой парадигмой долгой памяти в LLM. Особенно для агентов, которым нужно помнить путь, а не только последний шаг.
technologyreview.com/2025/10/29/1126932/deepseek-ocr-visual-compression
@data_analysis_ml
🔥14❤4👍2👏1
🚀«Ави»: на рынке появится новый ИИ-ассистент от Авито
Технологическая платформа Авито подала заявку на регистрацию товарного знака для своего нового ИИ-ассистента — «Ави», сообщает «Коммерсант».
💬 Что умеет «Ави»
Ассистент работает на базе большой языковой модели и общается с пользователями в формате живого диалога. Он не просто отвечает на запросы, а помогает понять цель покупки, уточняет ключевые параметры, рекомендует подходящие предложения и даже объясняет отличия между ними. По сути — это интеллектуальный консультант, который знает рынок Авито так же хорошо, как его создатели.
🚀 Зачем это нужно Авито
ИИ-ассистенты сегодня — новый тренд среди крупных компаний. Интерактивные решения позволяют:
• собирать больше контекста из диалогов с пользователем;
• повышать вовлеченность и лояльность;
• влиять на ключевые метрики продаж.
По оценкам экспертов, на разработку «Ави» уже могли потратить около 500 млн рублей. Это часть большой стратегии: в Авито ранее заявляли, что инвестируют 12 млрд рублей в генеративный ИИ и рассчитывают получить 21 млрд выручки к 2028 году от внедрения технологий искусственного интеллекта.
🧠 ИИ-стратегия Авито
Компания активно развивает собственную ИИ-экосистему. Ранее она представила две модели:
• A-Vibe — текстовую LLM;
• A-Vision — мультимодальную модель, способную работать с изображениями и текстом.
Модель A-Vibe за первую неделю собрала более 1400 скачиваний и вошла в топ трендовых моделей на Hugging Face.
🔮 Что дальше
Сейчас «Ави» проходит тестирование в разных категориях. Цель компании — в 2026 году запустить универсальное решение, которое будет работать во всех вертикалях платформы.
Можно сказать, что «Ави» — это не просто чат-бот, а новое лицо Авито, интегрированное в пользовательский опыт и превращающее классическую торговую площадку в умную технологическую платформу.
Технологическая платформа Авито подала заявку на регистрацию товарного знака для своего нового ИИ-ассистента — «Ави», сообщает «Коммерсант».
💬 Что умеет «Ави»
Ассистент работает на базе большой языковой модели и общается с пользователями в формате живого диалога. Он не просто отвечает на запросы, а помогает понять цель покупки, уточняет ключевые параметры, рекомендует подходящие предложения и даже объясняет отличия между ними. По сути — это интеллектуальный консультант, который знает рынок Авито так же хорошо, как его создатели.
🚀 Зачем это нужно Авито
ИИ-ассистенты сегодня — новый тренд среди крупных компаний. Интерактивные решения позволяют:
• собирать больше контекста из диалогов с пользователем;
• повышать вовлеченность и лояльность;
• влиять на ключевые метрики продаж.
По оценкам экспертов, на разработку «Ави» уже могли потратить около 500 млн рублей. Это часть большой стратегии: в Авито ранее заявляли, что инвестируют 12 млрд рублей в генеративный ИИ и рассчитывают получить 21 млрд выручки к 2028 году от внедрения технологий искусственного интеллекта.
🧠 ИИ-стратегия Авито
Компания активно развивает собственную ИИ-экосистему. Ранее она представила две модели:
• A-Vibe — текстовую LLM;
• A-Vision — мультимодальную модель, способную работать с изображениями и текстом.
Модель A-Vibe за первую неделю собрала более 1400 скачиваний и вошла в топ трендовых моделей на Hugging Face.
🔮 Что дальше
Сейчас «Ави» проходит тестирование в разных категориях. Цель компании — в 2026 году запустить универсальное решение, которое будет работать во всех вертикалях платформы.
Можно сказать, что «Ави» — это не просто чат-бот, а новое лицо Авито, интегрированное в пользовательский опыт и превращающее классическую торговую площадку в умную технологическую платформу.
👍4😢1🥱1
🚀📈 Память снова на пике - Samsung, SK Hynix и Micron входят в суперцикл благодаря ИИ
AI привёл рынок памяти к рекордному росту: мировой доход DRAM к 2026 году оценивают в $231 млрд. Компании уже фиксируют взрывной спрос и исторические прибыли.
Картинка по кварталам
- Samsung: $8.6 млрд чистой прибыли, из них $4.9 млрд - от чипов
- SK Hynix: $8.8 млрд прибыли, называют рынок “суперциклом”, мощности до 2026 уже проданы
- Micron: $3.2 млрд чистой прибыли, подтверждает такой же спрос
Что зажигает рынок
Главная звезда — HBM (High Bandwidth Memory). Это многослойная память рядом с процессором, которая прокачивает гигантские объёмы данных, ускоряя обучение больших моделей.
Но и обычная DRAM в дефиците — дата-центры закупают серверы для инференса: готовые модели прогоняют запросы и генерируют ответы, и часто это дешевле, чем держать огромные обучающие кластеры.
Стратегия OpenAI подливает топлива
Компания подписала предварительные соглашения с Samsung и SK Hynix под проект Stargate. Звучала цифра — до 900 тысяч пластин DRAM в месяц — это >2х текущей глобальной мощности HBM, по оценке SK Hynix.
Что дальше
- спрос на HBM будет расти >30% в год ближайшие 5 лет
- дефицит памяти продлится минимум до конца 2026, возможно — до начала 2027
- компании, не забронировавшие поставки заранее, уже платят дороже — HBM-линии пошли в приоритет, стандартная DRAM растёт в цене «за компанию»
Сомнения есть: прогнозы OpenAI агрессивны и могут скорректироваться. Но даже если масштаб будет меньше, рынок всё равно остаётся сверхнапряжённым - мощности просто не успевают догонять AI-спрос.
Новый закон чип-мира: кто заранее купил память, тот и обучит будущее.
wsj.com/tech/memory-chip-makers-are-enjoying-a-boom-to-remember-thanks-to-ai-741b2a45
AI привёл рынок памяти к рекордному росту: мировой доход DRAM к 2026 году оценивают в $231 млрд. Компании уже фиксируют взрывной спрос и исторические прибыли.
Картинка по кварталам
- Samsung: $8.6 млрд чистой прибыли, из них $4.9 млрд - от чипов
- SK Hynix: $8.8 млрд прибыли, называют рынок “суперциклом”, мощности до 2026 уже проданы
- Micron: $3.2 млрд чистой прибыли, подтверждает такой же спрос
Что зажигает рынок
Главная звезда — HBM (High Bandwidth Memory). Это многослойная память рядом с процессором, которая прокачивает гигантские объёмы данных, ускоряя обучение больших моделей.
Но и обычная DRAM в дефиците — дата-центры закупают серверы для инференса: готовые модели прогоняют запросы и генерируют ответы, и часто это дешевле, чем держать огромные обучающие кластеры.
Стратегия OpenAI подливает топлива
Компания подписала предварительные соглашения с Samsung и SK Hynix под проект Stargate. Звучала цифра — до 900 тысяч пластин DRAM в месяц — это >2х текущей глобальной мощности HBM, по оценке SK Hynix.
Что дальше
- спрос на HBM будет расти >30% в год ближайшие 5 лет
- дефицит памяти продлится минимум до конца 2026, возможно — до начала 2027
- компании, не забронировавшие поставки заранее, уже платят дороже — HBM-линии пошли в приоритет, стандартная DRAM растёт в цене «за компанию»
Сомнения есть: прогнозы OpenAI агрессивны и могут скорректироваться. Но даже если масштаб будет меньше, рынок всё равно остаётся сверхнапряжённым - мощности просто не успевают догонять AI-спрос.
Новый закон чип-мира: кто заранее купил память, тот и обучит будущее.
wsj.com/tech/memory-chip-makers-are-enjoying-a-boom-to-remember-thanks-to-ai-741b2a45
❤10👍7🔥3
🔥 Qwen3-VL теперь можно запускать локально
Хорошая новость для тех, кто хочет сильный мультимодальный стек без облака:
.
- Qwen3-VL-235B можно поднять на 128 ГБ unified memory (динамическое 4-bit). Это уже уровень SOTA в СМ b OCR.
- Qwen3-VL-2B спокойно выдает ~40 токенов/сек на 4 ГБ ОЗУ.
Плюс:
- есть фиксированный chat-template
- полная поддержка тонкой настройки и RL
- готовые блокноты через Unsloth (бесплатно)
- экспорт в GGUF, так что можно кормить всё это локальным рантаймам
Документация: docs.unsloth.ai/models/qwen3-vl
@data_analysis_ml
Хорошая новость для тех, кто хочет сильный мультимодальный стек без облака:
.
- Qwen3-VL-235B можно поднять на 128 ГБ unified memory (динамическое 4-bit). Это уже уровень SOTA в СМ b OCR.
- Qwen3-VL-2B спокойно выдает ~40 токенов/сек на 4 ГБ ОЗУ.
Плюс:
- есть фиксированный chat-template
- полная поддержка тонкой настройки и RL
- готовые блокноты через Unsloth (бесплатно)
- экспорт в GGUF, так что можно кормить всё это локальным рантаймам
Документация: docs.unsloth.ai/models/qwen3-vl
@data_analysis_ml
🔥23❤6👍4
🧠 DiffMem: Git-Based Memory for AI Agents
DiffMem предлагает легковесную память для ИИ, использующую Git для отслеживания изменений и Markdown для хранения данных. Этот проект демонстрирует, как системы контроля версий могут стать основой для эффективной и масштабируемой памяти в приложениях ИИ, позволяя агентам быстро получать актуальную информацию и исследовать её эволюцию.
🚀 Основные моменты:
- Хранит "текущие" состояния знаний в Markdown.
- Использует Git для управления историей изменений.
- Обеспечивает быстрый и объяснимый поиск с помощью BM25.
- Поддерживает гибкость и портативность данных.
- Легко интегрируется и не требует серверов.
📌 GitHub: https://github.com/Growth-Kinetics/DiffMem
#python
DiffMem предлагает легковесную память для ИИ, использующую Git для отслеживания изменений и Markdown для хранения данных. Этот проект демонстрирует, как системы контроля версий могут стать основой для эффективной и масштабируемой памяти в приложениях ИИ, позволяя агентам быстро получать актуальную информацию и исследовать её эволюцию.
🚀 Основные моменты:
- Хранит "текущие" состояния знаний в Markdown.
- Использует Git для управления историей изменений.
- Обеспечивает быстрый и объяснимый поиск с помощью BM25.
- Поддерживает гибкость и портативность данных.
- Легко интегрируется и не требует серверов.
📌 GitHub: https://github.com/Growth-Kinetics/DiffMem
#python
GitHub
GitHub - Growth-Kinetics/DiffMem: Git Based Memory Storage for Conversational AI Agent
Git Based Memory Storage for Conversational AI Agent - Growth-Kinetics/DiffMem
🔥9❤4👍3
ScaleAI и AI Risks выпустили Remote Labor Index (RLI) – и результаты очень любопытные
RLI проверяет, как хорошо современные AI-агенты справляются с реальной удалённой работой. Спойлер – пока слабо.
Лучшая система Manus смогла автоматизировать только 2.5% задач. То есть почти всё всё ещё делают люди.
При этом видно постепенный прогресс: Claude Sonnet 4.5, GPT-5, Gemini 2.5 Pro и другие модели медленно, но стабильно поднимают планку.
Вывод: полной автоматизации ещё далеко, но эволюция идёт шаг за шагом. Не скачками, а аккуратными улучшениями. Настоящая работа всё ещё за людьми - пока что.
📊Leaderboard: https://scale.com/leaderboard/rli
📰Paper: https://scale.com/research/rli
📽️Watch the full video: https://youtu.be/2RW10HWYo5M
RLI проверяет, как хорошо современные AI-агенты справляются с реальной удалённой работой. Спойлер – пока слабо.
Лучшая система Manus смогла автоматизировать только 2.5% задач. То есть почти всё всё ещё делают люди.
При этом видно постепенный прогресс: Claude Sonnet 4.5, GPT-5, Gemini 2.5 Pro и другие модели медленно, но стабильно поднимают планку.
Вывод: полной автоматизации ещё далеко, но эволюция идёт шаг за шагом. Не скачками, а аккуратными улучшениями. Настоящая работа всё ещё за людьми - пока что.
📊Leaderboard: https://scale.com/leaderboard/rli
📰Paper: https://scale.com/research/rli
📽️Watch the full video: https://youtu.be/2RW10HWYo5M
🔥13❤2👍2🥰1
Как проверить гипотезу, если классический A/B не подходит? Дизайн эксперимента можно адаптировать. В Авито используют альтернативу стандартному A/B — сплит-тесты.
Решили поделиться опытом и записали видео со Стешей Чупрыгиной, тимлидом в команде Monetization Efficiency.
Стеша рассказывает:
Видео — новый выпуск «Диванной аналитики», серии докладов, в которых эксперты рассказывают о своём опыте и делятся интересными кейсами.
Посмотрите, чтобы узнать, как и зачем в Авито внедряли сплит-тесты.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥2
📈 Новое исследование: LLM-оценка новостей усиливает стратегию momentum
Идея простая: классический momentum покупает недавних «победителей» — но не смотрит, что пишут в новостях.
В работе добавили слой смысловой фильтрации: модель читает свежие заголовки и даёт каждой компании скор между 0 и 1.
Дальше портфель перетасовывается: выше скор — больше вес.
Результат:
— Sharpe растёт с 0.79 до 1.06
— ниже волатильность и просадки
— доходность на единицу риска выше
Конфигурация:
— S&P 500
— новости за 1 день
— ежемесяч ребаланс
— простая подсказка модели
— устойчиво даже после даты обучения
— <2 б.п. торговых издержек
Что важно: модель не «угадывает рынок».
Она просто *читает новости* и уточняет классический фактор, добавляя фильтр реального инфо-фона.
Итог: momentum + актуальные заголовки → умнее, стабильнее, безопаснее.
🧾 arxiv.org/abs/2510.26228
Идея простая: классический momentum покупает недавних «победителей» — но не смотрит, что пишут в новостях.
В работе добавили слой смысловой фильтрации: модель читает свежие заголовки и даёт каждой компании скор между 0 и 1.
Дальше портфель перетасовывается: выше скор — больше вес.
Результат:
— Sharpe растёт с 0.79 до 1.06
— ниже волатильность и просадки
— доходность на единицу риска выше
Конфигурация:
— S&P 500
— новости за 1 день
— ежемесяч ребаланс
— простая подсказка модели
— устойчиво даже после даты обучения
— <2 б.п. торговых издержек
Что важно: модель не «угадывает рынок».
Она просто *читает новости* и уточняет классический фактор, добавляя фильтр реального инфо-фона.
Итог: momentum + актуальные заголовки → умнее, стабильнее, безопаснее.
🧾 arxiv.org/abs/2510.26228
❤10