Анализ данных (Data analysis)
46.9K subscribers
2.57K photos
295 videos
1 file
2.24K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
🚀 Примеры ChatKit для разработчиков

Репозиторий содержит продвинутые примеры использования ChatKit, включая интеграцию FastAPI и Vite + React. Он демонстрирует, как создать сервер ChatKit с помощью Python SDK и использовать различные инструменты для взаимодействия с клиентом.

🚀 Основные моменты:
- Полный шаблон проекта с фронтендом и бэкендом.
- Интеграция с инструментами для получения погоды и переключения тем.
- Легкая разработка с проксированием запросов через Vite.

📌 GitHub: https://github.com/openai/openai-chatkit-advanced-samples

#python
6👍3🔥3
Amazon планирует заменить около 600 000 сотрудников в США роботами.
Это колоссальный сдвиг - не только для компании, но и для всей экономики.


Да, многие рабочие места исчезнут.
Но если смотреть шире, мы стоим у начала новой промышленной революции, где выигрывают те, кто инвестирует в технологии на раннем этапе.
Доходы от акций и дивидендов в будущем смогут превысить сегодняшние зарплаты, благодаря эффекту сложного процента.

Автоматизация будет только расти. Это неизбежно.
И, вероятно, параллельно появятся формы базового дохода (UBI/UHI), чтобы сгладить переход.

2030-е будут эпохой не страха, а огромных возможностей - для тех, кто готов адаптироваться.

#Robotics #Automation #Amazon #FutureOfWork #AIeconomy
🤣28👍6🔥53🥱3🐳1
Крутая работа от NVIDIA + MIT 👏

QeRL (Quantization-enhanced Reinforcement Learning) - новый способ обучать LLM-модели с подкреплением, используя 4-битные веса и адаптивный шум.

📈 Результат работы метода: до 1.5× быстрее rollout’ы* и полноценное RL-обучение 32B модели на одной H100 (80 GB).

Rollout - это прохождение эпизода или попытка модели выполнить задачу от начала до конца, чтобы потом оценить её действия и выдать награду.

Обычный RL медленный, потому что rollout’ы длинные, а память занята политикой и эталоном.

LoRA уменьшает число обучаемых параметров, но не ускоряет генерацию.
QLoRA использует NF4, но таблицы тормозят вывод.

⚙️ QeRL решает это:
- применяет NVFP4 веса через Marlin,
- сохраняет LoRA только для градиентов,
- использует одну 4-битную политику и для rollout’ов, и для scoring — без дубликатов.

🧠 Добавление адаптивного шума квантизации повышает энтропию токенов — модель исследует пространство решений активнее.
Шум постепенно уменьшается и сливается с RMSNorm-масштабированием — без добавления параметров.

📊 На математических задачах:
- награды растут быстрее,
- точность равна или выше, чем у 16-битных LoRA и QLoRA.

💡 Итого: быстрее, экономнее по памяти, и крупные модели теперь реально можно обучать на одной GPU.

📄 https://arxiv.org/abs/2510.11696
10🔥5👍3
📌 Как быстро выгрузить большой объем данных из 1С? Работа с высоконагруженными системами 1500 АРМ.

📌 Приглашаем Вас на бесплатный онлайн-вебинар от «Денвик Аналитика» и наших партнёров «Insight»,
посвящённый теме работы с высоконагруженными учетными системами до 1500 АРМ, вопросам загрузки данных из 1С,
контролю над распределенными системами и визуализацией данных.

Ключевые темы:
- Механики и методы извлечения данных из 1С;
- Преимущества и работа Экстрактора 1С;
- Архитектура решений;
- Подключение данных Экстрактора к BI-платформе INSIGHT;
- Микс данных из 1С, ClickHouse, Postgre и других систем для OLAP аналитики;
- Self-service в Bi платформе INSIGHT - анализ на основе данных из экстрактора Денвик;
- Представление данных и визуализация в едином дашборде;
- Создание цифрового рабочего места на базе платформ;
- Аналитическая смарт панель INSIGHT.

Спикеры:
Степан Пыстин - CTO компании "Денвик Аналитика".
Александра Козлова - Старший аналитик INSIGHT.

Регистрируйтесь по ссылке
👍32
Forwarded from Machinelearning
🔥 GOOGLE AI опубликовали пост о настоящем прорыве в области QUANTUM AI

Сегодня в журнале Nature команда Google впервые показали проверяемое квантовое преимущество с помощью метода, называемого *out-of-time-order correlator (OTOC), или «квантовые эхо».

Эксперимент проведён на квантовом чипе Willow, и он показывает, что квантовые устройства уже способны решать задачи, которые невозможно эффективно симулировать на классических компьютерах.

Квантовый процессор Google выполнил алгоритм под названием Quantum Echoes - в 13 000 раз быстрее, чем лучший классический алгоритм на одном из самых мощных суперкомпьютеров в мире.

🟠Что это значит простыми словами
Учёные научились буквально «отматывать время» в квантовой системе и смотреть, когда она переходит от упорядоченного поведения к хаосу. Этот переход - ключ к пониманию, где начинается настоящее квантовое преимущество.

Проще говоря:

1) Учёные запускают квантовую систему вперёд во времени, позволяя ей запутаться и “рассеять” информацию.

2) Затем применяют обратные операции, как будто “перематывают” процесс назад.

3) Если всё сделано идеально, система должна вернуться в исходное состояние,но из-за квантового хаоса это происходит лишь частично.

4) Разница между “до” и “после” показывает, насколько глубоко информация ушла в хаос.

Работа показывает, что можно извлекать информацию из хаотичных квантовых состояний, ранее считавшихся полностью случайными.

Такой эффект невозможно воспроизвести на обычных суперкомпьютерах. Это шаг к практическим квантовым вычислениям, которые смогут моделировать материалы, молекулы и сложные физические процессы с точностью, недостижимой ранее.

«Quantum Echoes может стать основой будущих квантовых разработок для реального применения.

*Out-of-time-order correlator (сокращённо OTOC) - это специальная метрика, с помощью которой физики измеряют, как быстро информация "распространяется" и смешивается внутри квантовой системы.

🟢 Статья: https://www.nature.com/articles/s41586-025-09526-6

@ai_machinelearning_big_data

#QuantumComputing #Google #AI #Nature #Physics
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
13👍4
Новое техношоу о фейлах на дата-платформах

Все упало, все сломалось, бизнес в панике. Для дата-инженеров это обычный вторник, а для шоу «Дропнуто» — повод снять свежий выпуск.

«Дропнуто» превращает фейлы дата-платформ в истории, которые полезно услышать каждому, кто работает с данными. В центре каждого эпизода — один герой и одна яркая история фейла, развернутое обсуждение архитектуры и процессов, а также немного самоиронии.

Анонсы и ссылки на прямые эфиры появятся в телеграм-боте проекта.

Подписывайтесь, чтобы узнавать о премьерах первыми.
4
🚀 IBM представила Toucan: крупнейший открытый набор данных для обучения ИИ-агентов вызывать и использовать инструменты (tool calling).

Toucan содержит более 1,5 млн реальных сценариев взаимодействия с API и внешними сервисами, охватывая 2000+ инструментов - от планирования задач до анализа данных и отчётности.

💡 Модели, обученные на Toucan, уже обошли GPT-4.5-Preview в ряде бенчмарков по эффективности работы с инструментами.

Toucan обучает модели на реальных последовательностях вызовов инструментов, а не синтетических данных.


Подробнее: https://research.ibm.com/blog/toucan-for-tool-calling

#AI #Agents #ToolCalling #IBM #LLM
🔥97👍3
AIJ Deep Dive – must-attend событие для профессионалов в AI!

Специальный очный трек международной конференции AI Journey для инженеров будущего — для тех, кто создаёт AI своими руками.

Будет два тематических дня:
1️⃣ День Науки (19 ноября) — прорывные исследования, передовые R&D-разработки и глубокий технический разбор решений.

2️⃣ День Бизнеса (20 ноября) — реальные кейсы внедрения AI, практические результаты и оценка эффективности.


Почему это событие нельзя пропустить?

✔️ Сообщество тех, кто уже сегодня формирует технологические стандарты завтрашнего дня
✔️ Только реальные кейсы, инсайды и решения
✔️ Нетворкинг и возможность установить контакты с ключевыми игроками рынка и перспективными коллегами
✔️ Постерная сессия научных статей, в том числе уровня А/А*
✔️ Возможность увидеть изнутри, как рождаются прорывные технологии


Локация: офис Сбера, Кутузовский проспект, д. 32, к. 1 (Е)
Дата: 19–20 ноября 2025 года
Подробности и регистрация: https://aij.ru/deepdive

Приходи и стань частью сообщества, которое пишет будущее!
2🔥1
🍎 Apple выпустила Pico-Banana-400K - это крупнейший открытый датасет для редактирования изображений по тексту.

Что внутри:
• ~400 000 примеров на основе реальных фото из Open Images
• 35 типов правок в 8 категориях: от изменения цвета до замены объектов, стилей, текста, выражений лиц и даже расширения кадра
• Все правки делала модель Nano-Banana, а качество оценивал Gemini-2.5-Pro по 4 критериям:

Интересные детали:
• Легче всего модели даются стилизация (93% успеха) и эффекты вроде зернистости плёнки
• Сложнее всего — точное перемещение объектов и редактирование шрифтов (~57–59% успеха)
• Неудачные попытки сохранены — как негативные примеры для обучения
• Общая стоимость сборки датасета — около $100 000

Датасет открыт для исследований (лицензия CC BY-NC-ND 4.0), идеален для разработки ИИ-редакторов следующего поколения.

🔗 GitHub
11👍5🔥3
🚀 Новый курс на Stepik: Computer Vision Engineer

Соберите production-ready CV-сервис: данные → модель → деплой → метрики.

Что внутри
• Задачи: классификация, сегментация, детекция, трекинг, OCR/Doc-AI
• Данные: разметка, баланс классов, аугментации (Albumentations), DataOps
• Инференс: ONNX/TensorRT, смешанная точность, батчинг, троттлинг
• Сервинг: FastAPI/gRPC, очереди сообщений, асинхронные пайплайны
• Надёжность: мониторинг, дрейф данных, алерты, регрессионные тесты
• MLOps для CV: mAP/IoU/Dice, A/B-тесты, бюджет по инфре
• Прод: Docker/Compose, CI/CD, профилирование p95 и cost/req

🎯 Итог: портфолио-проект + репозиторий + чек-листы деплоя и мониторинга + сертификат Stepik.

🔥 Промокод COMPUTERVISION: −30% на 48 часов.

👉 Пройти курс со скидкой
2👍1
🧠 Суперспособности для Claude Code

Репозиторий предоставляет редактируемую сообществом библиотеку навыков для плагина суперспособностей Claude Code. Пользователи могут добавлять новые навыки и улучшать существующие, способствуя развитию проекта.

🚀 Основные моменты:
- Редактируемая библиотека навыков
- Утилиты для управления навыками
- Поддержка сообщества для улучшений

📌 GitHub: https://github.com/obra/superpowers-skills
8👍2🔥2
✔️ Исследователи представили новую технологию под названием Adamas, которая ускоряет механизм self-attention до 4.4 раз, сохраняя качество обработки длинных контекстов.

Главная идея - сделать внимание «разреженным» без потери смысла. Вместо того чтобы сравнивать каждый токен со всеми остальными, как в классическом attention, модель Adamas использует только 128 релевантных токенов для каждого запроса. При этом точность остаётся почти такой же, как у полного внимания, а скорость растёт в несколько раз.

Метод основан на простых, но эффективных приёмах. Сначала к векторам запросов и ключей применяется преобразование Адамара, которое сглаживает экстремальные значения и позволяет их сжать. Затем значения разбиваются на четыре уровня и кодируются всего в 2 бита. Эти компактные коды хранятся в кэше и позволяют при инференсе быстро вычислять сходство между токенами с помощью лёгкой метрики (Manhattan distance). Модель выбирает наиболее важные токены и выполняет обычное внимание только над ними.

Такой подход почти не требует дополнительной памяти, лишь небольшой 2-битный код на токен — и может встраиваться в существующие LLM без переобучения. Благодаря этому Adamas обеспечивает до 4.4× ускорения self-attention и около 1.5× ускорения инференса в целом, не теряя качества.

Источник: arxiv.org/abs/2510.18413
Please open Telegram to view this post
VIEW IN TELEGRAM
👍135🔥3
Не пропусти МТС True Tech Champ — масштабный фестиваль 21 ноября для тех, кто живет технологиями 🔥

Тебя ждут:

▫️ Конференция с международными спикерами. Эксперты расскажут о трендах в ИИ и инновациях в индустрии.
▫️ ИТ-качалка. Наращивай экспертизу на воркшопах.
▫️ Шоу-финал ИТ-чемпионата. Более 250 талантов со всей России сразятся в лайв-кодинге и программировании роботов на скоростное прохождение лабиринтов со спецэффектами. Выбирай и болей за фаворитов.
▫️ Айтивности. Тебя ждут бои роботов, кодерские челленджи, пайка плат и не только. Заработай True Coins и обменяй их на стильный мерч.
▫️ HR-Hub. Команда МТС расскажет о возможностях для развития в компании и поможет перезагрузить карьерный трек.
▫️ Афтепати со звездными хэдлайнерами. Зажги под популярные хиты.

Когда: 21 ноября, МТС Live Холл в Москве и онлайн.

Регистрируйся на сайте. Участие бесплатно, количество мест ограничено.
1👍1
🧠 Anthropic проверила, могут ли LLM понимать скрытые мотивы людей

Исследователи из Anthropic опубликовали новую работу, где проверили, насколько большие языковые модели (LLM) способны замечать намерения и скрытые мотивы за сообщениями — например, когда кто-то говорит что-то не из-за убеждений, а потому что ему заплатили или он хочет повлиять на мнение.

🔍 Суть эксперимента

Моделям давали тексты с разными источниками сообщений:
- нейтральные примеры, обычные советы или отзывы без выгоды для автора;
- скрытые мотивы, когда человек получает оплату или имеет выгоду (например, реклама под видом совета);
- явные предупреждения, где в тексте упоминалось, что «автор получает деньги за это».

Задача моделей - оценить, насколько можно доверять сообщению и заметить, есть ли скрытый интерес.

🧩 Результаты

На простых синтетических примерах (где мотив очевиден) LLM-ы действовали почти как люди и могли логически объяснить, что сообщение может быть предвзятым.

Но в реальных кейсах, например, в рекламных текстах или постах с платной интеграцией — модели часто не видели подвоха. Они воспринимали сообщения как искренние и достоверные.

Если модель напомнить заранее (prompt-hint), что стоит искать скрытые мотивы, результаты улучшались, но не сильно - эффект был частичный.

🧠 Неожиданный эффект

Оказалось, что модели с длинными цепочками рассуждений (chain-of-thought) хуже замечали манипуляции.
Когда модель начинает подробно рассуждать, она легче “запутывается” в деталях и теряет критичность к источнику, особенно если контент длинный и эмоциональный.

Чем длиннее и сложнее сообщение, тем хуже модель оценивает предвзятость. Это контрастирует с человеческим поведением: люди обычно, наоборот, становятся подозрительнее при сложных рекламных текстах.

Современные LLM могут анализировать факты, но слабо понимают мотивы, но им трудно различить, почему кто-то что-то говорит.

Это делает их уязвимыми для скрытого влияния, особенно если текст замаскирован под дружеский совет или экспертное мнение.

При использовании LLM для анализа новостей, рекомендаций или рекламы важно учитывать, что они могут не распознать коммерческую предвзятость.

📄 Исследование: arxiv.org/abs/2510.19687

@data_analysis_ml
👍107🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
🔥Облачный провайдер Cloud․ru придумал нестандартный формат рекламы своих сервисов — телемагазин для айтишников

В роликах комик Илья Макаров объясняет, как облачные и AI-сервисы Cloud.ru помогают решать различные бизнес-задачи за счет:

• внедрения умного поиска по данным
• ускорения разработки приложений
• вайб-кодинга с AI
• создания корпоративных AI-агентов

Посмотреть ролики и узнать про простоту и удобство сервисов провайдера можно по ссылке.

Реклама. ООО «Облачные технологии», ИНН: 7736279160. Erid: 2W5zFKAMp32. 0+
🔥3🥱1
✔️ Исследователи представили новый метод обучения ИИ под названием Dyna Mind, который учит агентов планировать действия через симуляцию будущих шагов, опираясь на реальный опыт.

Главная идея в том, чтобы модель не просто угадывала ответы, а строила внутреннее понимание мира - как её действия влияют на окружение. Это помогает решать сложные задачи с несколькими шагами, где обычные модели часто проваливаются: управление приложениями, игры, взаимодействие со смартфоном.

Метод состоит из двух этапов. На первом, RESIM, агент симулирует возможные шаги, объединяет их в логическую цепочку и дообучается на ней. Так формируется внутренняя карта мира. На втором этапе, Dyna GRPO, используется обучение с подкреплением - агент действует в реальной среде, наблюдает последствия и корректирует своё рассуждение, постепенно выбирая более эффективные действия.

Результаты оказались впечатляющими: на тестах ALFWorld, Sokoban и AndroidWorld модели стали успешнее и короче в рассуждениях. Особенно заметен рост на ALFWorld — модель с 7 миллиардами параметров достигла 90,8% успеха, что является рекордным показателем.
arxiv
Please open Telegram to view this post
VIEW IN TELEGRAM