Анализ данных (Data analysis)
46.9K subscribers
2.57K photos
294 videos
1 file
2.23K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
🖼️ Удаление водяных знаков из видео Sora 2 с помощью ИИ

Этот проект позволяет эффективно удалять водяные знаки из видео, созданных с помощью Sora 2, используя технологии искусственного интеллекта. Пользователь загружает видео, система анализирует каждый кадр и удаляет водяной знак с помощью инпейнтинга.

🚀Основные моменты:
- Использует ИИ для точного удаления водяных знаков
- Поддерживает Windows, MacOS и Linux
- Обработка видео с сохранением качества
- Легкий в использовании интерфейс для загрузки видео

📌 GitHub: https://github.com/hate0s/sora2-watermark-remover
🤣21🔥53🥴3👍1
🌍 NVIDIA лидирует в опенсорсе в области ИИ, а китайские лаборатории только догоняют.

Всего пару лет назад большинство моделей - особенно крупные языковые - были закрыты
.
Теперь всё иначе: экосистема открытого ИИ растёт взрывными темпами. Только за последние 90 дней на Hugging Face появилось более миллиона новых репозиториев.

NVIDIA вышла в лидеры по количеству открытых проектов в 2025 году: серии Nemotron, BioNeMo, Cosmos, Gr00t и Canary.

Китайские компании (Alibaba Cloud с Qwen, Baidu, Tencent и другие) активно догоняют и уже способны конкурировать с западными лабораториями.

Открытый ИИ стал не только про гигантов - тысячи независимых разработчиков публикуют модели, датасеты и адаптации (например, LoRA). Это превращается в целое движение.

Меняется глобальная карта ИИ: Китай и США усиливают позиции, а Европа и другие страны всё больше уходит в тень.

⚠️ Но есть нюансы:

Открытость ≠ качество: важно следить за достоверностью данных, этикой и устойчивостью моделей.

Рост числа репозиториев требует фильтрации — не всё из нового имеет практическую ценность.

Лицензии и совместимость становятся критически важными: ошибки здесь могут стоить дорого.

📎 Подробнее: https://aiworld.eu/story/nvidia-leads-open-source-ai-momentum-as-chinese-labs-close-in

#OpenSourceAI #NVIDIA #China #Innovation #AI #Ecosystem
10👍6🔥2
Когда твоя AI-девушка жила на AWS us-east-1 💔*

Все было прекрасно, пока датацентр AMAZON не упал.
27🤣22🔥7🥱5💔4👍3
Не говорите создателю Markdown, что целая индустрия AI-агентов теперь зависит от каких-то .md-файлов, которые он когда-то написал просто ради удобства.
🔥353👍1
🚀 AI Journey Contest 2025 в самом разгаре!

Уже 30 октября закончится международное онлайн-соревнование по ИИ AI Journey Contest 2025 с призовым фондом 6,5 млн рублей.
У тебя еще есть возможность присоединиться к лучшим разработчикам со всего мира.

Выбери один или несколько треков:
🤖 Agent-as-Judge: Создай универсального «судью» для оценки текстов, сгенерированных ИИ.

🧠 Human-centered AI Assistant: Разработай персонализированного ассистента на основе GigaChat.
Бонус: Участникам предоставляются токены для API + возможность получить дополнительно 1 млн токенов!

💾 GigaMemory: Придумай механизм долговременной памяти для LLM.


Твой шанс выиграть денежный приз и заявить о себе на AI Journey - главной международной конференции по ИИ в России! Спешите зарегистрироваться по ссылке.
2🔥2👍1
🌌 Google Gemini научили распознавать взрывающиеся звёзды по 15 примерам

Google Research показали, что мультимодальная модель Gemini способна находить *вспышки сверхновых и другие астрономические события* — буквально по нескольким обучающим примерам.

🚀 Главное
- Использован few-shot learning — всего ~15 примеров для каждой обсерватории *(Pan-STARRS, MeerLICHT, ATLAS)*
- Модель видит три изображения: новое, эталонное и разницу между ними
- Gemini не просто ставит метку, но объясняет, *почему* считает событие настоящим
- Средняя точность — 93 %, после итераций до 96,7 %
- Умеет оценивать свою неуверенность и просить помощи человека
- Объяснения модели признаны экспертами-астрономами достоверными

🔭 Почему это важно
- Будущие телескопы вроде Vera Rubin Observatory будут генерировать *миллионы сигналов каждую ночь* — без ИИ это невозможно обработать
- Подход few-shot позволяет быстро адаптировать модель к новым данным без переобучения
- Gemini превращается в научного помощника, а не просто классификатор

⚠️ Ограничения
- 93 % ≠ 100 % — человек-в-петле всё ещё необходим
- Модель чувствительна к качеству примеров и может ошибаться на редких артефактах

Вывод: Gemini теперь не просто анализирует изображения, а *учится думать как учёный* — объясняя, сомневаясь и адаптируясь к новым задачам.
📖 Источник: https://research.google/blog/teaching-gemini-to-spot-exploding-stars-with-just-a-few-examples/
10🔥4👍2
Когда знания разбросаны по чатам и папкам, сотрудники теряют время, решения принимаются медленно, а ошибки повторяются.

Так выглядит страшный сон любой IT-компании 😳

Если вы решаете проблему внешними SaaS-решениями, такой подход ненадежен и уход Notion с рынка это доказал.

Решение есть: создать свою базу знаний с AI в облаке. Как? Расскажет эксперт Cloud․ru на вебинаре 23 октября.

Вы узнаете:


В практической части вам покажут процесс настройки и интеграции всех компонентов.

Регистрируйтесь 🖱
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🤣3🔥1
🚀 Примеры ChatKit для разработчиков

Репозиторий содержит продвинутые примеры использования ChatKit, включая интеграцию FastAPI и Vite + React. Он демонстрирует, как создать сервер ChatKit с помощью Python SDK и использовать различные инструменты для взаимодействия с клиентом.

🚀 Основные моменты:
- Полный шаблон проекта с фронтендом и бэкендом.
- Интеграция с инструментами для получения погоды и переключения тем.
- Легкая разработка с проксированием запросов через Vite.

📌 GitHub: https://github.com/openai/openai-chatkit-advanced-samples

#python
6👍3🔥3
Amazon планирует заменить около 600 000 сотрудников в США роботами.
Это колоссальный сдвиг - не только для компании, но и для всей экономики.


Да, многие рабочие места исчезнут.
Но если смотреть шире, мы стоим у начала новой промышленной революции, где выигрывают те, кто инвестирует в технологии на раннем этапе.
Доходы от акций и дивидендов в будущем смогут превысить сегодняшние зарплаты, благодаря эффекту сложного процента.

Автоматизация будет только расти. Это неизбежно.
И, вероятно, параллельно появятся формы базового дохода (UBI/UHI), чтобы сгладить переход.

2030-е будут эпохой не страха, а огромных возможностей - для тех, кто готов адаптироваться.

#Robotics #Automation #Amazon #FutureOfWork #AIeconomy
🤣28👍6🔥53🥱3🐳1
Крутая работа от NVIDIA + MIT 👏

QeRL (Quantization-enhanced Reinforcement Learning) - новый способ обучать LLM-модели с подкреплением, используя 4-битные веса и адаптивный шум.

📈 Результат работы метода: до 1.5× быстрее rollout’ы* и полноценное RL-обучение 32B модели на одной H100 (80 GB).

Rollout - это прохождение эпизода или попытка модели выполнить задачу от начала до конца, чтобы потом оценить её действия и выдать награду.

Обычный RL медленный, потому что rollout’ы длинные, а память занята политикой и эталоном.

LoRA уменьшает число обучаемых параметров, но не ускоряет генерацию.
QLoRA использует NF4, но таблицы тормозят вывод.

⚙️ QeRL решает это:
- применяет NVFP4 веса через Marlin,
- сохраняет LoRA только для градиентов,
- использует одну 4-битную политику и для rollout’ов, и для scoring — без дубликатов.

🧠 Добавление адаптивного шума квантизации повышает энтропию токенов — модель исследует пространство решений активнее.
Шум постепенно уменьшается и сливается с RMSNorm-масштабированием — без добавления параметров.

📊 На математических задачах:
- награды растут быстрее,
- точность равна или выше, чем у 16-битных LoRA и QLoRA.

💡 Итого: быстрее, экономнее по памяти, и крупные модели теперь реально можно обучать на одной GPU.

📄 https://arxiv.org/abs/2510.11696
10🔥5👍3
📌 Как быстро выгрузить большой объем данных из 1С? Работа с высоконагруженными системами 1500 АРМ.

📌 Приглашаем Вас на бесплатный онлайн-вебинар от «Денвик Аналитика» и наших партнёров «Insight»,
посвящённый теме работы с высоконагруженными учетными системами до 1500 АРМ, вопросам загрузки данных из 1С,
контролю над распределенными системами и визуализацией данных.

Ключевые темы:
- Механики и методы извлечения данных из 1С;
- Преимущества и работа Экстрактора 1С;
- Архитектура решений;
- Подключение данных Экстрактора к BI-платформе INSIGHT;
- Микс данных из 1С, ClickHouse, Postgre и других систем для OLAP аналитики;
- Self-service в Bi платформе INSIGHT - анализ на основе данных из экстрактора Денвик;
- Представление данных и визуализация в едином дашборде;
- Создание цифрового рабочего места на базе платформ;
- Аналитическая смарт панель INSIGHT.

Спикеры:
Степан Пыстин - CTO компании "Денвик Аналитика".
Александра Козлова - Старший аналитик INSIGHT.

Регистрируйтесь по ссылке
👍32
Forwarded from Machinelearning
🔥 GOOGLE AI опубликовали пост о настоящем прорыве в области QUANTUM AI

Сегодня в журнале Nature команда Google впервые показали проверяемое квантовое преимущество с помощью метода, называемого *out-of-time-order correlator (OTOC), или «квантовые эхо».

Эксперимент проведён на квантовом чипе Willow, и он показывает, что квантовые устройства уже способны решать задачи, которые невозможно эффективно симулировать на классических компьютерах.

Квантовый процессор Google выполнил алгоритм под названием Quantum Echoes - в 13 000 раз быстрее, чем лучший классический алгоритм на одном из самых мощных суперкомпьютеров в мире.

🟠Что это значит простыми словами
Учёные научились буквально «отматывать время» в квантовой системе и смотреть, когда она переходит от упорядоченного поведения к хаосу. Этот переход - ключ к пониманию, где начинается настоящее квантовое преимущество.

Проще говоря:

1) Учёные запускают квантовую систему вперёд во времени, позволяя ей запутаться и “рассеять” информацию.

2) Затем применяют обратные операции, как будто “перематывают” процесс назад.

3) Если всё сделано идеально, система должна вернуться в исходное состояние,но из-за квантового хаоса это происходит лишь частично.

4) Разница между “до” и “после” показывает, насколько глубоко информация ушла в хаос.

Работа показывает, что можно извлекать информацию из хаотичных квантовых состояний, ранее считавшихся полностью случайными.

Такой эффект невозможно воспроизвести на обычных суперкомпьютерах. Это шаг к практическим квантовым вычислениям, которые смогут моделировать материалы, молекулы и сложные физические процессы с точностью, недостижимой ранее.

«Quantum Echoes может стать основой будущих квантовых разработок для реального применения.

*Out-of-time-order correlator (сокращённо OTOC) - это специальная метрика, с помощью которой физики измеряют, как быстро информация "распространяется" и смешивается внутри квантовой системы.

🟢 Статья: https://www.nature.com/articles/s41586-025-09526-6

@ai_machinelearning_big_data

#QuantumComputing #Google #AI #Nature #Physics
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
13👍4
Новое техношоу о фейлах на дата-платформах

Все упало, все сломалось, бизнес в панике. Для дата-инженеров это обычный вторник, а для шоу «Дропнуто» — повод снять свежий выпуск.

«Дропнуто» превращает фейлы дата-платформ в истории, которые полезно услышать каждому, кто работает с данными. В центре каждого эпизода — один герой и одна яркая история фейла, развернутое обсуждение архитектуры и процессов, а также немного самоиронии.

Анонсы и ссылки на прямые эфиры появятся в телеграм-боте проекта.

Подписывайтесь, чтобы узнавать о премьерах первыми.
4
🚀 IBM представила Toucan: крупнейший открытый набор данных для обучения ИИ-агентов вызывать и использовать инструменты (tool calling).

Toucan содержит более 1,5 млн реальных сценариев взаимодействия с API и внешними сервисами, охватывая 2000+ инструментов - от планирования задач до анализа данных и отчётности.

💡 Модели, обученные на Toucan, уже обошли GPT-4.5-Preview в ряде бенчмарков по эффективности работы с инструментами.

Toucan обучает модели на реальных последовательностях вызовов инструментов, а не синтетических данных.


Подробнее: https://research.ibm.com/blog/toucan-for-tool-calling

#AI #Agents #ToolCalling #IBM #LLM
🔥97👍3
AIJ Deep Dive – must-attend событие для профессионалов в AI!

Специальный очный трек международной конференции AI Journey для инженеров будущего — для тех, кто создаёт AI своими руками.

Будет два тематических дня:
1️⃣ День Науки (19 ноября) — прорывные исследования, передовые R&D-разработки и глубокий технический разбор решений.

2️⃣ День Бизнеса (20 ноября) — реальные кейсы внедрения AI, практические результаты и оценка эффективности.


Почему это событие нельзя пропустить?

✔️ Сообщество тех, кто уже сегодня формирует технологические стандарты завтрашнего дня
✔️ Только реальные кейсы, инсайды и решения
✔️ Нетворкинг и возможность установить контакты с ключевыми игроками рынка и перспективными коллегами
✔️ Постерная сессия научных статей, в том числе уровня А/А*
✔️ Возможность увидеть изнутри, как рождаются прорывные технологии


Локация: офис Сбера, Кутузовский проспект, д. 32, к. 1 (Е)
Дата: 19–20 ноября 2025 года
Подробности и регистрация: https://aij.ru/deepdive

Приходи и стань частью сообщества, которое пишет будущее!
2🔥1
🍎 Apple выпустила Pico-Banana-400K - это крупнейший открытый датасет для редактирования изображений по тексту.

Что внутри:
• ~400 000 примеров на основе реальных фото из Open Images
• 35 типов правок в 8 категориях: от изменения цвета до замены объектов, стилей, текста, выражений лиц и даже расширения кадра
• Все правки делала модель Nano-Banana, а качество оценивал Gemini-2.5-Pro по 4 критериям:

Интересные детали:
• Легче всего модели даются стилизация (93% успеха) и эффекты вроде зернистости плёнки
• Сложнее всего — точное перемещение объектов и редактирование шрифтов (~57–59% успеха)
• Неудачные попытки сохранены — как негативные примеры для обучения
• Общая стоимость сборки датасета — около $100 000

Датасет открыт для исследований (лицензия CC BY-NC-ND 4.0), идеален для разработки ИИ-редакторов следующего поколения.

🔗 GitHub
11👍5🔥3