Анализ данных (Data analysis)
46.9K subscribers
2.55K photos
293 videos
1 file
2.22K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
☀️ Google DeepMind и Commonwealth Fusion Systems запускают проект по созданию управляемого ИИ ядерного синтеза

Google DeepMind объединяется с Commonwealth Fusion Systems (CFS), чтобы применить искусственный интеллект для ускорения разработки термоядерной энергии — того самого процесса, который питает Солнце.

🔬 Как это работает:
DeepMind создаёт систему управления, способную с помощью ИИ смоделировать миллионы виртуальных экспериментов в симуляторе TORAX.
Ещё до запуска установки SPARC, ИИ определяет наиболее стабильные и энергоэффективные режимы плазмы, находя оптимальные условия для удержания температуры и плотности.

🔥 При работе на полную мощность SPARC выделяет огромное количество тепла, сконцентрированного в очень малой области.
ИИ будет в реальном времени управлять формой и динамикой плазмы, чтобы равномерно распределять это тепло и защищать материалы реактора.

> «Мы исследуем, как агенты с подкреплением могут научиться динамически контролировать плазму — чтобы поддерживать устойчивую работу и избегать перегрева.»

💡 Этот проект открывает новую эру - “AI-guided fusion”:
ИИ становится не просто инструментом анализа, а активным управляющим звеном, которое помогает человечеству приблизиться к источнику чистой, безопасной и практически бесконечной энергии.

Благодаря ИИ путь к «пост-дефицитной» цивилизации становится реальностью - и, возможно, гораздо ближе, чем кажется.

https://deepmind.google/discover/blog/bringing-ai-to-the-next-generation-of-fusion-energy/


#AI #DeepMind #FusionEnergy #Google #CFS #ReinforcementLearning #SPARC #CleanEnergy #Science #Innovation
🔥128👍2
📱 MobileLLM-Pro - языковая модель (~1B параметров) , оптимизированная для эффективной работы *на устройстве* (on-device).

Модель превосходит Gemma 3 1B и Llama 3.2 1B по задачам рассуждения, знаний и длинного контекста, поддерживая до 128 000 токенов.
Благодаря гибридному вниманию (локальное + глобальное в соотношении 3:1, окно 512) достигается низкая задержка и экономия памяти KV-кэша.

Квантование в 4-бит (int4) почти не снижает качество:
• CPU - групповое квантование весов и динамическая активация
• GPU - поканальное квантование

Модель дополнительно прошла instruction fine-tuning, что делает её подходящей для задач общения, генерации и обработки текста.

https://huggingface.co/facebook/MobileLLM-Pro
10👍4🔥3
📈 Вышел новый важный бенчмарк для исследовательских ИИ

LiveResearchBench - это *живой пользовательский бенчмарк* для оценки глубинных исследовательских систем на реальных, «полевых» задачах.

Он проверяет, могут ли исследовательские агенты создавать отчеты с корректными цитатами под реальные запросы пользователей. Всего собрано *100 задач в 7 доменах и 10 категориях*, на разработку ушло 1500 часов работы экспертов.

Старые бенчмарки устарели, были узкими и часто пересекались с данными предобучения.
Поэтому авторы ввели 4 строгих правила:
- задачи должны быть ориентированы на пользователя
- четко определены
- использовать актуальные данные из интернета
- требовать синтеза информации из множества источников

Каждая задача проходила 6 стадий создания (от интервью с пользователями до экспертной доработки) и 5 стадий проверки качества (независимые ревью и контроль качества).

Для оценки результатов создан фреймворк DeepEval, который оценивает отчеты по 6 критериям: структура, фактическая точность, корректность цитирования и др.
Используются чек-листы, парные сравнения и древовидные рубрики.

Для снижения смещения авторы использовали ансамбль моделей Gemini 2.5 Pro и GPT-5 как оценщиков, что сделало результаты стабильнее.

Тесты 17 агентных систем показали:
- мультиагентные решения лучше оформляют отчеты и ставят цитаты
- одиночные агенты стабильнее, но уступают в глубине рассуждений

Это важный шаг к тому, чтобы измерять, могут ли ИИ-агенты работать как настоящие исследователи - находить, анализировать и цитировать информацию из живых источников.

🔗 https://arxiv.org/abs/2510.14240
6👍6🔥4🥱1
⚡️ Anthropic обнаружила тревожную уязвимость в обучении языковых моделей: всего 250 подставных документов достаточно, чтобы «внедрить» скрытую команду (backdoor) в модель размером от 600 миллионов до 13 миллиардов параметров - даже если среди данных есть в 20 раз больше нормальных примеров.

Главное открытие: не процент заражённых документов, а их абсолютное количество определяет успех атаки. Увеличение объёмов данных и масштаба модели не защищает от целенаправленного отравления.

Backdoor остаётся незаметным - модель работает как обычно, пока не встретит секретный триггер, после чего начинает выполнять вредоносные инструкции или генерировать бессмыслицу.

Даже если продолжать обучение на «чистых» данных, эффект стирается очень медленно - backdoor может сохраняться длительное время.

Вывод: защита LLM требует контроля происхождения данных, проверки целостности корпусов и мер по выявлению скрытых иньекций.

🟢 Подробнее: https://www.anthropic.com/research/small-samples-poison
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥257👍3
📘 На Stepik вышел курс — «MLOps-инженер: С нуля до продакшена»

Хотите автоматизировать ML-пайплайны, версионировать модели и выстраивать надёжный деплой в production? Этот курс — полный путь MLOps-инженера.

ML Pipeline: MLflow, Airflow, автоматизация обучения и валидации моделей
Эксперименты: DVC, Weights & Biases, версионирование и воспроизводимость
Model Serving: TensorFlow Serving, ONNX, A/B тестирование моделей
Контейнеризация: Docker для ML, GPU-контейнеры, оптимизация образов
Kubernetes: Kubeflow, автомасштабирование inference
Feature Store: Feast, управление фичами, data drift detection
Мониторинг: Evidently AI, model drift, data quality
CI/CD для ML: автотесты моделей, staged rollout
Облака: SageMaker, Vertex AI, cost optimization
Production: model registry, canary deployments, SLA для ML

🎓 Сертификат — добавьте в резюме или LinkedIn

🚀 Скидка 25%, действует 48 часов

👉 Пройти курс на Stepik
🥴63❤‍🔥2🔥1💯1🤣1
Илон Маск написал у себя в X:

«У Grok 5 примерно 10 % шансов стать AGI - и он может оказаться очень близок к этому уровню.»


Большинство разногласий вокруг сроков появления AGI сводятся к тому, как именно его определяют.

Например, по последнему мнению Андрея Карпатия, настоящая AGI — это не просто языковая модель, а интеллект с телом: продвинутые роботы, способные выполнять физическую работу и даже решать проблему согласования (alignment).

Если придерживаться такого определения, то даже 10 лет - слишком оптимистичный прогноз.
😁15👍8🤣32🔥2
Uber запускает новый способ заработка для водителей в США 💰

Теперь водители смогут получать деньги, выполняя «цифровые задачи» — короткие задания, которые занимают всего пару минут и доступны даже во время ожидания пассажиров.

Примеры таких задач:
▫️ разметка данных для обучения ИИ
▫️ загрузка меню ресторанов
▫️ запись голосовых сэмплов
▫️ озвучка сценариев на разных языках

Потенциал огромен: компании вроде Scale AI и Surge AI, занимающиеся разметкой данных, уже оцениваются примерно в $30 млрд каждая.

В начале октября Uber также приобрёл бельгийский стартап Segments AI, специализирующийся на разметке данных, чтобы усилить свои позиции в этой сфере.
👍19😁114🔥3
🖼️ Удаление водяных знаков из видео Sora 2 с помощью ИИ

Этот проект позволяет эффективно удалять водяные знаки из видео, созданных с помощью Sora 2, используя технологии искусственного интеллекта. Пользователь загружает видео, система анализирует каждый кадр и удаляет водяной знак с помощью инпейнтинга.

🚀Основные моменты:
- Использует ИИ для точного удаления водяных знаков
- Поддерживает Windows, MacOS и Linux
- Обработка видео с сохранением качества
- Легкий в использовании интерфейс для загрузки видео

📌 GitHub: https://github.com/hate0s/sora2-watermark-remover
🤣15🔥43🥴3👍1
🌍 NVIDIA лидирует в опенсорсе в области ИИ, а китайские лаборатории только догоняют.

Всего пару лет назад большинство моделей - особенно крупные языковые - были закрыты
.
Теперь всё иначе: экосистема открытого ИИ растёт взрывными темпами. Только за последние 90 дней на Hugging Face появилось более миллиона новых репозиториев.

NVIDIA вышла в лидеры по количеству открытых проектов в 2025 году: серии Nemotron, BioNeMo, Cosmos, Gr00t и Canary.

Китайские компании (Alibaba Cloud с Qwen, Baidu, Tencent и другие) активно догоняют и уже способны конкурировать с западными лабораториями.

Открытый ИИ стал не только про гигантов - тысячи независимых разработчиков публикуют модели, датасеты и адаптации (например, LoRA). Это превращается в целое движение.

Меняется глобальная карта ИИ: Китай и США усиливают позиции, а Европа и другие страны всё больше уходит в тень.

⚠️ Но есть нюансы:

Открытость ≠ качество: важно следить за достоверностью данных, этикой и устойчивостью моделей.

Рост числа репозиториев требует фильтрации — не всё из нового имеет практическую ценность.

Лицензии и совместимость становятся критически важными: ошибки здесь могут стоить дорого.

📎 Подробнее: https://aiworld.eu/story/nvidia-leads-open-source-ai-momentum-as-chinese-labs-close-in

#OpenSourceAI #NVIDIA #China #Innovation #AI #Ecosystem
7👍4🔥2
Когда твоя AI-девушка жила на AWS us-east-1 💔*

Все было прекрасно, пока датацентр AMAZON не упал.
12🔥6🤣6🥱4💔4👍3