Анализ данных (Data analysis)
46.9K subscribers
2.54K photos
293 videos
1 file
2.22K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
⚡️ Anthropic обнаружила тревожную уязвимость в обучении языковых моделей: всего 250 подставных документов достаточно, чтобы «внедрить» скрытую команду (backdoor) в модель размером от 600 миллионов до 13 миллиардов параметров - даже если среди данных есть в 20 раз больше нормальных примеров.

Главное открытие: не процент заражённых документов, а их абсолютное количество определяет успех атаки. Увеличение объёмов данных и масштаба модели не защищает от целенаправленного отравления.

Backdoor остаётся незаметным - модель работает как обычно, пока не встретит секретный триггер, после чего начинает выполнять вредоносные инструкции или генерировать бессмыслицу.

Даже если продолжать обучение на «чистых» данных, эффект стирается очень медленно - backdoor может сохраняться длительное время.

Вывод: защита LLM требует контроля происхождения данных, проверки целостности корпусов и мер по выявлению скрытых иньекций.

🟢 Подробнее: https://www.anthropic.com/research/small-samples-poison
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥236👍2
📘 На Stepik вышел курс — «MLOps-инженер: С нуля до продакшена»

Хотите автоматизировать ML-пайплайны, версионировать модели и выстраивать надёжный деплой в production? Этот курс — полный путь MLOps-инженера.

ML Pipeline: MLflow, Airflow, автоматизация обучения и валидации моделей
Эксперименты: DVC, Weights & Biases, версионирование и воспроизводимость
Model Serving: TensorFlow Serving, ONNX, A/B тестирование моделей
Контейнеризация: Docker для ML, GPU-контейнеры, оптимизация образов
Kubernetes: Kubeflow, автомасштабирование inference
Feature Store: Feast, управление фичами, data drift detection
Мониторинг: Evidently AI, model drift, data quality
CI/CD для ML: автотесты моделей, staged rollout
Облака: SageMaker, Vertex AI, cost optimization
Production: model registry, canary deployments, SLA для ML

🎓 Сертификат — добавьте в резюме или LinkedIn

🚀 Скидка 25%, действует 48 часов

👉 Пройти курс на Stepik
🥴53❤‍🔥2🔥1
Илон Маск написал у себя в X:

«У Grok 5 примерно 10 % шансов стать AGI - и он может оказаться очень близок к этому уровню.»


Большинство разногласий вокруг сроков появления AGI сводятся к тому, как именно его определяют.

Например, по последнему мнению Андрея Карпатия, настоящая AGI — это не просто языковая модель, а интеллект с телом: продвинутые роботы, способные выполнять физическую работу и даже решать проблему согласования (alignment).

Если придерживаться такого определения, то даже 10 лет - слишком оптимистичный прогноз.
😁12👍7🤣32🔥2
Uber запускает новый способ заработка для водителей в США 💰

Теперь водители смогут получать деньги, выполняя «цифровые задачи» — короткие задания, которые занимают всего пару минут и доступны даже во время ожидания пассажиров.

Примеры таких задач:
▫️ разметка данных для обучения ИИ
▫️ загрузка меню ресторанов
▫️ запись голосовых сэмплов
▫️ озвучка сценариев на разных языках

Потенциал огромен: компании вроде Scale AI и Surge AI, занимающиеся разметкой данных, уже оцениваются примерно в $30 млрд каждая.

В начале октября Uber также приобрёл бельгийский стартап Segments AI, специализирующийся на разметке данных, чтобы усилить свои позиции в этой сфере.
👍15😁63🔥3