Анализ данных (Data analysis)
47.1K subscribers
2.65K photos
304 videos
1 file
2.3K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
PINA теперь официально входит в PyTorch Ecosystem — и приносит в него единый фреймворк для Scientific Machine Learning.

PINA — это открытая Python-библиотека, построенная на PyTorch и PyTorch Lightning, с совместимостью с PyTorch Geometric. Она упрощает весь SciML-пайплайн: от моделирования физических систем и решения PDE до построения ML-силовых полей и симуляции динамики.

Фреймворк модульный: чёткая структура для постановки задачи, дизайна модели, выбора солвера и обучения. Это даёт гибкость для исследования и воспроизводимость для инженерии.

🔗 Подробнее о проекте и способах участия:
https://pytorch.org/blog/pina-joins-the-pytorch-ecosystem-a-unified-framework-for-scientific-machine-learning/

#PyTorch #OpenSourceAI #SciML #MachineLearning
10🔥8🥰2
Пока одни строят сложные data-инфраструктуры, другие до сих пор сталкиваются с «вечными» задержками отчётов и расхождениями в цифрах.

Специально для таких ситуаций создали бота, который с иронией помогает подобрать креативные объяснения, когда данные из разных систем отказываются складываться в единую картину, а отчётность снова задерживается.

Такой бот — отличный способ снять напряжение в команде, когда нужно срочно объяснить расхождения в данных. Возможно, именно его ответы станут самым честным комментарием к вашей следующей отчётности. Зайдите и сгенерируйте оправдание — самое меткое сразу отправляйте коллегам в рабочий чат. Пусть оценят, как можно с юмором выходить из сложных ситуаций с отчётностью.
👍4🤣21🥴1
Media is too big
VIEW IN TELEGRAM
✔️ HunyuanVideo 1.5 - новая открытая модель для генерации видео, которая сейчас считается самым сильным open-source решением в этой области.

Построенная на архитектуре DiT, модель поднимает планку по качеству и доступности.

Что важно:
⚡️ Всего 8.3B параметров - модель можно запускать даже на потребительских GPU с 14GB VRAM
🖥️ Качество: генерирует 5–10 секунд видео в 480p/720p, а через суперразрешение —ё- до 1080p с киношной детализацией

SOTA-качество с очень низкими требованиями к железу.

🟠Проект: hunyuan.tencent.com/video/zh
🟠GitHub: github.com/Tencent-Hunyuan/HunyuanVideo-1.5
🟠Hugging Face: huggingface.co/tencent/HunyuanVideo-1.5

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍95🔥1
🤟 Google усиливает свои позиции и сокращает отрыв OpenAI

Сам Альтман признал: прогресс Google - особенно впечатляющие результаты Gemini 3 - создают краткосрочное давление на OpenAI.

Когда-то уверенное лидерство OpenAI заметно ослабло. Google и Anthropic активно усиливаются, в то время как OpenAI сталкивается с огромными затратами на вычислительные мощности, что вызывает беспокойство у инвесторов.

Альтман при этом уверен, что в долгосрочной перспективе OpenAI снова выйдет вперёд. Он ставит на новые модели вроде Shallotpeat, улучшения в этапах предобучения и масштабную автоматизацию, которая должна привести к следующему ряду прорывов.

Из внутреннего письма:

“Не хочу, чтобы это звучало негативно — мы по-прежнему показываем выдающиеся результаты как компания… и я ожидаю, что это продолжится.”


И финальная мысль Альтмана:

“Да, тяжело одновременно быть лучшей исследовательской лабораторией, лучшей AI-инфраструктурной компанией и лучшей продуктовой AI-платформой, но такова наша реальность. И я бы не променял наши позиции ни на чьи :)”

https://www.theinformation.com/articles/openai-ceo-braces-possible-economic-headwinds-catching-resurgent-google
12👍4🥴3👏2
Forwarded from Machinelearning
🌟 RL-фреймворк для обучения MoE-моделей от создателей Chatbot Arena.

Miles - фреймворк для RL-обучения от команды LMSYS ORG, ориентированный на энтерпрайз-уровень.

Если вы следите за опенсорс разработками, вы наверняка слышали о предшественнике этой системы, проекте slime. Это легкий инструмент, который используют во многих современных пайплайнов пост-трейна. На нем, кстати, запускали GLM-4.6.

Slime доказал, что легковесный дизайн работает, и Miles делает следующий шаг - масштабное обучение архитектур MoE и поддержка тяжелых промышленных нагрузок.

🟡Технические детали.

Miles предлагает то, что называют "True On-Policy". Раньше между тренировкой и инференсом часто возникало расхождение. Теперь же, благодаря инфраструктурному подходу, LMSYS добилась нулевой дивергенции. Это стало возможным благодаря использованию Flash Attention 3, библиотеки DeepGEMM и ядер от Thinking Machines Lab, работающих в связке с torch.compile.

Вторая особенность - в использовании спекулятивного декодирования. Обычно в RL черновая модель замораживается, что мешает ей следовать политике целевой модели. LMSYS добавили онлайн-обучение черновой модели.

Результаты на тестах положительные: ускорение генерации более чем на 25%, особенно на поздних стадиях обучения.

🟡Стабильность.

Для энтерпрайза память - это деньги. В Miles включили механизмы, предотвращающие падение системы при некритичных ошибках OOM и исправили чрезмерное потребление памяти в FSDP.

В дорожной карте проекта обещают поддержку мультимодального обучения, совместимость со SGLang v2 и расширенное спекулятивное декодирование.


🟡Статья
🖥Github


@ai_machinelearning_big_data

#AI #ML #RL #Miles #LMSYS
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥32🥰1
Gemini 3.0 Pro устанавливает рекорд в новом физическом бенчмарке - 9.1%

CritPt - новый исследовательский физический бенчмарк уровня аспирантуры, созданный более чем 60 учёными. Он проверяет ИИ на действительно новые, сложные задачи сразу в 11 разделах физики - и ни одна модель пока не преодолела порог в 9%.

Даже топовые системы вроде Gemini 3.0 Pro Preview набирают лишь 9.1%, подчёркивая, насколько далеко современные модели остаются от настоящих пост-град рассуждений в передовой физике.

https://x.com/ArtificialAnlys/status/1991913465968222555
🔥134🥰3
⚡️ Сэм Альтман: ИИ меняет ценность профессий

По словам Сэма Альтмана, ИИ резко меняет то, сколько стоят разные профессии.

Если твоя работа - за компьютером (кодинг, дизайн, написание текстов), ИИ уже умеет делать большую часть таких задач быстро и дёшево. Это снижает ценность цифровых профессий.

Почему так?
Потому что проще всего автоматизировать работу, основанную на знаниях и мышлении. А вот профессии, где нужно быть физически на месте и работать руками сантехники, электрики, хирурги, логистика, доставка- защищены намного лучше. ИИ пока слаб в физическом мире.

Получается интересный переворот:
Работы, считавшиеся «престижными» из-за высокого интеллектуального порога, становятся менее особенными - ИИ делает их слишком быстро.
А профессии, связанные с реальным миром и ручными навыками, наоборот, растут в ценности.

ИИ меняет отношение к цифровому труду:
Не так важно, насколько ты хорош в компьютерных задачах - ИИ легко копирует такую работу. Важнее то, что ты можешь *создать*, *починить*, *построить* или *сделать* своими руками.

И это затрагивает не только рынок труда.
Когда ИИ берёт на себя интеллектуальные задачи, которые раньше давали людям чувство вызова и значимости, многие начинают искать удовлетворение в реальной, физической работе.
В том, где результат - не в файле, а в реальном мире.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁20👍93🔥1😢1💔1
Хочешь перейти из BA в продакты?

Многие BA хотят стать продактами, но сталкиваются с проблемой: продуктовый контекст слишком широкий, и нет ощущения цельной картины.
Интенсив «Product Manager 2.0: менеджер продукта в эпоху ИИ» поможет закрыть разрыв между ролями быстрее и качественнее, чем год самостоятельных попыток.

Что ты получишь:
— понимание роли и компетенций Product Manager в эпоху ИИ, а не по курсам пятилетней давности
— чёткое разграничение: что делает AI, а что остаётся на плечах продакта
— работу с AI Operating Model: как меняются продукт и процессы, когда AI действительно встроен в операционку
— full-stack видение product development: Discovery, Delivery, стратегия, экономика
— практику гипотез, исследований, экспериментов и AI-прототипирования
— метрики, юнит-экономику, P&L, roadmap 

Это — короткий мост между BA и PM, который помогает перестать быть “почти продактом” и стать им по факту.

3 дня, два опытных продакта в качестве преподавателей и международный сертификат ICP-PDM.

👉 Ссылка на программу

Реклама. ООО "СКРАМТРЕК". ИНН 9709056610. erid: 2W5zFHZ91pU
2🔥1
💡 Синтетические картинки, которые обучают лучше реальных

Исследователи из MIT показали неожиданную вещь:
крошечный синтетический датасет может обучать linear probes на огромных vision-моделях лучше, чем настоящие изображения.

Они создали метод Linear Gradient Matching (LGM), который делает следующее:

1) Берут замороженную модель-основу (DINO, CLIP и т.д.)
2) Смотрят, какие градиенты она выдаёт на реальных изображениях
3) Генерируют синтетические картинки так, чтобы градиенты совпадали
4) Обучают линейный классификатор - и он работает лучше, чем при обучении на исходных данных

Почему это полезно:
— работает между моделями (генерировано под DINO → отлично работает в CLIP)
— особенно сильна на тонких классификациях, где важны микродетали
— помогает увидеть, на что реально смотрит модель: спурьёзные корреляции, похожие кластеры, структуру embedding-пространства

Это меняет представление о данных.

Раньше: «Нужно собрать миллионы картинок».
Теперь: «Нужно правильно сгенерировать десятки».

arxiv.org/abs/2511.16674
🔥102
Обычно модель хорошо работает только на том датасете, на котором её обучили. Стоит поменять источник данных, качество падает.

В этой статье показывают простой приём: можно заставить нейросеть учиться так, чтобы она не могла определить, с какого датасета пришёл пример. В итоге она начинает выделять более общие, универсальные признаки, которые работают в любых условиях.

Метод очень лёгкий - добавляется к любой нейросети за несколько строк кода. Но результат стабильный: модель лучше справляется с новыми данными, которых раньше не видела.

Работа приятно выделяется: понятная идея, чёткое объяснение, реальные результаты, а не очередные «+2% на случайной метрике».

Почитать: chapterpal.com/s/386d57f4/domain-adversarial-training-of-neural-networks
PDF: arxiv.org/pdf/1505.07818
🔥2