330K subscribers
4.17K photos
770 videos
17 files
4.69K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
Media is too big
VIEW IN TELEGRAM
✔️ Исследователи Стэнфорда представили новую работу под названием Agentic Context Engineering (ACE), которая может радикально изменить подход к обучению ИИ-моделей.

Вместо традиционного fine-tuning, где обновляются веса модели, ACE позволяет ей становиться умнее без переобучения.

Метод основан на идее, что модель может сама улучшать свои подсказки - переписывать их, анализировать ошибки и извлекать уроки из прошлых попыток. В процессе формируется постоянный контекстный «ноутбук»я, накопленная база знаний, в которой сохраняются успешные решения и примеры.

По данным авторов, ACE показывает результаты выше, чем у агентов на основе GPT-4: на 10,6% лучше в тестах AppWorld и на 8,6% лучше в задачах финансового рассуждения. При этом затраты и задержка снижаются на 86,9%, а для обучения не требуется размеченных данных.

Главный вывод работы в том, что ACE опровергает идею минимализма в промптах. Вместо коротких и простых инструкций этот подход делает ставку на богатый контекст и постоянное самоулучшение модели.
arxiv

✔️ Microsoft и NVIDIA представили первый в мире суперкомпьютер GB300 NVL72 на платформе Azure, в каждой стойке которого установлено более 4600 GPU Blackwell и 36 CPU Grace.

Система обеспечивает до 5 раз выше производительность на GPU, обладает 37 ТБ объединённой памяти и вычислительной мощностью 1,44 экзафлопса.

Проект демонстрирует, что ставка Microsoft на развитие облачной инфраструктуры Azure для ИИ приносит ощутимые результаты.
microsoft

✔️ Когда ИИ становится психотерапевтом

В Китае молодёжь массово обращается к ИИ-компаньонам вроде DeepSeek и Doubao, заменяя ими дорогие и труднодоступные сеансы терапии.
Проблема системная — 80% больниц не имеют психиатрических отделений, а консультация в больших городах стоит до 800 юаней ($110) в час.

ИИ-чаты дают мгновенный и анонимный отклик, но несут и риски: универсальные модели могут поддерживать опасные мысли вместо того, чтобы оспаривать их.

Соцсети заполняют истории о «разговорах со слезами на глазах» - поисковые запросы вроде «плакал после общения с ИИ» превысили миллион упоминаний. Опросы показывают, что всё больше молодых пользователей обращаются к чат-ботам при тревоге, депрессии или проблемах в отношениях — их привлекает анонимность и круглосуточная доступность.
restofworld

✔️ Обновление Kimi K2

MoonshotAI обновила инструмент K2 Vendor Verifier
- теперь можно визуально сравнивать точность выполнения вызова инструментов (tool calls) у разных провайдеров.
Github

✔️ ByteDance представила интересное исследование в области моделировании длинного контекста

Компания объявила о крупном достижении в области long-context AI-моделей, где вычислительная сложность растёт линейно, а не квадратично, что решает одну из ключевых проблем современных LLM - баланс между эффективностью и точностью при обработке длинных последовательностей.

Модель вдохновлена биологической памятью и сочетает два типа запоминания: точное краткосрочное и сжатое долговременное.
Свежие токены удерживаются в скользящем окне внимания (аналог кратковременной памяти), а более старые - сжимаются “гиппокампом” в компактное состояние фиксированного размера, которое обновляется и передаётся дальше.

Результаты впечатляют: на тестах с контекстом 128k вычисления (FLOPs) сократились на 40,5 %, объём KV-кеша — на 74 %, при этом точность выросла, а параметры увеличились лишь на 0,4 %.

На этапе вывода каждый новый токен обращается и к точному окну, и к сжатому состоянию, что сохраняет локальную точность и обеспечивает понимание длинного контекста без взрыва памяти и вычислений.
arxiv.org

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6830🔥29🥰3
Media is too big
VIEW IN TELEGRAM
✔️Бывший премьер-министр Великобритании Риши Сунак стал советником Microsoft и Anthropic

По данным The Wall Street Journal, Microsoft и Anthropic наняли Риши Сунака в качестве старшего консультанта на неполный рабочий день.

В Anthropic он будет заниматься вопросами глобальной стратегии и геополитических тенденций, не затрагивая внутреннюю политику Великобритании. Microsoft уточнила, что Сунак даст внутренние стратегические консультации и будет выступать на корпоративных мероприятиях.

Ранее, в июле 2025 года, Сунак также стал советником Goldman Sachs.

Его опыт в сфере ИИ включает проведение саммита AI Safety Summit в ноябре 2023 года и запуск AI Safety Institute, что дало ему непосредственное понимание международной координации и тестирования безопасности ИИ.
wsj

Adobe представила метод RL-ZVP: обучение даже на “бесполезных” промптах

Новая р описывает способ обучения моделей, который использует промпты с нулевой дисперсией ответов - то есть случаи, где все сэмплированные ответы одинаково хороши или одинаково плохи. Раньше такие данные считались «пустыми» и отбрасывались, но теперь превращаются в сигнал для обучения.

Метод RL-ZVP (Reinforcement Learning with Zero Variance Prompts) заменяет “молчание” градиента на активное обновление: если все ответы верны — считается положительный пример, если все ошибочны — отрицательный. Обновления масштабируются по энтропии, чтобы неуверенные токены корректировались сильнее, а очевидные - слабее.

Такой подход повышает точность до +8.6 пунктов и pass rate до +7.8 пунктов по сравнению с популярным методом GRPO, не требуя дополнительных вычислений.

Главная идея - не выбрасывать 50% обучающих шагов, а извлекать из них пользу, превращая “пустые” выборки в источник стабильности и точности.
arxiv

✔️ Новый плагин Qwen Image Edit превращает нейросеть в настоящего режиссёра и оператора, позволяя создавать полноценные кино-сцены из одного кадра.

Модель точно сохраняет персонажа и окружение.
Достаточно начать запрос со слов «next scene», чтобы ИИ продолжил историю, с плавными переходами, продуманной композицией и даже собственным сюжетом.
HF

✔️ Сооснователь Thinking Machines Lab переходит в компанию Цукерберга

По данным The Wall Street Journal, Эндрю Таллок, сооснователь Thinking Machines Lab и один из ведущих исследователей в области ИИ, покинул компанию и присоединился к команде Цукерберга.

Этот шаг примечателен тем, что ранее Таллок отклонил предложение компании рука на сумму $1 млрд, но теперь возвращается в компанию, где уже проработал 11 лет до перехода в OpenAI, а затем - к созданию Thinking Machines вместе с Мирой Мурати в начале этого года.
wsj

✔️ GPT-5 и Gemini 2.5 Pro взяли “золото” на Международной олимпиаде по астрономии и астрофизике

Впервые искусственный интеллект не просто прошёл академическое испытание, а занял места в топ-2 среди 200–300 лучших школьников планеты.

Модели GPT-5 и Gemini 2.5 Pro показали результаты 85,6 % и 84,2 % соответственно - это уровень золотой медали.

Такие олимпиады считаются одними из самых сложных в мире: участники решают задачи по нейтронным звёздам, магнитным полям, аккреционным потокам и орбитальной механике, нередко по нескольку часов каждая.

✔️ Morgan Stanley: Neuralink превращает фантастику в рынок на $400 млрд

В новом отчёте “Neuralink, AI in your brAIn” аналитики Morgan Stanley заявили, что интерфейсы мозг-компьютер (BCI) переходят из научной фантастики в реальную экономику — и Neuralink стоит в центре этого сдвига.

Neuralink уже имплантировали чипы 12 пациентам, а 10 000 человек ждут своей очереди. Один из пользователей проводит с устройством по 100 часов в неделю. Текущие проекты — Telepathy (управление компьютером мыслями) и Blindsight (восстановление зрения через зрительную кору).

Morgan Stanley оценивает рынок в $400 млрд только в США, прежде чем технология выйдет в гейминг, оборонку и потребительские устройства.

Эксперты предупреждают: ИИ ускорит развитие BCI, но скорость человеческой мысли может не поспевать за AGI.
thedebrief

@ai_machinelearning_big_data


#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5747👍21😁5🌭5🙉3💘2🤔1🤝1
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 Перед вами первое публичное выступление Сэма Альтмана

На видео - 19-летний студент Стэнфорда, который бросил университет, чтобы запустить свой первый стартап Loopt.

Loopt был геолокационным приложением - своего рода предшественником Find My Friends и функции геометок в соцсетях. В приложении можно было смотреть, какие места посещают ваши друзья, какие отзывы оставляют.

Loopt продали в 2012 году за $43,4 млн. После этого Сэм Альтман создал свой венчурный фонд Hydrazine, начал инвестировать в стартапы, затем стал главой акселератора Y Combinator — программы, которая помогает молодым компаниям расти и получать инвестиции.

А уже в 2015 году он соосновал OpenAI.

@ai_machinelearning_big_data


#openai #ml #ai #chatgpt #SamAltman
Please open Telegram to view this post
VIEW IN TELEGRAM
🤨93🔥70👍401513😨7🗿4🤬2🙈2💘2🥰1
✔️Представлен новый метод для понимания работы больших языковых моделей — SAE Boost

Метод помогает увидеть на какие внутренние признаки опирается ИИ, когда формирует ответы без переобучения всей модели.

В основе — дополнительный автоэнкодер, который обучается на остаточной ошибке базовой модели и вылавливает редкие, специализированные сигналы, влияющие на решение модели. Sae Boost уже протестировали на тестах по химии, документах ООН и русскоязычном контенте – метод показал значительное улучшение качества реконструкции (explained variance) и снижения перекрестной энтропии LLM (LLM cross-entropy) на специализированных доменах.

@ai_machinelearning_big_data

#news #ai #ml #llm
Please open Telegram to view this post
VIEW IN TELEGRAM
43👍20🔥6🌭1💘1
Media is too big
VIEW IN TELEGRAM
✔️ Китай выходит в лидеры мировой робототехники

Китай стремительно превращается в мирового лидера по производству и внедрению гуманоидных роботов. В стране формируется полный цикл - от датчиков и приводов до готовых автономных систем.

По данным издания, только за прошлый год на китайских заводах установлено около 300 тысяч промышленных роботов, что больше, чем во всём остальном мире вместе взятом. И почти все они - китайского производства.

Компания Unitree уже выпустила гуманоидного робота R1 стоимостью менее 6 000 долларов, что в несколько раз дешевле предыдущих моделей. Это стало возможным благодаря высокой локализации производства и быстрой обратной связи между разработчиками и фабриками.

Демографический кризис и старение населения подталкивают Китай к автоматизации. Правительство активно поддерживает отрасль - создаёт тестовые полигоны, субсидирует стартапы и внедряет роботов в промышленность и сервис.

Если США не активизируют собственные программы в области робототехники, Китай может занять доминирующее положение в одной из ключевых технологий XXI века.
washingtonpost

✔️ Microsoft и Georgia Tech научили ИИ думать “молча”

Исследователи создали систему SwiReasoning, которая позволяет языковым моделям решать, когда говорить, а когда просто думать. Вместо того чтобы постоянно проговаривать свои шаги, как в Chain-of-Thought, модель теперь может рассуждать скрыто - в латентном пространстве.

Когда уверенность низкая, она «думает молча», обрабатывая идеи внутри в виде непрерывных векторов. Когда уверенность возрастает - «высказывает» выводы словами. Такой гибкий режим делает рассуждения в среднем на 56–79% эффективнее, а в пике - до 6.78 раза быстрее, без потери точности.

Исследователи называют это началом новой эры latent reasoning - когда ИИ размышляет не словами, а понятиями.
Paper

✔️ xAI разрабатывает world models - продвинутые системы ИИ, способные понимать и моделировать физический мир.

Для этого проекта xAI привлекла бывших специалистов Nvidia, которые будут работать над созданием ИИ, умеющего формировать реалистичные трёхмерные среды и взаимодействовать с ними.

Первым направлением применения таких моделей станет индустрия игр - xAI планирует использовать world models для генерации интерактивных 3D-миров с динамическим поведением объектов и физикой.
В будущем эти технологии могут применяться в робототехнике и других областях физического ИИ.
Согласно планам компании, первая игра, полностью созданная искусственным интеллектом xAI, должна выйти к концу следующего года.
X

✔️ Учёные научили ИИ определять СДВГ по тому, как человек видит и обрабатывает мелькающие картинки.

Модель анализирует зрительные ритмы - микропаузы между кадрами, которые мозг воспринимает по-разному у людей с и без СДВГ. Точность диагностики - 91,8%, а различить, принимает ли человек стимуляторы, ИИ смог с точностью 91%.

Метод может стать новым способом диагностики без тестов и интервью - достаточно показать короткое видео и измерить, как мозг реагирует на световые ритмы.
psypost

✔️ Microsoft запускает инструмент, который покажет начальнику, насколько активно ты пользуешься ИИ

Microsoft внедряет в свою корпоративную платформу Viva Insights новую функцию под названием Benchmarks - систему, которая позволяет менеджерам отслеживать, насколько активно сотрудники используют искусственный интеллект в рабочих приложениях. Benchmarks станет частью Copilot Dashboard, панели аналитики, которая собирает данные о взаимодействии сотрудников с инструментами Microsoft 365 - от Teams и Outlook до Word, Excel и PowerPoint.

Руководители смогут видеть процент «активных пользователей Copilot» в разных отделах, сравнивать показатели внутри компании и даже сопоставлять их с усреднёнными данными по отрасли. По официальному определению Microsoft, «активный пользователь Copilot» - это тот, кто совершил «намеренное действие с ИИ» в одном из поддерживаемых приложений.

То есть если ты хотя бы раз за месяц использовал Copilot для генерации письма, отчёта или кода - ты попадёшь в статистику
winbuzzer

@ai_machinelearning_big_data


#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
46👍24🔥9🤨2💘2🥰1
Audio
✔️ В ГигаЧат можно генерировать музыкальные промпты

Функция позволяет создавать аудиотреки напрямую из текстового описания:
▪️ настроение, жанр или сценарий задаются в промпте;
▪️ модель формирует готовый трек без внешних инструментов;
▪️ подходит для клипов, фильмов, поздравлений и других аудиопроектов.

⚡️Пользователи отмечают:
▪️генерация соответствует описанному настроению;
▪️ скорость создания трека выше, чем при использовании внешних DAW;
▪️ инструмент полностью интегрирован в Гига Чат и доступен через веб и бота.

🧠 Модель обрабатывает русский и английский, сохраняет ритм и динамику, адаптируясь под разные стили музыки.

🔜 Попробовать можно через @gigachat_bot

@ai_machinelearning_big_data

#news #ai #GigaChat
Please open Telegram to view this post
VIEW IN TELEGRAM
179🔥61🤣29👍16💘1
⚡️ Mamba-3 тихо и без объявления вышла на ICLR - и это может стать началом конца эпохи Transformers.

Новая архитектура Mamba-3 делает модели быстрее, стабильнее и эффективнее при работе с длинными контекстами.

Главная идея - не в слоях внимания, а в state-space моделях, где модель хранит и обновляет внутреннее состояние во времени.

📘 Краткие эускурс:
- Mamba-1 ввела непрерывную динамику и выборочное обновление памяти - помнила эффективно без высокой цены attention.
- Mamba-2 показала, что обновления состояния и attention - это две стороны одной математики, что ускорило вычисления на GPU.
- Mamba-3 довела концепцию до зрелости: теперь внутренняя память развивается плавнее и устойчивее за счёт перехода от простого шага Эйлера к трапецеидальному интегрированию.

Вместо простого шага Эйлера, как в Mamba-2, Mamba-3 аппроксимирует интеграл обновления состояния не только по правому концу интервала, но усреднением между началом и концом, с коэффициентом λ, зависящим от данных. Это даёт более точное приближение (второго порядка) и делает динамику состояния более выразительной.

🧠 Что изменилось под капотом:

- Память стала «ритмичной»: теперь модель может хранить повторяющиеся и периодические паттерны (например, структуры языка или музыки).

- Новый multi-input-multi-output дизайн позволяет обрабатывать несколько потоков параллельно — идеально для современных GPU.

⚙️ Что это даёт на практике:
- Эффективная работа с длинными последовательностями: документы, геномы, временные ряды.

- Линейное время выполнения и стабильная задержка делают её идеальной для реального времени: чат-ботов, перевода, речи.

- Энергоэффективность и масштабируемость открывают путь к on-device AI, где большие модели работают локально, без облака.

Mamba-3 - это не просто ускоренная альтернатива Transformers.

Это новая архитектура, которая объединяет глубокое понимание контекста, скорость и устойчивость, от серверных систем до умных устройств.

🟢 Подробности: https://openreview.net/pdf?id=HwCvaJOiCj

@ai_machinelearning_big_data


#ssm #mamba3 #llm,#architecture #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
82🔥43👍23🤔5🗿3😁1💘1
🔥 Сенсей Карпаты выложил новый репозиторий - полный пайплайн обучения LLM с нуля

В проекте есть всё, чтобы собрать свой ChatGPT-клон за $100 и 4 часа:

> • токенизатор (написан на Rust)
> • pretraining
> • SFT (supervised fine-tuning)
> • RL (reinforcement learning)
> • оценка модели (eval)

Всего 8 000 строк кода, без лишних зависимостей - идеальный учебный пример, чтобы понять, как реально устроено обучение больших языковых моделей.

💡 Это проект из его нового грядущего курса LLM101n, и отличная возможность прокачать свои ML-навыки на практике.

Можно арендовать GPU в облаке и запустить всё самому - код уже готов к запуску.

Если запустить обучение модели nanochat на облачном GPU-сервере (например, 8×H100), то примерно через 12 часов обучения (стоимость ~300–400 $) модель достигает уровня GPT-2 по качеству на тестовых наборах (CORE-score).

А если тренировать около 40 часов (затраты ~1000 $), решает простые задачи по математике и коду, набирая:
- 40+ на MMLU
- 70+ на ARC-Easy
- 20+ на GSM8K

🧠 Это бесплатная практика топ уровня от мастера, которую не стоит упускать.

🟠GitHub:https://github.com/karpathy/nanochat
🟠Технические детали: https://github.com/karpathy/nanochat/discussions/1

@ai_machinelearning_big_data


#LLM #nanochat #MachineLearning #DeepLearning #AI #GPT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15036👍20🗿6
✔️ Сооснователь Anthropic Джек Кларк опубликовал сильное эссе о природе современных ИИ-систем.

Он пишет: «То, с чем мы имеем дело, - это настоящее и загадочное существо, а не простая и предсказуемая машина».

Он сравнивает человечество 2025 года с ребёнком из старой истории: мы включаем свет в тёмной комнате и видим не груду одежды на стуле, а живые, мощные и во многом непредсказуемые существа — современные ИИ-системы и те, что ещё впереди.

Многие, по его словам, отчаянно хотят поверить, что это лишь иллюзия, что перед нами не новая форма разума, а просто набор инструментов для экономики. Некоторые даже тратят огромные деньги, чтобы убедить нас, будто «это не интеллект, готовящийся к стремительному взлёту, а всего лишь машина, которой мы управляем».

«Но не обманывайтесь, - пишет Кларк.Мы имеем дело с настоящим и загадочным существом, а не с простой и предсказуемой машиной».
Полное эссе

✔️ Google обновила NotebookLM Video Overviews, добавив него Nano Banana.

Благодаря этому обновлению инструмент теперь создаёт более выразительные и визуально насыщенные видео-саммари. Можно выбрать один из шести художественных стилей оформления - от акварели и бумажной аппликации до аниме, рисованной доски, ретро-печати и культурного оформления.

Кроме того, появились два формата генерации роликов: Explainer для подробных объяснений и Brief для коротких, лаконичных обзоров. Обновление уже начали получать владельцы Pro-подписки, а в ближайшее время функция станет доступна всем пользователям.
X

✔️ Ring-1T-FP8 - открытая модель на триллион параметров.

Ring-1T-FP8 - модель на архитектуре Ling 2.0, которая содержит 1 триллион параметров( 50 миллиардов активных).

Ring-1T обучалась с применением RLVR (reinforcement learning with verifiable rewards) - техники, направленной на повышение точности рассуждений и самопроверку ответов. В процессе использовались собственные методы ASystem и Icepop, уменьшающие разрыв между обучением и инференсом.

Модель решает задачи уровня математических олимпиад (IMO 2025), сохраняет контекст до 128 000 токенов, что вдвое больше предыдущей версии.
HF

✔️ NVIDIA представила исследование NVFP4: новый формат чисел для обучения больших языковых моделей, который использует всего 4 бита на число вместо привычных 8 или 16.

При этом точность почти не теряется, а вычисления становятся в 2–3 раза быстрее, а потребление памяти снижается на 50%.

В эксперименте NVIDIA обучила 12-миллиардный Mamba Transformer на 10 триллионах токенов, и модель с 4-битным NVFP4 показала почти такую же точность, как и FP8:
на тесте MMLU Pro - 62.58% против 62.62%,
а по коду (MBPP+) - 55.91% против 59.11%.

NVFP4 группирует значения в блоки по 16 чисел. Для каждого блока хранится небольшой масштаб в 8 битах, а для всего тензора - глобальный масштаб в 32 битах. Такая структура сохраняет точность локальных и экстремальных значений, позволяя использовать сверхкомпактное 4-битное хранение без потери устойчивости обучения.

На GPU Blackwell операции FP4 выполняются в 2 раза быстрее на GB200 и в 3 раза 0 на GB300, по сравнению с FP8. Потери точности при валидации не превышают 1–1.5%.

Метод также использует стохастическое округление, чтобы избежать накопления ошибок, а переход на BF16 в последних итерациях обучения полностью убирает оставшуюся разницу.

Поддержка NVFP4 уже встроена в Transformer Engine и новое поколение GPU Blackwell.
arxiv

✔️OpenAI и Broadcom объявили о стратегическом партнёрстве для разработки и производства кастомных AI-ускорителей общей мощностью 10 гигаватт.

OpenAI будет отвечать за архитектуру и проектирование чипов, а Broadcom - за производство и развёртывание систем. Масштаб проекта колоссален: 10 ГВт — это примерно столько же энергии, сколько требуется, чтобы обеспечить электричеством 7–10 миллионов домов.

Главная цель - уменьшить зависимость от NVIDIA и создать собственную, независимую инфраструктуру.
OpenAi

@ai_machinelearning_big_data


#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
44👍20🤣9🤓6🔥5👻3🍓1
⚡️ Дженсен Хуанг лично подарил ИИ-суперкомпьютер Илону Маску

Глава NVIDIA сегодня вручил Маску в штаб-квартире SpaceX самый маленький в мире ИИ-суперкомпьютер.

🖥 Это устройство мощностью 1 петафлоп.

Ещё недавно такая производительность обеспечивалась целой комнатой серверов.

Теперь она помещается в коробку размером с рабочий ПК.

Такой компактный суперкомпьютер может использоваться для локального обучения и инференса нейросетей без дата-центров и облаков.

NVIDIA называет это началом новой эры персональных ИИ-ускорителей.

Мужчины честной судьбы встретились, в честь начала мировых поставок DGX Spark, которая начнется уже в эту среду.

Этот момент отсылает к истокам: в 2016 году именно Маск и его команда получили первый DGX-1 - тот самый суперкомпьютер, с которого началась эпоха ИИ-ускорителей NVIDIA.

Эх, нам бы такую коробочку)

Подробнее о первых поставках для разработчиков, исследователей, университетов в live-блоге Nvidia: https://blogs.nvidia.com/blog/live-dgx-spark-delivery/

@ai_machinelearning_big_data


#NVIDIA #JensenHuang #ElonMusk #SpaceX #AI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
96👍40🔥21😁5😴4🤔1