379K subscribers
4.37K photos
833 videos
17 files
4.85K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🖥 CUDA Programming Course – High-Performance Computing with GPUs

Свежий Бесплатный курс от freeCodeCamp по программированию CUDA.
Этот 12-ти часовой видео курс, с которым вы научитесь программировать с помощью Nvidia CUDA и использовать графические процессоры для высокопроизводительных вычислений и Deep learning.

Содержание:
🔜 (0:00:00) Вступление
🔜 (0:16:52) Глава 1 (Экосистема глубокого обучения)
🔜 (0:37:43) Глава 2 (Настройка CUDA)
🔜 (0:47:03) Глава 3 (Обзор C/C++)
🔜(1:35:47) Глава 4 (Введение в графические процессоры)
🔜 (1:51:40) Глава 5 (Написание ваших первых ядер)
🔜 (3:55:26) Глава 6 (CUDA API)
🔜 (5:35:22) Глава 7 (Быстрое умножение матриц)
🔜 (8:22:36) Глава 8 (Triton)
🔜 (9:04:43) Глава 9 (Расширения PyTorch)
🔜 (9:18:10) Глава 10 (Многослойный персептрон MNIST)
🔜 (11:41:13) Глава 11 (Что изучать дальше?)
🔜 (11:54:38) Заключение

Video: https://www.youtube.com/watch?v=86FAWCzIe_4
Code: https://github.com/Infatoshi/cuda-course
Github https://github.com/Infatoshi/mnist-cuda
Nvidia CUDA in 100 Seconds: https://youtu.be/pPStdjuYzSI?si=WIUc--IpgN-Qi2AP

#cuda #deeplearning #cpp #c #bigdata #courses #бесплатныйкурс

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42🔥235🫡4👏2
🥥 Training Large Language Models to Reason in a Continuous Latent Space

Только что был выпущен код для нового подхода в обучении LLM ризонингу - "Coconut"(Chain of Continuous Thought).

Coconut позволяет LLM рассуждать более эффективно и результативно, особенно при комплексных задачах планирования.

Основная идея алгоритма - это улучшения рассуждений моделей с использованием латентного пространства, вместо выходных лексем

При таком подходе - цепочка мыслей генерирует не в виде текстовых токенов, а в виде эмбеддингов, а затем циклично подаются обратно в LLM.

В «Coconut» у LLM есть два режима. Языковой режим работает как обычная языковая модель, генерируя текст и латентный режим, который использует скрытые состояния в качестве следующего входного сигнала, обозначенного специальными токенами <bot> и <eot>.

Скрытые состояния Coconut работают как дерево поиска, а не как линейная цепочка рассуждений, что позволяет модели исследовать несколько потенциальных путей одновременно.

На каждом шаге модель отдает приоритет перспективным узлам, отсекая менее релевантные.

Это помогает эффективнее справляться с задачами планирования и логики, по сравнению с традиционным методом работы CoT.

Как это работает:
1️⃣ Сначала модели подается промпт, за которым следует специальный токен <bot>, чтобы инициировать скрытое рассуждение.
2️⃣ Последнее скрытое состояние LLM после обработки <bot> используется в качестве первой "непрерывной мысли"
3️⃣ Непрерывная мысль подается обратно в модель как новый вход, генерируя новое скрытое состояние (новую мысль). Это повторяется в течение K итераций → цепочка непрерывных мыслей.
4️⃣ Далее добавляется маркер <eot> после последней непрерывной мысли, чтобы завершить скрытое рассуждение.
5️⃣ Последняя непрерывная мысль и <eot> затем используются для генерации ответа.
Такой подход, разумеется, требует большого количества ресурсов при обучении модели.

Плюсы такого подхода:
🏅 Превосходит CoT в задачах, где требуется планирования и сложные рассуждения, таких как ProntoQA и ProsQA
📉 Генерирует значительно меньше лексем во время размышлений по сравнению с CoT
🔀 Может выполнять поиск с широким охватом (BFS), кодируя одновременно несколько альтернативных следующих шагов

git clone git@github.com:facebookresearch/coconut.git
cd coconut


Github
Paper

@ai_machinelearning_big_data


#deeplearning #nlp #reasoning #llm #ml
🔥49👍2114👾2