Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Очередной #дайджест по Data Science:

✍️ Диффузионные модели в CV. Что за зверь?
Генеративные модели сейчас находятся на хайпе и про них слышно из каждого угла. Многие знакомы с Dalle-2, Dalle-3, Midjourney, Stable AI и это лишь модели из домена по генерации изображений.

✍️ Разработан инструмент, позволяющий художникам «отравлять» свой контент для ИИ
С тех пор, как год назад вышел ChatGPT, индустрия генерации цифрового контента находится в суматохе. Всех постепенно начинает вытеснять ИИ.

✍️ LLM'ы в преобразовании запроса на естественном языке в SQL (text2sql)
Многие организации инвестируют огромные средства в системы, способные хранить, обрабатывать и анализировать данные.

✍️ Как применять метод PCA для уменьшения размерности данных
Одной из ключевых задач при работе с данными является уменьшение размерности данных, чтобы улучшить их интерпретируемость, ускорить алгоритмы обучения машин и, в конечном итоге, повысить качество решений.

👍2🔥1

2.94K views11:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Очередной #дайджест по Python:

✍️ Как мы заинжектили кнопку на Behance
Как появился python‑модуль behance‑py, который, если верить статистике с pepy.tech, имеет более 5 тысяч установок и расширение для Chrome, о котором более подробно в статье.

✍️ “Ну и долго мне ещё до магазина?” Или пара слов о геоинформационном анализе с помощью Python
В статье раскрыли тему обработки пространственных данных средствами Python библиотеки estaty.

✍️ Борьба с несбалансированными данными
Почему несбалансированные данные — это такая большая проблема?

✍️ Головоломки на Python: Увлекательный Путь к Мастерству в Программировании
В этой статье автор представляет серию увлекательных головоломок, разработанных для развития навыков программирования на Python.

👍1

3.48K views18:29

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤖 25 бесплатных AI-инструментов для разработчиков
ИИ-помощники способны заменить GitHub Copilot, проверить код и даже сделать UX/UI-дизайн. Мы сделали подборку.

🟣 Codeuim
Помогает писать код. Можно опробовать в браузере или установить в качестве расширения в популярные IDE. Поддерживает более 70 языков программирования.
🟣 Codiga
Проверит, проанализирует и отрефакторит ваш код.
🟣 GPT Pilot
Создатели инструмента утверждают, что он позволит ускорить процесс разработки в 20 раз. С помощью GPT Pilot можно пошагово разработать собственное приложение.
🟣 Open Interpreter
Альтернатива официальному плагину Code Interpreter от Open AI. Может управлять браузером Chrome для поиска в интернете.
🟣 GPT-Code-Clippy
А это опенсорсный аналог GitHub Copilot на базе GPT-3.

Ещё 20 инструментов можно найти здесь

О других классных новых инструментах мы писали тут
#дайджест

👍11🔥2👾1

31.4K views11:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Свежий #дайджест по DS

✍️ Чем может быть полезно хеширование в рекомендательных системах
У простой модели рекомендательной системы при использовании может возникнуть проблема масштабирования. Справиться с этим позволяет следующий трюк — множество пользователей сопоставляется с одним скрытым (latent) представлением с помощью хеш-функции.
✍️ Риски и перспективы использования LLM для проверки фактов
Авторы новой статьи проверили, как большие языковые модели справляются с фактчекингом. Оказалось, что хорошо, когда у них есть контекстуальная информация. При этом GPT-4 превосходит GPT-3.
✍️ Управление рисками искусственного интеллекта в эпоху быстрого прогресса
Авторы статьи предлагают серьёзно отнестись к возможности того, что универсальные системы ИИ превзойдут способности человека во многих критически важных областях в течение этого десятилетия или следующего.
✍️ 6 способов уменьшить галлюцинации ChatGPT
Про улучшение ответов модели с помощью промптов.

👍6🔥2

2.67K views18:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Очередной #дайджест по Data Science:

✍️ Исследование режима Copy-on-Write в Pandas
Подробный разбор в двух частях. Автор объясняет механизм работы CoW, который позволяет удобно изменять любой объект DataFrame или Series, полученный из другого объекта.
✍️ Как улучшить точность генеративных ответов LLM с помощью собственного RAG
Большие языковые модели могут галлюцинировать при ответах на вопросы по загруженным документам. Иными словами, LLM выдаёт неправильные ответы, поскольку использует устаревшие данные из «весов». Справиться с этим поможет Retrieval-augmented generation (RAG).
✍️ «ChatGPT-детектор» отличает сгенерированные ИИ научные статьи от настоящих с высокой точностью
Исследователи рассказывают о создании классификатора, который с высокой точностью определяет фальшивки.
✍️ Создание игры Angry Pumpkins с помощью нейросетей
Перевод статьи разработчика Javi Lopez, в которой он рассказывает, как создал игру только с помощью промптов к GPT-4, Midjourney и DALL-E.

👍4❤1👏1👾1

2.4K views11:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Свежий #дайджест по статьям и видеороликам:

✍️ Обзор методов повышения производительности LLM
Это один из роликов с конференции DevDay, которые OpenAI опубликовала только сегодня ночью. Представленные выступления шли после блока анонсов от главы компании Сэма Альтмана. В них разработчики рассказали любопытные подробности.
✍️ Влияние больших языковых моделей на научные открытия
Практически книга, в которой рассказывается, как GPT-4 применим в открытии лекарств, биологии, вычислительной химии и т.д.
✍️ Эмбеддинги слов в PyTorch + Lightning
Ролик с песнями, объясняющий, как всё это накодить и использовать в PyTorch.
✍️ Введение в архитектуру MLOps
В статье перечислены ключевые компоненты архитектуры MLOps: от хранения данных до деплоя моделей и их мониторинга.
✍️ Как научить Transformer обрабатывать длинные тексты
Обзор основных идей по оптимизации self-attention.

❤2🥰2

3.08K viewsedited 11:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Очередной #дайджест:

🟣 Практический пример использования модели детекции изображений
Автор подробно рассказывает об учебном проекте, в рамках которого прикрутил модель детекции изображений к умной кормушке.
🟣 Исследование: ChatGPT работает лучше на Julia, чем на Python и R
Перевод статьи исследователя из Массачусетского технологического института. Он, к своему удивлению, выяснил, что ChatGPT лучше справляется с задачами генерации кода на менее распространённом языке Julia.
🟣 Файн-тюнинг языковых моделей для уменьшения фактических ошибок
Авторы статьи представили метод, позволяющий увеличить процент сгенерированных правильных утверждений. Они увидели снижение количества фактических ошибок при генерации на 58% по сравнению с Llama 2 7B Chat.
🟣 Эмбеддинги и векторное хранилище с ChromaDB
Подробная статья о том, что такое векторное представление данных, как работать с эмбеддингами и использовать ChromaDB. Всё с большим количеством примеров кода.

❤3

3.08K views14:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Новый #дайджест статей по машинному обучению и работе с данными

🤖 Запускаем локальный ML-процесс в облаке с помощью DataSphere Jobs
В сервисе DataSphere можно удалённо запускать задания (jobs) — вычисления на ВМ DataSphere за пределами JupyterLab.
🤖 Как мы с помощью ML вылечили проблему, не дававшую перейти на автомаршрутизацию курьеров
Интересная статья от компании CDEK, рассказывающая о решении следующей задачи: определить, на какой маршрут поставить конкретный заказ до того, как появился сам маршрут.
🤖 Who's Harry Potter? Approximate Unlearning in LLMs
Авторы пытались заставить модель Llama2-7b «забыть» «Гарри Поттера».
🤖 Hadoop в Облаке: история миграции сотен петабайт
Рассказ от руководителя Data Platform в ОК о переносе Hadoop с Bare Metal в облако.
🤖 Open-source LLMs as LangChain Agents
Статья рассказывает о том, что такое LLM-агенты и как их интегрировать в системы с использованием LangChain.

❤3👍2😁1

4.36K views18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Свежий #дайджест материалов по машинному обучению, Data Science и нейросетям

🤖 Создание генетического алгоритма для нейросети и нейроcети для графических игр с помощью Python и NumPy
Статья рассказывает о создании генетического алгоритма для нейросети, чтобы с помощью него она смогла проходить разные игры, например Pong и Flappy bird.
🤖 Метод главных компонент (PCA). Принцип работы и реализация с нуля на Python
Автор также прикладывает код.
🤖 Кластеризация в ML: от теоретических основ популярных алгоритмов к их реализации с нуля на Python
Обширная статья от того же автора, что и предыдущая. Довольно сложная и наполненная техническими деталями.
🤖 Visualisation 101: Choosing the Best Visualisation Type
Автор даёт советы по выбору наиболее подходящего типа визуализации в зависимости от конкретной задачи.
🤖 Design2Code: How Far Are We From Automating Front-End Engineering
Исследователи попытались понять, может ли GPT заменить разработчиков веб-страниц.

❤8

3K views12:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Свежий #дайджест материалов по ИИ, Data Science и машинному обучению

▪️Синтетическое генерирование данных (SMOTE)
SMOTE используется для решения проблемы несбалансированности классов в обучающих данных.
▪️Propensity score matching: как оценивать маркетинговые кампании, если невозможно провести A/B тесты
Propensity Score Matching (PSM) — это статистический метод, позволяющий оценить эффект вмешательства, сравнивая группы с похожим распределением ключевых характеристик, за исключением самого вмешательства.
▪️Логистическая и Softmax-регрессии. Основная идея и реализация с нуля на Python
Очень подробная статья с формулами и кодом.
▪️Ускорение инференса LLM
ML-разработчик из команды YandexGPT разобрал задачу ускорения инференса больших языковых моделей.
▪️What's next for AI agentic workflows ft. Andrew Ng of AI Fund
Эндрю Ын рассказывает о том, что будет дальше с ИИ-агентами.

🔥5👍2

2.81K views18:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️Свежий #дайджест по DS и ML

👾

Ютубер сделал нейронку для предсказания рукописных цифр в Minecraft

(см. видео)

Автор ролика рассказывает, что решил использовать архитектуру MLP, а не CNN. Изначально алгоритм был написан на Python с помощью Keras и датасета MNIST. Благодаря mcschematic автор смог экспортировать необходимые веса в Minecraft.

🧡

Вышли JupyterLab 4.2 и Notebook 7.2
Теперь можно управлять рабочими пространствами из JupyterLab с помощью графического интерфейса, также улучшена настройка горячих клавиш и добавлена тема Dark High Contrast.

💩

Распознавание капчи при помощи CNN модели
Автор статьи рассказывает о генерации данных с помощью библиотеки captcha, и обучении свёрточной нейронной сети. Материал полезен для начинающих.

💩

Вышла YOLOv.10
Это обновление в линейке моделей YOLO для распознавания объектов в реальном времени. Утверждается, что YOLOv10-B имеет на 46% меньшую задержку и на 25% меньше параметров по сравнению с YOLOv9-C при той же производительности.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍1

3.36K views12:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Свежий #дайджест по Data Science и машинному обучению

✍️ Простые способы ускорения обучения PyTorch-моделей
В новой статье на «Хабре» рассказывается о контейнеризации, профилировщике PyTorch, распределителе памяти, оптимизации обучения в системах с несколькими GPU и с избыточностью данных и др.

✍️ Руководство по разработке приложений с использованием LLM
Это хороший пост, объясняющий как запускать локальные LLM, а также раскрывающий все сопутствующие термины.

✍️ Как делать аннотации к графикам с помощью Matplotlib и Python
Короткая статья для новичков.

✍️ Большое тестирование видеокарт для машинного обучения
Новая статья на «Хабре» посвящена тестированию видеокарт для задач машинного обучения. Автор рассматривает различные видеокарты, их производительность, стоимость и эффективность в задачах обучения и инференса.

✍️ Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art LLM
В этой статье авторы рассказали, что LLM не способны решить простую загадку.

🤩1

2.98K views18:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Это #дайджест для всех, кто работает с искусственным интеллектом

👾 TokenCost
Это библиотека для простого подсчёта токенов при работе с большими языковыми моделями.

👾 Почему модель не работает?
Это перевод статьи о распространённой проблеме: на обучении модель выглядит хорошо, но на реальных данных отрабатывает плохо.

👾 Анализ производительности моделей YOLOv8
Автор делал замеры производительности и точности работы моделей YOLOv8 на разных устройствах с различными оптимизациями и без них.

👾 Transcendence: Generative Models Can Outperform The Experts That Train Them
Интересная статья про то, что если модель обучить на ходах «слабых игроков», то она будет играть лучше, чем лучшие шахматисты датасета.

👾 NVIDIA Warp
Это Python-фреймворк, компилирующий обычные функции в эффективный код ядра, который может выполняться как на CPU, так и на GPU.

🔥4👍1

3.02K views11:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Ещё один свежий #дайджест по области DS:

🤖 Как создать панель мониторинга на Python из PostgreSQL
Классический гайд.

🤖 О каких проблемах в AI/ML никто не говорит? [Обсуждение на Реддите]
Более 190 комментариев.

🤖 torch.compile, недостающее руководство [документ Google]
Углублённое введение в метод.

🤖 Погружение в R с Изабеллой Веласкес: перспективы R-Ladies Сиэтла
О языке R и его использовании в DS.

🤖 Regrets and Regression (Сожаления и регрессия)
Фрагмент из книги.

🔥5

2.94K viewsedited 18:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Новостной #дайджест по сфере ИИ

🔥 Google выпустила Gemma 2 2B — лучшую в своей категории
Эта модель была обучена на более крупных моделях посредством дистилляции. Новинка превосходит все модели GPT-3.5 на Chatbot Arena. Веса можно скачать тут.

👀 ИИ научился определять ранние стадии опухоли молочной железы
Новая модель использует изображения тканей и учитывает пространственную организацию клеток, что повышает точность диагностики. Это поможет врачам более эффективно оценивать стадии рака и избежать чрезмерного лечения.

🔋 Представлена новая технология, которая снижает энергопотребление ИИ-моделей в 1000 раз и более
Исследователи разработали новую технологию CRAM, которая вместо традиционного перемещения данных между процессором и памятью обрабатывает данные прямо внутри ячеек памяти. Это позволяет сократить энергозатраты более чем в 1000 раз.

👍5

2.57K views18:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Свежий #дайджест по Data Science и машинному обучению

🔹Рекурсивный отбор признаков. Динамический шаг в танце feature selection
Статья представляет собой подробный обзор и сравнение методов отбора признаков, а также практические рекомендации по их применению в задачах машинного обучения.

🔹Docker Compose for ML Engineers
Это короткий ролик, который рассказывает о том, как использовать Docker Compose в проектах машинного обучения.

🔹Predicting results of social science experiments using Large Language Models
Интересная статья, которая показывает, что GPT-4 способна предсказывать результаты социальных экспериментов с довольно высокой точностью.

🔹Effective Machine Learning Teams: Best Practices for Ml Practitioners (2024)
Новая книга про лучшие практики для проектов машинного обучения.

🔹Я больше не верю публичным датасетам
Автор рассказал о своём опыте работы с публичными датасетами.

👍4🥰2

2.25K views11:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Пятничный #дайджест по Data Science и машинному обучению

🔹How to Test Machine Learning Systems
Тестировать ML-системы сложно, но возможно. Статья описывает все этапы от начала до конца, а также перечисляет лучшие практики.

🔹Mojo: убийца Python и будущее Ai?
Автор обучает простую свёрточную нейронную сеть, а также разбирает линейную регрессию как на Python, так и на Mojo.

🔹Building RAG with Postgres
В гайде рассматривается каждый шаг такого пайплайна: от получения данных до генерации ответа.

🔹What is Entropy?
Эта небольшая книга представляет собой элементарный курс по энтропии. Будет интересно тем, кто хочет понять самую суть.

🔹Из лингвиста в дата-сайентисты: личный опыт и детальный трек
В статье собраны полезные материалы и советы автора.

👍6❤1😁1

2.47K views18:07

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Proglib.academy | IT-курсы

#дайджест #DataInternship

Подборка стажировок недели для Data специалистов

▪️ Стажер Data Scientist, Логика ранжирования
Офис (Москва), Ozon Информационные технологии
Подробнее

▪️ Аналитик данных (стажер)
Офис (Иваново), CADesign
Подробнее

▪️ Стажёр Data Scientist
Удалёнка, R-One
Подробнее

▪️ Стажер в команду аналитики сервиса путешествий
Гибрид (Москва) / Удалёнка, Туту.ру
Подробнее

▪️ Data engineer
Гибрид (Москва) / Удалёнка, Группа компаний ФСК
Подробнее

Понравились предложения о стажировке?
❤️ — да
🤔 — нет

hh.ru

Вакансия Стажер Data Scientist, Логика ранжирования в Москве, работа в компании Ozon Информационные технологии (вакансия в архиве…

Зарплата: не указана. Москва. Требуемый опыт: не требуется. Стажировка. Дата публикации: 24.10.2024.

❤11👾1

2.62K views11:01

About

Blog

Apps

Platform