330K subscribers
4.17K photos
770 videos
17 files
4.69K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
⚡️ OpenAI Swarm: Экспериментальный фреймворк для оркестрации мультиагентных систем.

Swarm - это экспериментальный фреймворк, разработанный командой OpenAI Solutions, для создания, оркестрации и развертывания многоагентных систем. Фреймворк фокусируется на упрощении координации, запуска, контроля и тестирования агентов.

Основная цель Swarm - продемонстрировать паттерны, описанные в Orchestrating Agents: Handoffs & Routines cookbook.

Фреймворк построен на двух основных абстракциях: агентах (Agent) и передачах управления (handoffs):

Агент - это набор инструкций и функций, который может передавать выполнение другим агентам. Его можно использовать для описания конкретного рабочего процесса или шага (например, последовательность шагов, сложный поиск, одноэтапное преобразование данных и так далее).

Передача управления — это процесс, при котором агент может передать запрос другому агенту, возвращая его в функцию. В процессе передачи управления также происходит обновление переменных контекста, что позволяет вернуть более полный объект Result.

▶️В репозитории собраны функциональные примеры Swarm:

🟢basic - простые примеры настройки, вызова функций, передача данных и контекстные переменные;

🟢traige agent - пример роя с агентом сортировки, который принимает пользовательские данные и решает, ответить ли на запрос напрямую или передать его агенту по продажам или возврату денег;

🟢weather agent - погодный агент с вызовом функций (запрос по городу и отправка на e-mail);

🟢airlines - мультиагентный пример обработки клиентских запросов в контексте авиакомпании (сортировка запросов, изменения рейсов, отмены бронирований и случаи потери багажа);

🟢support_bot - клиентский бот центра поддержки с несколькими инструментами;

🟢personal shopper - пример роя агентов персонального торгового агента, который может помогать совершать покупки и возвращать заказы;

⚠️ Swarm не использует API Assistants и полностью работает на API Chat Completions.

⚠️ Swarm не предназначен для промышленного использования и не имеет официальной поддержки.

▶️ Локальная установка и запуск:

# Install from PIP
pip install git+https://github.com/openai/swarm.git

# Usage
from swarm import Swarm, Agent
client = Swarm()

def transfer_to_agent_b():
return agent_b

agent_a = Agent(
name="Agent A",
instructions="You are a helpful agent.",
functions=[transfer_to_agent_b],
)

agent_b = Agent(
name="Agent B",
instructions="Only speak in Haikus.",
)

response = client.run(
agent=agent_a,
messages=[{"role": "user", "content": "I want to talk to agent B."}],
)

print(response.messages[-1]["content"])


📌Лицензирование : MIT License.


🖥GitHub
🟡Orchestrating Agents Cookbook


@ai_machinelearning_big_data

#AI #ML #Agents #OpenAI #Swarm
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍26🔥138👏2
🌟 Генеративные агенты: моделирование поведения 1000 человек.

Stanford University, Northwestern University и University of Washington, совместно с Google Deepmind, при участии социологов, разработали архитектуру, которая позволяет симулировать поведение более 1000 реальных людей с помощью LLM, обученных на транскрипции двухчасовых интервью с добровольцами-участниками.

Архитектура использует метод "экспертных размышлений", где LLM генерирует выводы о каждом участнике, принимая на себя роли различных специалистов социальных наук (психолога, экономиста, политолога, демографа).

Процесс создания агентов начинался со стратифицированного отбора 1052 участников, репрезентирующих население США по возрасту, полу, расе, региону, образованию и политическим взглядам. Масштабирование сбора данных проводилось агентом-интервьюером на основе GPT-4o, который динамически генерировал уточняющие вопросы, адаптируясь к ответам участников.

Оценка точности агентов проводилась с помощью сравнения их ответов с ответами реальных участников на вопросы из Общего социального опроса (GSS), опросника "Большая пятерка" (BFI-44), 5 экономических игр и 5 социальных экспериментов. Для учета непостоянства человеческого поведения точность агентов нормализовали с помощью сравнения с тем, насколько последовательно сами участники воспроизводили свои ответы через две недели.

Результаты оценки показали высокую точность прогнозирования агентов, обученных на интервью. Они смогли предсказать ответы на вопросы GSS с нормализованной точностью 0.85, а черты личности по BFI-44 - с нормализованной корреляцией 0.80. Использование интервью значительно повысило точность по сравнению с агентами, использующими только демографические данные или краткие описания личности.

В экспериментах агенты успешно воспроизвели 4 из 5 личностных особенностей, наблюдавшихся у реальных участников, а оценки размеров этих особенностей показали высокую корреляцию (r = 0.98).

Доступ к банку агентов двухуровневый:

🟢открытый доступ к агрегированным ответам на фиксированные задачи и репозиторий с кодом для воспроизведения

🟠ограниченный доступ к индивидуальным ответам на открытые задачи по запросу.


📌 Лицензирование: MIT License.


🟡Arxiv
🟡Dataset
🖥Github


@ai_machinelearning_big_data

#AI #ML #LLM #Agents #Social
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2513🔥10
🌟 PydanticAI: фреймворк для создания AI-агентов на основе Pydantic.

PydanticAI - фреймворк для Python, созданный командой разработчиков Pydantic, который упрощает создание приложений с использованием LLM. Фреймворк имеет простой и интуитивно понятный интерфейс для взаимодействия с LLMs, поддерживающими Async OpenAI (Ollama) и openAI API (ChatGPT, Gemini и Groq), с поддержкой Anthropic в ближайшем будущем.

Основная особенность PydanticAI - система внедрения зависимостей, которая передает данные, соединения и логику в целевую модель. Она упрощает тестирование и оценку агентов и позволяет динамически формировать системные промпты и определять инструменты, доступные LLM.

PydanticAI имеет возможность потоковой обработки ответов с валидацией структурированных данных, позволяя контролировать корректность соответствие данных ожидаемому ответу, тем самым повышая эффективность и интерактивность приложений.

Для отладки и мониторинга работы агентов предусмотрена интеграция с Pydantic Logfire, с которым можно отслеживать запросы к базам данных, анализировать поведение модели и оценивать производительность.

▶️ В документации к проекту доступны примеры применения PydanticAI в сценариях:

🟢Построение Pydantic-модели на основе текстового ввода;
🟢Погодный агент;
🟢Агент поддержки клиентов банка;
🟢Генерация SQL-запросов на основе пользовательского ввода;
🟢RAG-поиск по массиву markdown-документам;
🟢Вывод результатов работы агента в терминале;
🟢Пример проверки потокового структурированного ответа на примере информации о видах китов;
🟢Простой чат-приложение.

⚠️ PydanticAI находится на ранней стадии бета-тестирования.

▶️Установка и простой пример "Hello Word" с Gemini-1.5-flash:

# Install via  PyPI
pip install pydantic-ai

# Set Gemini API key
export GEMINI_API_KEY=your-api-key

# Run example
from pydantic_ai import Agent
agent = Agent(
'gemini-1.5-flash',
system_prompt='Be concise, reply with one sentence.',
)
result = agent.run_sync('Where does "hello world" come from?')
print(result.data)
"""
The first known use of "hello, world" was in a 1974 textbook about the C programming language.
"""


📌Лицензирование: MIT License.


🟡Документация
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #Agents #Framework #PydanticAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥25👍123
💻 ACU - Awesome Agents for Computer Use

Проект, который содержит тщательно отобранный перечень ресурсов о ИИ-агентах, предназначенных для автономной работы на ваших компьютерах.

В него включены научные исследования, проекты, фреймворки, гайды и различные инструменты.

Агенты поддерживают функции анализа задач и принятия решений для взаимодействия с любыми интерфейсам.

Github

@ai_machinelearning_big_data


#aiagents #awesome #agents
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4314🥰3😨1💘1
🔥 Вышла новая модель MiniMax-01 456B с открытым исходным кодом с контекстом 4M!

🚀 Функции MiniMax-Text-01 и MiniMax-VL-01 основаны на ультрасовременной архитектуре "Lightning Attention".

→ В MiniMax-Text-01 реализован гибридный подход, при котором в 7 из каждых 8 слоев используется Lightning Attention, а в одном - SoftMax для улучшения баланса модель.

Такая архитектура позволяет эффективно обрабатывать сверхдлинные последовательности.

→ Версия с открытым исходным кодом включает в себя полный набор весов и API. По цене примерно 0,2 доллара за миллион входных токенов и 1,1 доллара за миллион выходных токенов — вполне конкурентоспособные цены.

На тестах модель превосходит платный Deep Seek v3 ! 💥

→ В задачах с длинным контекстом MiniMax-Text-01 достиг 100% точности в тесте поиска "Needle-in-a-Haystack" с использованием 4 миллионов токенов, превосходя топовые модели в реальных задачах с использованием искусственного интеллекта.

🖥 Github: https://github.com/MiniMax-AI/MiniMax-01
📑Paper:https://filecdn.minimax.chat/_Arxiv_MiniMax_01_Report.pdf
📖Read more: https://minimaxi.com/en/news/minimax-01-series-2

@ai_machinelearning_big_data

#llm #MiniMax #ai #agents #ml #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍48🔥2112
🤖 Quantum Swarm

Quantum Swarm (QUARM) - это мощная мультиагентная система, которая обрабатывает запросы с помощью скоординированного роя специализированных ИИ-агентов.

Каждый агент играет уникальную роль в анализе и ответе на запросы пользователей, предоставляя свой вариант ответа на поставленную задачу.

Особенности

Сложные запросы обрабатываются несколькими специализированными агентами:

- Система Query Triage: Определяет сложность каждого запроса
- Интерпретатор запросов: Разбирает и анализирует запросы
- Специалист по исследованиям: Определяет ключевые области для исследования
- Критический анализатор: Оценивает информацию и выявляет пробелы
- Творческий исследователь: Генерирует новые варианты решения задачи
Синтезатор информации: - Объединяет идеи в последовательные ответы

🚀 Поддерживает различные интерфейсы:

- Поддержка CLI
- Простая Интеграция с Telegram-ботми
- RESTful API с поддержкой потоковой передачи данных
- Поддержка веб-интерфейса

🚨 Расширенные возможности:

- Потоковая передача ответов в реальном времени
- Память диалогов с автоматической очисткой
- Настраиваемые параметры агента
- Поддержка нескольких LLM-провайдеров (OpenAI, Groq, Heurist)
- Поддержка CORS для веб-интеграции

Установка:

git clone https://github.com/QuarmFW/Quarm.git
cd quarm


Github

@ai_machinelearning_big_data


#python #ai #ml #aiagents #agents #aiswarm
Please open Telegram to view this post
VIEW IN TELEGRAM
133👍19🔥10😁3👀2👏1👾1
This media is not supported in your browser
VIEW IN TELEGRAM
🔬MedRAX: новаторский ИИ-агент, разработанный для медицинских задач!

Что такое MedRAX?

MedRAX - это первый универсальный ИИ-агент, который объединяет современные инструменты для анализа рентгеновских снимков грудной клетки и мультимодальные большие языковые модели в единую структуру, позволяющую динамически обосновывать сложные медицинские запросы без дополнительного обучения.

🎯 Чем хорош именно MedRAX?

Хотя специализированные модели ИИ отлично справляются с конкретными задачами рентгенографии грудной клетки, они часто не справляются с комплексным анализом и могут выдавать неточные рекомендации . Многим медицинским работникам нужна единая, надежная система, способная обрабатывать сложные запросы, сохраняя при этом точность. MedRAX призван стать таким инструментом

🛠️ Интегрированные инструменты:


- Визуальный контроль качества: CheXagent и LLaVA-Med
- Сегментация: MedSAM & ChestX-Det
- Формирование отчетов: CheXpert Plus
- Классификация: TorchXRayVision
- Grounding Maira-2
- Синтетические данные: RoentGen

💡 Ключевые особенности:

- Бесшовная интеграция специализированных медицинских инструментов с мультимодальными рассуждениями на основе больших языковых моделей.
- Динамическая оркестровка: Интеллектуальный выбор и координация инструментов для сложных запросов.
- Клиническая направленность: Разработан для реальных медицинских процессов.

📊 ChestAgentBench:

Разработчики также выпустили ChestAgentBench, комплексный эталон медицинского агента, созданный на основе 675 клинических случаев, проверенных экспертами, и включающий 2500 сложных медицинских запросов по 7 категориям.

🎉 Результаты говорят сами за себя:
- 63,1% точности на ChestAgentBench
- Sota результативность на CheXbench
- Превосходит как универсальные, так и специализированные медицинские модели

Paper: https://arxiv.org/abs/2502.02673
Github: https://github.com/bowang-lab/MedRAX

@ai_machinelearning_big_data


#ai #agents #ml #opensource #med #medicine
🔥40👍23🥰108👌2🤔1
✔️ OpenAI опубликовали статью, в которой описан план создания лучшего в мире ИИ-кодера.
В статье исследуется применение обучения с подкреплением (RL) к большим языковым моделям (LLMs) улучшает их способность решать сложные задачи программирования и рассуждений. Авторы сравнивают три модели: общую модель o1, её специализированную версию o1-ioi (адаптированную для соревнований IOI) и более продвинутую модель o3.

Модель o1 значительно превосходит модели без цепочек рассуждений (например, gpt-4o) по показателям на платформе CodeForces.
Специализированная o1-ioi, оптимизированная для соревнований IOI, показывает хорошие результаты с ручными стратегиями, но её успех зависит от дополнительной настройки и тестовых стратегий.
Модель o3, обученная только с RL и без доменно-специфичных стратегий, демонстрирует ещё более высокую производительность, достигая результатов на уровне элитных программистов мира как на CodeForces, так и на IOI.
Применение в реальных задачах:
Масштабирование RL для общего использования, а не применение специализированных ручных стратегий, является эффективным путём достижения передового уровня ИИ в задачах рассуждения и программирования.
Статья

✔️ Google о квантовых вычислениях «Наш последний прорыв: мы смогли выполнить сложные вычисление за 5 минут, на что одному из самых быстрых суперкомпьютеров в мире потребовалось бы более 10 миллиардов лет — это дольше, чем существует наша Вселенная».
Тред

✔️ Илон Маск анонсировал выпуск новой версии Grok 3 от его стартапа xAI. Он заявил, что это будет «самый умный ИИ на земле»
Релиз состоится 18 февраля в 04:00 (GMT+3). Похоже, что Grok-3 выйдет с режимом рассуждений.

✔️ Вслед за «Последним экзаменом человечества» ScaleAI
выпустили новую очень сложную оценку рассуждений LLM:

EnigmaEval: 1184 мультимодальные головоломки, настолько сложные, что на их решение группам людей требуется от многих часов до нескольких дней.
Все топ-модели набрали 0% в Hard set и < 10% в Normal set
Scale

✔️ 4 SOTA модели компьютерного зрения
От оценки позы до обнаружения объектов в реальном времени - свежие, передовые инструменты компьютерного зрения на Hugging Face, которые очень просты в использовании.
- ViTPose для оценки позы
- RT-DETRv2 для обнаружения объектов в реальном времени
- DAB-DETR улучшает оригинальный DETR, решая проблемы медленного обучения
- DepthPro от Apple для оценки глубины на одном изображении, выдавая расстояния на уровне пикселей в метрах менее чем за секунду.

✔️ Computer use ootb
Свежий инструмент, который представляет собой готовое решение для создания десктопного GUI-агента. С его помощью можно отдавать команды и автоматизировать задачи на ПК (Windows и macOS) через веб-интерфейс, доступный с любого устройства с интернетом.
Github

@ai_machinelearning_big_data


#news #ai #ml #openai #grok #grok3 #Microsoft #ScaleAI #elonmusk #cv #sota #opensource #agents
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4914🔥9😁2🐳1
🌟 DeepSearcher: ИИ-комбайн для ваших данных.

Проект объединяет использование LLM, векторные базы данных для выполнения задач поиска, оценки, ризонинга на основе предоставленных данных (файлы, текст, источники).

Позиционируется разработчиками как инструмент для управления знаниями предприятия, интеллектуальных QA-систем и сценариев поиска информации.

DeepSearcher умеет использовать при необходимости информацию из интернета, совместим с векторными базами Milvus и их сервис-провайдером Zilliz Cloud, эмбедингами Pymilvus, OpenAI и VoyageAI. Есть возможность подключения LLM DeepSeek и OpenAI по API напрямую или через TogetherAI и SiliconFlow.
Поддерживается локальная загрузка файлов, подключение веб-краулеров FireCrawl, Crawl4AI и Jina Reader.

В ближайших планах - добавление возможности веб-клиппера, расширение списка поддерживаемых векторных баз, создание RESTful API интерфейса.

▶️ Локальная установка и запуск:

# Clone the repository
git clone https://github.com/zilliztech/deep-searcher.git

# Create a Python venv
python3 -m venv .venv
source .venv/bin/activate

# Install dependencies
cd deep-searcher
pip install -e .

# Quick start demo
from deepsearcher.configuration import Configuration, init_config
from deepsearcher.online_query import query

config = Configuration()

# Customize your config here
config.set_provider_config("llm", "OpenAI", {"model": "gpt-4o-mini"})
init_config(config = config)

# Load your local data
from deepsearcher.offline_loading import load_from_local_files
load_from_local_files(paths_or_directory=your_local_path)

# (Optional) Load from web crawling (`FIRECRAWL_API_KEY` env variable required)
from deepsearcher.offline_loading import load_from_website
load_from_website(urls=website_url)

# Query
result = query("Write a report about xxx.") # Your question here


📌Лицензирование: Apache 2.0 License.


🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Agents #DeepSearcher
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5519🔥7🐳3👌2🙈1💘1
⚡️Agentic Reward Modeling –свежий проект от THU-KEG, цель которого переосмыслить подход к обучению агентных систем.

Этот инструмент направлен на разработку методов вознаграждения, где агент не просто выполняет команды, а учится понимать свои действия в контексте более сложных задач и долгосрочных целей.

Основные особенности:

- Вместо стандартных методов RL, где вознаграждения зачастую зависят от заранее заданных критериев, здесь акцент сделан на выработку более сложных стратегий, адаптирующихся под изменяющуюся среду и цели.
- Инструмент помогает моделировать вознаграждения таким образом, чтобы агент мог самостоятельно корректировать свои действия, учиться на ошибках и, в итоге, демонстрировать более «человеческое» принятие решений.
- Разработчики могут использовать данный подход в многоагентных системах и комплексных задачах, где важна динамическая оценка эффективности действий.

Этот инструмент интересен не только своим теоретическим потенциалом, но и практическими применениями в области создания более автономных и интеллектуальных систем. Agentic Reward Modeling открывает новые возможности для исследования агентов, способных обучаться в реальном времени, что делает его перспективным для дальнейших исследований и интеграций в реальные приложения.

Paper: https://arxiv.org/abs/2502.19328
Code:
https://github.com/THU-KEG/Agentic-Reward-Modeling

@ai_machinelearning_big_data

#ai #ml #opnesource #agents #aiagents
👍3110🔥5