GeoWizard — генеративная модель, использующая алгоритмы построения гарт глубины и нормалей одновременно. Во время логического вывода GeoWizard совместно генерирует высококачественные изображения глубины и нормальности, учитывая композицию изображения.
Модель использует алгоритм BiNI для восстановления 3D-сетки на основе предполагаемой карты нормалей, что значительно облегчит применение модели на методах 3D-реконструкции.
git clone git@github.com:fuxiao0719/GeoWizard.git
cd
GeoWizard
conda create -n geowizard python
=
3.9
conda activate geowizard
pip install -r requirements.txt
cd
geowizard
@ai_machinelearning_big_data
#Normal #3D #Depthmap #Generative #Ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥22👍14❤4👏1
⚛️ Исследователи из MIT разработали новый инструмент на основе генеративного ИИ, предназначенный для анализа сложных табличных данных в базах данных
Этот инструмент, называемый GenSQL, основан на языке программирования SQL и позволяет пользователям выполнять сложные статистические анализы без глубокого понимания внутренних механизмов. GenSQL может использоваться для прогнозирования, обнаружения аномалий, заполнения пропущенных значений, исправления ошибок и создания синтетических данных. Система интегрирует табличный набор данных и генеративную вероятностную модель ИИ, которая может учитывать неопределенность и корректировать процесс принятия решений на основе новых данных.
Одно из основных преимуществ GenSQL заключается в его способности обрабатывать сложные запросы, комбинируя анализ данных и модели. Например, система может определить вероятность того, что разработчик из Сиэтла знает язык программирования Rust, учитывая не только корреляцию между столбцами в базе данных, но и более сложные зависимости. Кроме того, вероятностные модели, используемые GenSQL, являются прозрачными и аудируемыми, что позволяет пользователям видеть, какие данные используются для принятия решений и получать оценку уровня неопределенности.
В ходе исследования GenSQL был сравнен с другими популярными методами, основанными на нейронных сетях, и показал значительно более высокую скорость и точность. Исследователи планируют продолжить разработку инструмента, сделав его более доступным и мощным, а также расширить его возможности для обработки больших объемов данных и обработки естественного языка, чтобы в конечном итоге создать эксперта по ИИ, подобного ChatGPT, для анализа баз данных.
📌 Источник
#базыданных #mit
@ai_machinelearning_big_data
Этот инструмент, называемый GenSQL, основан на языке программирования SQL и позволяет пользователям выполнять сложные статистические анализы без глубокого понимания внутренних механизмов. GenSQL может использоваться для прогнозирования, обнаружения аномалий, заполнения пропущенных значений, исправления ошибок и создания синтетических данных. Система интегрирует табличный набор данных и генеративную вероятностную модель ИИ, которая может учитывать неопределенность и корректировать процесс принятия решений на основе новых данных.
Одно из основных преимуществ GenSQL заключается в его способности обрабатывать сложные запросы, комбинируя анализ данных и модели. Например, система может определить вероятность того, что разработчик из Сиэтла знает язык программирования Rust, учитывая не только корреляцию между столбцами в базе данных, но и более сложные зависимости. Кроме того, вероятностные модели, используемые GenSQL, являются прозрачными и аудируемыми, что позволяет пользователям видеть, какие данные используются для принятия решений и получать оценку уровня неопределенности.
В ходе исследования GenSQL был сравнен с другими популярными методами, основанными на нейронных сетях, и показал значительно более высокую скорость и точность. Исследователи планируют продолжить разработку инструмента, сделав его более доступным и мощным, а также расширить его возможности для обработки больших объемов данных и обработки естественного языка, чтобы в конечном итоге создать эксперта по ИИ, подобного ChatGPT, для анализа баз данных.
📌 Источник
#базыданных #mit
@ai_machinelearning_big_data
🔥41👍18❤4❤🔥1
TTT - это метод, который позволяет моделям искусственного интеллекта адаптироваться и учиться непосредственно во время использования, а не только во время предварительного обучения.
Основное преимущество TTT заключается в том, что он может эффективно обрабатывать длинные контексты (большие объемы входных данных) без значительного увеличения вычислительных затрат.
Исследователи провели эксперименты на различных наборах данных, включая книги, и обнаружили, что TTT часто превосходит традиционные методы.
По сравнительным бенчмаркам с другими популярными методами машинного обучения, такими как трансформеры и рекуррентные нейронные сети, было обнаружено, что в некоторых задачах TTT работает лучше.
Этот революционный метод позволит приблизиться к созданию более гибких и эффективных моделей искусственного интеллекта, способных лучше адаптироваться к новым данным в реальном времени.
На Github опубликованы адаптации метода:
- адаптация под Pytorch
- адаптация под JAX
@ai_machinelearning_big_data
#Pytorch #Jax #TTT #LLM #Training
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤43🔥26👍10🎉2⚡1
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Paints-Undo — это проект lllyasviel ( разработчик ForgeUI, FooocusUI, Controlnet, IC-Light ), целью которого является предоставление базовых моделей человеческого поведения при рисовании с надеждой, что будущие модели искусственного интеллекта смогут лучше соответствовать реальным потребностям людей-художников.
Проект представляет собой семейство моделей, которые принимают изображение в качестве входных данных, а затем выводят последовательность рисования этого изображения.
Модель отображает все виды человеческого поведения: рисование эскизов, рисование, раскрашивание, затенение, преобразование форм, переворот влево-вправо, настройку цветовой кривой, изменение видимости слоев, изменение общей идеи в процессе рисования.
Вычислительные потребности: 24 ГБ VRAM на Nvidia 4090 и 3090TI, минимальные потребности - 12-16 ГБ VRAM.
На обработку одного изображения уйдет в среднем 5-10 минут для видео длительностью 25 секунд с FPS=4 в разрешении 512х320 и ниже.
Проект состоит из 2 моделей :
Paints_undo_single_frame - модель берет 1 изображение и каждый указанный шаг за отдельную итерацию в обратном от результата порядке (пояснение на примере с живым рисованием, где одно движение кисти = одному шагу для модели. Диапазон шагов: от 0 до 999, где 0 - законченное изображение, а 999 - первое движение кисти.)
Paints_undo_multi_frame - модель берет 2 изображения и выводит 16 промежуточных кадров между двумя входными изображениями. Результат гораздо более последовательный, чем у однокадровой модели, но также намного медленнее, менее «творческий» и ограничен 16 кадрами.
Архитектура моделей представляет собой модифицированную SD 1.5, помимо этого включает компоненты 3D-UNet, VAE, CLIP, CLIP-Vision, Image Projection.
Локальный запуск:
git clone https://github.com/lllyasviel/Paints-UNDO.git
cd Paints-UNDO
conda create -n paints_undo python=3.10
conda activate paints_undo
pip install xformers
pip install -r requirements.txt
python gradio_app.py
@ai_machinelearning_big_data
#Image2Video #Image2Sketch #Diffusers #Research
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31❤12🔥7😢5🥰2😁1🤔1
⚡️ Дайджест интересных новостей
💰 Оценка компании TSMC Co. на короткое время превысила 1 триллион долларов из-за набирающей обороты "гонки за AI". Bloomberg
🟢 Nvidia объявила новый конкурс на создание набора данных с открытым исходным кодом для обучения студентов-магистров по проектированию аппаратного обеспечения с целью в конечном итоге автоматизировать разработку будущих графических процессоров. Nvlabs.Github
🖼 Magnific AI представила новый плагин Photoshop, позволяющий пользователям использовать инструмент масштабирования и улучшения изображения непосредственно в интерфейсе самого популярного редактора графики от Adobe. MagnificAI
👨🏻💻 Платформа Poe (принадлежит Quora) запустила «Previews» — новую функцию, позволяющую пользователям создавать веб-приложения и взаимодействовать с ними непосредственно в чатах, используя Claude 3.5 Sonnet. TechCrunch
🇯🇵 Министерство обороны Японии опубликовало свою первую базовую политику по использованию искусственного интеллекта в военных целях, направленную на решение проблем с набором персонала и не отставание от мировых держав в оборонных технологиях.. The Japan times
🎦 "Менее чем через год будет создано видео с помощью искусственного интеллекта в реальном времени...": интервью главного научный сотрудник Luma Labs. Andersen Horowitz
👩⚕️ Thrive AI Health, стартап, финансируемый OpenAI и Thrive Global, использует ИИ для предоставления персонализированных медицинских консультаций. Помощник с искусственным интеллектом может использовать данные человека, чтобы давать рекомендации по сну, диете, физическим упражнениям, управлению стрессом и социальным связям. Time
⚡️Groq представила молниеносный механизм LLM. Он может обрабатывать запросы со скоростью более 1250 токенов в секунду, что намного быстрее, чем могут делать чипы графических процессоров таких компаний, как Nvidia. Это позволяет движку Groq практически мгновенно отвечать на запросы и задачи пользователей. Venturebeat
🇨🇳 Microsoft не будет следовать за OpenAI в блокировании доступа Китая к моделям искусственного интеллекта. Модели OpenAI доступны клиентам через Microsoft Azure.
Seekingalpha
#news #digest
@ai_machinelearning_big_data
💰 Оценка компании TSMC Co. на короткое время превысила 1 триллион долларов из-за набирающей обороты "гонки за AI". Bloomberg
🟢 Nvidia объявила новый конкурс на создание набора данных с открытым исходным кодом для обучения студентов-магистров по проектированию аппаратного обеспечения с целью в конечном итоге автоматизировать разработку будущих графических процессоров. Nvlabs.Github
🖼 Magnific AI представила новый плагин Photoshop, позволяющий пользователям использовать инструмент масштабирования и улучшения изображения непосредственно в интерфейсе самого популярного редактора графики от Adobe. MagnificAI
👨🏻💻 Платформа Poe (принадлежит Quora) запустила «Previews» — новую функцию, позволяющую пользователям создавать веб-приложения и взаимодействовать с ними непосредственно в чатах, используя Claude 3.5 Sonnet. TechCrunch
🇯🇵 Министерство обороны Японии опубликовало свою первую базовую политику по использованию искусственного интеллекта в военных целях, направленную на решение проблем с набором персонала и не отставание от мировых держав в оборонных технологиях.. The Japan times
🎦 "Менее чем через год будет создано видео с помощью искусственного интеллекта в реальном времени...": интервью главного научный сотрудник Luma Labs. Andersen Horowitz
⚡️Groq представила молниеносный механизм LLM. Он может обрабатывать запросы со скоростью более 1250 токенов в секунду, что намного быстрее, чем могут делать чипы графических процессоров таких компаний, как Nvidia. Это позволяет движку Groq практически мгновенно отвечать на запросы и задачи пользователей. Venturebeat
🇨🇳 Microsoft не будет следовать за OpenAI в блокировании доступа Китая к моделям искусственного интеллекта. Модели OpenAI доступны клиентам через Microsoft Azure.
Seekingalpha
#news #digest
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍28❤5🔥2
GraphRAG использует графы знаний для улучшения ответов на запросы. Во время запроса система обращается к графу знаний и использует резюме сообществ и связи между сущностями для формирования контекста, который помогает LLM дать более точный ответ, чем традиционные методы, основанные на поиске по векторным сходствам.
Архитектура GraphRAG состоит из ключевых компонентов:
Indexer : разделяет корпус данных на мелкие текстовые блоки (TextUnits), извлекает из них сущности, связи и ключевые утверждения.
Clustering : группирует данные в иерархическую структуру с использованием метода Лейдена, создавая граф знаний.
Community Summarization : генерирует обобщенные описания для каждой группы данных, что помогает в понимании контекста и смыслового связывания всей информации.
Knowledge Graph : структура, объединяющая сущности и их связи, созданная на основе данных.
GraphRAG значительно улучшает работу моделей языка с частными данными, позволяя им более точно и полно отвечать на сложные вопросы, требующие синтеза информации из разных источников.
⚠️ Рекомендации и предупреждения:
- Эффективность индексации зависит от правильной идентификации понятий
- Индексация может быть дорогостоящей, рекомендуется создание тестового набора данных
- Система предназначена для опытных пользователей в предметной области
- Необходим анализ ответов человеком для получения достоверной информации
- Методология наиболее эффективна на текстовых данных с общей темой и множеством сущностей
📄 Документация:
🟡Страница проекта
🟡Arxiv
@ai_machinelearning_big_data
#LLM #GraphRAG #ML #RAG #NLP #Deeplearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍28❤12🔥6😁1
Диффузионные модели показывают замечательные результаты при создании изображений. Однако из-за квадратичного увеличения памяти при генерации изображений сверхвысокого разрешения (например, 4096×4096) разрешение генерируемых изображений часто ограничивается 1024×1024.
Inf-DiT предлагает однонаправленный механизм внимания блоков, который может адаптивно регулировать затраты памяти во время процесса вывода и обрабатывать глобальные зависимости.
Комплексные эксперименты показывают, что этот метод демонстрирует отличную производительность при создании изображений сверхвысокого разрешения.
По сравнению с широко используемыми структурами UNet, Inf-Dit может 5-кратно сократить использование VRAM при генерации изображений размером 4096 × 4096.
Адаптацию для ComfyUI обещают к концу июля.
#Upscale #DiT #Diffusers #Img2Img
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍34🔥11❤5
Semantic-SAM — экспериментальный метод сегментации изображений, опирающийся на на Mask DINO, OpenSeeD, SEEM и VLPart, выполняющий интерактивную сегментацию с возможностью управления уровнем детализации и семантической осведомленностью.
Этот проект - первая попытка обучения модели и на наборах данных (SA-1B) и на данных по сегментации фрагментов изображений (SAM).
Бенчмарки проведенные в ходе исследования демонстрируют, что такое обучение положительно сказывается на точности Semantic-SAM.
🤗 Попробовать интерактивную демонстрация многоуровневой детализации
🤗 Попробовать авто-генерацию с контролируемой детализацией
@ai_machinelearning_big_data
#ML #SAM #Segmentation #Recognition
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍28❤8🥰4
К презентации на ICML 2024, MetaResearch опубликовали обновленную версию исследования об методах оптимизации LLM с малым количеством параметров для мобильных устройств и представил код для обучения и оценки эффективности таких LLM.
Основная цель проекта - создание компактных и производительных языковых моделей с менее чем миллиардом параметров, способных работать на ресурсно-ограниченных устройствах.
MobileLLM демонстрирует значительное улучшение производительности по сравнению с предыдущими моделями аналогичного размера. Например, версии на 125M и 350M параметров показывают на 2.7% и 4.3% соответственно лучшую точность.
Архитектура разработана с учетом ограничений мобильных устройств по памяти и вычислительной мощности. Применяются методы функции активации (SwinGLU), embedding sharing и группировки внимания.
Методика, представленная в MobileLLM, может быть применен к моделям различных размеров, от 125M до 1.5B параметров.
MobileLLM показывает хорошие результаты в задачах чата и вызова API, приближаясь к производительности гораздо более крупных моделей в некоторых сценариях.
Несмотря на хорошие результаты, MobileLLM все еще уступает по возможностям крупным языковым моделям. Из-за кратно меньшего размера модели, контекст у моделей MobileLLM значительно меньше, чем у классических LLM.
Экспериментальная модель MobileLLM от FB Research еще не опубликована, она проходит юридический аудит и будет представлена позже.
git clone https://github.com/facebookresearch/MobileLLM.git
pip install -r requirements.txt
python pretrain.py --config configs/125m.json # Конфиг для предобучения
python evaluation/evaluate_zero_shot.py --model_path /path/to/your/model # оценка модели на различных задачах (используйте скрипты в из /evaluation/ )
@ai_machinelearning_big_data
#MobileLLM #LLM #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍35❤4🔥4🎉1