MatterSim - усовершенствованная модель глубокого обучения в области материаловедения, предназначенная для моделирования свойств материалов в широком диапазоне элементов, температур и давлений. Она способна точно предсказывать свойства материалов по всей периодической таблице в диапазоне температур от 0 до 5000K и давления до 1000GPa.
MatterSim использует архитектуру M3GNet, которая включает в себя двух- и трехчастичные взаимодействия. Модель обучается с использованием функции потерь, учитывающей энергию на атом, вектор силы на каждом атоме и напряжение.
Особенность MatterSim - способность к активному и непрерывному обучению. Модель способна оценивать неопределенность своих прогнозов и выбирать структуры для активного обучения, что полезно для повышения точности моделирования сложных систем. MatterSim может быть настроена для моделирования на произвольном уровне теории.
Модель демонстрирует высокую точность в предсказании свободной энергии Гиббса и 10-кратное улучшение точности по сравнению с универсальными силовыми полями, обученными на траекториях релаксации на наборах данных MPF-TP и Random-TP.
Модель может быть точно настроена для атомистических симуляций на желаемом уровне теории или для прямых предсказаний "структура-свойство"с сокращением требований к данным до 97%.
⚠️ Рекомендуется устанавливать MatterSim с помощью
mamba
или micromamba
, поскольку conda может работать значительно медленнее при разрешении зависимостей в environment.yaml
.# Install package with the latest version
pip install git+https://github.com/microsoft/mattersim.git
# Create env via mamba
mamba env create -f environment.yaml
mamba activate mattersim
uv pip install -e .
python setup.py build_ext --inplace
# Minimal example using ASE calculator
import torch
from ase.build import bulk
from ase.units import GPa
from mattersim.forcefield import MatterSimCalculator
device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"Running MatterSim on {device}")
si = bulk("Si", "diamond", a=5.43)
si.calc = MatterSimCalculator(device=device)
print(f"Energy (eV) = {si.get_potential_energy()}")
print(f"Energy per atom (eV/atom) = {si.get_potential_energy()/len(si)}")
print(f"Forces of first atom (eV/A) = {si.get_forces()[0]}")
print(f"Stress[0][0] (eV/A^3) = {si.get_stress(voigt=False)[0][0]}")
print(f"Stress[0][0] (GPa) = {si.get_stress(voigt=False)[0][0] / GPa}")
@ai_machinelearning_big_data
#AI #ML #DL #Mattersim #Microsoft
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍28🔥15❤6👏1
TRELLIS - модель для создания высококачественных 3D-объектов на основе текстового промпта или изображения с помощью унифицированного представления Structured LATent (SLAT), которое декодирует данные в форматы: Radiance Fields, 3D-гауссианы и полигональные сетки.
SLAT обладает универсальностью, используя комбинацию из разреженной 3D-сетки и плотных визуальных признаков, извлеченных моделью DINOv2 из входного изображения.
TRELLIS использует модифицированные rectified flow transformers, адаптированные для работы с SLAT. Обучение набора моделей TRELLIS, размерами до 2 млрд. параметров, выполнялось на датасете из 500 тыс. разнообразных 3D-объектов.
Пока в открытый доступ опубликована только Image-to-3D версия - TRELLIS-image-large с 1.2 млрд. параметров. Остальные вариации модели для генерации 3D по тексту: TRELLIS-text-base (342М), TRELLIS-text-large (1.1В) и TRELLIS-text-xlarge (2В) и код для их трейна будут представлены позже (сроки не указаны).
⚠️ Для локального запуска TRELLIS-image-large рекомендуется NVIDIA GPU с VRAM 16GB или больше.
# Clone repo
git clone --recurse-submodules https://github.com/microsoft/TRELLIS.git
cd TRELLIS
# Create conda env and install dependencies
. ./setup.sh --new-env --basic --flash-attn --diffoctreerast --spconv
--mipgaussian --kaolin --nvdiffrast
# Install web demo via Gradio
. ./setup.sh --demo
# Run WebUI
python app.py
@ai_machinelearning_big_data
#AI #ML #ImageTo3D #Trellis #Microsoft
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤23👍18🔥5🥰3🤩1
VidTok – универсальный и открытый видео токенизатор, демонстрирующий высокую производительность как в непрерывной, так и в дискретной токенизации.
Токенизация видео, преобразующая исходные данные в компактные латентные токены - важнейший шаг для задач генерации и понимания видео. VidTok предлагает ряд улучшений, которые позволяют ему превзойти существующие методы: модельную архитектуру, методы квантования и стратегии обучения.
В архитектуре VidTok пространственное и временное сэмплирование обрабатываются раздельно, используя 2D свертки для пространственных модулей и оператор AlphaBlender для временных, при этом сохраняя 3D свертки для слияния информации.
Для дискретной токенизации используется конечное скалярное квантование (FSQ), которое оптимизирует неявный кодовый словарь, улучшая стабильность обучения. Эффективность обучения достигается двухэтапной стратегией: предварительное обучение на видео с низким разрешением, а затем дообучение декодера на видео с высоким разрешением.
VidTok обучался на датасете видеоданных с разным разрешением (400 000 видео 480p и 10 000 видео 1080p). Производительность измерялась с использованием метрик PSNR, SSIM, LPIPS и FVD, результаты показали превосходство VidTok по сравнению с другими токенизаторами как в дискретной, так и в непрерывной токенизации.
При сравнении с MAGVIT-v2, OmniTokenizer, CV-VAE, Open-Sora и Cosmos-Tokenizer, VidTok достиг лучших показателей, с меньшим размером модели.
vidtok
- базовое название;kl
или fsq
- тип регуляризации и квантования латентного пространства;causal
или noncausal
- тип обработки временной информации (покадрово или все кадры сразу);488
или 41616
- компрессионное соотношение (VCR), которое определяет степень сжатия видео по времени, высоте и ширине. Например, 4x8x8 и 4x16x16;4chn
, 8chn
или 16chn
- количество каналов в латентном пространстве для непрерывных токенизаторов. Чем больше каналов - тем качественней видео;262144
, 32768
или 4096
- размер codebook для дискретных токенизаторов с использованием FSQ. Чем больше - тем точнее представлятся информация.# Clone repo
git clone https://github.com/microsoft/VidTok
cd VidTok
# Create conda env
conda env create -f environment.yaml
conda activate vidtok
# Inference
import torch
from scripts.inference_evaluate import load_model_from_config
cfg_path = "configs/vidtok_kl_causal_488_4chn.yaml"
ckpt_path = "checkpoints/vidtok_kl_causal_488_4chn.ckpt"
is_causal = True
device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
# load pre-trained model
model = load_model_from_config(cfg_path, ckpt_path)
model.to(device).eval()
# random input
num_frames = 17 if is_causal else 16
x_input = (torch.rand(1, 3, num_frames, 256, 256) * 2 - 1).to(device) # [B, C, T, H, W], range -1~1
# model forward
_, x_recon, _ = model(x_input)
assert x_input.shape == x_recon.shape
@ai_machinelearning_big_data
#AI #ML #Microsoft #VidTok
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍26❤7🔥4
🔥 Microsoft только что выпустила Phi-4 LLM, обученный на 9,4 триллионах токенов.
Лицензия MIT!
🤗 HF: https://huggingface.co/microsoft/phi-4
🧠 Demo: https://huggingface.co/spaces/Tonic/Phi-4
@ai_machinelearning_big_data
#phi4 #llm #Microsoft
Лицензия MIT!
🤗 HF: https://huggingface.co/microsoft/phi-4
@ai_machinelearning_big_data
#phi4 #llm #Microsoft
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍68❤18🔥11🤔2🤬1😐1