329K subscribers
4.21K photos
786 videos
17 files
4.72K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
Media is too big
VIEW IN TELEGRAM
✔️ Искусственные нейроны научились “шептать” настоящим клеткам мозга
Учёные из UMass Amherst создали первый искусственный нейрон, который общается с живыми нейронами с тем же микроскопическим напряжением около 0,1 В, как в мозге.

Устройство использует белковые нанопроволоки бактерий, устойчивые к влаге, что позволяет прямую и энергоэффективную связь с живыми клетками. Большинство предыдущих искусственных нейронов работали на гораздо более высоких напряжениях и мощностях, авторы отмечают, что их устройство потребляет в 10 раз меньше напряжения и в ~100 раз меньше мощности по сравнению с ранними версиями.
sciencealert

✔️ Krea AI - открыли исходный код Krea Realtime
Компания Krea AI выложила в открытый доступ Krea Realtime: 14B модель, которая генерирует видео в реальном времени со скоростью 11 кадров в секунду на одной NVIDIA B200.

Модель основана на Wan 2.1 14B и обучена с помощью метода Self-Forcing, что позволило добиться высокой скорости при всего 4 шагах инференса.
HF

✔️ Google интегрировала Gemini с Google Maps
Gemini теперь использует живые данные Google Maps - часы работы, рейтинги, маршруты и фото из 250 млн локаций. Модель отвечает на вопросы о местах не догадками, а на основе реальных данных. Разработчики могут передавать координаты и встраивать интерактивный виджет карт прямо в приложения.

Фича уже доступна в последних моделях Gemini и может сочетаться с другими инструментами.
Google

✔️ Anthropic представила Claude for Life Sciences - ИИ-партнёра для научных исследований
Anthropic расширила возможности Claude, запустив версию Claude for Life Sciences, созданную для биомедицинских и лабораторных задач. Модель ревзошла человека в тесте Protocol QA (0.83 против 0.79) и интегрируется с ведущими научными платформами - Benchling, BioRender, PubMed, Wiley Scholar Gateway и 10x Genomics.

Claude теперь может выполнять автоматизацию лабораторных процессов - от проверки RNA-seq данных до генерации экспериментальных протоколов, используя систему Agent Skills.

Anthropic также запустила программу AI for Science с бесплатными API-кредитами для исследователей, чтобы ускорить внедрение ИИ в науку.
Claude

✔️ IBM представила компактные LLM для кибербезопасности, которые обгоняют более крупные модели

IBM разработала CyberPal 2.0 (4B–20B параметров), обученные на новом датасете SecKnowledge 2.0 с экспертными форматами и доказательной базой.

Модели показывают на 7-14% лучшие результаты, чем крупные аналоги, в задачах классификации уязвимостей и поиска первопричин.
Успех обеспечен не мощностью, а структурой и логикой рассуждений.
Paper

@ai_machinelearning_big_data


#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5026👍7🥰6🤔5😁2🤝2🐳1🤗1
🌟 NVIDIA OmniVinci: омнимодальная модель, которая бьет рекорды.

OmniVinci - модель, способная одновременно понимать и обрабатывать разные типы информации: текст, изображения, видео и звук.

Модель крайне эффективна, несмотря на то, что была обучена всего на 200 млрд. токенов (что в 6 раз меньше, чем у Qwen2.5-Omni - 1.2 трлн.). Это стало возможным благодаря архитектурным фишкам и тщательному подходу к подготовке данных.

В основе OmniVinci 3 компонента:

🟢Temporal Embedding Grouping (TEG) - упорядочивает эмбеддинги из видео и аудио по временным меткам.

🟢Constrained Rotary Time Embedding (CRTE) - кодирует уже абсолютное время.

🟢OmniAlignNet - выравнивает эмбеддинги видео и аудио в общем латентном пространстве с помощью контрастивного обучения.

Абляция показала, что вклад каждого элемента играет свою важную роль: базовая модель с простой конкатенацией токенов набирает в среднем 45.51 балла. Добавление TEG поднимает результат до 47.72 (+2.21), CRTE — до 50.25 (+4.74 от базовой), а финальный слой в виде OmniAlignNet доводит средний балл до 52.59, что в сумме дает прирост в 7.08 пункта.

Данные для обучения - 24 млн. диалогов, которые пропустили через систему, где отдельная LLM анализирует и объединяет описания из нескольких модальностей, создавая единую и корректную аннотацю.

Итоговый датасет на 36% состоял из изображений, на 21% из звуков, на 17% из речи, 15% - из смешанных данных и на 11% из видео.

В бенчах OmniVinci обошла всех конкурентов. На Worldsense модель набрала 48.23 балла против 45.40 у Qwen2.5-Omni. На Dailyomni - 66.50 против 47.45. В аудио-задачах OmniVinci тоже молодец: 58.40 в MMAR и 71.60 в MMAU.

В распознавании речи модель показала WER 1.7% на датасете LibriSpeech-clean.

Применение модели протестили на практике. В задаче классификации дефектов полупроводниковых пластин, OmniVinci достигла точности 98.1%, что лучше, чем у специализированной NVILA (97.6%), и у более крупную 40-миллиардную VILA (90.8%).


📌Лицензирование кода : Apache 2.0 License.

📌Лицензирование: NVIDIA One Way Noncommercial License.


🟡Страница проекта
🟡Модель
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #NVIDIA #OmniVinci
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4518🔥8🤗3💅3🕊2🤣2
Media is too big
VIEW IN TELEGRAM
✔️ Alibaba представила Qwen3-VL-2B и Qwen3-VL-32B

Qwen3-VL-32B превосходи GPT-5 mini и Claude 4 Sonnet* в задачах STEM, визуальных вопросах (VQA), OCR, анализе видео и агентных сценариях.

При этом у модели всего 32 млрд параметров и она сопоставима, а на некоторых бенчмарках даже превосходит модели на 235 млрд параметров (лучше всего показывает себя на *OSWorld*).

Попробовать / HF

✔️Google выкатили обновление для AI Studio

Значительно прокачали возможности студии по генерации кода. Сгенерированный проекты можно просматривать или дорабатывать прямо в браузере и деплоить. Также добавили прикольный режим «I’m Feeling Lucky», который генерирует случайную идею для вайбкодинга.
aistudio

✔️Умный дизайн DeepSeek OCR

На первый взгляд DeepSeek-OCR кажется просто моделью для распознавания текста. Но на деле - это совершенно новый способ того, как ИИ может хранить и обрабатывать информацию.

Обычно модели работают с текстовыми токенами - каждый кусочек слова превращается в отдельный токен, и при длинных документах их число растёт квадратично, делая работу медленной и дорогой. DeepSeek решает эту проблему иначе: она превращает длинный текст в изображение, кодирует его в набор компактных визуальных токенов и затем восстанавливает текст обратно.

Эксперименты показали: даже при 9–10-кратном сжатии точность OCR остаётся около 97%, а при 20-кратном - около 60%. Это доказывает, что плотные визуальные представления способны нести ту же информацию куда эффективнее, чем обычные текстовые токены.

Ключевая инновация DeepSeek- новый энкодер DeepEncoder, который умеет обрабатывать страницы высокого разрешения без переполнения памяти. Он делает это в три шага: сначала применяет локальное внимание для мелких деталей, затем 16× свёрточное сжатие, а потом глобальное внимание для понимания всей структуры документа. Такая последовательная архитектура сохраняет точность, но радикально снижает число токенов и объём активаций.

Авторы также предлагают механизм «забывания»: старый контекст можно постепенно уменьшать в разрешении, чтобы свежая информация оставалась чёткой, а старая занимала меньше места. DeepSeek - как всегда умницы.
DeepSeek-OCR

✔️Goldman Sachs: экономика США растёт без новых рабочих мест

США входят в фазу "jobless growth"- производительность растёт благодаря ИИ, но найм почти остановился.

Goldman отмечает: компании делают больше с теми же людьми, а реальный рост занятости вне здравоохранения стал отрицательным. Джером Пауэлл описал рынок как “очень мало найма, мало увольнений”, а выпускники всё чаще не могут найти первую работу.

По данным Challenger, планы по найму - на минимуме с 2009 года. Рост есть, рабочих мест - всё меньше.
futurism

✔️Claude Desktop теперь доступен для всех

Anthropic объявила о публичном релизе Claude Desktop - приложения для Mac и Windows.

На Mac теперь можно делать скриншоты, кликать по окнам, чтобы поделиться контекстом с Claude, и управлять агентом голосом.
Скачать для Mac и Windows

@ai_machinelearning_big_data


#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5420🔥9🤗9👏5🤔2🦄2🥰1🎉1