🕹 Wan-Move: открытая альтернатива Kling 1.5 Pro для контролируемой генерации движений на видеоКоманда Tongyi Lab из Alibaba, Университета Цинхуа и Гонконгского университета представила Wan-Move — открытую модель для точного управления движением в генеративных видео. В пользовательских тестах модель превзошла коммерческий Kling 1.5 Pro по качеству движения и может применяться для создания маркетингового контента, анимации и обучающих материалов, где критичен контроль траекторий объектов.Wan-Move генерирует 5-секундные видео 480p без дополнительных энкодеров, не требуя изменений архитектуры базовой модели Wan-I2V-14B.Метод использует траектории точек: для каждой траектории модель копирует признаки из стартовой позиции первого кадра во все соответствующие позиции последующих кадров в латентном пространстве. Скопированные признаки сохраняют визуальный контекст (объекты, текстуры, цвета) и одновременно задают направление движения.В тесте, где пользотелям предлагали выбрать лучший вариант из двух генераций, Wan-I2V-14B превзошла Kling 1.5 Pro по качеству движения в 53.4% случаев, а другие открытые методы в 96% случаев.Модель Wan-Move-14B-480P доступна на GitHub, веса на Hugging Face под лицензией Apache 2.0.#Stateoftheart
Neurohive
@neurohive · 4.6K подписчиков
Посты канала Neurohive в SillyFeed: единая лента публичных Telegram-каналов со ссылками на оригиналы.
Новости нейросетей. Open source модели и методы, AI-агенты, deep learning, big data, machine learning, NLP, computer vision.По вопросам сотрудничества:@cyrud
Посты канала
MinerU2.5: открытая 1.2B модель для парсинга документов обходит Gemini-2.5 Pro на бенчмаркахКоманда Shanghai AI Lab представила MinerU2.5 — VL-модель с 1.2B параметров для высокоточного парсинга PDF документов. Вместо пайплайна моделей используется единая VL-модель и двухэтапная стратегия обработки: анализ структуры на уменьшенном изображении и детальное распознавание фрагментов в исходном разрешении. Архитектура оптимизирована для RAG систем и подготовки обучающих данных для LLM — сохраняет семантическую целостность таблиц, формул и структуры документов.MinerU показывает лучшие результаты на бенчмарке OmniDocBench (90.67) среди всех моделей, превосходит Gemini-2.5 Pro, GPT-4o, Qwen2.5-VL-72B и специализированные модели: MonkeyOCR, dots.ocr. Скорость обработки выше конкурентов: 2337 т/с на A100 (2.12 страницы в секунду) — в 4 раза быстрее MonkeyOCR-Pro-3B и в 7 раз быстрее dots.ocr. Модель в 60 раз компактнее Qwen2.5-VL-72B при сопоставимом качестве. Код доступен на GitHub под лицензией Apache 2.0, веса модели — на Hugging Face.#Stateoftheart
Исследователи Apple представили Manzano — новый архитектурный подход к созданию унифицированных мультимодальных моделей. Модель Manzano-3B показывает результаты на уровне топовых 7B моделей. Унифицированные модели - они одновременно понимают и генерируют изображения - сталкиваются с конфликтом: понимание изображений лучше работает с непрерывными представлениями, а генерация — с дискретными токенами. Когда используются отдельные токенизаторы (например, CLIP для понимания и VQ-VAE для генерации), модель вынуждена обрабатывать два разных типа представлений — высокоуровневые семантические признаки и низкоуровневые пространственные токены. Это создает конфликт в архитектуре, ухудшая производительность. Исследователи предлагают гибридный токенизатор с единым кодировщиком зрения и двумя адаптерами — один выдает непрерывные представления для понимания, другой дискретные токены для генерации. Оба работают в общем семантическом пространстве. По результатам на бенчмарках Manzano-3B превосходит унифицированные модели до 7B параметров. Особенно хорошо метод показал себя на задачах понимания текста в изображениях показывает DocVQA: 93.5 против 40.8 у Janus-Pro-7B. В генерации достигает GenEval: 0.85. Apple пока не выпустил открытую реализацию, однако архитектурные принципы могут найти применение в разработках.#Stateoftheart
Ещё по теме «Технологии»
ТехнологииНе самое свежее, но любопытное исследование доказывает, что человек работает ИИ-детектором лучше любого сервиса. Исследователи дали 300 статей на проверку людям и AI-детекторам, часть статей в выборке были настоящие, из NYT и Scientific American, а часть сгенерированные GPT-4o (помним, скорбим), Claude 3.5 Sonnet и o1-Pro, в том числе с перефразированием и «гуманизацией». Результат весьма впечатляющий — пять редакторов, которые сами постоянно используют LLM для написания текстов, ошиблись в одной (!) статье из трёхсот. Им не понадобилось какое-то специальное обучение, хватило собственной насмотренности. Эксперты замечают характерные для ИИ слова, шаблонные вводные словосочетания и выводы, фейковые цитаты вымышленных экспертов, отсутствие стилистических шероховатостей. При этом опенсорсные детекторы вроде Binoculars и Fast-DetectGPT на гуманизированных текстах o1-Pro показали точность 6,7% и 23,3% соответственно. А люди — 100% 🙂А вот люди, которые LLM не пользуются, сработали в исследовании на уровне подбрасывания монетки — путали «сложные слова» с признаком AI и считали грамматические ошибки маркером машины (хотя тут, конечно же, наоборот).Короче, лучший детектор нейросетевого текста — человек, который сам каждый день пишет с нейросетью, и я готов лично подписаться под этим выводом. Но если честно, иногда хочется развидеть растущий вокруг нейрослоп. Ну или хотя бы немного с ним побороться.—Пономарь
Эксплуатационные требования к видеонаблюдению. Начало.Может быть когда-то я и напишу свою книгу, но для этого надо быть чуть более отважным и чуть более слабоумным...Поэтому пока я недостаточно отважен и не совсем ещё выжил из ума предлагаю вам свой пересказ прочитанной мною книги. На этот раз это будут рекомендации подразделения научных разработок МВД Великобритании для составления эксплуатационных требований к системам видеонаблюдения.Я буду, опираясь, на эти рекомендации собирать и свой опыт, добавлять имеющиеся у меня данные о том, как происходит внедрение систем видеонаблюдения в моём окружении и информационном поле.Когда речь заходит о проектировании системы видеонаблюдения, очень многие начинают с привычного набора вопросов:Сколько камер поставить? Какие камеры выбрать? Сколько мегапикселей нужно?Какой регистратор взять? Сколько хранить архив? Нужна ли видеоаналитика? А можно подешевле? *это, пожалуй, самый страшный и самый глубокий вопросВопросы вроде бы правильные. Но есть одна неприятная деталь: если начать с них, можно очень уверенно спроектировать систему, которая технически работает, но практически не решает задачу. Любая подсистема безопасности, будь то СВН, ОПС, СКУД, периметральная охрана (я имею ввиду ТСОБ) или что0то другое должна начинаться с самого важного документа - КСБ - концепция систем безопасности, где будет описаны основные требования и определения.Если закупать оборудование по принципу "вот тут надо посмотреть за входом, а там дальше разберёмся" то получается почти всегда плохо. Камеры показывают картинку. Регистратор пишет архив. Монитор выводит изображение. Сервер обрабатывает потоки. Всё включается, мигает, записывает и даже иногда радует заказчика первые пару недель. А потом происходит инцидент, и выясняется, что лица не видно, номер не читается, оператор не понял, куда смотреть и что делать с тем что увидел, архив нашли только через три дня, а нужный фрагмент почему-то не записался или уже затёрся.На этом месте обычно начинается великая русско-интеграторская драма: заказчик говорит, что система плохая, проектировщик говорит, что всё было по СНИПам, ГОСТам, нормам, монтажник говорит, что поставил как нарисовали и как заплатили, поставщик говорит, что камеры хорошие, а служба эксплуатации молча смотрит в монитор и думает о смене профессии.Проблема в том, что система видеонаблюдения должна начинаться не с камеры. Она должна начинаться с эксплуатационных требований.Читать многабукав 👇TELEGRAPHDZEN
Проверить упоминания вашего бренда в ИИ-выдаче можно в инструменте____@prcynewshttps://pr-cy.ru/ai-serp/

Клоду можно сказать: Не ошибайся. НЕ ГАЛЛЮЦИНИРУЙ. ТЫ РАЗРАБОТЧИК ЭКСПЕРТ.Всегда буду так делать теперь.

🚀 Fine-tuning LLM теперь можно делать даже на ноутбукеС помощью ноутбука от Unsloth AI можно дообучать Gemma 4 с 8GB VRAM.Это уровень обычной GPU или даже бесплатного Colab T4.🔗 Ссылка на ноутбук📍 Навигация: Вакансии • Задачи • СобесыБиблиотека дата-сайентиста#буст

Новые версии продукта - типа, новые ощущения !?Расскажите это админам новомодного S/4HANA.Тут вот на значительном ряде современных ядер от 753 по 919 включительно в утилите tp обнаружили баг, которому наверное "отчень много лет". Ну или мне так показалось..🤓История такая:1) Запрос транспортный успешно отрелизили в разработке.2) Далее мы импортируем его в систему качества для "QA Approval/Rejection"3) Открываем очередь STMS_QA , а там йок(‼), нету нужного запроса.Решение стандартное: качаем свежую версию tp и обновляем в системах.Далее список из версий tp в которых безобразие это - вылечено:KERNEL919: tp 381.733.04KERNEL918: tp 381.715.04KERNEL917: tp 381.709.04KERNEL916: tp 381.700.04KERNEL793: tp 381.588.04KERNEL789: tp 381.577.04KERNEL754: tp 381.40.04KERNEL753: tp 381.30.04(imho) про ядро 777, как обычно успешно забыли...!?#STMS_QA_BUG#TP#KERNEL919#KERNEL753
В НИИ прикладной химии разработали патрон, который способен противостоять дронам. Он может поражать БПЛА на дальности до 100 метров.По словам авторов разработки, соотношение массы тяжелой дроби к массе всего патрона дает возможность получить нужную энергию отдельных дробин, позволяющую разрушать элементы конструкции беспилотников на расстоянии от 70 до 100 метров. В более ранних разработках попадание связанной дроби не всегда заканчивалось сбитием дронов на дальностях более 80 метров.Особенность устройства патрона позволяет раскрыться осыпи дроби на оптимальном расстоянии «для эффективного поражения БПЛА».
Слева новый первый день. А справа мой первый Macbook Pro 13" Late 2013 который взял в феврале 2014 года. Прошло 12 лет, 3 замены батарейки и он всё ещё работает, правда уже на Linux :) Самое удивтельное у него всё ещё отличный на сегодня экран, клавиатура, тачпад. Пережил падения, удары и всё равно не выглядит уставшим, а яблочко всё ещё светится сздади) А когда я на нём на парах, записывая лекцию, в Parallels играл в винде в ArcheAge притом писал скрипты по посадке урожая xDИстория однако
Плотная линия - изменение импорта в США связанных с ИИ отраслей, прерывистая - импорта не связанных с ИИ отраслей.Когда вся твоя экономика сделала ставку на продвинутую форму автокорректа.
OpenAI Codex vs Claude Code vs Amp Code vs OpenCode + DS4 ProЯ сегодня закончил сложный рефактор проекта ядра BitGN. И состояние кода теперь просит генеральной уборки.Из интереса я задал один и тот же вопрос разным агентам:Scan through the repository on a high level (ignore code under /modules). I want you to suggest ways, how we can make it more simple and straightforward, refactor away traces of growing pains. Focus on small changes that allow to drop code, or reduce cognitive complexity with a small LOC change cost.OpenAI Codex с GPT-5.5 High потратил 3 минуты и 132k tokens из подписки и предложил:(1) удалить папку /dbg с начинкой - давно пора(2) переименовать пакет stor в store - можно(3) упростить ULID генератор - да, можно(4) убрать AddVMCreateds - можно(5) зарефакторить run finalization/push - надо посмотреть(6) удалить public-release backfill - да, это прямо точно можно(7) почистить Makefile - мелочь, но можно(8) почистить раутинг до виртуальных машин- да, теперь можно(9) утащить виртуальную FS в PAC1 - имеет смыслAmp Code в deep thinking потратил 4 минуты и 90 центов, выдал список первоочередных изменений, которые пересекаются с кодексом:(1) Удалить папку /dbg с начинкой - ok(2) упростить раутинг до виртуальных машин - да, можно(3) зарефакторить run finalization/push - надо посмотреть(4) убрать public-release backfill - ok(5) убрать fx.VM интерфейс и поправить доки - да, действительноClaude Code + Opus 4.7 XHigh потратил 8 минут (говорит, что 2$ из подписки) и предложил прежде всего:(1) убрать fx.VM интерфейс - ок(2) убрать helper err(), который код сильно упрощает - нет(3) оптимизировать ненужные конструкторы storage - надо смотреть(4) переместить файлы с интерфейсами айдишников в файл с интерфейсами IO, ибо “используются вместе и сэкономят одну строчку кода” - нет, спасибо(5) удалить пустую папку /cmd - она даже не в git, но ок(6) удалить proto_api/bitgn/vm/ecom.proto - и оставить вас без интерфейса к соревнованию. Нет, спасибо.OpenCode + DeepSeek V4 Pro потратил 1.15$ + 6 минут и предложил:(1) слить файлы с конфигами - и так нормально(2) переместить файлы с интерфейсами айдишников в файл с интерфейсами IO - как и Claude. Нет, спасибо.(3) удалить папку dbg с начинкой - ok(4) удалить пустую папку с /cmd - ну ок(5) заменить lib/set.go на inline map[string]struct{} - ни в коем случае, это код упрощает(6) удалить systemd socket activation logic, ибо “the most complex code”, что сразу уронило бы все сервера.OpenCode +DS4 Pro пока совсем сыроват. Ответы Claude Opus немного лучше. Codex идет в работу. Amp тоже нашел толковое без шума, но меньше Кодекса.Ваш, @llm_under_hood 🤗