SILLYFEED

Neurohive

@neurohive · 4.6K подписчиков

Открыть канал в Telegram

Посты канала Neurohive в SillyFeed: единая лента публичных Telegram-каналов со ссылками на оригиналы.

Новости нейросетей. Open source модели и методы, AI-агенты, deep learning, big data, machine learning, NLP, computer vision.По вопросам сотрудничества:@cyrud

Посты канала

Neurohive
🕹 Wan-Move: открытая альтернатива Kling 1.5 Pro для контролируемой генерации движений на видеоКоманда Tongyi Lab из Alibaba, Университета Цинхуа и Гонконгского университета представила Wan-Move — открытую модель для точного управления движением в генеративных видео. В пользовательских тестах модель превзошла коммерческий Kling 1.5 Pro по качеству движения и может применяться для создания маркетингового контента, анимации и обучающих материалов, где критичен контроль траекторий объектов.Wan-Move генерирует 5-секундные видео 480p без дополнительных энкодеров, не требуя изменений архитектуры базовой модели Wan-I2V-14B.Метод использует траектории точек: для каждой траектории модель копирует признаки из стартовой позиции первого кадра во все соответствующие позиции последующих кадров в латентном пространстве. Скопированные признаки сохраняют визуальный контекст (объекты, текстуры, цвета) и одновременно задают направление движения.В тесте, где пользотелям предлагали выбрать лучший вариант из двух генераций, Wan-I2V-14B превзошла Kling 1.5 Pro по качеству движения в 53.4% случаев, а другие открытые методы в 96% случаев.Модель Wan-Move-14B-480P доступна на GitHub, веса на Hugging Face под лицензией Apache 2.0.#Stateoftheart
Neurohive
MinerU2.5: открытая 1.2B модель для парсинга документов обходит Gemini-2.5 Pro на бенчмаркахКоманда Shanghai AI Lab представила MinerU2.5 — VL-модель с 1.2B параметров для высокоточного парсинга PDF документов. Вместо пайплайна моделей используется единая VL-модель и двухэтапная стратегия обработки: анализ структуры на уменьшенном изображении и детальное распознавание фрагментов в исходном разрешении. Архитектура оптимизирована для RAG систем и подготовки обучающих данных для LLM — сохраняет семантическую целостность таблиц, формул и структуры документов.MinerU показывает лучшие результаты на бенчмарке OmniDocBench (90.67) среди всех моделей, превосходит Gemini-2.5 Pro, GPT-4o, Qwen2.5-VL-72B и специализированные модели: MonkeyOCR, dots.ocr. Скорость обработки выше конкурентов: 2337 т/с на A100 (2.12 страницы в секунду) — в 4 раза быстрее MonkeyOCR-Pro-3B и в 7 раз быстрее dots.ocr. Модель в 60 раз компактнее Qwen2.5-VL-72B при сопоставимом качестве. Код доступен на GitHub под лицензией Apache 2.0, веса модели — на Hugging Face.#Stateoftheart
Neurohive
Исследователи Apple представили Manzano — новый архитектурный подход к созданию унифицированных мультимодальных моделей. Модель Manzano-3B показывает результаты на уровне топовых 7B моделей. Унифицированные модели - они одновременно понимают и генерируют изображения - сталкиваются с конфликтом: понимание изображений лучше работает с непрерывными представлениями, а генерация — с дискретными токенами. Когда используются отдельные токенизаторы (например, CLIP для понимания и VQ-VAE для генерации), модель вынуждена обрабатывать два разных типа представлений — высокоуровневые семантические признаки и низкоуровневые пространственные токены. Это создает конфликт в архитектуре, ухудшая производительность. Исследователи предлагают гибридный токенизатор с единым кодировщиком зрения и двумя адаптерами — один выдает непрерывные представления для понимания, другой дискретные токены для генерации. Оба работают в общем семантическом пространстве. По результатам на бенчмарках Manzano-3B превосходит унифицированные модели до 7B параметров. Особенно хорошо метод показал себя на задачах понимания текста в изображениях показывает DocVQA: 93.5 против 40.8 у Janus-Pro-7B. В генерации достигает GenEval: 0.85. Apple пока не выпустил открытую реализацию, однако архитектурные принципы могут найти применение в разработках.#Stateoftheart

Ещё по теме «Технологии»

Технологии
Кружок Пономаря
Не самое свежее, но любопытное исследование доказывает, что человек работает ИИ-детектором лучше любого сервиса. Исследователи дали 300 статей на проверку людям и AI-детекторам, часть статей в выборке были настоящие, из NYT и Scientific American, а часть сгенерированные GPT-4o (помним, скорбим), Claude 3.5 Sonnet и o1-Pro, в том числе с перефразированием и «гуманизацией». Результат весьма впечатляющий — пять редакторов, которые сами постоянно используют LLM для написания текстов, ошиблись в одной (!) статье из трёхсот. Им не понадобилось какое-то специальное обучение, хватило собственной насмотренности. Эксперты замечают характерные для ИИ слова, шаблонные вводные словосочетания и выводы, фейковые цитаты вымышленных экспертов, отсутствие стилистических шероховатостей. При этом опенсорсные детекторы вроде Binoculars и Fast-DetectGPT на гуманизированных текстах o1-Pro показали точность 6,7% и 23,3% соответственно. А люди — 100% 🙂А вот люди, которые LLM не пользуются, сработали в исследовании на уровне подбрасывания монетки — путали «сложные слова» с признаком AI и считали грамматические ошибки маркером машины (хотя тут, конечно же, наоборот).Короче, лучший детектор нейросетевого текста — человек, который сам каждый день пишет с нейросетью, и я готов лично подписаться под этим выводом. Но если честно, иногда хочется развидеть растущий вокруг нейрослоп. Ну или хотя бы немного с ним побороться.Пономарь
Divity. Про СВН, СКУД и ОПС.
Эксплуатационные требования к видеонаблюдению. Начало.Может быть когда-то я и напишу свою книгу, но для этого надо быть чуть более отважным и чуть более слабоумным...Поэтому пока я недостаточно отважен и не совсем ещё выжил из ума предлагаю вам свой пересказ прочитанной мною книги. На этот раз это будут рекомендации подразделения научных разработок МВД Великобритании для составления эксплуатационных требований к системам видеонаблюдения.Я буду, опираясь, на эти рекомендации собирать и свой опыт, добавлять имеющиеся у меня данные о том, как происходит внедрение систем видеонаблюдения в моём окружении и информационном поле.Когда речь заходит о проектировании системы видеонаблюдения, очень многие начинают с привычного набора вопросов:Сколько камер поставить? Какие камеры выбрать? Сколько мегапикселей нужно?Какой регистратор взять? Сколько хранить архив? Нужна ли видеоаналитика? А можно подешевле? *это, пожалуй, самый страшный и самый глубокий вопросВопросы вроде бы правильные. Но есть одна неприятная деталь: если начать с них, можно очень уверенно спроектировать систему, которая технически работает, но практически не решает задачу. Любая подсистема безопасности, будь то СВН, ОПС, СКУД, периметральная охрана (я имею ввиду ТСОБ) или что0то другое должна начинаться с самого важного документа - КСБ - концепция систем безопасности, где будет описаны основные требования и определения.Если закупать оборудование по принципу "вот тут надо посмотреть за входом, а там дальше разберёмся" то получается почти всегда плохо. Камеры показывают картинку. Регистратор пишет архив. Монитор выводит изображение. Сервер обрабатывает потоки. Всё включается, мигает, записывает и даже иногда радует заказчика первые пару недель. А потом происходит инцидент, и выясняется, что лица не видно, номер не читается, оператор не понял, куда смотреть и что делать с тем что увидел, архив нашли только через три дня, а нужный фрагмент почему-то не записался или уже затёрся.На этом месте обычно начинается великая русско-интеграторская драма: заказчик говорит, что система плохая, проектировщик говорит, что всё было по СНИПам, ГОСТам, нормам, монтажник говорит, что поставил как нарисовали и как заплатили, поставщик говорит, что камеры хорошие, а служба эксплуатации молча смотрит в монитор и думает о смене профессии.Проблема в том, что система видеонаблюдения должна начинаться не с камеры. Она должна начинаться с эксплуатационных требований.Читать многабукав 👇TELEGRAPHDZEN
✨SEO Журнал PR-CY ️
⭐️ Откуда LLM реально берут ответы В ИИ-выдачу чаще всего попадает инфа с пользовательских форумов (как Reddit). Но с тем же Reddit вы ничего не контролируете: обсуждения живут своей жизнью. А для продвижения в России это вообще слабый управляемый канал.Посмотрим на другие источники. По данным анализа (1000 запросов) чаще всего попадают в ответы LLM:🔴Энциклопедии и справочникиСтраницы с чёткими определениями и базовыми объяснениями. Формат «что это / как работает» заходит лучше всего.🔴Образовательные и академические ресурсыУниверситеты, базы знаний, материалы с ссылками на источники.🔴Медиа и редакционные сайтыСтруктурированные статьи с фактами, цифрами и понятной подачей.🔴Блоги с сильной экспертизойНе «мнения», а разборы с конкретикой и логикой.🔴Документация и гайдыПошаговые инструкции, FAQ, help-центры.Эта выборка подчеркивает важность размещения контента на авторитетных специализированных сайтах.
Проверить упоминания вашего бренда в ИИ-выдаче можно в инструменте 🔗 https://pr-cy.ru/ai-serp/
____@prcynews
Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
🚀 Fine-tuning LLM теперь можно делать даже на ноутбукеС помощью ноутбука от Unsloth AI можно дообучать Gemma 4 с 8GB VRAM.Это уровень обычной GPU или даже бесплатного Colab T4.🔗 Ссылка на ноутбук📍 Навигация: ВакансииЗадачиСобесыБиблиотека дата-сайентиста#буст
SAP Basis Tips (RU)
Новые версии продукта - типа, новые ощущения !?Расскажите это админам новомодного S/4HANA.Тут вот на значительном ряде современных ядер от 753 по 919 включительно в утилите tp обнаружили баг, которому наверное "отчень много лет". Ну или мне так показалось..🤓История такая:1) Запрос транспортный успешно отрелизили в разработке.2) Далее мы импортируем его в систему качества для "QA Approval/Rejection"3) Открываем очередь STMS_QA , а там йок(), нету нужного запроса.Решение стандартное: качаем свежую версию tp и обновляем в системах.Далее список из версий tp в которых безобразие это - вылечено:KERNEL919: tp 381.733.04KERNEL918: tp 381.715.04KERNEL917: tp 381.709.04KERNEL916: tp 381.700.04KERNEL793: tp 381.588.04KERNEL789: tp 381.577.04KERNEL754: tp 381.40.04KERNEL753: tp 381.30.04(imho) про ядро 777, как обычно успешно забыли...!?#STMS_QA_BUG#TP#KERNEL919#KERNEL753
Почувствуй Оружие GUNSROOM
В НИИ прикладной химии разработали патрон, который способен противостоять дронам. Он может поражать БПЛА на дальности до 100 метров.По словам авторов разработки, соотношение массы тяжелой дроби к массе всего патрона дает возможность получить нужную энергию отдельных дробин, позволяющую разрушать элементы конструкции беспилотников на расстоянии от 70 до 100 метров. В более ранних разработках попадание связанной дроби не всегда заканчивалось сбитием дронов на дальностях более 80 метров.Особенность устройства патрона позволяет раскрыться осыпи дроби на оптимальном расстоянии «для эффективного поражения БПЛА».
Toxblч. Не только Linux
Слева новый первый день. А справа мой первый Macbook Pro 13" Late 2013 который взял в феврале 2014 года. Прошло 12 лет, 3 замены батарейки и он всё ещё работает, правда уже на Linux :) Самое удивтельное у него всё ещё отличный на сегодня экран, клавиатура, тачпад. Пережил падения, удары и всё равно не выглядит уставшим, а яблочко всё ещё светится сздади) А когда я на нём на парах, записывая лекцию, в Parallels играл в винде в ArcheAge притом писал скрипты по посадке урожая xDИстория однако
Душный Барсук
Плотная линия - изменение импорта в США связанных с ИИ отраслей, прерывистая - импорта не связанных с ИИ отраслей.Когда вся твоя экономика сделала ставку на продвинутую форму автокорректа.
LLM под капотом
OpenAI Codex vs Claude Code vs Amp Code vs OpenCode + DS4 ProЯ сегодня закончил сложный рефактор проекта ядра BitGN. И состояние кода теперь просит генеральной уборки.Из интереса я задал один и тот же вопрос разным агентам:Scan through the repository on a high level (ignore code under /modules). I want you to suggest ways, how we can make it more simple and straightforward, refactor away traces of growing pains. Focus on small changes that allow to drop code, or reduce cognitive complexity with a small LOC change cost.OpenAI Codex с GPT-5.5 High потратил 3 минуты и 132k tokens из подписки и предложил:(1) удалить папку /dbg с начинкой - давно пора(2) переименовать пакет stor в store - можно(3) упростить ULID генератор - да, можно(4) убрать AddVMCreateds - можно(5) зарефакторить run finalization/push - надо посмотреть(6) удалить public-release backfill - да, это прямо точно можно(7) почистить Makefile - мелочь, но можно(8) почистить раутинг до виртуальных машин- да, теперь можно(9) утащить виртуальную FS в PAC1 - имеет смыслAmp Code в deep thinking потратил 4 минуты и 90 центов, выдал список первоочередных изменений, которые пересекаются с кодексом:(1) Удалить папку /dbg с начинкой - ok(2) упростить раутинг до виртуальных машин - да, можно(3) зарефакторить run finalization/push - надо посмотреть(4) убрать public-release backfill - ok(5) убрать fx.VM интерфейс и поправить доки - да, действительноClaude Code + Opus 4.7 XHigh потратил 8 минут (говорит, что 2$ из подписки) и предложил прежде всего:(1) убрать fx.VM интерфейс - ок(2) убрать helper err(), который код сильно упрощает - нет(3) оптимизировать ненужные конструкторы storage - надо смотреть(4) переместить файлы с интерфейсами айдишников в файл с интерфейсами IO, ибо “используются вместе и сэкономят одну строчку кода” - нет, спасибо(5) удалить пустую папку /cmd - она даже не в git, но ок(6) удалить proto_api/bitgn/vm/ecom.proto - и оставить вас без интерфейса к соревнованию. Нет, спасибо.OpenCode + DeepSeek V4 Pro потратил 1.15$ + 6 минут и предложил:(1) слить файлы с конфигами - и так нормально(2) переместить файлы с интерфейсами айдишников в файл с интерфейсами IO - как и Claude. Нет, спасибо.(3) удалить папку dbg с начинкой - ok(4) удалить пустую папку с /cmd - ну ок(5) заменить lib/set.go на inline map[string]struct{} - ни в коем случае, это код упрощает(6) удалить systemd socket activation logic, ибо “the most complex code”, что сразу уронило бы все сервера.OpenCode +DS4 Pro пока совсем сыроват. Ответы Claude Opus немного лучше. Codex идет в работу. Amp тоже нашел толковое без шума, но меньше Кодекса.Ваш, @llm_under_hood 🤗