SILLYFEED

Concise Research

@c_research · 1.2K подписчиков

Открыть канал в Telegram

Посты канала Concise Research в SillyFeed: единая лента публичных Telegram-каналов со ссылками на оригиналы.

Исследования AI глазами исследователяАвтор:@snk4trСергей Кастрюлин

Посты канала

Concise Research
Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget[Код и модели обещают тут]Продолжаем тему минимизации костов на обучение text-to-image диффузии. В предыдущей серии, подход MaskedDiT позволил срезать 30-50% компьюта по сравнению с обучением DiT в аналогичном (LDM) сетапе. В этот раз, авторы предлагают набор трюков, позволяющих обучить сравнительно большую (1.16В) модель до уровня ~SDv1.5 по FID (а по черипикам даже лучше) за ~500 ГПУ часов H100 🤔.1️⃣ Training with Patch-mixing.Маскирование 50% патчей в MaskDiT - это предел, после которого качество начинает проседать. Причина в том что каждый патч хранит информацию только о самом себе, соседние патчи исходно не знаю про контент друг друга. Patch-mixer - это доп модуль на входе MaskDiT, цель которого - фьюзить входные патчи. Иначе говоря, выходные эмбеды этого модуля должны содержать информацию друг о друге. Это позволяет довести маскирование до 70% и убрать MAE компоненту в лоссе. Модель состоит из всего нескольких слоев и обучается вместе с основной тушкой на обычный диффузионный денойзинг не маскированных патчей. В конце модель немного тюнят без маскирования.2️⃣ MOE & Layer-wise scaling.Mixture-of-Experts (MOE) давно используются в LLM и потихоньку проникают в t2i модели. LWS также недавно предложили для LLM. Авторы не стесняясь просто добавляют эти компоненты в свою модель.3️⃣ Synthetic data in training.Не является основным контрибьюшеном статьи, но является важной фичей на пути к micro budget training. Авторы показывают, что если 40% трейна состоит из генераций публичных моделей (SDXL, SD3), то качество в терминах FID и CLIP Score. Существенно увеличиваетсяПомимо прочего, модель учат в 2 стадии: на генерации 256х256 и далее 512х512, компоненты пайплайна аблейтят, SOTA с использованием довольно небольшого датасета (37M) среди выбранных бейзлайнов небольшого размера показывают.
Concise Research
Step1X-Edit: A Practical Framework for General Image Editing[моделька + код, отдельно GEdit бенч]Недавние обновления моделей GPT-4o и Gemini привнесли функциональность редактирования изображений на основе пользовательских инстрактов. В академической среде тоже выпускали подобные модели (AnyEdit, OmniEdit), но они по качеству отстают от проприетарных. Авторы этой работы стремятся уменьшить разрыв между академией и индустрией, предлагая полный набор необходимых компонентов: модель, схему сбора данных, методику замера.ДанныеПроблема задачи редактирования в том что это не одна задача, а несколько. Из-за этого первым делом нужно провести категоризацию всех задач и только потом приступить к сбору данных.Авторы выделили 11 категорий на основе парсинга интернета. У них получилось, что наиболее частые запросы: добавление, удаление, замена и перемещение объектов, а также всяческие стилизации. Далее для каждой категории генерится синтетика на основе некоторых исходных картинок и инстрактов, которые получаются хитрым многостадийным промторгом VLM’ки. Для каждой категории пайплайн генерации свой и включает несколько моделей. Например, задачи удаления и добавления объекта сводятся к инпейнтингу, поэтому пайплайн состоит из сегментации SAM2 и инпейнта Flux-Fill.К сожалению, сам датасет не выложили, только код его подготовки.МодельПодход авторов очень похож на вышедший на днях Qwen-Image (подробный разбор в КПД): замороженный Qwen-VL в качестве энкодера + трансформерный денойзер. Основная разница в архитектуре: тут DiT против MMDiT в Qwen-Image. Интересно, что в других работах, например Nexus-Gen (разбор) VLM размораживают и как эффективнее пока не ясно.ЗамерыДля замера собирают и фильтруют промты по всем 11 категориям, отбирают 606 лучших, балансируют категории на свое усмотрение, проводят анонимизацию лиц. Из спорного — большое количество промтов на модификацию текста + использование китайского нужно не всем 🌚РезультатыУверенно обходят AnyEdit и OmniEdit, приближаются к проприетарным моделям, причем не только на своем, но и на ImgEdit-Full + Complex-Edit бенчмарках. Мне не хватило сравнения с BAGEL, Nexus-Gen и другими вышедшими в последнее время мультимодалками. Скорее всего, авторы из не рассматривали просто потому что учили editing-only модель и считают такое сравнение не совсем честным.
Concise Research
Тексты для T2I претренаТема актуальная потому что сильно влияет на качество. Статей по ней мало потому что аблейтить дорого. Казалось бы, не жили нормально, нечего и начинать. Но за последний месяц, как манна небесная, на нас снезошли аж две работы по теме, которые хочется обсудить.Важно напомнить, что естественные кепшены (прикартиночные тексты из интернета) уже давно мало кто воспринимает всерьез из-за их низкого среднего качества. Иными словами, вопроса кепшенить ли картинки для обучения не стоит. Тем не менее, в том как именно это делать есть много нюансов.1. Structured Captions Improve Prompt Adherence in Text-to-Image ModelsАвторы этой работы исходят из предположения, что ключ к хорошим кепшенам — наличие в них строгой структуры: - Всегда 4 предложения на картинку;- Каждое предложение имеет свой фокус: объект, локация, эстетика, настройки камеры;- Порядок предложений тоже задан и всегда одинаков.Для верификации гипотезы дообучают PixArt на пофильтрованном сабсете LAION размера 19М, кепшены для которых делают двух видов: с заданным порядком как выше и без него. Последующие генерации верифицируют с помощью вопросом VQA модели о том находится ли некий объект на изображении. Из большего числа правильных ответов делают вывод, что структурированные кепшены полезны.2. How to Train your Text-to-Image Model: Evaluating Design Choices for Synthetic Training CaptionsАвторов этой работы больше интересует длина и разнообразие кепшенов. Важно, для своих экспериментов они кепшенят сабсет LAION-aesthetics, при этом в качестве бейзлайна для проверки некоторых гипотез используют оригинальные прикартиночные тексты (оч слабый бейзлайн). Из странностей отмечу SDv1.1 в качестве стартового чекпоинта для дообучения моделей. Мне кажется, это вообще первый на моей памяти случай такого выбора.Итак, что выяснили авторы: длинные и очень подробные кепшены не всегда хороши. Если использовать только их, может проседать разнообразие и эстетичность генераций. Частично это можно чинить уменьшением температуры семплирования либо увеличением вариативности кепшенов.Есть и другие минорные и более очевидные наблюдения. Например, кепшены должны быть вариативны внутри каждой эпохи обучения. Также понятно, что через кепшены можно вносить в модель всякие байесы.

Ещё по теме «Технологии»

Технологии
Андрей Наличаев: Криптоэкономист
🏠 За выходные собрал семейный AI-архив здоровьяBig Tech продаёт это по $20 в месяц + vendor lock. У меня вышло 0 злотых.Мы с женой живём в Польше. У нас опилась стопка PDF-анализов на польском, направления, рецепты, выписки из клиник. Каждый раз перед визитом к врачу - паника: где тот результат витамина D от прошлого квартала? В каком письме было железо? Очевидное решение - Notion / Google Drive. Очевидная проблема - в том, что потом по этим данным невозможно нормально искать. PDF - мёртвый формат для анализа. Ты не спросишь у папки с файлами "покажи динамику железа за год".А мы хотим большего. Ожидаем, что в ближайшие годы AI-агенты дорастут до прогностической медицины - анализ трендов, раннее выявление отклонений, персональные рекомендации на основе истории. Для этого нужна база, а не разрозненные сканы в Downloads. Поэтому решили собирать сейчас - в структурированных MD-файлах, с тегами, датами и значениями, с доступом в любой момент через Telegram.Сел в субботу днём, закончил в воскресенье вечером. Получился рабочий продукт.📦 Что вышлоЖена кидает фото или PDF в Telegram-бота. Бот говорит "принято". Через 1-3 минуты документ обработан: текст распознан, поля извлечены (анализы, даты, врачи, клиники), сделан перевод на русский, добавлены теги, всё лежит в архиве. Вика пишет "железо" в чат - бот возвращает все документы где этот показатель был, с датами и значениями.🔧 Под капотомCloudflare Worker (бесплатный тариф) на entry point. Telegram webhook кидает файлы в R2 (object storage) и D1 (SQLite). Это always-on intake-слой - можем слать документы в любое время суток, даже если Mac выключен, обработается потом и удалится из Cloudflare. Долгосрочно данные хранятся локально в Obsidian - ничего чувствительного в облаке не остаётся.На MacBook Air крутится Python-агент. Раз в минуту дёргает Cloudflare, видит pending-айтемы, прогоняет через пайплайн:1️⃣ pypdf пытается вытащить текст из PDF2️⃣ если вышел мусор (типичная история с польскими лабораториями - встроенные subset-шрифты, pypdf возвращает control-символы) - падает в OCR через Tesseract с польским и английским словарями3️⃣ извлечённый текст идёт в Ollama, локально, qwen2.5:7b-instruct4️⃣ модель возвращает structured JSON: тип документа, даты, лабораторные значения с референсами и статусами, краткое резюме на русском5️⃣ всё пишется в локальный SQLite + Markdown-ноту в Obsidian-совместимом vaultПосле обработки агент пушит компактный summary в D1 - hot-path кэш для поиска. Когда жена пишет "железо" в Telegram, Worker лезет не на Mac (может быть оффлайн), а в D1-табличку - миллисекунды.🤖 Локальная модель справляетсяОжидал что 7B-моделька будет тупить на польской медицине и придётся подключать Anthropic API. Оказалось нет. Замер на лабораторном PDF:⏺️ 16 анализов из 16 распознаны корректно⏺️ референсные диапазоны распаршены правильно⏺️ статусы within_range / above_range / deficit проставлены корректно⏺️ резюме на русском с flagging-ом железа ниже нормы⏺️ 3 минуты 36 секунд на трёхстраничный скан с OCR-фоллбэкомДля одностраничной фотки pipeline отрабатывает за 35 секунд. Это уже не "локальный AI как игрушка", это рабочий tool.Cost:⏺️ Cloudflare Worker, R2, D1 - free tier (нам нужны крохи от лимитов)⏺️ Ollama + qwen2.5:7b-instruct - open weights, бесплатно⏺️ MacBook Air M4 - и так уже есть⏺️ Telegram bot - бесплатноИтого 0 злотых в месяц на бесконечно растущий архив, который потом можно будет даже детям передать для их прогностических агентов.🤔 Что я из этого выношуТочка где локальные модели становятся достаточно хороши для нетривиальных задач - уже пройдена. На M-series Mac, бесплатной модели и пайплайне на коленке получается продукт, который год назад нужно было бы строить командой.Вангую что через 1-2 года таких персональных "архивов чего угодно" будет много. Все компоненты уже бесплатны, не хватает готового UX. Когда-то появятся модели, способные строить предиктивную медицину по персональной истории. Мы собираем данные уже сегодня.#library #tools
🔻Архитектор требований🔺
В новостях пишут, что отключат мобильный интернет с 5 по 9 мая. Так как я часто испытываю панические атаки, то решила отвлечься и сделать мини пет-проект по этой теме. Помимо приложухи для экстренного снятия приступа паники я запилила сообщество в ВК на ИИ-движке — для тех, кому надо успокоиться. Настроен ежедневный постинг поддерживающих фраз и дважды в неделю — автосуммаризация последних статей про ПТСР и панику с pubMed. Что-то там писать не обязательно, можно просто читать молча. Если это кого-то поддержит, буду считать свою социальную миссию выполненной. Читайте, его не отключат на праздники. https://vk.com/tishina_ru
Пушкин в Африке
🇹🇿 Суверенная языковая модель на суахили — зачем она Танзании?Министр связи и информационных технологий Танзании Ангелла Каируки сообщила в парламенте в минувшие выходные, что правительство находится на завершающем этапе разработки языковой модели, направленной на развитие использования искусственного интеллекта для предоставления цифровых услуг на языке суахили.Это объявление было сделано на фоне активного роста цифровой инфраструктуры страны. За год количество абонентов мобильной связи увеличилось на 23,8%, число интернет-пользователей — на 19,5%, а количество транзакций через мобильные платёжные системы — на 55,8%.🥼 Суахили — один из самых популярных языков в Африке, и неудивительно, что передовые языковые модели (ChatGPT, Claude, Gemini) умеют работать на нём. Просто суахили представлен в их обучающих данных значительно меньше английского.Зачем же Танзании нужна такая модель? Не легче ли пользоваться существующими флагманскими продуктами?🧣 Во-первых, модель, работающая с переведёнными данными, не может сравниться по точности с моделями, непосредственно обученными на суахили (по статистике первые совершают в четыре раза больше ошибок). К тому же будущая модель обучается на специфичной для Танзании базе данных — её правовых документах, законах, особенностях делопроизводства и т. д., что ещё больше повышает точность.🧣 Во-вторых, в долгосрочной перспективе собственная модель экономит колоссальные бюджетные траты на пользование иностранными аналогами. К тому же, не факт, что последние могут быть интегрированы в сельские районы страны — флагманские модели очень требовательны к хорошему интернет-соединению (здесь у более простой локальной модели будет преимущество).🧣 Ну и самое главное — подобная модель закладывает фундамент для будущего цифрового суверенитета, угроза которому с распространением ИИ-технологий становится для Африки (и не только для неё) всё более существенной.❤️ «Пушкин в Африке» (В Максе мы тоже есть) — для всех, кто хотел познакомиться со сложным миром Чёрного континента, но не знал, с чего начать.
Библиотека C/C++ разработчика | cpp, boost, qt
🍿 Что скрывает auto(x): новый синтаксис C++23В C++23 появился синтаксис auto(x) и auto{x}. Это не очередной сахар для объявления переменных. На самом деле — это именованная операция, у которой есть точная семантика. 🥳 Что происходит под капотом:auto(x) — это decay-copy: создаётся prvalue того же типа, что и x, но после применения std::decay. То есть:• Ссылки снимаются• Cv-квалификаторы (const/volatile) удаляются• Массивы → указатели• Функции → указатели на функцииconst int& r = 42;auto copy = auto(r); // int, не const int&⚡️ До C++23 для того же результата писали:auto copy = std::decay_t<decltype(r)>(r);❓ Зачем нужна явность? В простых случаях auto copy = r тоже даст int — auto и так делает decay. Но в обобщённом коде важно явно сигнализировать намерение: "я хочу копию, а не прокси или view".Главное применение — защита от UB при модификации контейнера. Классический пример — реализация pop_front:void pop_front(auto& container) { std::erase(container, auto(container.front())); // Без auto() — UB: front() может инвалидироваться // в процессе удаления элементов}Без auto() мы передаём ссылку на элемент, который erase может разрушить до сравнения. С auto() — сначала создаётся копия значения, потом происходит удаление. Безопасно и читаемо.❗️ auto(x) закрывает целый класс subtle-багов в шаблонном коде — там, где случайная ссылка вместо копии приводит к UB или неожиданному поведению.📍Навигация: Вакансии • Задачи • СобесыБиблиотека C/C++ разработчика#константная_правильность
Адвокатский Софт
Адвокатские утилиты: Право(Диалог) - чатбот от Правотеха.Адрес: @pravodialog_bot , t.me/pravodialog_botОписание: быстрый анализ арбитражных дел с помощью АI. Отправь номер - получи краткую суть и детали.Стоимость: на старте 15 бонусов (прим.авт. - как это и что, ещё не узнал, узнаю напишу)Комментарий от @Lawyersoft: если кто сейчас по уровню экспертизы готов к созданию инструментария в СОЮ для юристов частной практики и адвокатских кабинетов так это компания ПравоТех. Опыт накопленный за годы работы с КАД Арбитр позволяет им экстраполировать все свои разработки и на СОЮ.Как я смотрю на разработки ПравоТеха? С завистью. (Надо бы со спортивной злостью). В принципе, если они сумеют реализовать тот административный ресурс, что у них есть, то сценарии на российском рынке legaltech могут быть разные. Пока мне наиболее вероятным кажется продажа ПравоТеха Сберу в какой то момент. Тут конечно тоже должны сойтись несколько факторов, а пока конечно можно наблюдать уникальную ситуацию, которую уже увидели аудиторы Счётной палаты РФ, но публично отметили всего несколько строчек:Также в деятельности АС используется программный комплекс «Электронное правосудие» (далее – ПК «Электронное правосудие»), оператором которого является АО «Право.ру», исключительное право принадлежит ООО «Справочно-правовая система «Право.ру» (далее – ООО «СПС» «Право.ру»). В результате базы данных судопроизводства всех арбитражных судов контролируются исключительно коммерческой организацией АО «Право.ру».АС используют ПК «Электронное правосудие» на основании неисключительных лицензий, приобретенных ВАС РФ по государственному контракту от 2 октября 2012 г. № ГК ВАС-А-И39‑12Яндекс определённо постарается держаться в стороне от политических рисков работы с СОЮ и скорее будет сосредоточен на корпоративном секторе.Ну а я по прежнему буду завидовать, потому что мне 40 млрд. на всякую антиконституционную ересь никто не даст.#адвокатские_утилиты
Yashernet
Я ещё хочу, чтобы кто-то описал роль полнейшей деградации поиска Гугла в быстром освоении ИИ обычными пользователями. Я ещё в 2022 из-за этого начала искать через Perplexity, а теперь при любых конкретных вопросах слышу от друзей "Спросим у чатажпт".
Карягин
Кризис реальности: как дипфейки незримо меняют политику К феномену дипфейков привыкли уже практически все опытные пользователи сети. Если даже Д. Трамп на своей странице в соцсетях публикует ИИ-генерацию, то граница между вымыслом и реальностью становится все незримее. Эксперты и аналитики совсем недавно опасались того, что дипфейки будут использоваться для манипулирования политическими процессами, и эта угроза никуда не делась, однако куда более опасной стала эрозия политической реальности как таковой. Если кругом обман, а отличить дипфейк от реальности становится все труднее, то наиболее энергосберегающая стратегия для рядового пользователя — не верить ничему.Моя колонка специально для АК
RUSmicro
🇨🇳 Чипы ИИ. Участники рынка. КитайHuawei ожидает, что выручка от ИИ-чипов в 2026 году вырастет, минимум, на 60%Спрос на отечественные чипы для ИИ в Китае продолжает стремительно расти, и Huawei оказалась в центре этого тренда. По данным источников Financial Times, китайская компания ожидает, что выручка от продажи её ИИ-чипов в 2026 году достигнет $120 млрд, что означает рост не менее чем на 60% по сравнению с $75 млрд в 2025 году.Драйвером роста стал новый процессор Ascend 950PR, запущенный в серийное производство в марте 2026 года. Компания также планирует выпустить его улучшенную версию 950DT в 4K2026. По оценкам, Huawei может занять до 50-60% китайского рынка ИИ-чипов уже в 2026 году.Этот успех в значительной степени связан с общемировым бумом вокруг ИИ, но также нельзя недооценить активную поддержку компании Huawei со стороны китайского государства в рамках политики импортозамещения. В частности, власти Китая ввели ряд мер, стимулирующих переход на китайские решения, включая прямые субсидии, компенсацию до 50% затрат на электроэнергию для дата-центров, использующих китайские чипы, и прямое указание госкомпаниям приоритизировать продукцию Huawei при закупках. Госсектор также закупает отечественное, например, госкомпания China Mobile. С другой стороны, сохраняющиеся экспортные ограничения США на поставки передовых чипов Nvidia также подстегнули внутренний спрос на альтернативы Huawei.Крупный китайский бизнес, включая интернет-гигантов ByteDance, Tencent и Alibaba, а также компании, предоставляющие облачные и GPU-сервисы, активно наращивают закупки чипов Ascend. Аналитики называют DeepSeek новым катализатором спроса. Версия языковой модели V4, ориентированная на бизнес, была протестирована и оптимизирована специально для работы на оборудовании Huawei. Успех Huawei демонстрирует курс: китайская IT-индустрия стремится перейти от использования решений Nvidia к созданию собственной суверенной экосистемы ИИ-вычислений. //подписаться на канал, ✓ наши новости можно читать также на MForum и в ВК