SILLYFEED

Machinelearning

@ai_machinelearning_big_data · 318.0K подписчиков

Открыть канал в Telegram

Посты канала Machinelearning в SillyFeed: единая лента публичных Telegram-каналов со ссылками на оригиналы.

Погружаемся в машинное обучение и Data ScienceПоказываем как запускать любые LLm на пальцах.По всем вопросам -@haarrp@itchannels_telegram-🔥best channelsРеестр РКН:clck.ru/3Fmqri

Посты канала

Machinelearning
🐟 Sakana AI выкатили DiffusionBlocks - способ обучать нейросеть по одному блоку за раз, не держа в памяти всю модель целиком. Работу приняли на ICLR 2026.При обычном обучении градиенты проходят через весь граф, а память под активации растёт вместе с глубиной модели. DiffusionBlocks предлагает разрезать сеть на отдельные блоки и обучать каждый независимо.Каждому блоку дают свою локальную задачу: сдвинуть представление чуть ближе к целевому состоянию, чем это сделал предыдущий блок. Формально это похоже на один шаг диффузионного процесса, поэтому каждый блок оптимизирует собственный лосс и не зависит от соседних блоков.Главный плюс - память. Для тренировки нужна память под один блок, а не под всю сеть целиком.Авторы проверили подход на разных архитектурах:- ViT- DiT- masked diffusion- авторегрессионные трансформеры- recurrent-depth / Looped-трансформерыПо качеству результаты сопоставимы со сквозным обучением, но с куда меньшими требованиями к памяти.В Looped-трансформерами один и тот же блок прогоняется много раз подряд, как будто модель «думает» несколькими итерациями. Обычно для обучения приходится разворачивать весь этот процесс через BPTT, из-за чего память и вычисления быстро дорожаютЭто ещё один аргумент в пользу идеи, что диффузия - не только про генерацию картинок, а более универсальная рамка для обучения моделей.Если модель упирается в VRAM из-за глубины, DiffusionBlocks выглядит как подход, за которым стоит следить.Пейпер: arxiv.org/abs/2506.14202 Код: github.com/SakanaAI/DiffusionBlocks@ai_machinelearning_big_data#sakana #ai #ml
Machinelearning
🌟 Nous Research придумала метод предобучения LLM с заявленным ускорением в 2–3 разаИсследовательская группа опубликовала описание метода Token Superposition Training, который, по утверждению авторов, ускоряет предобучение больших языковых моделей в 2–3 раза по реальному времени при неизменном объёме вычислений.🟡Суть метода авторы описывают такНа первые 20–40% обучения модель обрабатывает не отдельные токены, а батчи из нескольких идущих подряд токенов, их векторные представления усредняются на входе, а на выходе применяется модифицированная функция потерь.Никакого отбора по смыслу, частоте или содержанию нет - деление чисто механическое, по позиции в тексте.Внутри бвтча порядок токенов отбрасывается. Модель не учится предсказывать, какой токен стоит на какой конкретной позиции в ближайшем будущем, - только то, какие токены вообще там встречаются.Размер батча - один из двух ключевых параметров метода. Оптимальное значение растёт вместе с размером модели: для 270 млн параметров оно лежало в диапазоне от 3 до 8 токенов, а для 10 млрд равнялось 16Оставшуюся часть обучения модель переводят на обычный режим предсказания следующего токена. По словам Nous Research, готовая модель на инференсе ничем не отличается от обученной стандартным способом - архитектура, оптимизатор, токенизатор или набор данных не изменяются.Метод протестили на моделях 4-х размеров: 270 млн, 600 млн и 3 млрд параметров, а также на 10 миллиардной MoE.В самом крупном эксперименте модель с TST достигла более низкого значения лосса, чем сопоставимая по вычислениям базовая модель, примерно за 40% времени и показала лучшие результаты на тестах HellaSwag, ARC и MMLU.🟡ОграниченияTST расходует обучающие данные быстрее обычного, поскольку модель переваривает больше текста. Если обучающих данных мало, метод становится контрпродуктивным.🟡Статья 🟡Arxiv @ai_machinelearning_big_data#AI #ML #LLM #Pertrain #TST #NousResearch
Machinelearning
🌟 NVIDIA открыла Nemotron 3 Nano OmniNemotron 3 Nano Omni - мультимодальная модель 30B-A3B, которая обрабатывает видео, аудио, изображения и текст в едином инференсе.В создании Nano Omni активно использовалось семейство Qwen разных поколений от 2.5 до 3.5 - как чисто языковые, так и VL и GPT-OSS-120B🟡Под капотом гибрид из Mamba2 и MoEВизуальный тракт построен на энкодере CRADIO v4-H, аудио - на Parakeet. Контекстное окно - до 256 тыс. токенов.Модель поддерживает ризонинг с СоТ, JSON-вывод, tool calling и пословные таймштампы для транскрипции.На вход принимаются видео длиной до 2-х минут, аудио длиной до часа, изображения и текст. Язык один - английский.Со слов NVIDIA, при сопоставимой интерактивности модель выдаёт до 9х пропускной способности относительно других открытых omni-моделей.Самый показательный пример - на OSWorld (навигация по GUI): 47,4 против 11,1 у предыдущей Nemotron Nano VL V2.На OCRBenchV2 — 67,04, на Video MME — 72,2, на Daily Omni — 74,52.Опубликованы 3 варианта весов: BF16 (61,5 ГБ), FP8 (32,8 ГБ) и NVFP4 (20,9 ГБ, 4,98 бит). Визуальный и аудио-энкодеры вместе с MLP-проекторами в обоих случаях оставлены в BF16.На девяти не-ASR бенчмарках оба квантованных варианта в среднем теряют меньше 0,4 пункта относительно BF16 — NVFP4 вписывается в рабочие станции и edge-устройства практически без потерь качества.Инференс поддерживается на vLLM, TensorRT-LLM, TensorRT Edge-LLM, llama.cpp, Ollama и SGLang.Модель доступна на Hugging Face, OpenRouter, build.nvidia.com и в каталоге NGC как NIM-микросервис.По данным NVIDIA, семейство Nemotron 3 за прошлый год скачали более 50 миллионов раз и Omni-вариант должен расширить линейку в мультимодальный и агентный контур.📌Лицензирование: NVIDIA Open Model License🟡Статья🟡Модель@ai_machinelearning_big_data#AI #ML #MMLM #NemotronNanoOmni #NVIDIA

Ещё по теме «Технологии»

Технологии
ParaCosm Принцесса Плакса ✨
А ещё развернулась, кстати, уже недельная ожесточённая драма вокруг AO3 learning, и это хилариус.Кто не в курсе - ао3 - это аналог фикбука, тока англоязычный. И вот значит некие энтузиасты сделали бесплатное! приложение без рекламы!, которое использует обычный! браузерный переводчик, чтобы можно было прямо в процессе тыкать на незнакомые слова в тексте, и они бы тебе переводились.Так вот господа борцы за права решили.... что это кража 😐Что приложение крадёт фанфики,браузерный встроенный переводчик, напоминаю😭 на сайте, в котором можно скачать текст! ещё и переводит без согласия автора! а злые изучатели английского настоящие воры, разумеется. и это осуждают те же самые люди, которые в любой игре пишут englsh plz и ничё не щёлкает. А ещё они призывают жаловаться на руаккаунты, защищающие AO3 learning... в роскомнадзор!! а они точно понимают, что твиттер у нас типа офишали заблокирован? Ну, конечно, известный факт - люди из стран, где нет запретов и санкций, и где в целом всё удобно, вообще редко подкованы в темах компьютерной безопасности, и для них слова браузер и расширение - это что-то из тёмной шумерской магии. Наверное, всё-таки изучение языков и правда влияет на интеллект как же я люблю вавилонский твиттер и мировые срачи 💅 мейкс ми фил элайв
Токсичное мнение
Рынок, на котором клиенты оплачивают производственные линии, чтобы получить гарантированную поставку на них произведённого, всякие гении вроде Бьюрри до сих пор называют пузырём.До сих пор — потому что NVDA у них в статусе пузыря уже третий год. Но об этом массовый читатель заголовков не помнит.Про пузыри я уже написал достаточно, и повторяться не стану. Но как же тоскливо, когда «гении» путают импульс (из-за шортсквиза, из-за пересмотра прибылей, из-за недоинвестированности) с необоснованно высокими мультипликаторами.Можт всё-таки пузырь?Все внезапно поняли?Снова и сноваТочно пузырьПро механику пузырейПро скорость измененийПро ожидания от AI-пузыряПро эхо-камеру пузыряПро причины для продажиЗапасов нет — точно пузырьи ещё три десятка упоминаний…
Пост Лукацкого
У нас заканчивается уже второй поток курса по построению SOC, в котором рассматривались многие практические темы создания центров мониторинга, но вот темы ИИ в них мы там почти не касались, так как пока в России это не так чтобы мейнстрим. И поэтому нередко (сам через это прошел) ИИ в SOCах воспринимается как нечто спасающее аналитиков от выгорания, ложных срабатывний и поднимающих их продуктивность на недосягаемую высоту. Но... как и в поговорке "если вы автоматизируете хаос, вы получите автоматизированный хаос" и "garbage in, garbage out", в автономных SOCах (AI SOC) аналогичная история. Если у нас неэффективные процессы обнаружения и реагирования, то ИИ не сделает их лучше и эффективнее, он сделает их быстрее в своей неэффективности.Прежде чем внедрять ИИ в SOC, сначала надо разобраться с фундаментом, – понимать свою инфраструктуру и покрытие ее источниками данных, знать модель угроз, разбираться в том, что в поведении систем, сетей и пользователей, – норма, а что нет. Да, это скучно, но без этого ИИ мало чем поможет. ИИ может распознавать структуру источника событий или сетевой протокол, что ускоряет создание нового коннектора, но без понимания, нужен он или нет, и что мы там хотим видеть, ИИ бесполезен. Мы можем ускорить разбор терабайт логов, но без понимания, что мы там ищем, ИИ бесполезен. Мы можем выявлять аномалии в поведении пользователя, но не видя разницы между powershell, запускаемого от имени админа и от имени бухгалтера, ИИ бесполезен.ИИ позволяет обогащать данные, собирая их из разных источников – OSINT, TI и т.п. Это классно и действительно может быть полезно, но... без учета контекста может сыграть с нами злую шутку. То есть обрабатывать события научить ИИ можно, а вот про "понимать контекст" часто забывают. Не может одна и та же модель, обученная вендором, одинаково эффективно работать и в промышленном сегменте нефтяной компании, и в технологическом стартапе, и в государственной организации.Кто-то должен сказать ИИ, что важно, а что нет в конкретной среде. Это поэтому я включаю в свой список вопросов для ИИ-вендора неудобное "А вашу модель можно обучить на моих данных?" (и ответ, кстати, не так очевиден и однозначен). Когда вендор говорит о снижении шума и фолсов в обрабатываемых данных, откуда он знает, что вот именно это событие ложное или бесполезное? В одной компании это так, а в другой – нет. Кто научит ИИ распознавать эти нюансы? Без этого ИИ не снижает энтропию, а только повышает ее. Убирая шум, ИИ, непонимающий контекст среды, может "выплеснуть с водой и ребенка".Так что, ИИ может сделать неэффективный SOC еще более эффективным в своей неэффективности. То есть ускорить обработку мусора, быстрее гонять плохие процессы, автоматизировать бессмысленные реакции. Но превратить фундаментально неправильно построенный SOC в эффективный – почти нереально. Не потому, что ИИ слабый и плохой, а потому что проблема структурная. Именно про нее мы на курсе "Построение SOC 2.0: от концепции до реализации" и говорим. Это не реклама курса, это скорее размышления вслух, наблюдая за тем, как активно термин "искусственный интеллект" начинает переплетаться с SOC, без понимания истинного смысла их симбиоза 🤔ЗЫ. Картинка из презентации одного поставщика автономных SOCов (AI SOC). #ии #soc
Всё про Алгоритмы и Структуры данных
Запускаем DeepSeek-V4 (1.6T) на «калькуляторе»: SVD-трансмутация, Identity Theft и гаражный MLOps24 апреля 2026 года мир содрогнулся — вышел DeepSeek-V4-Pro. 1.6 триллиона параметров, MoE-архитектура, веса на 800+ ГБ. Академики в белых халатах из исследовательских центров тут же выкатили райдер: «Вам нужно минимум 8xH100 и прямой канал до дата-центра».Мы посмотрели на свою бесплатную NVIDIA T4 с 16 ГБ VRAM в Kaggle, на 50 ГБ диска и поняли: вызов принят. Пока вы ждете гранты на GPU-кластеры, мы занимаемся цифровой вивисекцией.https://habr.com/ru/articles/1028560/Алгоритмы и Структуры данных
Max Syabro and a Slop Driven Development
https://www.re-gent.dev/а вот еще нашел на тему трекинга. git показывает, какие файлы поменялись.re_gent показывает, из какого промпта и какой сессии появились эти изменения. Работает поверх клодовского PostToolUse, хз за остальные харнесы
Закиев Василь. (AI)ron manager
Признак ИИ текста — сликшом много ярких, сочных прилагательных. Текст с перцем.Много времени посвящаю детеции ИИ-текстов и заметил в них излишнюю старательность. Один эпитет — нормально. Два — может так надо, стиль такой. Три подряд — почти всегда слоп (или Солженицын, Яхина и прочие не очень хорошие писатели). В тексте читатель цепляется за существительные, которое усиливается прилагательными, которые ведут себя как специи. Одна щепотка задаёт вкус, три уже прячут блюдо под слоем кетчупа, который делает одинаковыми по вкусу туалетную бумагу и картошку. Скорее всего ИИ сваливается в такой стиль из-за внутреннего скоринга: длинное предложение с плотными определениями считается «выразительным». Короткое – эффектным. На выходе получаешь словосочетания типа «сдержанный, информативный, экспертный блог» — четыре слова описывают «блог», от которого теперь хочется отписаться.(заметили этот излишек соли в последнем предложении?и в заголовке? это классический признак ИИ-текста)Как победить пока не знаю – продолжаю бороться.#промптинг #агенты
Кубанский Институт Остеопатии | Остеопатия
🩺 Как «расширенная реальность» меняет реабилитацию: обзор технологий XRВообразите: пациент, только перенёсший инсульт, делает упражнения на равновесие, глядя не в пустую стену, а будто гуляя по парку или играя в интерактивную игру. Это не фантастика - а реальность уже сегодня благодаря технологиям XR (Extended Reality), объединяющим виртуальную реальность, дополненную реальность и смешанную реальность.Недавний анализ 58 рандомизированных клинических исследований показывает: XR всё активнее входит в медицинскую реабилитацию самых разных профилей. Технологии успешно применяются в неврологических, ортопедических, педиатрических и гериатрических направлениях.🕹️ Для пожилых пациентов наблюдается значительный прогресс: XR-тренировки улучшают баланс, силу, когнитивные навыки и даже настроение. Это снижает риск падений, делает лечение живым и мотивирующим, а сложная моторика возвращается быстрее и увереннее.🧠 В неврологической реабилитации такие технологии ускоряют моторное восстановление после инсульта или ЧМТ, а ещё - помогают уменьшить невропатическую боль. Погружение в виртуальные сценарии, адаптированные под конкретные дефициты больного, делает процесс более персонализированным.🦵 Ортопедические пациенты выигрывают не только после операций, но и при консервативном лечении. XR позволяет контролировать амплитуду движения, мотивировать к регулярной активности и видеть конкретный прогресс. А у детей, по данным обзора, вовлечённость значительно выше, поскольку терапия превращается в игру с чёткой системой достижений и поощрений.Кроме привычной двигательной работы, XR даёт эффекты и на психоэмоциональном уровне. Пациенты отмечают снижение боли, улучшение самочувствия, повышение самооценки и интереса к лечению. А сама среда, насыщенная обратной связью, делает реабилитацию гибкой и максимально индивидуальной.Главный вывод для практики простой: XR-технологии становятся мощным инструментом — особенно при работе с теми, кто быстро теряет мотивацию или сталкивается со сложными задачами восстановления. Уже сейчас их можно внедрять как в государственных клиниках, так и в частных центрах — важно только осваивать новые подходы, отслеживать прогресс и корректировать сценарии на основании данных конкретного пациента. Будущее реабилитации — не за механическим повторением движений, а за индивидуальным, захватывающим и максимально результативным лечебным процессом. XR становится ключом к этому будущему.#реабилитация #остеопатия #массаж #исследования📎 Читать источникПодписаться на канал КИО
myStack
Firefox + Claude MythosКомпания Mozilla опубликовала отчёт о проверке кодовой базы Firefox при помощи AI-модели Claude Mythos, достигшей нового уровня в таких областях, как выявление уязвимостей, поиск и исправление ошибок. Отмечается, при использовании Mythos практически не было ложных срабатываний, в то время как прошлые попытки использования моделей GPT 4 и Sonnet 3.5 не рассматривались как успешные из-за обилия ложных отчётов. В апреле в Firefox было устранено 423 уязвимости, из которых 271 были выявлены сотрудниками Mozilla при помощи Claude Mythos. 180 уязвимостей из 271 признаны опасными, 80 присвоен умеренный уровень опасности, а 11 - низкий. https://www.opennet.ru/opennews/art.shtml?num=65405
План ГОЭЛРО
💰Новак поручил дать скидку на российское оборудованиеПокупателям хотят компенсировать разницу в цене с импортомВице-премьер Александр Новак поручил Минпромторгу и профильным ведомствам проработать механизм субсидирования закупок российского электрооборудования, если оно дороже зарубежных аналогов. Речь идет о смене самой схемы поддержки: сейчас субсидии получает производитель, а новый вариант предполагает скидку для покупателя при покупке отечественной продукции.Такой подход нужен для внутреннего рынка, где решение о закупке обычно упирается в цену. Если российское оборудование стоит дороже, заказчик чаще выбирает импорт или требует дополнительных обоснований. Скидка должна снять именно этот барьер и сделать выбор в пользу локальной продукции более выгодным уже на этапе контракта.Поручение показывает, что прежней поддержки производителей оказалось недостаточно. Выпуск электродвигателей и генераторов в России в 2025 году вырос на 7% и достиг 118 млрд рублей, а доля отечественной продукции на внутреннем рынке превысила 35%. Но сам по себе рост выпуска еще не означает, что российская техника автоматически выигрывает у иностранной по коммерческим условиям.Эта мера может сработать там, где оборудование уже близко к импортному по качеству и срокам поставки, но проигрывает только в цене. В таком случае скидка действительно подтолкнет спрос. Если же у заказчика остаются вопросы к надежности, сервису, комплектующим или срокам исполнения, одной компенсации будет мало.☑️ Одновременно Новак поручил подготовить план развития производства российского электрооборудования. Это значит, что власти пытаются увязать две задачи: сначала сделать отечественную продукцию более привлекательной для покупателя, а затем расширять сам выпуск. В таком виде поддержка выглядит логичнее прежней схемы, но ее результат будет зависеть от одного: станет ли российское оборудование после этой скидки реально выгоднее для рынка, и не только на бумаге.
Admin Guides | Сисадмин
Разница между ping, curl и реальным трафикомСеть может выглядеть «здоровой» в простых проверках, но вести себя иначе под реальной нагрузкой. Ping, curl и продакшн-трафик проверяют разные уровни, поэтому дают разную картину.⏺ping - это ICMP, он показывает только базовую связность и RTT. Он не использует TCP, не проходит TLS и не нагружает соединения.ping -c 5 example.com⏺curl уже ближе к реальности: это TCP + HTTP (+ TLS). Он показывает время установления соединения и ответа, но это всё ещё одиночный запрос без конкуренции.curl -w "%{time_connect} %{time_starttransfer} %{time_total}\n" -o /dev/null -s https://example.com⏺Реальный трафик - это параллельные соединения, очереди, ретраи и работа балансировщиков. Тут начинают играть роль backlog, conntrack, лимиты соединений и поведение приложения под нагрузкой.wrk -t2 -c50 -d10s https://example.comab -n 200 -c 20 https://example.com/Часто сеть «нормальная» по ping, curl тоже проходит без проблем, но под нагрузкой начинают всплывать очереди, лимиты соединений или перегрузка обработки на уровне ядра и приложения. В итоге одиночные проверки выглядят идеально, а реальный поток запросов уже упирается в совсем другие ограничения.