Очень странная статья от Google.Основная идея: давайте случайно не применять обновления к параметрам, а если и применять - уменьшать их на величину, пропорциональную отклонению угла стохастического градиента от накопленного за последние итерации.Они также привели некие доказательства сходимости своего метода.В частности, очень интересен assumption 3 (см на картинке) - он говорит, что стохастический градиент по норме не слишком сильно отклоняется от истинного.В чем проблема данной статьи, на мой взгляд?Мне кажется, что авторы зашли не с того угла. Во-первых, в их случае (а явно этого не прописано) константа ограничивающая разброс из предположения явно никак не оценивается, по крайней мере я не нашел в статье этого.Во-вторых, и что более проблемно, существует E-SG (см.картинку 3). E-SG является более сильным условием, чем они предлагают в своем предположении. Более того, они неявно приближают обусловленность своей задачи к E-SG сценарию, так как несонаправленные градиенты начинают зануляться с большей вероятностью - очевидно, что разброс становится меньше. В-третьих, уже есть методы для достижения E-SG, в частности адаптивный батчинг, в частности для случаев когда мы близки к решению - AdLoCo, который я предложил в своей последней статье.Безусловно, научный вклад у статьи есть - с вычислительной точки зрения (если не смотреть другие аспекты по типу распределенного обучения, где AdLoCo побьет их) это более простой метод, и он очень хорошо рассмотрен с точки зрения взаимодействия со спецификой трансформеров.Не знаю, может написать им, спросить?Если вы со мной не согласны, то пишите в комментариях - подискутируем. Может быть я тупой и что-то не понял :)Ссылка на статью
ML-легушька
@BDataScienceM · 3.6K подписчиков
Посты канала ML-легушька в SillyFeed: единая лента публичных Telegram-каналов со ссылками на оригиналы.
Гений, стартапер, плейбой, филантропДля связи:@MLfroge
Посты канала
Kindly reminder: питон, как и плюсы, захватывает значения в лямбда-функциях по ссылке, а не по значению.Наткнулся на эту особенность снова спустя 1.5 года. Сейчас раздебажил за 5 минут, но расскажу и вам.Все мы знаем, как выглядит синтаксис лямбда-функций: lambda arg1, arg2, ... : do_somethingОднако, если внутри do_something используется что-то, объявленное вне аргументов ф-ии, например в таком сценарии:funcs = []for i in range(10): funcs.append(lambda x: x[i])То значение i используется по ссылке! То есть все ф-ии в funcs будут выдавать 9-ый элемент массива xЧтобы избежать такой проблемы, захватите отдельно этот аргумент вот так:funcs = []for i in range(10): funcs.append(lambda x, i=i: x[i])Лягушка вернется завтра с еще одним фактом.
Школа имени Б.Т.Поляка. Очень классное мероприятие. Я в целом доволен поездкой.Жаль, что не все интересные мне доклады удалось посетить, но работа не волк, работа это ворк)Было много классных лекций, наиболее мне понравились следующие:1. Иван Оселедец рассказывал про оптимизацию с помощью моделей, это можно сказать «имитационное моделирование» поведения оптимизаторов, один из новых подходов для решения задач дискретной оптимизации с помощью ML.2. Александр Тюрин, распределенная оптимизация. Часть доклада я уже хорошо знал с ICOMP и рассказа Питера Рихтарика, но было глубокое погружение в детали. Теперь я представляю как строятся нижние оценки для оптимизационных методов (до этого лишь в общих чертах). 3. Владимир Спокойный, байесовская статистика для объяснения хорошей генерализации нейронных сетей, увы не пришел, но презентацию посмотрел и пообщался с лектором. 4. Дмитрий Яроцкий, относительно базовый (для тех, кто в целом знаком с итеративными матричными методами) доклад про билинейные задачи, очень приятный)5. Алексей Наумов, бутстрэп-методы для градиентного спуска. Тоже не был, по презентации выглядит интересно, но надо разботать. Еще были тусовки почти каждый день с людьми из оптимизации, более крутыми, чем я, дает мотивацию на Сириус. Единственный минус - кровати. Очень дискомфортно было на них спать, в следующий раз возьму свою ортопедическую подушку.Все презентации есть на сайте: https://ssopt.org
Ещё по теме «Технологии»
ТехнологииПаки и пакиКогда нейросекты научатся правильно рисовать военную форму - вот тогда я скажу, что они угроза человечеству. А пока она генерирует этот ржач и ужас и радость военного патруля - то она останется потешным дурачком-компилятором, на позор всем умным и добрым людям.
Я помню, когда интернет был более прикольным местом. Когда можно было делать контент не для того, чтобы приводить лидов, наращивать аудиторию и оптимизировать страницу по ключевикам. Естественно, это можно делать и сейчас, я просто включил старого брюзгу. Пока на свете есть аккаунт чувака, который сварил 394 сосиски, чтобы из полученной воды сделать ледяные скульптуры для друзей и знакомых, я спокоен.Но мне нравился и интернет прошлого! Мне нравилось, что в фейсбук можно было писать посты для лолзов и видеть, как какие-то серьезные, в общем-то, люди приходят комментировать, и это не провоцирует очередной виток усталого никому не нужного срача, где никто никогда не придет к общему знаменателю. Или когда в инстаграме можно было поставить фильтр на фотку, и это было модно и клево, и не нужно было думать, как превратить это в сторис и рилс, который вовлекает аудиторию из моих четырехсот подписчиков и вовлекает 10% из них (куда? зачем? во что?).«В интернете никто ничего не помнит», — любили повторять у нас в редакции. Ну или я любил. Кто сейчас вспомнит? А потому что интернет реально уже ничего не помнит. Мы с Олегом и Никитой писали статью для издания The Village про русский Комик-Кон. Писали в выходные в редакции другого издания («Арзамас»), смеялись и ели чипсики. Вот где эта статья теперь? Даже Wayback Machine не поможет, только я все помню. Там была фраза: «Очередь на Комик-Кон похожа на высадку в Афганистан». Какой-то комментатор написал к ней там внизу в духе: «Вы че, с ума сошли, там сколько наших парней полегло». Кстати о духе. Вот Юрий Сапрыкин писал раньше колонки «О духе времени», и многие прям ждали, что же там такого будет написано. А другой Юрий Сапрыкин, племянник, пришел к нам стажером, и мы говорим: «О, Юр, а давай ты тоже напишешь нам колонку о духе времени, ыть-ать, смешно же будет, приколись, а?». И он написал. А у Сапрыкина-старшего был пост на эту тему, куда, значит, все умные люди пришли выразить свое мнение по этому поводу. А Лёша и Ульяна наши просто написали «говнарь». Вот норм же было! Кто-то верно заметил, что тот пост набрал больше просмотров, чем сам сайт ВОС за день.
Как математика помогает смартфону понимать ваше лицоВы смотрите на экран смартфона — и он мгновенно узнаёт вас. Без паролей, отпечатков пальцев или лишних движений. Кажется магией, но за этим стоит чистая математика: от линейной алгебры до нейросетей.🧐Лицо как набор чиселСмартфон не "видит" ваше лицо, как человек. Для него вы — набор данных, или вектор признаков. Камера фиксирует ключевые точки: расстояние между глазами, форму подбородка, изгиб губ, текстуру кожи. Эти точки — от 80 до тысяч в продвинутых системах — преобразуются в числовую модель, включающую не только геометрию, но и более сложные характеристики, такие как интенсивность пикселей или результаты обработки нейросетями.😵💫Алгоритм узнавания: математика похожестиСравнение лица с эталоном — это задача линейной алгебры и теории вероятностей. Алгоритм вычисляет, насколько текущий вектор лица близок к сохранённому шаблону, используя метрики, такие как евклидово расстояние или косинусное сходство. Если различие ниже определённого порога (который зависит от системы и условий), смартфон решает: "Это вы". По сути, он отвечает на вопрос: "Какова вероятность, что это то же лицо, несмотря на разное освещение, угол или выражение?"🙄Почему он не путает вас с фотоРанние системы распознавания лиц обманывали фотографиями, но теперь смартфоны используют 3D-моделирование. Технологии, такие как структурированный свет (проецирование точек на лицо) или времяпролётные камеры (ToF), создают трёхмерную карту лица. Они фиксируют глубину, микродвижения кожи (например, моргание или пульс) и отражения света. Если объёма нет, смартфон понимает, что перед ним плоское изображение, а не человек.😁Математика эмоцийДаже ваша улыбка — это формула. Нейросети, обученные на системах вроде Facial Action Coding System (FACS), анализируют движения лицевых мышц, чтобы понять эмоции. Они знают, как меняется геометрия лица, когда вы смеётесь, хмуритесь или чихаете. Это позволяет смартфону узнавать вас, даже если вы кривляетесь или выглядите не совсем обычно.🫣Вероятности и ошибкиСистема никогда не говорит: "Это точно вы". Она оценивает вероятность, например, 99,99%, что это ваше лицо. Оставшиеся 0,01% — на случай близнецов, плохого света, сильного макияжа или того утра, когда вы явно не похожи на себя. Ошибки случаются, особенно если обучающие данные нейросети не включали достаточно разнообразных лиц — например, с разными типами кожи или чертами.🧐Роль машинного обученияНейросети, такие как свёрточные нейронные сети (CNN), обучаются на миллионах изображений лиц, чтобы находить закономерности. Они используют функции потерь и градиентный спуск, чтобы минимизировать ошибки и выделять ключевые признаки — от контура бровей до текстуры кожи. Это сложная математика, которая делает технологию почти "человечной".❓Когда числа становятся узнаваемымиСухие числа — координаты, углы, текстуры — складываются в вашу уникальную личность. Математика, лишённая эмоций, позволяет смартфону узнать вас по одному взгляду. Мой смартфон не думает и не чувствует, он просто мастерски считает. Линейная алгебра, вероятности и нейросети превращают моё лицо в числа, а числа — в узнавание. Так математика делает то, что раньше казалось исключительно человеческим: видит меня таким, какой я есть.
Райффайзенбанк (но это неточно) #sql-- SQL задача: вывести список сотрудников,-- получающих заработную плату больше чем у непосредственного руководителя<EMPLOYEE>ID NUMBER [PK]DEPARTMENT_ID NUMBER [FK1] CHIEF_ID NUMBER [FK2]NAME VARCHAR2(198)SALARY NUMBER#raif | Прислать задачу | Подписаться
Nanny-state-ом называют чрезмерно заботливые государства, которые стремятся объяснить «глупым» гражданам, чего именно они хотят. В нашей культурной среде есть ещё образ «Железной Няни» (да, из Смешариков), который добавляет к этой метафоре технологический слой. Я бы добавил ещё один — возрастной. «Железная Бабушка» — вот это уже актуально и для Китая, и для ЕС, и для постсоветского пространства.«Старение элит» — моя главная гипотеза, почему в 2020-х мы увидели столько разных государств, предпринимающих примерно одно и то же — контроль интернета. Эти элиты — плоть от плоти доцифровой эпохи. Пожертвовать какими-то сетевыми свободами ради безопасности «внуков» для них так же естественно, как для вашей бабушки — волноваться, что вы слишком много сидите в телефоне.Обычным людям, не входящим в властные цепочки (для которых всегда найдётся исключение), и не преступникам (эти естественным отбором найдут лазейки), остаётся лишь тихий саботаж контроля — отвоёвывание пространства свободы внутри киберпространства. Но тут возникает другая проблема: без технических знаний это действительно сложно. Хочешь поставить простой VPN, чтобы обходить блокировки? Придётся полностью доверять провайдеру и — что ещё сложнее — его технической и организационной компетенции. Потому что через пару лет может выясниться, что это был honeypot для сбора списков любителей запрещённой информации.📎 Tor — https://www.torproject.orgПроверено временем. Можно установить Tor Browser, можно открыть приватную вкладку с Tor в Brave, есть Orbot для телефона. Если рядом вы увидите комментарии прожжённых privacy-freak'ов, что «не всё так однозначно», помните: это решение на голову выше любого частного VPN. А если включить *obfs4*, трафик будет ещё и неплохо обфусцирован. Если дождаться, когда новый «Tor VPN» выйдет из беты, то каждое приложение сможет иметь свою цепочку анонимизации и отдельную обфускацию, что усложнит отслеживание на порядки.📎 Nym — https://nym.com/Главная проблема почти всех технологий приватности — метаданные. Возьмём, к примеру, Signal: мы должны доверять, что он не сохраняет социальный граф и не передаёт его третьим лицам. Это лучше, чем Telegram (где мы вообще верим Паше на слово), но всё равно не идеально. Mixnet — это попытка решить проблему через перемешивание всех пакетов внутри сети. Это не бесплатно: мы расплачиваемся скоростью, но, на мой взгляд, это самое важное направление из всех, ведь ни одно другое решение, которое мне известно, даже не стремится к полному trustless-подходу.📎 Briar — https://briarproject.orgКогда я думаю о тысячах политических организаций по всему миру, находящихся под прицелом госструктур, но координирующихся через Telegram или WhatsApp — мне становится плохо. Я начинаю задумываться, насколько далеко криптографически выверенные решения от людей, для которых они создаются. Но спасибо нашему времени — оно, похоже, скоро всем объяснит, почему нужно быть аккуратнее. Поэтому рекомендую своего фаворита — мессенджер, который гораздо продвинутее недавней «подделки Дорси», прокатившейся по новостям.У нас тут p2p (Bluetooth, Wi-Fi, Tor), у нас e2e-шифрование, групповые чаты и даже каналы!ЗаключениеЯ не согласен с распространённым мнением о «смерти приватности». Просто раньше она была доступна каждому, а теперь это скорее роскошь для энтузиастов. Но с ростом давления таких энтузиастов становится всё больше, а порог входа — всё ниже. Поэтому «Железная Бабушка» — это одновременно и проблема, и возможность. Если завтра в ЕС проголосуют за запрет e2e-шифрования, то уже через пару лет многие осознают, насколько важно, чтобы их переписку не читал ни майор, ни жандарм, ни гауптман.
🔬Лазер против сорняков: технологии устойчивого земледелия🌾Современное сельское хозяйство стремится минимизировать химическую и механическую нагрузку на почву. Один из ключевых примеров — система LaserWeeder G2 от Carbon Robotics.Используя искусственный интеллект, компьютерное зрение и лазеры, она распознаёт и уничтожает сорняки с миллиметровой точностью — до 600 000 за час.🧪Такой подход снижает применение гербицидов и ручного труда, уменьшает энергозатраты и предотвращает деградацию почв.По данным производителя, использование технологии позволяет сократить затраты на борьбу с сорняками до 80%, делая производство более устойчивым и безопасным для экосистем.🌱Развитие подобных решений показывает, как цифровизация и точное земледелие становятся инструментами экологической модернизации агросектора.
«Через 5–10 лет профессия разработчик — умрёт!»Такой панч вчера уронил Витя Тарнавский, и зал полный айтишников тяжело вздохнул.Потом мы обсудили скорость и прогноз. Пу-пу-пууууещё заметки:• Автоматизация — не цель.Главное не автоматизировать, а ускоряться. • Не стоит автоматизировать всё подряд, особенно внешнюю коммуникацию — там всё ещё решают люди.• И не нужно создавать свои модели — важнее понимать, как с ними работать.выживут не умные, а гибкие 🥸
Анимация для проекта ТОЧКА ОПОРЫИногда один образ может сказать больше, чем слова. Эта стеклянная бабочка - часть визуальной метафоры проекта "Точка опоры". Она рождается в темноте, среди холодных отражений пещеры - и движется к свету.Чтобы нейросеть точнее поняла, какую анимацию нужно сделать, я смоделировал бабочку в 3D (рендер в комментариях), и с помощью нейросети сначала поместил ее в пещеру и потом заанимировал. Полностью 3D анимации тоже есть, но их увидят только участники самого проекта.🔗 МОИ УСЛУГИ💰 Продажа подписок Chat GPT Plus, Veo3 и т.д.✏️Личка @APTdesign#видео #нейросеть #нейросети #AI #ИИ #3D #cgi #animation #анимация #motiondesign #design #дизайн #медитация #психолог
PLUM: Adapting Pre-trained Language Models for Industrial-scale Generative Recommendations.А вот и обещанная новая статья про семантические айдишники от Google. Много подробностей про то, как подружить LLM и рекомендательные системы; на примере прода Ютуба.1. Улучшили семантические айдишники:* теперь семантический энкодер принимает на вход не единое векторное представление айтема, а “мультимодальное” — несколько векторов, соответствующих разным контентным сигналам (модальностям), e.g. отдельный вектор для названия, описания, видео и тд (здесь конкретики по модальностям нет, я чуть фантазирую)* multi-resolution codebook — раньше у них был один общий кодбук на все шаги генерации семантических айдишников. Теперь утверждают, что на каждом новом шагу генерации нужно кодировать “остаточную” энтропию с прошлых шагов, поэтому можно на каждом уровне уменьшать размер используемого кодбука* progressive masking — при обучении RQ-VAE случайным образом маскируют хвост семантических айдишников, то есть больше фокусируются на ранних уровнях айдишников. Утверждают, что таким образом форсится более сильная иерархичность айдишников * добавили contrastive learning на со-встречаемость айтемов — сближают айтемы, которые встречаются рядом в истории пользователя. То есть теперь при обучении RQ-VAE учитывается коллаборативный сигнал 2. Описали CPT (continuous pre-training) стадию:* стартуют с предобученной LLM (Gemini)* половину датасета строят из behavioral данных — последовательностей просмотров пользователей (и, видимо, предсказывают следующий просмотр)* вторую половину — из метаданных айтемов (задачи а-ля ‘У видео <sid> следующее название: <название>’) * по мере обучения смотрят и как растет качество рекомендаций (первая задача), и насколько хорошо модель восстанавливает метаданные (вторая задача), и как сильно деградируют способности естественного языка модели 3. Есть и третья, SFT (supervised fine-tuning) стадия:* подают на вход модели watch history | user features | context features* учат ее в ответ генерировать семантические айдишники нужного айтема * учатся не на всех айтемах, а как-то сэмплируют их исходя из награды (фидбека пользователя), и еще взвешивают лосс на этот фидбек4. Про прод:* используют модель для генерации кандидатов * используют beam search; говорят, что он по качеству лучше чем случайное декодирование, но теряет в разнообразии (логично)* модель дообучают; говорят, что модель гораздо более sample efficient, чем их прошлое поколение — ежедневно используют для дообучения 250 млн сэмплов, когда прошлые модели использовали миллиарды* длина контекста — 1500 токенов, что примерно соответствует сотне последних просмотров пользователя* в A/B тесте добавили свою модель как новый источник кандидатов, сравниваются с контролем, в котором увеличили количество кандидатов (чтобы оно было равное в обеих группах) — показывают приросты по метрикам и для шортсов, и для обычных YouTube видеороликов* их прошлая флагманская продовая модель — трансформер над историей пользователя. Когда ее упоминают, ссылаются на Top-K REINFORCE работу (в которой был RNN-based генератор кандидатов) Что еще могу выделить:* проверили скейлинг модели, но по-умному — зафиксировали бюджет на compute и смотрели какого размера модель выгодней взять; получилось, что 900M выгодней 3B* инициализация модели с LLM-чекпойнта (с Gemini) докидывает не очень много качества. НО: добавляет few-shot способности — в конце статьи есть пара примеров, когда модель отвечает на вопросы, на которые ее не учили, в стиле “а какая тема у <sid>”. Модель без LLM претрейна такое не умеет* в related work цитируют OneRec как пример работы с семантическими айдишниками * длина истории конечно все еще очень маленькая, 100 событий. Это подозрительно. Я на RecSys подходил и спрашивал про это, Lichan Hong ответил что-то типа “у нас есть модели и с большой длиной истории”. Но статьи они что-то про них не пишут :)
Поговорили прекрасно про искусственный интеллект. Неожиданно в фокусе оказалось целеполагание бизнеса (этика или прибыль в моменте) и неочевидность преимущества сотрудников-людей по сравнению с сотрудником-ИИ. Также обсудили парадокс каравелл, рассказы Шекли, анекдот про рыбалку в сумасшедшем доме, уничтожение ИИ фондового рынка, избыточное потребление, галлюцинируют ли люди с точки зрения ИИ и прочее интересное. Секция огонь. И да, искусственный интеллект всех уравняет. Прекрасное фото от @Liudmila_Presniakova