SILLYFEED
Открыть канал в Telegram

Посты канала Ra'Reilly - Заметки про Ktor и не только в SillyFeed: единая лента публичных Telegram-каналов со ссылками на оригиналы.

Раз в никогда тут появляются заметки.В основном про около-Ktor, но иногда и про тулинг залетает.Автор:@osipxd

Посты канала

Ещё по теме «Технологии»

Технологии
Знаменатель - Олимпиадная математика
Как математика помогает смартфону понимать ваше лицоВы смотрите на экран смартфона — и он мгновенно узнаёт вас. Без паролей, отпечатков пальцев или лишних движений. Кажется магией, но за этим стоит чистая математика: от линейной алгебры до нейросетей.🧐Лицо как набор чиселСмартфон не "видит" ваше лицо, как человек. Для него вы — набор данных, или вектор признаков. Камера фиксирует ключевые точки: расстояние между глазами, форму подбородка, изгиб губ, текстуру кожи. Эти точки — от 80 до тысяч в продвинутых системах — преобразуются в числовую модель, включающую не только геометрию, но и более сложные характеристики, такие как интенсивность пикселей или результаты обработки нейросетями.😵‍💫Алгоритм узнавания: математика похожестиСравнение лица с эталоном — это задача линейной алгебры и теории вероятностей. Алгоритм вычисляет, насколько текущий вектор лица близок к сохранённому шаблону, используя метрики, такие как евклидово расстояние или косинусное сходство. Если различие ниже определённого порога (который зависит от системы и условий), смартфон решает: "Это вы". По сути, он отвечает на вопрос: "Какова вероятность, что это то же лицо, несмотря на разное освещение, угол или выражение?"🙄Почему он не путает вас с фотоРанние системы распознавания лиц обманывали фотографиями, но теперь смартфоны используют 3D-моделирование. Технологии, такие как структурированный свет (проецирование точек на лицо) или времяпролётные камеры (ToF), создают трёхмерную карту лица. Они фиксируют глубину, микродвижения кожи (например, моргание или пульс) и отражения света. Если объёма нет, смартфон понимает, что перед ним плоское изображение, а не человек.😁Математика эмоцийДаже ваша улыбка — это формула. Нейросети, обученные на системах вроде Facial Action Coding System (FACS), анализируют движения лицевых мышц, чтобы понять эмоции. Они знают, как меняется геометрия лица, когда вы смеётесь, хмуритесь или чихаете. Это позволяет смартфону узнавать вас, даже если вы кривляетесь или выглядите не совсем обычно.🫣Вероятности и ошибкиСистема никогда не говорит: "Это точно вы". Она оценивает вероятность, например, 99,99%, что это ваше лицо. Оставшиеся 0,01% — на случай близнецов, плохого света, сильного макияжа или того утра, когда вы явно не похожи на себя. Ошибки случаются, особенно если обучающие данные нейросети не включали достаточно разнообразных лиц — например, с разными типами кожи или чертами.🧐Роль машинного обученияНейросети, такие как свёрточные нейронные сети (CNN), обучаются на миллионах изображений лиц, чтобы находить закономерности. Они используют функции потерь и градиентный спуск, чтобы минимизировать ошибки и выделять ключевые признаки — от контура бровей до текстуры кожи. Это сложная математика, которая делает технологию почти "человечной".❓Когда числа становятся узнаваемымиСухие числа — координаты, углы, текстуры — складываются в вашу уникальную личность. Математика, лишённая эмоций, позволяет смартфону узнать вас по одному взгляду. Мой смартфон не думает и не чувствует, он просто мастерски считает. Линейная алгебра, вероятности и нейросети превращают моё лицо в числа, а числа — в узнавание. Так математика делает то, что раньше казалось исключительно человеческим: видит меня таким, какой я есть.
Реальные задачи с собеседований | Java
Райффайзенбанк (но это неточно) #sql-- SQL задача: вывести список сотрудников,-- получающих заработную плату больше чем у непосредственного руководителя<EMPLOYEE>ID NUMBER [PK]DEPARTMENT_ID NUMBER [FK1] CHIEF_ID NUMBER [FK2]NAME VARCHAR2(198)SALARY NUMBER#raif | Прислать задачу | Подписаться
Шифрозмий
Nanny-state-ом называют чрезмерно заботливые государства, которые стремятся объяснить «глупым» гражданам, чего именно они хотят. В нашей культурной среде есть ещё образ «Железной Няни» (да, из Смешариков), который добавляет к этой метафоре технологический слой. Я бы добавил ещё один — возрастной. «Железная Бабушка» — вот это уже актуально и для Китая, и для ЕС, и для постсоветского пространства.«Старение элит» — моя главная гипотеза, почему в 2020-х мы увидели столько разных государств, предпринимающих примерно одно и то же — контроль интернета. Эти элиты — плоть от плоти доцифровой эпохи. Пожертвовать какими-то сетевыми свободами ради безопасности «внуков» для них так же естественно, как для вашей бабушки — волноваться, что вы слишком много сидите в телефоне.Обычным людям, не входящим в властные цепочки (для которых всегда найдётся исключение), и не преступникам (эти естественным отбором найдут лазейки), остаётся лишь тихий саботаж контроля — отвоёвывание пространства свободы внутри киберпространства. Но тут возникает другая проблема: без технических знаний это действительно сложно. Хочешь поставить простой VPN, чтобы обходить блокировки? Придётся полностью доверять провайдеру и — что ещё сложнее — его технической и организационной компетенции. Потому что через пару лет может выясниться, что это был honeypot для сбора списков любителей запрещённой информации.📎 Tor — https://www.torproject.orgПроверено временем. Можно установить Tor Browser, можно открыть приватную вкладку с Tor в Brave, есть Orbot для телефона. Если рядом вы увидите комментарии прожжённых privacy-freak'ов, что «не всё так однозначно», помните: это решение на голову выше любого частного VPN. А если включить *obfs4*, трафик будет ещё и неплохо обфусцирован. Если дождаться, когда новый «Tor VPN» выйдет из беты, то каждое приложение сможет иметь свою цепочку анонимизации и отдельную обфускацию, что усложнит отслеживание на порядки.📎 Nym — https://nym.com/Главная проблема почти всех технологий приватности — метаданные. Возьмём, к примеру, Signal: мы должны доверять, что он не сохраняет социальный граф и не передаёт его третьим лицам. Это лучше, чем Telegram (где мы вообще верим Паше на слово), но всё равно не идеально. Mixnet — это попытка решить проблему через перемешивание всех пакетов внутри сети. Это не бесплатно: мы расплачиваемся скоростью, но, на мой взгляд, это самое важное направление из всех, ведь ни одно другое решение, которое мне известно, даже не стремится к полному trustless-подходу.📎 Briar — https://briarproject.orgКогда я думаю о тысячах политических организаций по всему миру, находящихся под прицелом госструктур, но координирующихся через Telegram или WhatsApp — мне становится плохо. Я начинаю задумываться, насколько далеко криптографически выверенные решения от людей, для которых они создаются. Но спасибо нашему времени — оно, похоже, скоро всем объяснит, почему нужно быть аккуратнее. Поэтому рекомендую своего фаворита — мессенджер, который гораздо продвинутее недавней «подделки Дорси», прокатившейся по новостям.У нас тут p2p (Bluetooth, Wi-Fi, Tor), у нас e2e-шифрование, групповые чаты и даже каналы!ЗаключениеЯ не согласен с распространённым мнением о «смерти приватности». Просто раньше она была доступна каждому, а теперь это скорее роскошь для энтузиастов. Но с ростом давления таких энтузиастов становится всё больше, а порог входа — всё ниже. Поэтому «Железная Бабушка» — это одновременно и проблема, и возможность. Если завтра в ЕС проголосуют за запрет e2e-шифрования, то уже через пару лет многие осознают, насколько важно, чтобы их переписку не читал ни майор, ни жандарм, ни гауптман.
Экология на пальцах
🔬Лазер против сорняков: технологии устойчивого земледелия🌾Современное сельское хозяйство стремится минимизировать химическую и механическую нагрузку на почву. Один из ключевых примеров — система LaserWeeder G2 от Carbon Robotics.Используя искусственный интеллект, компьютерное зрение и лазеры, она распознаёт и уничтожает сорняки с миллиметровой точностью — до 600 000 за час.🧪Такой подход снижает применение гербицидов и ручного труда, уменьшает энергозатраты и предотвращает деградацию почв.По данным производителя, использование технологии позволяет сократить затраты на борьбу с сорняками до 80%, делая производство более устойчивым и безопасным для экосистем.🌱Развитие подобных решений показывает, как цифровизация и точное земледелие становятся инструментами экологической модернизации агросектора.
сео в тапочках
«Через 5–10 лет профессия разработчик — умрёт!»Такой панч вчера уронил Витя Тарнавский, и зал полный айтишников тяжело вздохнул.Потом мы обсудили скорость и прогноз. Пу-пу-пууууещё заметки:• Автоматизация — не цель.Главное не автоматизировать, а ускоряться. • Не стоит автоматизировать всё подряд, особенно внешнюю коммуникацию — там всё ещё решают люди.• И не нужно создавать свои модели — важнее понимать, как с ними работать.выживут не умные, а гибкие 🥸
3D • 2D • Видео • VFX • Реклама для брендов • Анимация • Нейросети
Анимация для проекта ТОЧКА ОПОРЫИногда один образ может сказать больше, чем слова. Эта стеклянная бабочка - часть визуальной метафоры проекта "Точка опоры". Она рождается в темноте, среди холодных отражений пещеры - и движется к свету.Чтобы нейросеть точнее поняла, какую анимацию нужно сделать, я смоделировал бабочку в 3D (рендер в комментариях), и с помощью нейросети сначала поместил ее в пещеру и потом заанимировал. Полностью 3D анимации тоже есть, но их увидят только участники самого проекта.🔗 МОИ УСЛУГИ💰 Продажа подписок Chat GPT Plus, Veo3 и т.д.✏️Личка @APTdesign#видео #нейросеть #нейросети #AI #ИИ #3D #cgi #animation #анимация #motiondesign #design #дизайн #медитация #психолог
Information Retriever
PLUM: Adapting Pre-trained Language Models for Industrial-scale Generative Recommendations.А вот и обещанная новая статья про семантические айдишники от Google. Много подробностей про то, как подружить LLM и рекомендательные системы; на примере прода Ютуба.1. Улучшили семантические айдишники:* теперь семантический энкодер принимает на вход не единое векторное представление айтема, а “мультимодальное” — несколько векторов, соответствующих разным контентным сигналам (модальностям), e.g. отдельный вектор для названия, описания, видео и тд (здесь конкретики по модальностям нет, я чуть фантазирую)* multi-resolution codebook — раньше у них был один общий кодбук на все шаги генерации семантических айдишников. Теперь утверждают, что на каждом новом шагу генерации нужно кодировать “остаточную” энтропию с прошлых шагов, поэтому можно на каждом уровне уменьшать размер используемого кодбука* progressive masking — при обучении RQ-VAE случайным образом маскируют хвост семантических айдишников, то есть больше фокусируются на ранних уровнях айдишников. Утверждают, что таким образом форсится более сильная иерархичность айдишников * добавили contrastive learning на со-встречаемость айтемов — сближают айтемы, которые встречаются рядом в истории пользователя. То есть теперь при обучении RQ-VAE учитывается коллаборативный сигнал 2. Описали CPT (continuous pre-training) стадию:* стартуют с предобученной LLM (Gemini)* половину датасета строят из behavioral данных — последовательностей просмотров пользователей (и, видимо, предсказывают следующий просмотр)* вторую половину — из метаданных айтемов (задачи а-ля ‘У видео <sid> следующее название: <название>’) * по мере обучения смотрят и как растет качество рекомендаций (первая задача), и насколько хорошо модель восстанавливает метаданные (вторая задача), и как сильно деградируют способности естественного языка модели 3. Есть и третья, SFT (supervised fine-tuning) стадия:* подают на вход модели watch history | user features | context features* учат ее в ответ генерировать семантические айдишники нужного айтема * учатся не на всех айтемах, а как-то сэмплируют их исходя из награды (фидбека пользователя), и еще взвешивают лосс на этот фидбек4. Про прод:* используют модель для генерации кандидатов * используют beam search; говорят, что он по качеству лучше чем случайное декодирование, но теряет в разнообразии (логично)* модель дообучают; говорят, что модель гораздо более sample efficient, чем их прошлое поколение — ежедневно используют для дообучения 250 млн сэмплов, когда прошлые модели использовали миллиарды* длина контекста — 1500 токенов, что примерно соответствует сотне последних просмотров пользователя* в A/B тесте добавили свою модель как новый источник кандидатов, сравниваются с контролем, в котором увеличили количество кандидатов (чтобы оно было равное в обеих группах) — показывают приросты по метрикам и для шортсов, и для обычных YouTube видеороликов* их прошлая флагманская продовая модель — трансформер над историей пользователя. Когда ее упоминают, ссылаются на Top-K REINFORCE работу (в которой был RNN-based генератор кандидатов) Что еще могу выделить:* проверили скейлинг модели, но по-умному — зафиксировали бюджет на compute и смотрели какого размера модель выгодней взять; получилось, что 900M выгодней 3B* инициализация модели с LLM-чекпойнта (с Gemini) докидывает не очень много качества. НО: добавляет few-shot способности — в конце статьи есть пара примеров, когда модель отвечает на вопросы, на которые ее не учили, в стиле “а какая тема у <sid>”. Модель без LLM претрейна такое не умеет* в related work цитируют OneRec как пример работы с семантическими айдишниками * длина истории конечно все еще очень маленькая, 100 событий. Это подозрительно. Я на RecSys подходил и спрашивал про это, Lichan Hong ответил что-то типа “у нас есть модели и с большой длиной истории”. Но статьи они что-то про них не пишут :)
Записки на рукавах
Поговорили прекрасно про искусственный интеллект. Неожиданно в фокусе оказалось целеполагание бизнеса (этика или прибыль в моменте) и неочевидность преимущества сотрудников-людей по сравнению с сотрудником-ИИ. Также обсудили парадокс каравелл, рассказы Шекли, анекдот про рыбалку в сумасшедшем доме, уничтожение ИИ фондового рынка, избыточное потребление, галлюцинируют ли люди с точки зрения ИИ и прочее интересное. Секция огонь. И да, искусственный интеллект всех уравняет. Прекрасное фото от @Liudmila_Presniakova
Билдер-хуилдер
Вместо ИТ-курсов, похоже, пора открывать курсы курьеров и таксистов."Пройди курс курьера и получи уверенность в завтрашнем дне. Гарантированная стажировка, трудоустройство лучшим выпускникам!"https://vc.ru/hr/2264116-sber-sokrashchaet-it-spetsialistov-iz-za-optimizatsii-i-vnedreniya-ii
Грустный Киберпанк
ЦОД с «самым большим машинным залом в России» все-таки запустят — возведением дата-центра «Юрловский» занимаются уже три года. Сперва сроки сдвинулись из-за поиска замены ушедшим поставщикам, а затем сообщили, что в 2025 году «Юрловский» не особо-то и был нужен: для удовлетворения спроса оказалось достаточным уплотнить уже имеющиеся площадки в Москве и Петербурге.ЦОД «Юрловский», входящий в сеть Selectel, рассчитан на 1 тыс. серверных стоек, мощность составляет 10 мегаватт. «Юрловский» анонсировали еще в мае 2022 года — фирма заявляла, что машинный зал нового дата-центра станет крупнейшим в России, с площадью в 4,5 тыс. кв. метров. При этом рассчитывалось, что в него поместятся 2 тысячи серверных стоек. Завершить строительство планировали в 2023 году, но планы менялись:«Большинство операторов дата-центров были вынуждены скорректировать сроки запуска новых площадей по причине изменения рынка поставщиков оборудования ЦОД и увеличенного логистического плеча. Если раньше мы работали с проверенными временем поставщиками, то сегодня на рынок вышли новые игроки, и требовалось время на изучение их предложения». Сложно сказать, остается ли «Юровский» крупнейшим дата-центром — ЦОД «Москва-2» Росатома, который сдали в 2024 году, рассчитан на 3,6 тыс. стойко-мест. Еще сложнее сказать, каков будет спрос на такие услуги в ближайшее время.С одной стороны, еще год назад рынок размещения оборудования в российских ЦОДах имел рост с темпами более 15%, но сейчас он существенно просел. По подсчетам аналитиков, количество новых стойко-мест в дата-центрах к концу 2025 года составит 4,6 тыс. стоек. Еще в 2024 году прирост составлял 10,9 тыс. стоек. Рынок остывает, а мощностей при этом не хватает. По подсчетам iKS-Consulting, все площадки, введенные в эксплуатацию в 2023–2024 годах, к Q1 2025-го уже были арендованы, следом подскочили и цены на услуги размещения оборудования на 31,4% за год в Москве. Учитывая, что 80–85% всех дата-центров РФ сосредоточены в Москве и Питере, картина довольно сложная.upd.Selectel пояснил: «Юрловский» и будет на 2 тыс. стойко-мест и 20 МВт, как и планировалось — к концу 2025 года сдадут только первую очередь. Также уточнили, что крупнейшим ЦОД считают не по числу стойко-мест, а из-за устройства — будет единый машинный зал на фрикулинге. По поводу того, как там дела обстоят со спросом, тоже обозначили — ЦОД в основном будет устроен под выделенные сервера, облако, PaaS, а не под колокейшен. В спросе на эти сегменты в компании не сомневаются.