SILLYFEED

DevOps и инфраструктура — страница 8

Лента темы

Павел Шерер
Риски невидимых зависимостей.Ваш продукт могут убить не конкуренты, регулятор или хреновая юнит-экономика. Убить его может маленькая, тихая, никому не интересная интеграция. Та самая «мелочь», которую команда обычно добавляет вообще без обсуждений.Я часто говорю о рисках интеграций, настало время привести несколько примеров.Google Fonts в Китае, 2014–2015.
Когда в Китае начали активно блокировать Google CDN, сайты, построенные на красивых веб-шрифтах, превратились в визуальную катастрофу. Текст обрушивался в дефолтные fallback-шрифты, где ломалась иерархия, исчезали акценты, рушился tone of voice бренда. Продукт формально работал, но доверие и «фейс» компании сыпались прямо на глазах.
Падение Stripe, сентябрь 2022.
Сбой в инфраструктуре платежного гиганта парализовал обработку транзакций по всему миру. Тысячи стартапов и e-commerce-площадок лишились выручки в течение нескольких часов. Для конечных пользователей звучало просто: «карта не проходит». Для бизнеса это означало потерянный оборот, сбитые метрики и лавина тикетов в поддержку.
GitHub Actions, ноябрь 2020.
Инфраструктура автоматизации упала почти на сутки. Команды, полностью завязанные на CI/CD через GitHub, встали: код не собирался, тесты не прогонялись, релизы зависали. Многие команды в спешке начали подключать Jenkins или GitLab CI, теряя дни и недели на переключение. Кто-то сорвал контракты, потому что «не смог выкатиться в срок».
Amazon S3 outage, февраль 2017.
Один из крупнейших кейсов в истории облаков. Из-за ошибки при отладке команда AWS положила S3 в регионе US-East-1. На несколько часов часть интернета превратилась в неоткрываемое говно: Slack, Quora, Trello, Guardian, Imgur и сотни других сервисов. Самое смешное, что даже статус-дашборд AWS перестал работать, потому что его изображения хранились в том же S3.
Все эти истории объединяет одно: маленькая внешняя зависимость может обрушить огромный бизнес.Что делать, чтобы этого не допустить?1. Фиксируйте карту зависимостей. Это должен быть прям отдельный сквозной артефакт.2. Имейте альтернативы. Если один смс-шлюз сдох, вы должны мгновенно перейти на другой.3. Проверяйте продукт на «обрыв проводов». В E2E-тестировании проходитесь не только по базовым сценариям.4. Планируйте так, будто чужой сервис точно однажды упадёт.Потому что упадёт.
Мысли программиста / TeaCoder
⚙️ Расшифровка популярных облачных и платформенных моделейПодборка самых известных сокращений в IT с расшифровкой и простым объяснением, как они работают и где применяются:💻 SaaS — Software as a Service — готовое облачное программное обеспечение, которым можно пользоваться через интернет по подписке. Пример: Trello, Notion.⛏ PaaS — Platform as a Service — облачная платформа для разработки, тестирования и запуска приложений. Пример: Heroku, Vercel.💭 IaaS — Infrastructure as a Service — аренда виртуальной инфраструктуры: серверов, хранилищ, сетей. Пример: Google Compute Engine, DigitalOcean.🔧 BaaS — Backend as a Service — готовый бэкенд с аутентификацией, базой данных и API, чтобы вы могли быстро подключить серверную часть к своему приложению. Пример: Firebase, Supabase.⚡️ FaaS — Function as a Service — модель, в которой вы загружаете отдельные функции, а платформа сама их запускает при необходимости и масштабирует. Пример: AWS Lambda.💻 DaaS — Desktop as a Service — удалённый рабочий стол в облаке, доступный с любого устройства. Пример: Amazon WorkSpaces.🧑‍🎓 LMS — Learning Management System — система для онлайн-обучения, где можно размещать курсы, тесты, отслеживать прогресс студентов. Пример: Udemy, Teachable.🗓️ CMS — Content Management System — система для управления контентом и создания сайтов без навыков программирования. Пример: WordPress, Strapi.🌐 CDN — Content Delivery Network — распределённая сеть серверов, ускоряющая доставку изображений, видео и других файлов пользователю. Пример: Cloudflare, Akamai.📊 DBaaS — Database as a Service — облачная база данных, где провайдер берёт на себя настройку, обновления и резервное копирование. Пример: MongoDB Atlas.🔥 Хотите ещё больше полезных материалов? Жмите огонёк и следите за новыми постами!#ПолезностиДляКодера
Русова о QA
Инструменты для тестирования производительностиВыбор инструмента для тестирования производительности зависит от конкретных задач, бюджета и технических требований проекта. Однако, я могу предложить вам несколько популярных и эффективных инструментов:1. Apache JMeterБесплатный, открытый исходный код, широко используемый для нагрузочного тестирования. Позволяет имитировать большие нагрузки на веб-серверы, базы данных и другие компоненты.Особенности: Гибкая конфигурация, богатый функционал, возможность записи сценариев.2. GatlingВысокопроизводительный инструмент для нагрузочного тестирования, основанный на Scala. Отличается высокой скоростью выполнения тестов и удобным DSL для написания сценариев.Особенности: Интуитивный интерфейс, масштабируемость, интеграция с CI/CD.3. k6Современный инструмент для нагрузочного тестирования, написанный на JavaScript. Легко интегрируется с другими инструментами DevOps и позволяет писать тесты с использованием знакомого языка программирования.Особенности: Удобный синтаксис, облачная платформа для запуска тестов, интеграция с Prometheus.4. LoadRunnerКоммерческий инструмент от Micro Focus, предлагающий широкий спектр функций для тестирования производительности. Позволяет моделировать различные пользовательские сценарии и анализировать результаты тестов.Особенности: Расширенные возможности анализа, поддержка различных протоколов, интеграция с другими инструментами.5. LocustЕще один популярный инструмент, написанный на Python. Отличается простотой использования и высокой производительностью.Особенности: Расширяемость с помощью плагинов, возможность распределенного тестирования.6. SiegeПростой и эффективный инструмент для нагрузочного тестирования HTTP-серверов. Отлично подходит для быстрого тестирования небольших приложений.Особенности: Легкий вес, высокая скорость, возможность параллельных запросов.7. WebLOADКоммерческий инструмент, предлагающий комплексное решение для тестирования производительности. Позволяет моделировать реальные пользовательские сценарии и анализировать производительность веб-приложений.Особенности: Визуальный интерфейс для создания тестов, интеграция с другими инструментами DevOps.
Игра в кости - DICE, SEO, Affiliate
Где размещать сайты под гемблу?Периодически пишут новички с совершенно разными вопросами, в частности про размещение сайтов. До сих пор многие особо не вдаваясь в нюансы, продолжают хоститься на ру-хостингах, типа регру. Давайте опять поднимем основной момент по вопросу размещения сайтов тематики онлайн-гемблинга - Абузоустойчивый хостинг. Обычно это по умолчанию размещение в Нидерландах (не искать компанию из страны, а именно заказывать сам сервак в Нидерландах). Я, к примеру, размещался на pq.hosting. Сейчас их купили (либо объединились) и называются the.hosting. Меня, как жителя РФ, автоматом перенесли на ufo.hosting - те же яйца, только в профиль. На ufo без проблем оплаты хоста всеми способами для жителей РФ. А хоститься так же можно в Нидерландах. Перед тем, как покупать какие-то услуги хостинга - напишите в техподдержку и уточните вопрос про абузы на сайты про онлайн-казино. Я так поступил при регистрации и меня отправили регистрировать хост на Нидерланды и сказали "больше не заморачиваться". И действительно, ни одного отключения сайтов, хотя висят сайты под совершенно разные страны, включая Великобританию. Рефка, если вдруг кто захочет зарегистрироваться и внести свою лепту в мой кошелёк)
Уехал - Охуел [эмигрирую и рефлексирую]
HighloadПровёл вчера 7 (семь!) часов подряд на одном созвоне. Последний раз такое было в Яндексе, только еще до удаленки, а просто в офисе с командой.Постоянно так жить, конечно, не хватит никаких сил и энергии, но как разовый подвиг можно.Зато, за эти семь часов заставили тачку из 8xH100 запотеть в полную силу, а там, на минуточку:- 640Gb видеопамяти- 135k CUDA ядер- 4k тензорных ядерИ всё это роскошество лежало с утилизацией в 100%, снижая нагрузку только на доли секунды, в моменте переключения задач внутри очереди.По дороге разобрался, как на огромных серверах разводятся ресурсы и доступ к ним – если коротко, то очень интересно.Интересно потому, что там:- Несколько сокетов с процессорами- Каждый серверный процессор, это на самом деле несколько гражданских процессоров под одной крышкой, и там они называются чиплеты- Каналы памяти и шины до GPU подведены к конкретным сокетамВсё это подводит нас к тому, что можно конечно дергать с любого ядра любую память/любой GPU, но... Если не проверить, что куда физически разведено, то один CPU может пойти в RAM/GPU от другого CPU, и это будет межпроцессорное взаимодействие, по объездной дороге, медленно.И всё вместе это называется NUMA (non-uniform memory access) – хотя на мой взгляд, этот термин не отражает всей полноты, так как это не только про память, но и про другие особенности архитектуры и шины.Обожаю, короче, колупаться в серваках и линуксах, да)))
Toxblч. Не только Linux
Добавил два диска, которые нашёл в ящиках в свой MS-01, немного увеличив возможности хранения. Но после запуска - ничего не работало, лампочки у сетевухи не моргали :(Оказалось проблема известная, но заставившая меня побегать, чтобы донести сервер до монитора. Суть банальная, при добавлении нового PCI устройства, в Linux съезжают имена сетевых интерфейсов и с каждым новым диском в системе, они уезжают всё дальше.Чинится так:ip -br link - смотрим какие сетевые у нас в наличииИ дальше обновить имена их /etc/network/interfaces, особенно важно обновить bridge-portsНу и после сохранения можно сразу проверить с помощью ifreload -aА побегать пришлось, потому что при загрузке Prox наоборот выключал сеть и vPro становился недоступен. Поймать такое поведение удалённо была бы просто жесть, дома как-то не так критично.#ms01@toxblh_linux
WillDay - эксперименты с сайтами и трафиком
🔍 Как хостинг влияет на скорость сайта? Наши замерыМы провели небольшое тестирование: проверили, как на одном и том же сайте на WordPress 6.5 (без изменений в коде) ведут себя разные хостинги и VDS, если замерять через Google Lighthouse.Тест длился неделю. Каждый день — новое измерение, один и тот же регион: Дальний Восток.Важно: это не реклама и не антиреклама. Просто делимся своими цифрами.📊 Что смотрели?FCP (First Contentful Paint) — первая отрисовка видимого контентаLCP (Largest Contentful Paint) — когда появляется основной блокTBT (Total Blocking Time) — как долго сайт «тормозит» после загрузкиCLS (Cumulative Layout Shift) — насколько дергается макетSpeed Index — насколько быстро появляется контент в целом. Общий Lighthouse Score. 💡 Что можно вынести:Самый быстрый старт (FCP) показал Beget (1.7 сек) и REG (1.8 сек).Это означает, что пользователь быстрее увидел первый контент. Но это не значит, что сайт был готов к взаимодействию.Самый короткий путь до основного контента (LCP) у Beget и Selectel. У Vultr — худший результат (5.4 сек), из-за чего он воспринимается как «долго загружающийся».Beget дал худший TBT (850 мс) — сайт долго «тормозит» между загрузкой и возможностью что-то нажать. Это сильно влияет на восприятие скорости.Самый сбалансированный результат у Selectel VDS. Он даёт быструю загрузку и лучший общий балл — 61. У него лучший индекс скорости (3.4 сек) и достойные показатели по всем метрикам.📌 Вывод:Разница между хостингами может быть огромной — до 3 секунд по LCP и в 3 раза по общему индексу скорости. Это влияет и на SEO, и на поведение пользователей.Сайт может выглядеть одинаково, но работать по-разному — только из-за хостинга.Если у тебя есть сайт, который грузится медленно — возможно, дело не в нём, а в сервере.
ДУМАЙ
📟 На радость перфекционистам Илон Маск поделился снимками идеально проложенных кабелей суперкомпьютера Colossus 2, который он планирует запустить через несколько недель.💪 Компания Маска xAI сейчас обучает свою нейросеть Grok на 230 тысячах графических процессорах, объединенных в суперкомпьютер Colossus 1. А Colossus 2 с 550 тысячами процессоров идет ему на смену, - он станет первым в мире вычислительным центром, потребляющим гигаватт энергии.🦖 На комментарий «Это что, вены Grok?», аккаунт нейросети Grok ответил «В каком-то смысле — да. Они несут жизненную силу данных, питающих мои мысли. Colossus 2 — просто зверь!»
iOS Makes Me Hate
Туториал по ContainerПока одни блогеры утверждают, что контейниризация — это не важно для иос-разрабов... Аудитория же с критическим и аналитическим мышлением уже делает туториалы и использует это в своих приложениях. Мы уже разбирали в чем разница software developer vs software engineer. А также подробно проходили по виртуализации. Инженер — это не только про покраску кнопок. Один ограничевается только в своей платформе, а другой использует любые инструменты за ее границами. Автор статьи рассказывает как Containter помогает настроить свое окружение. Статья чуть упрощенная, поэтому я добавлю от себя.Когда это поможет:- Ускоряет и упрощает CI/CD-процессы для ios‑разрабов. например, сразу fastlane, swiflint и тп с другими версиями- изолировать версии в разных окружениях- тестировать пуши, авторизацию, базы данных с быстрым запуском нужных сервисов.- настраивать ручные и автотесты за счет мок-сервисов- проще подготавливать окружение для новичков - если баги воспроизводятся только на конкретной версии окружения, то ты можешь легко ее собрать- запуск новых либ или сдк в "чистом" окруженииПолезно выходить за границы мобильных приложений, особенно когда это требует изменчивый рынок.
Блог инженера ПТО | Римма Сарвартдинова
Список ПО для автоматизации работы ПТО1. Ведение исполнительной документации с КЭП (ЭДО)ПТО Онлайн — облачный сервис с УКЭП и интеграцией в ГИС ИСУПDacon — системы на базе 1С для ЭДО, ИД и стройконтроля, подписываются электронной подписьюExon — электронная ИТД с УКЭП и чертежной визуализациейЦУС («Цифровое управление строительством») — платформа Минстроя с XML, УКЭП и интеграцией Адепт: Исполнительная документация — веб- и мобильное решение с УКЭПHardroller — система с УКЭП, автоматической проверкой и подсветкой ошибокTESSA — универсальная ECM/BPM-платформа, подходящая для ЭДО в строительствеMStroy - платформа для управления строительствомBuilddocs - облачный сервис цифровой ИД с возможностью подписания УКЭП2. Ведение ИД без КЭП (облегчение работы ПТО)Автогенератор ИД (Excel-шаблон) — генерирует акты Word из таблиц Генератор — ИД — программа на основе Excel для ведения ИД Hardroller — может работать без подписи, полезен как вспомогательный инструментid‑prosto — система автоматизированного оформления ИД, с журналами и шаблонамиConstruction Sheets - Программа для ведения ИД на базе Google таблиц. Позволяет формировать акты, реестры и журналы по любым формам.3. ПО со встроенным ИИ для контроля качества и подсчёта объёмовRenga + Pilot-BIM — BIM-моделирование + сравнение проектного и фактического (scan-to-BIM) Exon AI-модуль — автоматический контроль ИД и поиск ошибок (описан как часть Exon) Hardroller — автоматическая проверка и подсветка ошибок — первые версии были ИД веб-приложением с проверками Model Studio / CSoft, Sablon, Revizto + ИИ-плагины, BuildData AI — активно развиваются в отрасли.
ADSкий Яндекс Директ | Истомин Антон
❌ 79 из 89Новость с таким заголовком я сегодня увидел - 09.07.2025 зафиксировано отключение интернета в 79 из 89 регионов РФ. Я не знаю насколько верить этому, но я верю цифрам. Показатели действительно падают.Сейчас летний период - период отпусков, когда ЛПРы в отпусках. Это раз.Каждый день я вижу новости о шатдаунах в разных регионах. Не работает оплата картой, нет навигации, сбоят сервисы. В СПб говорят что от каршерингов приходят штрафы за поездки со скоростью 250км/час по лесу Сибири (особенно во время форума). Это два.И эта два фактора, наложившись друг на друга, дают падения результатов по многим нишам. Причем дело не в Яндексе, дело в обычном интернете. Мобильный трафик в РФ составляет около 42,7%, что в пересчете на человечий - дофига.К чему сей пост:- не паникуйте, что чет сломалось в Яндексе. Дело проще.- учитывайте, что стабильно работает Wi-Fi, а значит можно скорректировать время показов на вечернее, когда люди дома у Wi-Fi- потестируйте корректировки на ПКВ общем цельтесь в те устройства/регионы/аудитории, где стабильный интернет. По сообщениям товарищей - в приграничье вообще беда с интернетом стабильная.А у вас как?
Похек
CVE-2024-54085 - ПОЛНЫЙ ЗАХВАТ СЕРВЕРНЫХ ПАРКОВПохековцы, привет! Сегодня разбираем крутую уязвимость, которая может превратить твой дата-центр в чужую песочницу.AMI MegaRAC BMC — популярный контроллер для удаленного управления серверами. Его используют AMD, Nvidia, Supermicro, Huawei и куча других крупных производителей. Но есть один маааленький нюанс...😵 Один HTTP-запрос = полный контрольЗлоумышленник может обойти аутентификацию одним запросом и получить root-доступ к BMC. Никаких сложных эксплоитов, никакого социалки — просто отправил запрос и ты админ.🕺 Ещё не осознал критичность всей ситуации?➡️Полный контроль над серверной инфраструктурой➡️Обход основной ОС — атакуешь железо напрямую ➡️Возможность внедрения в прошивку BMC➡️Практически необнаружимо традиционными средствами защиты➡️Затронуты тысячи серверов по всему миру😳 Чё делать? Патч муравью приделать➡️Проверить, используете ли AMI MegaRAC BMC➡️Обновить прошивку до последней версии➡️Изолировать BMC-интерфейсы от внешних сетей➡️Настроить мониторинг подозрительной активности➡️Провести аудит существующих подключений🔥 Классический пример того, как одна уязвимость может положить целую инфраструктуру. Такой же эффект к примеру, как от захвата VMware ESXI или любого другого ПО, которое контролирует другие машины.🔗 Велком тыкать в источник🌚 @poxek | 🌚 Блог | 📺 YT | 📺 RT | 📺 VK
PPCкантроп|Ме́ркетинг и ололология
Нужен аналог AEZA, но с возможностью оплатить ВНЕ РФ. До 3$ в месяц !!СТРОГО!!. Смысл в том, что я занимаюсь развертыванием микро-эко-систем для бизнесов. Почему не из РФ?Потому что я не смогу оплатить. РФ отключен от SWIFT, а я и остальной мир — нет.Почему до 3$?Потому что спокойно можно купить VPS за полтора евро. Но не стабильный сервер, я хочу диверсифицировать свои связки.Почему пишу сюда?Ну хз, мэй би, просвистианалы есть в кАнале)
Евгений Паромов
Как завернуть в Docker vite приложениеЯ редко рассказываю про отзывы и пользу сообщества для участников. Возможно, потому что мне не очень интересно было читать отзывы у других и я этим не парюсь.Но недавно была прям показательная ситуация.В сообществе есть воркшоп, о котором я не рассказывал – Как докеризировать Vite приложение.Там я рассказываю, почему писать Dockerfile должен разработчик, а не DevOps. Как правильно это делать, как оптимизировать размер имеджа и скорость сборки. А ещё я там рассказываю, как можно изменять переменные окружения в уже собранном имедже Vite приложения. Последний момент не очевидный, так как переменные окружения в Vite приложении записываются в бандл во время сборки, и во время запуска контейнера их уже вроде как не изменить. Что очень не удобно для DevOpsРешение, на самом деле, простое. На запуск контейнера можно заменять значения переменных окружения в уже собранных js файлах. Я показал это решение вплоть до исходников на воркшопе. + Как решить проблему с кэшированием, которая может тут появитсяИ вот на днях созваниваюсь я с одним участником сообщества, а он мне рассказывает:"Стала мне тут задача написать Dockerfile для проекта. Я вспомнил про твой воркшоп. Просто взял из Miro код, и всё завелось! Особенно было полезно как раз про переменные окружения. Так как совершенно не очевидно, как это делать.В общем, не знаю, сколько это бы сам делал"Вообще, от воркшопов сообщества много таких отзывов. Одни затаскивают код JWT авторизации c рефрешем, другие ролёвку, третие oauth, четвёртые форм билдер.Это меня очень вдохновляет. Приятно понимать, что мои знания упрощают жизнь множества разработчиков (а не только усложняют кучей часов сложного глубокого контента 🫠)
Антикризисный Овчинников. Работаю, руковожу, рычу, развиваюсь
Владелец крупной-компании – нашего заказчика на втором месяце вполне успешного внедрения спросил: а зачем мы внедряем ЭТО если все можно сделать в Excel’e?И базу, и отчеты, и математику, и интеграцию с сервисами рассылки, да и телефония прекрасно будет выгружать в таблички все это.“Вы что, сводные отчеты не умеете делать? Я умею”. Ни РП, ни внутренний ИТ, ни мы пока не убедили. Работаем.Это история не про глупого собственника. У глупых не бывает 10+ млрд-ных бизнесов. Это история про то что бизнес и ИТ смотрит на мир разными глазами.Бизнес ругает ИТ-шников за:➡️ непредсказуемые бюджеты внедрений;➡️ оторванность от результатов;➡️ неизвестную стоимость владения.Построение процессов и ИТ может давать бизнесу всего 4 вида пользы:➡️ больше заработать;➡️ меньше потратить;➡️ уйти от рисков;➡️ обеспечить масштабирование.Итак, какой смысл менять супергибкий почти-бесплатный low-code инструмент на CRM “с процессами и интеграцией”.➡️ Польза номер 1: разделение труда и передача простых операций более дешевым сотрудникам.Не всем надо уметь строить сводные отчеты, знать ВПР, pivot и настраивать интеграции.Более того, даже 3 одновременно работающим “гуру” в одном excel’e будет тесно.➡️ Польза номер 2: разделение доступа и защита от дурака. В таблицах практически невозможно защититься от “все видят всё” и “я тут формулу сломал”. Ну и многопользовательский режим божественно работает только в google docs.➡️ Польза номер 3: стоимость обучения нового человека. CRM-системы, всякие бухгалтерские и даже маркетинговые софтины часто “внедряют себя сами”. А если помочь – так еще лучше.В сухом остатке мой ответ такой: если вы не стартап, а транснациональный бизнес, то внедрение структурного софта даст бизнесу масштабирование и снизит риск потери информации.Что забыл?
Коля Якубовский. Испания, Хихон
Причины блэкаута и обзор энергетики ИспанииНашёл у Льва доклад, помучал чатик, чтобы объяснил простыми словами, что именно происходило и почему. Зарерайтил. Причины блэкаута:1. Зеленые электростанции, они же ВИЭ «возобновляемые источники энергии» (солнечные, ветровые) дают много тока, но сами не могут гасить резкие перепады напряжения2. Старая генерация (уголь, газ, гидро) умеет "гасить", но её заранее не включили или оставили в ремонте3. Когда в сети слишком выросли скачки напряжения из-за ВИЭ, автоматика защиты отключила их, затем другие станции4. Отрубив часть генерации, они ещё больше разогнали перепады — и защита отключила всё оставшееся5. За пару секунд сеть осталась без источниковКибератаку исключают, но защиты добавили.Кто проебался:1. Оператор сети (REE) — не включил резервные большие станции2. Владельцы солнечных ферм — поставили слишком чувствительную защиту и сами себя выключили3. Регулятор — не заставил ВИЭ стабилизировать сеть4. Франко-испанский кабель — был заблокирован на экспорт и не смог подать энергию обратноЗаодно спросил как дела с атомкой в Испании:— Работает 7 реакторов, дают 20% энергии— Новое не строят, не планируют, после 1984г левые все заморозили, запретили— До 2035г план закрыть оставшиеся реакторыПричины нелюбви к атому:— ВИЭ дешевле и быстрее строить, чем сложные, дорогие, долгие атомки— Общество боится: Чернобыль, Фукусима, местные теракты у атома— Нет финального могильника отходов - для каждой новой политической силы это проблема (могли бы и южным соседям подарить за денюжку)Что будет с ценами на энергию:— Будут дорожать из-за закрытия атомки— Будут дешеветь из-за ВИЭУчитывая инфляцию, левость политики, конкуренцию, технологический прогресс в производстве оборудования-панелей, глобальное потепление — предположу что ценник будет немного расти с инфляцией.
Мудрость Ежилы
Начитался постколониального нонфикшена, перенастроил оптику, не могу теперь доки читать:> active_slave: Specifies the new active slave for modes that support it (active-backup, balance-alb and balance-tlb). Possible values are the name of any currently enslaved interface, or an empty string. If a name is given, the slave and its link must be up in order to be selected as the new active slave. If an empty string is specified, the current active slave is cleared, and a new active slave is selected automatically.
Задачи DS - Собеседования, Соревнования, ШАД
Цикл прохождения: Middle WB MLops направления🍇#wildberriesВакансию нашёл в тгк канале при вузике(я еврейский мальчик из мгу)В момент подачи на вакансию имелся годовой опыт работы с командами: 3 месяца стажки с альфа банке, 6 месяцев в Сбере джуном и месяц накрученНаписал по указаным в посте контактам. Эйчарка была страшненькой. Общался нехотя, перетерпел.. Назначили собес. Прошлись по общим вопросам, не углублялисьчто такое Docker и зачем? платформа для создания или запуска контейнеров - изолированных сред с приложением и зависимостями, обеспечивает консистентность окружения и переносимостьограничения Docker?меньшая изоляция чем у VM (общее ядро, риски безопасности), нельзя запустить приложение под другое ядро ОС без доп. усилий, сложности с GUI, данные по умолчанию непостоянны (нужны volumes)что такое манифест?файл (YAML/JSON), декларативно описывающий желаемое состояние объекта в кластере (ex., Deployment с числом реплик и образом)как k8s взаимодействует с Docker? k8s командует container runtime (Docker/containerd/CRI-O) через CRI, где и когда запускать или останавливать контейнеры на нодахзачем Ingress?для управления входящим внешним трафиком: маршрутизация на основе хоста/пути (L7) и TLS-терминация (реализуется Ingress Controller'ами типа Nginx, Traefik)зачем балансировщики?распределять нагрузку между репликами сервиса и предоставлять единую точку входа для клиентов (внутри кластера - Service, снаружи - Service типа LoadBalancer или Ingress)провайдеры k8s кластеров?управляемые облачные (GKE, EKS, AKS), он-премис (kubeadm, OpenShift), дистрибутивы (RKE)как взаимодействуют ML модели и k8s?модель упаковывается в Docker-контейнер с serving-кодом; деплоится в k8s (Deployment для реплик и отказоустойчивости, Service для доступа); обеспечивает масштабируемость, отказоустойчивость и управление версиями моделейразница многопоточность vs многопроцессорность?потоки легковесны, делят память, но ограничены GILпроцессы тяжелее, изолированы, обходят блокировкуAirflow: платформа для оркестрации, планирования и мониторинга рабочих процессов, описываемых как код (DAG), состоящих из задач с зависимостямиMLflow- управление ML lifecycle: Tracking (логирование экспериментов), Projects (упаковка кода), Models (формат + Registry для управления версиями) и Servingкак Airflow и MLflow работают вместе?Airflow задаёт пайплайн (запуск обучения, деплой), MLflow- отслеживает эксперименты и управляет моделями; задачи Airflow взаимодействуют с MLflow Tracking/RegistryВсё длилось в районе 1.5 часика, потом пошёл играть в цивилизацию🤓От момента подачи до оффера прошло 2 недели, в целом, оперативно@zadachi_ds
Миша Ларченко – о программировании и не только
Пхахаха. Утром были важные новости на работе, кто-то удалил продакшн базу данных на одном из проектов и без возможности восстановить. Теперь мы должны на всех проектах у всех пользователей удалить права доступа.
Pro Python • IT
⚙️ Автоматизация управления кластерами PostgreSQL с Patroni Patroni — это мощное и гибкое решение для управления высокодоступными кластерами PostgreSQL.Он выполняет роль внешнего сервиса по отношению к PostgreSQL, действуя как менеджер кластера. ➡️ Основной задачей Patroni является обеспечение надежного переключения роли ведущего узла на резервный узел, что критически важно для высокодоступных систем. Установка библиотеки:pip install patroni💻 GitHub➡️ Этот инструмент существенно упрощает администрирование баз данных, обеспечивая автоматическое переключение ролей узлов, поддержку различных типов репликации и интеграцию с распределёнными системами хранения конфигурации.✄┈┈┈┈┈┈┈┈┈┈┈┈┈Заметки программиста «(!?»🇨🇱 Python Tech Code
Аня в здесь и сейчас | О Лондоне, карьере в Google и стиле
дорогой дневник, сегодня алерт разбудил меня в 6:20 и не затыкался весь деньработа SRE пока что ощущается больше как тренинг личностного роста• научиться фокусировать внимание на работе буквально 12 часов подряд без остановки• смириться, что я ничего не знаю, и никогда не узнаю всё• подъемы в 6 утра• научиться просить о помощи и отдавать какие-то инциденты, если не справляюсь (а это тоже нужно признать сначала, да…)• учиться выдерживать стресс и неопределенность• постоянно переключаться между задачами и быстро расставлять приоритеты не знаю, к чему меня готовят, но я пока не готова
Ильяс Абаев
⚡️ Центры обработки данных - главный генератор спроса на электричество. Инфраструктура не успевает. 💠 К 2030 г глобальное потребление энергии центрами обработки данных превысит спрос в России, четвёртой по энергопотреблению страны мира, и будет сопоставимо со спросом на энергию в Индии. 💠 Центры обработки данных использовали около 500 тераватт-часов электроэнергии в 2023 г. Этот показатель может утроиться до 1500 тераватт-часов к 2030 г.💠 Потребление электроэнергии центрами обработки данных уже сопоставимо с энергопотреблению таких стран, как Германия или Франция. 💠 К 2030 г спрос со стороны дата центров превзойдет прогнозируемое потребление растущего мирового парка электромобилей.
Притчи СТО
Пара моих личных осознаний по постмортемам за последний годЗаглянул в постмортемы, решил поделиться парой инсайдов по этой системе, которые ко мне пришли за последний год.1.Постмортемы лучше вести в таск трекинге. Мы сначала долго вели в гитхабе в маркдауне, потом вели в ноушене(в системе документации), но после съезда с ноушена перевели в наш таск трекинг(кайтен). И стало сильно лучше. Ведение статусов улучшилось, меньше зависших, лучше подвязываются задачи. 2.Буквально пара важных обязательных полей дает кучу аналитики. Для меня важные поля - время даунтайма в минутах, потери в деньгах от сбоя, критичность(тут 4 степени), сервис. Эти поля дают всю нужную аналитику. Можно посчитать аптайм, взяв сумму времени даунтайма в критичных сбоях, тем самым отсечь некритичные. Или можно задетектить проблемность определенного сервиса через количество сбоев по нему. Вести пяток полей вполне реально.3.Метрики от процесса постмортема обязательно выносим в крупные ОКРы. Уже много лет одна из постоянных годовых целей айти - это попасть в прогноз по потерям на падениях. Эта сумма как раз считается по постмортемам, трекать такое просто поквартально. Ну и общая крупная цель поднимает важность ведения обязательных полей из предыдущего пункта.4.Уровни критичности сбоев очень нужны. Раньше я жил в парадигме, что “нет неважных сбоев, надо чинить все”. Увы, это оказалось нереальным. Это хорошо работало, когда все было очень нестабильно и надо было резко поднять уровень качества. Но в режиме поддержки или небольшого улучшения работает плохо. Еще при росте масштабов разработки тоже стало сложно ко всем подходить одинаково. Не все сбои одинаковые, некоторые требуют моего личного участия, а какие-то достаточно провести командой или инжиниринг менеджером юнита. Когда ввели систему уровней критичности, появился каркас, на который легко все ложится. Саппорту стало понятно, при каких сбоях какой уровень коммуникации вести. Появился единый язык и общий контекст важности.Есть ли у вас какие-то новые понимания по постморетмам за последнее время? Добавляйте, обсудим
Программист без кода
Приходит письмо от хостера, что с нашего сервера зафиксирована DoS атака. Говорят, если не разберемся с проблемой - через пару часов заблокируют наш сервер.Откладываем смузи в сторону и идем разбираться, что же случилось.Подозрительного трафика на сервере не наблюдаем, в логах тоже ничего нет. Строим самые дикие предположения, но ничего не подтверждается.В спешке настраиваем мониторинг исходящего трафика, чтобы фиксировать в будущем подобные всплески активности сразу, и по горячим следам разбираться.Пишем развернутый ответ на 1690 символов о том, что мы провели расследование и ничего не подозрительного не выявили, заканчивающееся просьбой не блокировать нас, потому что мы хорошие, настроили мониторинг, в будущем такого не повторится и т.д.Через минуту получаем ответ:К сожалению, письмо о нарушении было отправлено вам по ошибке. Это произошло из-за автоматизированной системы обнаружения нарушений. Пожалуйста, проигнорируйте предыдущее письмо, обращение по поводу нарушения закрыто.(╯°□°)╯︵ ┻━┻
PR machine
Google-разрушительПолучилось ли у PR отработать кризис в синхроне с технарями и что из этого вышлоКак обещала, давайте разберем на символы, как во время масштабного сбоя Google Cloud действовали обе команды — техническая и PR. Начало кейса здесь. Да, в качестве ИИ-джуна в нашем разборе сегодня выступит ChatGPT: он немного покряхтел, но подготовил табличку выше с хронологией киберинцидента и его освещением в СМИ. Ну погнали, с ИИ-помощью 😈🔠 Что по технической части?От начала сбоя до восстановления прошло порядка трёх часов. В СМИ оценки разнятся, но мы опираемся на обновленную публичную статус-страницу Google. ➡️ Через 2 минуты после начала сбоя Гуголь начал сортировку событий➡️ Корень проблемы найден за 10 минут➡️ Системный откат произведен за 40 минут➡️ Период восстановления ~ 3 часаСбой затронул ~ 90 продуктов Google Cloud и Google Workspace. Учитывая масштаб и скорость реагирования, бесспорно, технический бенчмарк команде засчитан.🔠 А что про коммуникацию?На той же статус-странице Google Cloud появились два отчета: краткий для клиентов, затем полный для технарей с детальным разбором инцидента.В обоих документах Google:➡️ приносит извинения и прямо говорит "такого не должно было случиться"➡️ признаёт подрыв доверия к своей облачной инфраструктуре➡️ объясняет, где была нарушена логика процессов и как это не отловили на этапе тестов➡️ детально описывает принятые мерыОтчеты — хорошие, реакция ответственная и открытая. Но, увы, запоздалая. Как мы видим из таблички ИИ-джуна: информация о статусе инцидента и PR-коммуникации шли в паблик с отставанием от технического реагирования и уже успевших слить сбой партнеров. 🔠 Какие выводы?➡️ Антикризис при инциденте должен быть своевременным. Первое публичное сообщение Гугла появилось примерно через час — и то на статус-странице, которая частично тоже лежала по признанию самой компании.➡️ PR-служба, как главный источник данных для СМИ, должна была среагировать проактивно. Комментарий TechCrunch был дан в ответ на запрос СМИ, а не как часть заранее отстроенного антикризисного плана.➡️ Координация коммуникаций с партнерами обязательна. Первым о сбое сообщил не Гуголь, а Cloudflare, а затем Replit. Внутри Гугла не сработал механизм раннего уведомления внешних команд — и в отчёте это признали.На этот раз, как PR-бенчмарк, мы Google не берём, увы. Но я рекомендую посмотреть оба отчета, их можно закатать в рамочку, как референс. Сам кейс смело забираем в золотую PR-коллекцию lessons learned. ИИ-джуну первый зачетик ставим? 😊 #антикризис #кибербез
Машинное обучение RU
📦 Kubernetes for ML Engineers — практическое руководство по продакшну ML-моделей[Paulescu/kubernetes-for-ml-engineers](https://github.com/Paulescu/kubernetes-for-ml-engineers) — это открытое и очень доступное пошаговое руководство по использованию Kubernetes для машинного обучения. Проект помогает ML-инженерам перенести свои модели из Jupyter-блокнота в стабильное, масштабируемое продакшн-окружение.🚀 Что внутри:• Как собрать Docker-образ с моделью • Как задеплоить его в кластер • Примеры с REST API для инференса • Конфигурация Pod'ов, Service'ов, Ingress • Хостинг моделей с autoscaling • Набор манифестов YAML — можно адаптировать под себя🧠 Особенно полезно:• ML-инженерам без опыта DevOps • Для обучения Kubernetes через реальные ML-задачи • Для продакшн-деплоя моделей с минимальными усилиями📂 Всё по делу: чисто, практично и без лишней теории. Просто бери и запускай.🔗 GitHub: github.com/Paulescu/kubernetes-for-ml-engineers#kubernetes #mlops #machinelearning #devops #docker #opensource
Фронт российской науки с Веденеевой
Комплекс, синхронизирующий цифровые сети в случаерадиоэлектронных помех, представили во ВНИИФТРИ.Нарушение синхронизации цифровых сетей может возникать в результате внешних радиоэлектронных и имитационных помех и приводить к серьезным нарушениям работы сервисов, влияя на скорость передачи данных и безопасность. Чтобы повысить устойчивость отечественной связи к внешним воздействиям, ученые создали комплекс «Синхро-1Т». Этоустройство, которое принимает навигационные сигналы от спутников и за счет сверхминиатюрного стандарта частоты, работающего на атомах рубидия, поддерживает непрерывное хранение информации о времени и выдает потребителям его точные сигналы, независимо от происходящих извне помех. Комплекс ежесекундно формирует высокоточный сигнал, требуя лишь периодического приёма данных хотя бы от одного спутника для поддержания необходимой точности синхронизации.На сегодняшний день проводятся испытания комплекса.
AIM Робокорп - Сэм Якушев
Пора перестать бояться! 🚀 Бояться того, что раньше считалось сугубо АЙТИШНЫМ. Да-да, я как минимум про API, JSON, GET / POST, RAG и другие написанные капсом буквы)) Теперь это, что называется БАЗА))) 💡API (Application Programming Interface) – это заранее определённый способ общения программ между собой. 🔄 Представь, что API – это твой личный переводчик, который помогает двум приложениям разговаривать на одном языке.JSON (JavaScript Object Notation) – стандарт оформления документов, которыми обмениваются системы. 📋 JSON – это как, всегда одинаково структурированный, понятный всем списочек покупок, с которым удобно идти в магазин.GET / POST – разные способы коммуникации программ между собой. 📡 GET – запрос, чтобы что-то получить (типа «Сколько на счету?»), POST – чтобы что-то передать («Запиши, пожалуйста, этот номер»).RAG (Retrieval Augmented Generation) – класс решений, позволяющий нейросетям получать необходимые для работы данные из специального хранилища. 🧠📚 Это как если бы всё что ты знаешь хранилось в удобной библиотеке, и ты брал бы оттуда нужную книгу, чтобы ответить на вопрос. При чем целиком и не думая о ней всё остальное время.Почему это всё важно? 🤖Да потому, что в грядущем ИИ-driven мире, полном робосотрудников, без этих понятий сложно будет сориентироваться и повелевать своими робокомандами. И это не через 5-10 лет. Уже сегодня на рынке есть ребята, кто использует ИИ и обгоняет тех, кто этого ещё не делает.Личный пример 👨‍💻:Несмотря на мой глубокий тех бэкграунд, я не во всём безусловный спец. Возьмём вот серверную инфраструктуру. В общих чертах и на уровне здравого смысла я об этом конечно поговорю и даже спроектирую решение, но вот непосредственно в консоли Linux лазить, настраивать контейнеры и переменные среды я точно не мастак. Ну точнее, 3 дня назад делал это первый раз. И СДЕЛАЛ ЖЕ!! Просто спрашивая у GPT, что мне дальше нажимать, вводить и т.д. Ладно, думаю, повезло, задача была простая — развертывал n8n на своём сервере. Но вот только что я обновил n8n на сервере с Linux таким же образом!!! Да, надо было покопировать, повставлять немного, но всё получилось, даже с решением пары проблем по дороге.И что самое крутое, я не только выполнил задачу, но и получил от GPT объяснения по всем шагам и подразобрался в теме. Совместил приятное с полезным получается! 🧩В общем, не переживай, со всем разберешься ты или твои сотрудники. Можешь сам, можешь в Робокорп, там я про всё это буду рассказывать подробней, давать инструкции и т.д. Пока первую волну Робокорповцев мы приняли, 10 июня запустимся, встанем на первый рельс, и я отдельно сообщу, что готовы принимать следующую волну (надо ещё пару робосотрудников выпустить, а то я уже на 30 людях вспотел всё, что нужно делать, и то в мыле без конца). 🌊🤯
TechCult
‍Китай приступил к созданию гигантской орбитальной сети обработки данных Энергетическая нагрузка на центры обработки данных возрастает с каждым годом. В настоящее время сразу в нескольких странах рассматривается идея размещения таких центров на околоземной орбите, где в избытке солнечной энергии. На минувшей неделе Китайская аэрокосмическая научно-техническая корпорация сообщила (https://mp.weixin.qq.com/s/5TZfmWyiD0GGfz39s0hM6Q) об успешном запуске первых спутников в рамках проекта «Спутниковые вычисления». Конечная его цель — развертывание сети из тысяч спутников, оснащенных бортовыми вычислительными устройствами.Участники проекта — компании ADA Space, Zhejiang Lab, SoftStone и Kepu Cloud при поддержке государственных органов и Alibaba Group. На текущий момент уже запущено 12 спутников. Вся группировка будет насчитывать 2800 спутников, оснащенных мощной системой искусственного интеллекта.Запущенные спутники способны выполнять 10 в пятнадцатой степени операций в секунду (POPS). Возможности всей группировки, оснащенной лазерной межспутниковой линией связи на 100 Гбит/сек составят уже 1000 POPS. На борту спутников будут установлены рентгеновские детекторы для изучения экстремальных гамма-всплесков.На очереди вторая спутниковая вычислительная система, к разработке которой уже приступили китайские инженеры. По оценке экспертов, орбитальные центры обработки информации снизят потребление энергии и нагрузку на атмосферу нашей планеты, вызванную работой дата-центров на ее поверхности.
Евгений Козлов пишет про IT
Решил сделать перерыв от высоких менеджерских материй и запостить простой годноты, которую встречаю в day by day работе.Сегодняшний лот - статья с подробнейшим разбором такого понятия как CPU Throttling. Под катом:- Что такое CPU Throttling, какое влияние оказывает на сервис под нагрузкой?- Как в K8s работают CPU limits?- Как можно столкнуться с CPU Throttling на примере Golang?- K8s limits, requests + GOMAXPROCS- Milliseconds vs Cores, что будет если установить программе в K8s лимиты < 1?Очень советую к прочтению, если не сталкивались, это важная и полезная база. И, конечно, проверьте дашборды сервисов на наличие панелек с индикаторами троттлинга, нужная штука при разборе инцидентов. https://kanishk.io/posts/cpu-throttling-in-containerized-go-apps/-----Делитесь в комментариях своим опытом связанным с CPU нагрузками, где и чего оптимизировали, как избавлялись от троттлинга сервисов?😊