дата инженеретта

@data_engineerette · 3.3K подписчиков

Открыть канал в Telegram

Посты канала дата инженеретта в SillyFeed: единая лента публичных Telegram-каналов со ссылками на оригиналы.

мелкое — крупно,в глубоком разговоремудрость приходитпо вопросам сюда:@aigul_sea

Посты канала

дата инженеретта

Авторепост

Случайно замедлили все загрузкиНебольшая история о том, как можно ухудшить состояние кластера, не добавив и строчки кода

ПредысторияУ нас в airflow есть много дагов, которые качают данные из бд. Чтобы не положить базу, мы используем пулы, которые ограничивают количество подключенийКак-то мы реализовали новый тип загрузки и, как порядочные разрабы, про пулы тоже не забыли. Долгое время данные грузились, все работало — с этой стороны не было проблем. Но однажды к нам пришел аналитик и спросил, почему таски висят в статусе scheduled по несколько часов. И вот тогда мы поняли

ПроблемаТаска-загрузчик находилась в одной таск-группе вместе с другими легковесными тасочками. И они все наследовали одни и те же значения! Получается, что таске передавалось 100500 слотов, даже если она вообще не ходила в базу

И когда загрузчик требовал много слотов, абсолютно все простаивало, потому что больше ничего не помещалось

РешениеТут все просто: выпилить параметр из тех тасок, где он не нуженМоральМожем подытожить так: даже если все зеленое и все считается, это не значит, что все хорошо

@data_engineerette

дата инженеретта

Авторепост

ДатаклассыНаконец-то спустя год дошли руки написать про датаклассы

Меня спросили на собесе в ламоду, и тогда я про них либо краем уха слышала, либо вообще не слышала. Но точно не использовала. Посмотрим, что с ними можно делатьЗачем?Датакласс описывает данные, но без кучи лишних методов. Он сам вместо нас добавит __init__, __repr__, __eq__ по дефолту. Набор методов можем сами менять с помощью флаговКак создать?Чтобы датаклассы заработали, нужно их импорнуть и добавить в виде аннотации:

from dataclasses import dataclass@dataclassclass SparkParams:  """Dataclass для параметров spark-submit команды."""  name: str  deploy_mode: str  driver_cores: int  driver_memory: str  executor_cores: int  executor_memory: str  num_executors: int

Готово! Никакие методы добавлять не нужноКак использовать?

spark_params = SparkParams("test_app", "cluster", 2, "4g", 4, "32g", 8)

Другие фишкиЗапрещаем менять поля:

@dataclass(frozen=True)

Задаем дефолтные значения:

@dataclassclass Team:  description: str | None = None  emails: list[str] = field(default_factory=list)  # для list/dict/set

Чуть подробнее можно прочитать в короткой статье@data_engineerette

дата инженеретта

Авторепост

Iceberg — это must have?Вы еще не замечали, что становится больше вакансий, где айсберг уже требуют?С одной стороны, если посмотреть на hh, то вакансий с айсбергом всего около 5%. Но, с другой стороны, в последнее время на меня выходят именно с формулировкой обязательностиСобрала список компаний, которые хотя бы частично уже живут на Data Lakehouse:

Ламода

Магнит

Альфа

М.Видео

МТС

Сбер

Лента

Золотое яблоко (Delta Lake)А вот Озон по состоянию на прошлый год планировал идти в Data Mesh, чем в Data LakehouseЧто вообще думаете?@data_engineerette

Ещё по теме «Технологии»

Технологии

E-blog

Авторепост

Хакер увёл $1,4 млн в WBTC из Ekubo через одобрения пользователейВ ночь на 5 мая 2026 атакующий вывел из DeFi-протокола Ekubo около 17 WBTC (~$1,4 млн) и сразу обменял их на WETH и DAI. Дыру нашли в v2-контракте на Ethereum — в callback-функции IPayer. Контракт не проверял, кто на самом деле платит, поэтому хакер мог подставить чужой адрес плательщиком. Дальше он вытаскивал токены у тех, кто заранее разрешил контракту ими распоряжаться — стандартное «approval», которое подписывают почти все при работе с DeFiСама ликвидность Ekubo и держатели EKUBO-токена не пострадали. Под удар попали только те, кто подключал кошелёк к v2-контракту на Ethereum — им сейчас можно зайти в Etherscan и отменить разрешение, иначе атака повторится, как только на кошельке появится новый WBTC. Атаку первыми заметили Blockaid и CertiK. Случай дополняет статистику весны: по данным ChainSec, с начала 2026 года DeFi-протоколы потеряли больше $6,1 млрд на 191 эксплойте. Урок для команд — аудит ядра не спасает, если дыры сидят в подключаемых расширениях и callback'ах

Подписаться

Отзывы

Быстрый обмен

FAQ

ИнфоИнспекция

Авторепост

Мошенники рассылают СМС «Ваш Telegram будет заблокирован»Белорусы начали получать такие сообщения с ссылкой. Ни в коем случае не переходите по ней! Это фишинг. Мошенники пытаются выманить данные аккаунта или установить вредоносное ПО.

Запомните:— Не кликайте по ссылкам из подозрительных СМС;— Если боитесь за аккаунт — зайдите в Telegram вручную и проверьте статус;— Подозрительную ссылку можно проверить на сайте Проверь.бел.Будьте бдительны.Подписаться на канал

SEO практика | Кравцов Виталий

Авторепост

🤑 Вайбкодинг здорового человека, не курильщика.ИИ открывает окно возможностей (особенно, если насмотрелся инфоциган) и первое, что делает начинающий вайбкодер - бежит делать клон какого-то продукта, чтобы заработать хулиард денег, а еще хуже, если начинает играть в новатора и придумывать крутой, но никому не нужный продукт, а лучше не один, а сразу несколько, ну чтобы реализовать все свои гениальные идеи!Трещина на розовых очках появляется когда его Франкенштейн с тысячами строк кода, кучей интеграций, десятком технологий в стеке отказывается работать, как было задумано! Модель, тариф и количество токенов не спасут т.к. дело не в этом!Сначала кодинг, потом вайб! Дабы сделать что-то большое и стабильно работающее, нужно на базовом уровне разбираться в разработке - синтаксис, архитектура и т.д. Только при таком комбо будет ожидаемый результат.Но есть и хорошие новости! ИИ реально может вас апгрейдить, если вы будете использовать его локально в задачах автоматизации... Не пилить второй ahrefs, а сделать скрипт для обработки выгрузки из ahrefs. Не пилить тысячный таск трекер, а сделать скрипт, который из выгрузки закрытых задач генерирует отчет для клиента и т.д.Такими мелкими ИИ рычагами вы можете существенно оптимизировать время на выполнение рутинных задач. Больше задач за один и тот же промежуток времени = профит.Это как использовать электрическую газонокосилку вместо ручной косы, оказывая услуги по стрижке газонов!Всем профита и хорошего дня 🤘

SeoPraktika | Кравцов Виталий

Femtech Force — новости, вакансии, подкаст

Авторепост

Почему ИИ сдаёт медицинские экзамены на отлично, но проваливается с реальными пациентамиПривет! Меня зовут Ольга Титова, я работаю AI Product Manager, выступаю за безопасный и этичный подход к ИИ, и каждую неделю делюсь с подписчиками Femtech Force новостями из мира ИИ и здоровья.На прошлой неделе мы разобрали, что OpenAI предлагает врачам в ChatGPT for Clinicians: бесплатный GPT-5.4, шаблоны для рутины, автоматические баллы повышения квалификации (и трёхуровневую стратегию захвата health AI). Сегодня — обещанный разбор: почему модель, которая знает правильный ответ в 95% случаев, пока не помогает реальным людям.

Исследование с парадоксальным результатомВ феврале 2026 года исследователи из Оксфорда (Oxford Internet Institute и Nuffield Department of Primary Care) опубликовали в Nature Medicine крупнейшее на сегодня рандомизированное исследование того, как обычные люди взаимодействуют с медицинскими LLM. Дизайн простой: 1298 участников получили медицинские сценарии и должны были определить, что это за состояние и нужна ли скорая, визит к врачу или достаточно самолечения. Три группы пользовались LLM (GPT-4o, Llama 3, Command R+), четвёртая — контрольная — обращалась к привычным ресурсам: поиску в интернете и сайту NHS.

Что же получилось?LLM, работая без человека, правильно определяли состояния в 94.9% случаев. А участники, использовавшие эти же модели, — менее чем в 34.5%, то есть хуже, чем контрольная группа, которая обходилась без ИИ вообще. По выбору срочности ИИ тоже не помог: разницы с контрольной группой нет.Выделили две причины сбоя. Во-первых, люди не давали модели достаточно информации, больше половины первичных сообщений оказались неполными. Во-вторых, даже когда модель предлагала правильный ответ среди нескольких вариантов, люди не могли его выбрать.

Почему это поднимает вопросы и для HealthBench — бенчмарка от OpenAIИсследователи также сопоставили результаты моделей на стандартном медицинском бенчмарке MedQA (вопросы из лицензионных экзаменов) с результатами взаимодействия с живыми людьми, и оказалось, что корреляции между ними практически нет. Модель, набравшая 80%+ на экзамене, могла показать менее 20% с реальным пользователем. Даже симуляции с ИИ-«пациентами» (популярный сегодня метод тестирования) не предсказывали поведение реальных людей.OpenAI оценивает ChatGPT for Clinicians именно бенчмарком — собственным HealthBench Professional, где он набрал скор 59.0, обогнав реальных врачей. Но бенчмарк измеряет качество текста ответа модели, а не реальное взаимодействие в связке врач-ИИ-пациент.

Что я думаю?Для документации, обзора литературы и шаблонов писем ChatGPT for Clinicians действительно может экономить врачам часы и это уже отлично, учитывая масштаб бюрократического выгорания. Но между «помогает быстрее написать реферальное письмо» и «помогает принять клиническое решение» — огромная разница.

Первое — инструмент продуктивности.

Второе — медицинское изделие, которое должно проходить клиническую валидацию. OpenAI заявляет, что остаётся в зоне первого, но продукт устроен так, что пользователи неизбежно будут уходить во второе.

И главный вывод, который я для себя сделала: дело не только в том, насколько умна модель, а в том, хорошо ли умеем мы с ней разговаривать. Пока, кажется, ответ — «не очень».

@FemtechForce — о технологиях для здоровья женщинТекст подготовила #ОльгаТитова

kyrillic

Авторепост

Про AI-ускорение рутины разработчиков, которого... НЕТ! ч.5: свежие рандомизированные контролируемые исследования (РКИ) и не только.Покопался в актуальных исследованиях, отделил всякие опросы и ангажированные репорты от РКИ, выбрал только актуальные, за полгода-год. Вот, что получается:1️⃣ Самая известная работа METR (пост), которая показала прирост +20% по ощущениям и -20% по факту, получила странную попытку репликации (фев'26) от тех же авторов: взяли больше разрабов (57), понизили ставку ($50/час), получили +18% AI-ускорения для 10 участников из прошлой работы и +4% для 47 новых. Но до половины разработчиков отказались от неAI задач (??!!) и организаторы посчитали результаты ненадежными.Непонятно, почему самая известная работа по теме так и не получила нормального продолжения, с актуальными инструментами. Есть интересный разбор второго исследования на lesswrong. tldr: "ничего непонятно".2️⃣ "How AI Impacts Skill Formation" (фев'26): РКИ про обучение новой python-библиотеке - участники случайно делали задачу либо с AI-помощником, поиском и инструкциями, либо только с поиском и инструкциями. AI не дал статистически значимого ускорения по времени задачи, но результат теста на понимание упал на 17% (vs контроль без AI).Другими словами, AI помогает сделать задачу, но может мешать понять, что сделано. Особенно опасно для джунов и для ситуаций, где потом надо самому поддерживать код. Есть еще работа с такими же выводами (мар'26).3️⃣ Echoes of AI (фев'26), проверяли влияние AI на поддержку кода: разработчик добавлял фичу в Java/Spring Boot проект (с AI или без AI), другой разработчик получал решение и вручную его дорабатывал. Первые сделали задачу на 30% быстрее (и аж 56% для power AI-юзеров), а у вторых при поддержке кода был большой разброс от -45% до +33%, и в среднем весь прирост пропадал. 4️⃣ Не РКИ, но интересная работа (янв'26): американские разработчики в SAP несколько дней сдавали анкеты, записи экрана/мыши/клавиатуры, физиологические данные с браслета. В контролируемых сессиях были задачи на Java: кодинг, дебаг, документация, unit-тесты, мозговой штурм и др. Выводы кратко:• Умеренное использование AI сокращало время выполнения задач, но избыточное - мешало.• Когда разработчик начинает постоянно переключаться между кодом, подсказками, чатом и проверкой ответов, то продуктивность падает. • Лучше выглядели сценарии, где было взаимодействие с чатом. Вероятно, потому что чат лучше подходит для объяснений, проверки логики и задач, где нужно понять контекст.• AI одновременно воспринимался как повышающий и продуктивность, и когнитивную нагрузку.5️⃣ Тоже не идеальная "Speed at the Cost of Quality" (ноя'25): как влияет AI кодинг на дистанции в месяцы. tldr: главный вывод авторы вынесли в название работы - AI резко ускоряет разработку в краткосрочной перспективе, но одновременно увеличивает технический долг и сложность кода, что потом начинает тормозить проект. Добавленные строки выросли на +281% в первом месяце и +48% во 2-м, к 3-му месяцу вернулись к базовой линии. По коммитам аналогичный паттерн +55%/+14%.Рост накопленной сложности на 100% вызывает падение будущей скорости на 65%, создавая самоусиливающийся цикл технического долга.Устойчивая деградация качества: +30% предупреждений статического анализа и +41% когнитивной сложности, удерживается на горизонте наблюдения и переживает контроль на динамику скорости. То есть AI-код внутренне более сложен, а не просто более многочислен.6️⃣ На самом деле свежих качественных работ я найти больше не смог - остальное что-то странное, ангажированное или устаревшее. Очевидно, что в каких-то частях разработки AI может дать буст, особенно для коротких циклов, крошечных команд и джуниоров. Но этот буст скромный, а не 10х (как нам многие обещают). Массовых увольнений инженеров из-за этого тоже не будет. А я еще три года назад писал (раз, два, три), что AI изобретен, и наша задача - искать те редкие части своей работы, где AI реально помогает! @kyrillic

Управление Уязвимостями и прочее

Авторепост

Kaspersky сообщают о компрометации DAEMON Tools. DAEMON Tools - это программа, которая позволяет "подключать" файлы образов дисков (например, ISO) как будто это вставленный в компьютер CD- или DVD-диск. Программа популярная, развивается с 2000 года. Версия с базовой функциональностью доступна бесплатно. Я её в своё время активно использовал. Так вот, эксперты Kaspersky обнаружили масштабную атаку на цепочку поставок через DAEMON Tools. Вредоносные версии программы распространяются с официального сайта с 8 апреля 2026 года (затронуты версии 12.5.0.2421-12.5.0.2434). На момент написания атака всё ещё продолжается.[ Читайте полностью в посте на сайте avleonov.ru ]➡️Ⓜ️ MAX | @avleonovrus #DAEMONTools #SupplyChain #Malware #Backdoor #InformationStealer #Shellcode #QUICRAT #Kaspersky #Securelist #AVBDiscSoft #Typosquatting #ZeroTrust

NeuroFinance | Family Office

Авторепост

УПРАВЛЕНИЕ 2026: ПОЧЕМУ ВАШ БИЗНЕС ВСЕ ЕЩЕ НА «РУЧНОМ ПРИВОДЕ»? 🧠Главное «бутылочное горлышко» компании — не рынок, не сотрудники и не конкуренты.Главное бутылочное горлышко — сам собственник.Пока вы лично выясняете, где застряла задача, почему просела маржа и кто не дожал клиента — бизнес не управляется. Он просто держится на вашей нервной системе. В 2026 году контроль через таблицы и бесконечные планерки — это дорогой анахронизм.Сегодня бизнесу нужны не «чат-боты». Ему нужны цифровые сотрудники, закрывающие ключевые управленческие узлы:1️⃣ ИИ-Финдиректор (CFO)Следит за деньгами в реальном времени. Не просто считает остатки, а видит кассовые разрывы, скрытые утечки и моделирует сценарии: «Что будет с прибылью, если мы поднимем цены на 5% или наберем команду?»• Результат: Прозрачный капитал 24/7 без искажений от бухгалтерии.2️⃣ ИИ-Директор по продажам (AI-ROP)Ключевой узел роста. Обычно мы начинаем внедрение именно здесь, выстраивая эталонные бизнес-процессы. Система контролирует качество обработки каждой заявки на каждом этапе воронки. ИИ анализирует 100% звонков и переписок, следит за чистотой базы клиентов и не дает «забыть» ни одного лида. Это тотальный контроль дисциплины и качества выполнения бизнес-процессов, который заставляет каждого продавца работать на 5+. Фокус на действия, реально ведущие к деньгам и устранение ИБД (имитация бурной деятельности) продавцов. • Результат: Кратное увеличение оборота за счет того, что система «дожимает» результат там, где раньше был человеческий фактор.3️⃣ ИИ-Проджект-менеджер (PM)Следит за сроками и приоритетами. Он видит, что реально движется, а что зависло, и подсвечивает риски до того, как проблема стала пожаром. • Результат: Соблюдение дедлайнов без микроменеджмента и вечного «ну что там?».4️⃣ ИИ-Оркестратор — «Второй мозг» собственникаВерхний уровень. Он связывает стратегию, деньги и команду в единый контур. Превращает ваши идеи в конкретные действия и контролирует финальный результат в деньгах.ГДЕ ЛОВУШКА? 🪤Рынок переполнен ИИ-игрушками. Предприниматели внедряют один сервис для задач, второй для отчетов — и получают «зоопарк ИИ». Инструментов больше, а хаоса — еще больше.НАШЕ ПРЕДЛОЖЕНИЕ:Мы не продаем софт. Мы внедряем Цифровую Операционную Систему Управления.• Полный аудит процессов и точек потери прибыли.• Развертывание связки ИИ-агентов (с фокусом на кратный рост продаж).• Создание единой панели управления для собственника.Цель: Убрать ручной контроль и дать вам реальную картину бизнеса без фильтров от сотрудников. Ориентир: +30% к чистой прибыли за счет ликвидации потерь и автоматизации рутины.————————Вопрос к вам:Какой узел сейчас сильнее всего тормозит ваш рост?🔹 Финансы и кассовые разрывы?🔹 Продажи и качество работы продавцов?🔹 Контроль задач и сроки?🔹 Или ваш личный фокус, съеденный операционкой?Записывайтесь на бесплатный экспресс-аудит вашего бизнеса:👉 @Mikhail_Gerasimov

Библиотека фронтендера | Frontend, JS, JavaScript, React.js, Angular.js, Vue.js

Авторепост

Как правильно форматировать числа в JSIntl.NumberFormat помогает форматировать числа под конкретную локаль: с правильными разделителями, символами валют и единицами измерения.Вместо ручной склейки строк можно использовать встроенный API:

new Intl.NumberFormat("de-DE", {  style: "currency",  currency: "EUR"}).format(123456789);// 123.456.789,00

€

new Intl.NumberFormat("pt-PT", {  style: "unit",  unit: "kilometer-per-hour"}).format(50);// 50 km/

new Intl.NumberFormat("fr-FR", {  style: "unit",  unit: "kilobyte",  unitDisplay: "long"}).format(123456);// 123 456 kilooctet

️ Что это даёт:— формат под локаль— корректные разделители— валюты без ручной склейки— единицы измерения из коробки

� Навигация: [Вакансии]

� Библиотека фронтендера#readme #js

Python академия

Авторепост

Создание словаря из набора ключейДля создания словаря из известного набора ключей и одинаковых значений часто используют генераторы словарей (dict comprehensions).Однако класс dict имеет удобный метод fromkeys, который был создан специально для таких случаев.📲 Мы в MAXПодписывайтесь на канал 👉@pythonofff

Ночной Писаревский

Авторепост

Как делать классный дизайн с Claude CodeНе надо писать «Ты Джонни Айв» или «сделай как у Apple»Вместо этого — даёте ему готовый DESIGN.md файл, где уже описано всё, что обычно формулируют размыто:— цвета— типографика— отступы— правила компонентовНашел подборку 2000+ DESIGN.md файлов топовых сайтовВыбираете тот, который нравится, вставляете в свой Клод или Кодекс — и получаете классный дизайнhttps://styles.refero.designUPD: в комментах подсказывают еще опцииhttps://getdesign.mdhttps://impeccable.style

Открыть ленту