Котятки,Мне очень понравилась вот эта статья по масштабированию данных. Аккурат как раз когда я решаю вопрос о горизонте хранения:https://arxiv.org/html/2501.13779v1Несмотря на то, что она относится к LLM, в ней важные мысли про критерии качества данных и расширение этих критериев для разных целей, и как это влияет на масштабирование. Грубо говоря, зачем хранить факт за 10 лет, если его поведение стабильно и доп горизонт хранения не даст дополнительных полезных свойств ни в задачах анализа, ни в задачах прогнозирования? Ну то есть, результат расчета всяких корреляций за 10 лет и за 3 года дает близкие коэффициенты? Впрочем, эти проблемы решены в Data vault 2.0, где мы можем сжать сателлит до состояния ‘признак-период’, оптимизировать производительность и оставить неограниченной глубину хранения.
Data Science и аналитика — страница 3
Лента темы
Навайбкодил себе за вечерок сервис, который собирает семантическое ядро для блога. Подключил его к API вордстат. Самой сложной частью оказалось получить разрешение Яндекса на доступ к его API))Теперь ИИ-шка, которая управляет моим сайтом, может сама формировать запросы к вордстату, получать оттуда данные, уточнять их и собирать актуальное сем.ядро для сайта.Ну не вручную же это делать в эпоху-то нейросетей)
15 бесплатных ресурсов для изучения SQL для аналитиковИсточникSQL — это не синтаксис.SQL — это мышление аналитика.Если хочешь реально прокачаться (а не просто «уметь писать SELECT»), вот подборка бесплатных ресурсов, которые реально работаютВсе материалы еще собраны тут: zasqlpython.ru/materialsБаза (понять SQL)▫️SQLBolt — короткие интерактивные уроки➡️ https://sqlbolt.com▫️W3Schools SQL — простой и понятный справочник➡️ https://www.w3schools.com/sql/▫️SQL-Academy (ru) — отличный бесплатный курс➡️ https://sql-academy.org/ru▫️Khan Academy: Intro to SQL — видео + практика➡️ https://www.khanacademy.org/computing/computer-programming/sql▫️Mode SQL Tutorial — SQL глазами аналитика➡️ https://www.thoughtspot.com/sql-tutorialПрактика (junior → middle)▫️ SQLZoo — задачи, где нужно думать➡️ https://sqlzoo.net▫️ HackerRank SQL — структурированная практика➡️ https://www.hackerrank.com/domains/sql▫️ LeetCode SQL — логика + собесы➡️ https://leetcode.com/problemset/database/▫️ pgExercises — SQL на PostgreSQL➡️ https://pgexercises.com▫️ SQL-EX (ru) — классический задачник➡️ https://sql-ex.ruПродвинутый уровень (senior mindset)▫️ Use The Index, Luke! — индексы и оптимизация➡️ https://use-the-index-luke.com/▫️ PostgreSQL Docs (EXPLAIN, JOIN, INDEX)➡️ https://www.postgresql.org/docs/▫️ ClickHouse Docs — аналитический SQL и большие данные➡️ https://clickhouse.com/docs⚡️ Бонус▫️ GitHub: Ultimate List of Free SQL Resources➡️ https://github.com/amartinson193/The-Ultimate-List-of-Free-SQL-Resources▫️ Awesome SQL (GitHub) — подборка статей и туториалов➡️ https://github.com/danhuss/awesome-sql🧠 ВажноПросто «пройти курс» — бесполезноПолезно:— объяснять запрос словами— понимать grain данных— видеть, где JOIN ломает метрику— проверять цифры логикой, а не верой в SQL
В контексте начинающихся на многих бумагах импульсных зеленых свечей, думаю, у многих особенно остро встает вопрос, как заходить по тренду и куда ставить стоп. Вам уже могли помочь мои видео по Роснефти и Новатэку, где я показывал, как использовать индикатор RSI для прогнозирования окончания локальной коррекции и поиска новой точки входа в уже начавшемся тренде. Показываю теперь ещё один любопытный момент: как на индикаторе RSI могут формироваться невидимые на цене гармонические формации, которые в совокупности с уже упомянутыми дивергенциями могут помогать вам искать точки входа. Разбираю на примере криптовалюты #ICPUSDT — поскольку именно на ней сейчас виден очень явный пример, сформировавшийся сегодня. И уже скоро можно будет проверить, отработал ли этот сетап. Но подобная логика применима к любым торгуемым активам: акциям, фьючерсам на нефть или ценные металлы и так далее. Ставьте реакции, если информация была вам полезна.
Так получилось, что родился новый ADSкий скриптСкрипт для подмены Email-адреса на сайте при переходе с Яндекс Директа.Держите)P.S. Пока может сыровато, но работает. Сделал на лету под текущие задачи проекта и ушел работать дальше. Позже "причешу")
Проценты от итога в сводной таблице🔥Зачем рисковать и прописывать формулы вручную, если они могут сломаться при обновлении данных? Есть способ быстрее и надежнее🤫Сегодня покажу вам, как превращать обычные числа в проценты от общего итога буквально за секунды, смотрите видео до конца 🫰🏻1️⃣ Дублируем в сводной таблице столбец, процентное соотношение которого необходимо найти2️⃣ Переименовываем столбец, например «Доля, %»3️⃣ Кликаем правой кнопкой мыши по любому значению последнего столбца ➡️ «Дополнительные вычисления»4️⃣ Выбираем «% от общей суммы» и изменяем формат Готово✅Оставляйте огонёчки под постом, если было полезно 🫰🏻
Пока мы искали новый дом, поняли, какая это головная боль - выбрать не только сам объект, но и разобраться с тем, в каком районе/городе его присматривать. Сайты типа rightmove и zoopla показывают сотни вариантов, но параллельно с просмотром листингов приходится держать открытыми еще 10 вкладок с информацией о дерпивации, преступности, наводнениях, качестве воздуха и проч.Мы же понимаем, что дом не заканчивается за входной дверью, и хотим на полную использовать доступные данные, чтобы снизить будущие риски и не разочароваться в локации через неделю после переезда.Из этой боли я начал пилить небольшой проект, который позволяет накладывать пространственные данные прямо поверх окна map view с листингами и сразу отметать грустные варианты. На картинке, кстати, видно, что их гораздо больше, чем хороших - закон рынка.Если бы у меня сразу был такой инструмент, то мы бы сэкономили очень много часов не только на онлайн-просмотрах, но и на поездках в глубоко депривированные или переоцененные локации.Сейчас это компактный интерактивный прототип, который позволяет наложить данные Index of Multiple Deprivation (IMD) поверх карты с объявлениями, которые остаются кликабельными. В ближайшие пару дней добавлю туда остальные данные и буду рад поделиться - напишите мне, если вы в ЮК и хотите попробовать.
Результаты карьерного опроса🐌 На этой неделе исполнился год с запуска нашего карьерного опроса — время подвести итоги. За это время абсолютные значения, скорее всего, уже изменились. Но опрос проводился не ради них — актуальные вилки можно итак посмотреть в канале @not_boring_ds_jobs.Гораздо интереснее было разобраться глубже и попробовать ответить на следующие вопросы:1. Как связан возраст и опыт с грейдом? Как он меняется в зависимости от отрасли?2. Платят ли мужчинам больше, чем женщинам и получают они ли выше грейды? 3. Как образование влияет на карьеру? 4. Как хард скиллы влияют на доход?5. Как отличается уровень дохода в регионах и Москве?6. Как уровень дохода зависит от компании и сферы?7. Как уровень дохода зависит от того, с какими данным работаешь?8. Как долго задерживаются в одной компании в зависимости от грейда?9. Как зависит число встреч от дохода и грейда?10. Как меняется премиальная часть с ростом дохода?11. Как переработки влиют на доход и скорость карьерного роста? правда ли что с ростом грейда нужно перерабатыать больше?12. Как влияет тех бэкграунд вашего руководителя на удовлетворенность работой и доходом?13. Какие факторы влияют на удовлетворенность работой?14. Как влияет развитие ценных навыков на удовлетворенность? а как сюда примешивается уровень дохода? правда ли что можно доход в момент можно заменить развитием скиллов?15. Как связаны удовлетворенность и уровень дохода с желанием сменить работу?16. Сколько нужно доплатить в процентом соотношении чтобы перекупить дата сайнтиста? Какая этот процент зависит от удовлетворенности?17. Кто готов терять в доходе при смене работы на более интересную?18. Как связаны планы на смену работы с продолжительностью работы на текущем месте?19. Как относятся к head of ds: Позитивно, негативно, конструктивно?20. Как ** связана с уровнем дохода и удовлетворенностью?21. Интересные но не стат значимые результаты по head of ds и вышеСегодня мы посмотрели на EDA и ответили на первый вопрос.🔜 продолжение в следующих постах🙏 @Aleksandr_Vav1 за аналитику
Так ли мы хотим что-то новое? #kiselevworkОдин инди-разработчик решил проанализировать ситуацию на видеоигровом поприще: скачал первый скриншот из более 10 000 проектов в Steam и сравнил, насколько они похожи между собой. Каждая точка перед вами — это игра, и чем они ближе друг к другу, тем больше похожи.Цвет в свою очередь отображает количество отзывов в Steam, своего рода показатель популярности проекта. Отфильтровав проекты по тегу/жанру, можно заметить интересные закономерности — например, насколько близко самые успешные представители жанров находятся друг к другу (то есть похожи по своей презентации).Карта также доступна в интерактивном формате с дополнительными сортировками по жанрам, цене, тегам и другому по ссылке, только для этого её придется скачать.В каждую из этих крохотных точек вкладывались сотни часов разработки, а по итогу всё оказывается так близко и похоже друг на друга. Невольно задаёшься вопросом, а так ли нам нужно что-то уникально другое — или большинству хватает просто слегка доработанного и улучшенного опыта в знакомой среде.
🚨 Accuracy 99% — и модель всё ещё может быть мусоромЕсли вы хоть раз имели дело с прогнозными моделями, то точно видели этот набор из четырёх страшных слов:accuracy, precision, recall, F1-scoreИ вроде бы определения читаешь, а через 5 минут в голове всё снова превращается в ✨точность модели✨Давайте один раз разложим это по-простому 🥺Есть модель, которая ищет мошеннические банковские операции 🔎Всего у нас 1000 транзакций 💸Из них:⛔️50 реально мошеннические✅950 нормальныеМодель сказала, что подозрительные — 40 операций 👀Из этих 40:✅30 реально мошеннические 🌝10 — нормальные, но модель запаниковалаПри этом модель пропустила ещё 20 мошеннических операций 😅Сначала переводим это в аналитический язык 🤓True Positive (TP) = 30модель сказала «мошенник» и была праваFalse Positive (FP) = 10модель сказала «мошенник», но ошибласьFalse Negative (FN) = 20модель сказала «норм», но там был мошенникTrue Negative (TN) = 940модель сказала «норм», и всё ок1️⃣AccuracyКакую долю объектов модель в целом классифицировала правильно? ✅Это самая коварная метрика, потому что выглядит очень красиво:Accuracy = (TP + TN) / Total = (30 + 940) / 1000 = 97%😎 Вау, 97%! Кажется, модель прекрасна.Но нет. Потому что если мошенников мало, можно почти всегда говорить «всё нормально» — и accuracy всё равно будет высокой 🤷♂️2️⃣ Precision aka точностьНасколько можно доверять положительным срабатываниям модели? 🤨Precision = TP / (TP + FP) = 30 / (30 + 10) = 75%То есть если модель сказала: «Вот это мошенник!» — только в 75% случаев она права ☹[Это важно, когда ложное обвинение дорого стоит]Например, если вы блокируете клиенту карту без причины 📱3️⃣ Recall aka полнотаНасколько хорошо модель умеет находить все реальные положительные случаи? 🫡Recall = TP / (TP + FN) = 30 / (30 + 20) = 60%То есть модель нашла только 60% всех мошенников, а остальные 40% продолжают красть деньги! 😱[Recall важен, когда страшно что-то пропустить]4️⃣ F1-scoreНасколько хорошо модель в целом балансирует между точностью и полнотой? ⚖️F1 = 2 × Precision × Recall / (Precision + Recall) = 2 × 0.75 × 0.60 / (0.75 + 0.60) = 0.67То есть F1 ≈ 67%, это показывает насколько в целом хороша модель, чем ближе значение к 100%, тем лучше.Оставляйте реакции:🤯 — если попадались в ловушку accuracy🤓 — если хотите теперь разбор ROC-AUC❤️ — если пост был вам полезен#харды #собесы
Сегодня в Т был киновечер, а вместе с ним выступление директора по аналитике, Кирилла Николаева И я офигел от того, как его тезисы похожи на мой вчерашний постВ его понимании, идеальный аналитик, в первую очередь, должен понимать модель и тренды развития своего бизнеса (!!!). И уметь отвечать на порой очень сложные вопросы по его развитию Уже следующими обязательными скиллами идут матстат и умение собирать данные. А за ними – умение быстро прототипировать (!!!). Иметь алгоритмику и модели, чтобы быстро прикидывать разные сценарииЭти три скилла поддерживают умение аналитика объяснять развитие бизнеса. Продакт может понимать все это более интуитивно, но аналитик должен подкреплять интуицию валидными моделями мираА теперь второй момент. Он сказал, что высоко котирует аналитиков, которые являются скорее экспериментаторами, которые пытаются объяснить мир, нежели глубокими теоретиками. А ещё что ML – не панацея, а один из инструментовОн очень хорош для оптимизации отдельных участков продукта, которые объяснены и понятны логически. Но тема та же, что и с ЦБ – при интерпретации данных и принятии решений приоритет идет в сторону экспертной интуиции и интерпретируемости модели, а не предельной математической точности от черной коробки Я нашел в интернете его цитату про аналитиков – по-моему, очень классная, и такую же точку зрения он озвучивал на выступлении:Аналитик — физик от мира бизнеса, им движет любопытство. Мы экспериментаторы, которые строят модели мира и ищут способы понять физику окружающей действительности, направить бизнес в правильное русло.В работе мы постоянно выясняем, как что-то работает на самом деле, есть ли влияние на продукт и если да, то какое. У нас десятки продуктов на переднем крае бизнеса, в которых легко загореться и почувствовать себя исследователем. Мы за то, чтобы каждый мог максимально использовать свои навыки и энергию, найти себя и развиватьсяВ целом очень зашло его выступление и подход. Похоже, что у ЦБ и Т-Банка (на топ-уровне) аналитика строится на одинаковых принципахЭто о чем-то да говорит)
Iceberg — это must have?Вы еще не замечали, что становится больше вакансий, где айсберг уже требуют?С одной стороны, если посмотреть на hh, то вакансий с айсбергом всего около 5%. Но, с другой стороны, в последнее время на меня выходят именно с формулировкой обязательностиСобрала список компаний, которые хотя бы частично уже живут на Data Lakehouse:📌Ламода📌Магнит📌Альфа📌М.Видео📌МТС📌Сбер📌X5📌Лента📌Золотое яблоко (Delta Lake)А вот Озон по состоянию на прошлый год планировал идти в Data Mesh, чем в Data LakehouseЧто вообще думаете?@data_engineerette
🆕 Свежие новости для дата‑сайентистов🧠 Agentic reasoning: 3 уровня автономности LLMКоманда из University of Illinois Urbana-Champaign, Meta, Amazon и Google DeepMind предлагает смотреть на LLM не как на «умный чат», а как на полноценного агента — с памятью, планированием и координацией. Фреймворк из трёх слоёв (base → self-evolving → collective) выглядит как попытка систематизировать весь хайп вокруг AI-агентов и сделать его инженерно управляемым.🚨 Anthropic и массовая дистилляция ClaudeAnthropic заявила, что DeepSeek, Moonshot AI и MiniMax через десятки тысяч фейковых аккаунтов собрали ~16 млн ответов Claude, чтобы воспроизвести его агентные способности.⏳ 25 часов автономного кодинга от OpenAIOpenAI провела стресс-тест: GPT-5.3-Codex получил пустой репозиторий и 25 часов времени. Итог — полноценный инструмент, 30k строк кода и 13 млн токенов.💻 FDM-1 — универсальная модель для работы за компьютеромFDM-1 обучили на 11 млн часов видео, чтобы она могла выполнять реальные компьютерные задачи — от CAD до навигации в GUI. Интересно, что акцент сделан на масштабируемость и отказ от дорогой разметки.🔥 Qwen3.5-35B-A3BНовая версия Qwen от Alibaba Cloud усиливает позиции open-weight моделей в среднем размере (30–40B). Мультимодальность, RL-скейл и архитектурные улучшения — китайские модели продолжают стабильно сокращать разрыв с западными лидерами.⚡ MIT про ускорение обучения LLMИсследователи из MIT предлагают использовать idle-время вычислений, чтобы почти вдвое ускорить обучение без потери качества. На фоне дефицита GPU такие инженерные оптимизации могут оказаться не менее важными, чем новые архитектуры.🍌 Nano Banana 2 от GoogleGoogle обновила свою image-модель: больше скорости, больше контроля, уровень Pro в компактном формате. Сегмент «быстро и качественно» в генерации изображений становится всё плотнее.📍 Навигация: Вакансии • Задачи • Собесы🐸 Библиотека дата-сайентиста#свежак
Вопросы, которыми я никогда раньше не задавался, но вот случилось:Как упорядочит 3д вектора так, что бы разница между соседними элементами имела наименьшую энтропию?
📚 Подборка книг, которые помогут вам с нуля разобраться в ключевых понятиях в статистике и работе с данными Знаю, что вам нравятся подборки с хорошими книгами, вот мои рекомендации по статистике и анализу данных. Книги №1 и №3 есть у меня в PDF, c удовольствием делюсь файлами с вами в комментариях ↓1️⃣ Статистика и котики | Владимир Савельев Очень красивая и наглядная книга с понятными иллюстрациями, которая поможет вам с нуля и просто разобраться с основными важными терминами и понятиями в статистике.2️⃣ Голая статистика | Чарльз УиланПростая книга для того, чтобы разобраться в ключевом в статистике, без сложных формул и с хорошими и наглядными примерами.3️⃣ Наука о данных с нуля | Джоэл ГрасПоможет вам углубиться в науку о данных с нуля на простом и понятном языке.В комментариях прикрепила Книги №1 и №3 в PDF 📚Поделитесь своими классными вариантами по статистике в комментариях⭐️@valeriartis
Прожарка дешей в АвитоПару лет назад писал что Ценность визуализации данных преувеличена (В основном Tableau, поскольку это их главная фишка). В ней нет ничего критически важного. Релевантность, своевременность аналитики и доверие к ней в разы важнее. 95% бизнес дашборда - BANs, бар-чарты и удобные таблицы. Надо просто набить руку делать базовые шаблоны без явных ошибок. Помогает если по-максимуму закрыть в BI туле опции делать откровенное уродство.Короче ничего с тех пор не изменилось)Но. Душа просит красоты некоторым из нас все равно хочется делать хороший визуал ) Женя Мичурин и Лера Смирнова рассказывают про наш подход к прожаркам дешей.Все как у всех - есть комьюнити жюри, методология, подготовка, эфир. Недавно добавили доработку деша автором с получением бейджа и "зачетом" на след калибровке по матрице компетенций. Важно - для любого разговора о визуализации бизнес данных в приличном обществе нужно проверять себя на два условия:1) Упарываться и придираться стоит если (через AND):- это операционный деш (не аналитический, там скорость важнее)- у деша широкая аудитория бизнес-юзеров (UX окупается)- есть основания считать, что деш проживет долго, хотя бы 6 мес (система дешей как продукт)В остальных дашах - упоротый датавиз не отбивает инвестиций.2) Есть спорные вопросы (вкусовщина). Есть объективные (все эксперты будут согласны). Грань тонкая, но ее надо чувствовать.Традиционный вопрос - ну а что там с AI?Собрал на коленке Dashboard Roasting Bot в нашей корп LLM (с anthropic под капотом). В контексте - мощный прожарочный промпт + наш BI стайл гайд с конфлюенса и записи прожарок. Перед оценкой бот запрашивает цель деша, аудиторию, регулярность использования.Результат на 8 из 10. Насыпает детально, развернуто, полезно. Цитирует стайлгайд и Lisa Charlotte Muth. Проверяет на цвета, адекватность layout'а. Дает толковые рекомендации. Ставит оценку по шкале. Точно можно его доучить в промпте - не лить воду, держаться строгих проверок. Закину в комменты пример деша и ответа.Вроде рабочая штука.След шаг - встроить прожарку в BI тул при публикации и в скоринг здоровья сертифицированных дешей. Кажется этого еще никто не делал)Торопитесь прожаривать короче, пока есть что прожаривать. Деши уйдут (нет), а вместе с ними и приятный треп про визуализацию. В тему два наших эфира с Ромой Буниным. Больше не будет - поляна сдана ИИ.)#АвитоBI
SEO, GEO и поиск в 2026: базаЗа последний месяц мне задали один и тот же вопрос раз пять. Формулировки разные, но суть одна: «Родион, что делать с SEO? А с GEO? Нам перестраиваться? Какой план?»Решил зафиксировать ответ постом. Чтобы в следующий раз просто кидать ссылку.В январе Reuters Institute опубликовал исследование: 280 руководителей медиа из 51 страны прогнозируют падение поискового трафика на 43% в ближайшие три года. Каждый пятый ожидает, что потеряет больше 75%.Две причины, и вы их знаете. Поисковики придерживаются стратегии zero-click — отвечают на запрос прямо в выдаче, чтобы пользователь никуда не уходил. А пользователи всё чаще «гуглят» через AI-ассистентов и вообще не открывают поисковик.Маркетологов тут волнуют два вопроса. Как попадать в ответы нейросетей? И как продолжать получать трафик из поиска? Это две разные стратегии.Попасть в ответы нейросетейНил Патель написал про это подробно. Если нейросеть формирует ответ из авторитетных источников — вам нужно растить Brand Authority и заниматься Digital PR. Публикуйтесь в отраслевых изданиях, давайте экспертные комментарии, проводите собственные исследования. Чем больше авторитетных площадок упоминают вас — тем чаще нейросеть процитирует ваш бренд в ответе.Интересная мысль: вполне вероятно, что впервые с момента глобальной диджитализации мы сможем друг другу объяснить, зачем нужны пиарщики и как измерять эффективность их работы.Продолжать получать трафик из поискаМы с Ильёй Карбышевым записали про это разговор. Нейровыдача прекрасно закрывает простые запросы — «как варить гречку», «какая ставка по ипотеке». Zero-click тут работает. Но попробуйте спросить что-то сложнее — например, какую систему налогообложения выбрать конкретно вам с учётом новых правил 2026 года. Нейросеть соберёт ответ по верхам и, скорее всего, перепутает контекст.Это напрямую влияет на контент-план. Писать очередной рецепт гречки — бессмысленно, нейронка ответит за вас. А вот экспертные разборы, кейсы с цифрами, оригинальные исследования — то, чего в сети ещё нет — по-прежнему приносят поисковый трафик. Не переписывать трижды про гречку, а заполнять пустые и более сложные ниши.Исследование Reuters это подтверждает: медиа по всему миру уже перераспределяют ресурсы. Наращивают инвестиции в оригинальные расследования, экспертный анализ, авторские истории. Сокращают — сервисную журналистику, вечнозелёный контент и общие новости. То есть ровно то, с чем нейросеть справляется сама.Если коротко: SEO не умирает, совсем. Простой контент уходит в нейровыдачу. Экспертный — остаётся вашим. Быть экспертными всегда было важно, а теперь базовый минимум. Ага?
Что изучать для BI-разработки и работы с данными.Предыдущие посты серии:1. Документация по промптам.2. Выбор нейронок.3. Подготовка к разработке.4. Оптимизация кода.5. Если код не "летает".6. Минимизируем вычисления.7. Фатальный пример вычислений.8. Порядок обработки данных.9. Смерть производительности. Часть 1.10. Смерть производительности. Часть 2.11. Плохие и хорошие примеры.12. Когда в PQ сортировать данные.13. Параметризация переменными.14. Что учесть перед созданием кодаЧто развивать и изучать для обработки данных?✅ Образное мышление:— Как пример из других кейсов применить к моим данным.— Какие операции выполнить с разными столбцами.— Если нужных полей в этом датасете нет, а в другом — есть, как их можно объединить.— Какие проблемы можно обнаружить, имея в датасете нужные столбцы.— Как их создать.— Как данные из кастомных столбцов применить в дашбордах как критерии: а) Группировки. б) Сегментации. в) Фильтрации.— Какие куски кода параметризировать, чтобы применять его на других проектах.— Как реализовать гибкость и управляемость обработкой данных, чтобы не хардкодить пользовательские значения текстом в коде, а обращаться к динамическим спискам: а) Умным таблицам. б) Именованным диапазонам. в) Папкам с файлами.— Какие проблемы и задачи универсальны для всех проектов.— Как подготовить общие (глобальные) библиотеки данных, которыми можно пользоваться в любом проекте.— Какие проблемы и задачи являются частными для каждого проекта.— Как подготовить локальные библиотеки данных, которые в каждом проекте будут свои.— Как заранее предусмотреть конфликты значений в локальных и глобальных библиотеках, т.е. реализовать поэтапную проверку условий.✅ Получение данных:— Откуда и что получать.— Какие поля.— В каких группировках.— С какой детализацией.— С какими фильтрами.— За какой период.— Каков объём данных.— Не "ляжет" ли получение данных из-за их объёма.✅ Если это вручную заполняемые данные (CRM, Google Sheets): — В каком виде данные находятся в источнике.— Плоская ли это таблица (в столбцах — названия полей, в строках — значения).— Какие манипуляции с данными нужно произвести для их преобразования в плоскую таблицу.— Кем заполняются данные.— Какие поля нужно автоматически валидировать (проверять, исправлять, изменять).— Какие нужно обрабатывать частные случаи.— Как это автоматизировать.✅ Хранение данных:— Каков объём исторических данных.— Частота их обновления.— Интенсивность их обновления, т.е. насколько много новых данных появляется ежедневно.✅ Среду разработки: — Возможности интерфейса.— Возможности и ограничения языка.— Синтаксис.— Библиотеки.— Типы объектов.— Кастомные функции.— Архитектуру.— Исправление ошибок.✅ Создание модели данных:— Нормализация модели данных.— Как не раздувать модель данных.— Как обработанные данные собрать в нужные столбцы и таблицы для удобных и полезных дашбордов.— Как позаботиться о масштабируемости модели данных.✅ Вычисляемые поля:— Как вычислить ту или иную сущность в модели данных.— Почему вычисления метрик лучше делать в модели данных, а не на этапе ETL-процесса перед загрузкой в модель.✅ Визуализацию данных:— Бесконечный простор нажатия галочек, которые пока сам все не понажимаешь и не используешь, не поймешь, что они делают, и не запомнишь, где они находятся.✅ Фильтры:— Что нужно иметь в источнике данных или вычислить в коде, чтобы это отобразить удобно и понятно.— Локальная фильтрация листа.— Сквозная фильтрация всего отчёта.✅ Параметры в дашбордах:— Как визуальные элементы дашборда (фильтры, значения, поля в таблице) сделать автоматически пересчитываемыми, чтобы не городить много вкладок, отличающихся одним полем или метрикой.— Как параметризировать часто используемые элементы.— Как уместить всё самое важное на один холст отчёта.— Как выбирать необходимые визуализации в 1 клик.Вот для чего создавался комбайн: — ч.1— ч.2Чтобы не суецыднуться от ежедневных инсультов при работе с любым проектом на любом языке.via @ppc_bigbrain
Как оптимизировать всю работу с Excel, таблицами и данными при помощи одной нейросети💪#нейросетидлябизнеса#обзорнейросетей 1️⃣ Шаг первый. Загружаем данные:Берём исходный файл. Это может быть Excel, выгрузка из CRM, финансовая модель или просто большой массив данных.Рис.1Загружаем файл в нейросеть и формулируем задачу обычным языком. Например:Проанализируй структуру таблицыобъясни, что здесь происходитнайди слабые местапредложи, как упростить расчёты.Нейросеть читает файл, понимает логику формул и начинает объяснять, где избыточность, где возможны ошибки, где расчёт можно сделать проще. 📊2️⃣ Шаг второй. Пересобираем модель:Можно написать:построй финансовую модель на основе этих данныхсделай прогноз на три сценариядобавь расчёт маржинальностиоптимизируй формулы.Нейросеть предлагает новую структуру. Показывает, какие показатели вынести отдельно, какие объединить, где сделать сводную таблицу.Рис.2Если нужно, просим:сделай управленческий дашбордвыведи ключевые метрикиподготовь таблицу для руководителя.И получаем готовую интерактивную структуру, меняя показатели на интерактивных ползунках, мы видим как меняется график, эти данные выгрузить в Excel и использовать в работе 💡Рис.33️⃣ Шаг третий. Работаем через диалог:Не нужно вручную строить сложные формулы. Можно сказать:объясни, как считается этот показатель, перепиши формулу проще, проверь корректность расчёта, найди аномалии в данных.Нейросеть отвечает, корректирует, предлагает альтернативы. Это уже не просто таблица, а интерактивный аналитик рядом с вами.Рис.44️⃣ Шаг четвёртый. Автоматизация рутинных задач:Подготовь шаблон для ежемесячного отчёта, сделай структуру бюджета на годразбей клиентов по сегментам, сформируй прогноз движения денежных средств.Вместо нескольких часов в Excel вы тратите время на постановку задачи. А это совсем другой уровень работы 🚀Рис.5Рис.6И самое важное, это не демонстрация ради эффекта. Это реальный инструмент, который уже используют в бизнесе.🧐На курсе «Искусственный интеллект для бизнеса: от стратеги до внедрения» в университете Плеханова мы на первом занятии покажем, какая нейросеть используется для таких задач.Во втором модуле вы отработаете практику на реальных кейсах и научитесь правильно с ней работать. Будете загружать свои таблицы, строить модели, собирать дашборды.А в шестом модуле разберём, как делать такие решения локально, с соблюдением защиты корпоративных данных и требований безопасности компании.‼️Приглашаю вас 24 февраля 18.00 на первое бесплатное занятие по ссылке.Код доступа: 88888Если вы ещё сомневаетесь, напишите Глебу @gignatevv и уточните детали о записи на курс.
Рамадан = детокс.Пост - это не про отказ от еды, это все знают. Больше всего зла мы получаем от избытка информации. На графике видно, насколько больше инфы мы получаем по сравнению с предками. Стали ли мы умнее от этого: большой вопрос. Некоторые рекомендации, которые помогли мне использовать телефон в среднем на час меньше в день:1. Отключить максимум уведомлений, желательно все. Приложения использую их, чтобы захватить ваше внимание, соответственно, вашу жизнь2. Использовать харам-блюр в браузере, от замазывает то, что не нужно видеть3. Скачать one-sec для телеграма - он не блокирует доступ, но дает подумать, действительно ли вы хотите зайти в приложение сейчас?4. Удалить приложения с рилсами. Они ухудшают память, концентрацию, интеллект. Вызывают зависимость на уровне азартных игр5. Оставлять телефон дома - смотреть по сторонам, видеть красоту вокругМогу привести еще много практик детокса, но и даже внедрения пары пунктов будет достаточно, чтобы значительно улучшить восприятие реальности вокруг. Делайте
Я больше не боюсь "кодить" 😄Сегодня закрыла большой гештальт - освоила Google BigQuery и язык программирования SQL. И это вообще не про «стать программистом». Это про то, чтобы перестать смотреть на маркетинг через красивые отчёты и начать видеть, как бизнес реально зарабатывает деньги.BigQuery - это место, где сходятся все нервы компании:1 реклама2 сайт3 CRM4 продажи5 звонки6 поведение пользователейТам нет цветных кнопок.Там сырые цифры и правильные вопросы. Дальше — визуализация в Microsoft Power BI.И собственник за 5 минут понимает, где деньги, а где иллюзия.Давайте приведу некоторые вопросы на которые можно ответить с помощью аналитики данных — Сколько на самом деле стоит клиент с учётом всех расходов?— Какой LTV у каждого сегмента?— Где маржа выше всего?— Какой продукт тянет прибыль, а какой «для объёма»? — Где стоимость лида превращается в слив бюджета? — За что люди готовы платить больше?— Какие клиенты остаются надолго, а какие уходят быстро?— Какие причины возвратов и отмен?— Какие поведенческие паттерны у клиентов с высоким LTV?— Кто приводит больше рефералов?— Когда нужно повышать цену?— Что произойдёт, если отключить нерентабельный продукт?— Где точка безубыточности?— Как меняется поведение клиентов со временем?Как вам? Хотели бы получить ответы? Главный инсайт:Бизнесу жизненно важно начинать собирать данные заранее.Потому что данные — это не прошлое. Это фундамент будущих решений.Маркетинг будущего — это не больше креатива.Это больше понимания.И вот здесь появляется новый тип специалиста.Маркетолог 2026 — это не человек, который “умеет вести планерки”.Это человек, который:1 работает с AI-инструментами2 понимает аналитику3 умеет связать маркетинг и кодПотому что сегодня маркетинг — это уже наполовину программирование.Страшно слово «код»?Страшно «программирование»?Смотри пункт 1 - AI уже помогает писать SQL, находить ошибки, строить модели атрибуции, прогнозировать LTV.Вопрос не в том, умеешь ли ты программировать.Вопрос в том, умеешь ли ты думать через данные и говорить со специалистами на одном языке.И да — маркетолог 2026 либо работает с AI и аналитикой, либо остаётся человеком «джуном».Выбирайте сторону.
😮 лол - с пятницей вас - видео отправили вчера и долго смеялся)посмотрел тут статистику по росту инвестиций в датацентры и думаю через 2-4 года будут новые позиции на работу с данными датацентров - аля CDO датацентра , Head of AI в датацентре и тд. ❗️Amazon, Google, Microsoft, Facebook, Alibaba - год к году наращивают динамику расширения ЦОДов + 60-80% YoY - ссылкаМатематических задач по оптимизации и cost efficiency уверен там много - перенаправлять мощности, уменьшать простои, оптимизировать траффик, детекции аномалий, выявление отказов на ранних этапах. Причем прикольно тут прямая математика с денежным эффектом. Я думал будущее будет как безумный макс или звездные войны, но похоже все таки как Матрица. Потом экономика физических товаров будет затухать, люди будут все больше в виртуальном пространстве сидеть - подписки за агентов, подписки за сервисы, кино, онлайн и тд.Люди будут работать на обслуживание машин, обучать, сопровождать, поддерживать.
AI-каталогизация: как автоматизировать описание данных?Чем больше данных накапливает компания, тем сложнее в них разобраться.Либо описание БД и BI формируется вручную и требует больших ресурсов команды, либо его просто нет, потому что отложили “на потом”.В обоих случаях поиск данных и понимание взаимосвязей начинает зависеть от отдельных специалистов.DataDesc AI решает эту проблему как ИИ-слой знаний поверх БД и BI. Решение автоматически:⚙️создаёт бизнес-описания объектов хранилища⚙️объясняет SQL простым языком⚙️строит lineage⚙️описывает BI-дашборды. Документация всегда будет актуальной. Переложите эту рутину на AI. 30 минут и у вас готово то, на что команда потратила бы несколько месяцев. Если вам актуальна автоматизация описания данных и снижение ручной нагрузки на команду — посмотрите, как DataDesc работает с реальными метаданными.🔗 Подробнее
Как создать себе актуальную базу знаний, которую можно использовать для самообучения и контента, с помощью OpenClaw.Взял 3 подкаста: Huberman Lab, The Tim Ferriss Show, The Rich Roll Podcast.Задал боту настройку (сообщением): мне нужны все подкасты по теме мышление, связанные с коучингом. Взял за прошлый год.Бот создал в Notion базу, отсортировал, создал метки, краткое содержание, основные инструменты, все ссылки добавил. Обработал порядка 150 подкастов за 30 минут.Итог: красивая, понятная, актуальная база информации по интересной мне теме.И что? Интересно, конечно, но вот где тут польза.Польза:• Всегда есть актуальная информация связанная с ключевой аудитории. Любой из подкастов в базе привязан к одной из тем, с которой я работаю в рамках коучинга. Позволяет мне быстро находить научные работы по данной теме, исследовать их и применять в работе с клиентами.• Контент. Каждый из этих выпусков автоматически падает в контент-план с уже готовым текстом (содержанием, инсайтами подкаста) и разбитыми текстами слайдов галереи Instagram. Черновик готов, немного доработать — и публиковать. Выпуск контента ускорился в разы. Больше охваты — больше клиентов.База автоматически обновляется и присылает мне в Telegram новости, что есть новый подкаст и пост готов. Удобно.
Как найти связи между философами?Коллеги подсказали забавную интерактивную карту, которая показывает связи между концепциями различных философов. Можно нажать, например, на Альтюссера и проследить, как тот или иной его тезис раскрывается в истории мысли, увидеть согласных и несогласных с ним. Буквально можно в игровом формате понаблюдать за диалогом между философами, длящимся веками. Также можно осуществлять фильтр по дисциплинам.Скажу сразу, что некоторые тезисы можно назвать поверхностными и специалисты по любому "великому мыслителю Х" наверняка найдут, к чему придраться. Но в любом случае проделана огромная работа, а копаться в этих связях можно часами.Лично я удивлён, что нет Шмитта, Анкерсмита, Ланда и многих других. Зато есть Ричард Левонтин, биолог, которого почему-то записали в философы.En général, хулиганьте на здоровье!
База знаний: от свалки до системы (подборка)Проблема многих больших и взрослых продуктов, что база знаний живёт своей жизнью. Слои недописанных статей, схемы, которые никто не обновлял с момента перехода на «единую архитектуру» 2018 года, а единственный актуальный документ висит в личке у коллеги, который в отпуске, а после отпуска увольняется 😉 Бывало, что приходя на новую задачу, получаете на входе кучу огромных неактуальных схем и агрессивные сроки новых доработок?Собрала подборку статей о базах знаний. Здесь о том, как восстанавливать базы знаний с нуля, что и как документировать, и как приводить в чувство то, что уже разрослось, как сорняк.🔖Генеральная уборка базы знаний: плюсы, подводные камни, минусов не будетЭта статья от технического писателя и посвящена пользовательской базе знаний - одним из инструментов тех.поддержки. Но есть вещи, которые можно перенять и для работы с документацией архитектуры и требований, если вам вдруг достался большой объем чего-то неактуального. Построение процесса, организация структуры и регулярная актуализация.👁🗨Аналитик и legacy: как разобраться в устройстве старой системы? Запись доклада Максима Цепкова, где он рассказал как можно разобраться в устройстве системы и вписать изменения в бизнес-архитектуру, если нет актуальной документации. Моя любимый тезис из этого доклада: если выглядит так, что заказчик говорит ерунду и путается, то наверняка это вы в чем-то пока еще не разобрались.🔖Что делать, когда попал на проект без документации? На примере приложения для магазина игрушек пошагово и с примерами разобран процесс восстановления документации в смешанной роли БА/СА. В заключении статьи прозвучал важный вопрос "Давайте оглянемся назад и честно ответим, кому нужен был данный марафон с восстановлением документации?"📎Мало слов и много смысла Обзор доклада "Как писать, чтобы покороче, но со всеми важными деталями" Сергея Нужненко на WAW прошлого года. Здесь о о том, что документировать, а что не обязательно и еще список книг для работы с текстом.🗞Как мы случайно сделали Semantic Wiki в Gramax Статья в блоге компании Gramax о базе знаний, которая не просто хранит контент, но и организует связи между ее объктами. Здесь речь о конкретном продукте компании, но можно и просто подсмотреть подход.🖇Шаблоны требований Пост в этом канале об использовании шаблонов документов. Разбираюсь, почему чужая шпаргалка не работает так же хорошо, как своя, и делюсь подборкой примеров.#что_почитать
Вообще немного кумарит эта тенденция ботов за все и про все извинятьсяВот тут история была, как один блогер по дата инженерии написал диз на другого. Второму пришлось отбиваться:https://t.me/analyticsfromzero/456Да так отбился, что первый весь свой канал удалил 🤣Эти айтишники еще те токсики, до извинений не доходит даже
Госуслуги - одно из понятий, сложных для быстрого объяснения, особенно в синхроне. Все знают, что это, русскоязычные спикеры быстро проглатывают термин, тк всем все понятно. А переводчик сидит в кабине, тоже все понимает, но от этого не легче, тк время ⏳ Но при подготовке к другому заказу я вдруг случайно наткнулась на то, как это, оказывается, называется:🇬🇧 e-government 🇪🇸 gobierno electrónico Конечно, термин не = госуслугам, его значение намного шире, а именно концепция, в которой правительство взаимодействует, в частности, с гражданами в электронном формате с минимальным физическим контактом. Не таким ли сервисом являются госуслуги? Которые встретились мне в презентации при подготовке к другому заказу 😅
Фронтраню массовые увольнения из-за AI. Сделал скилл для вашего AI агента, который автоматизирует анализ данных TON Blockchain поверх данных на Dune. Все-таки не зря собирали лейблы все это время. 🔗 github.com/ohld/ton-analyst
Мое непопулярное мнение, ML и AI - где нужно сидеть постоянно над оптимизацией метрик жутко скучное занятие.Дата инженерия даже интересней.