Data Science и аналитика — страница 5

Лента темы

Исследование соцсетейНа днях Brand Analytics опубликовали свежие данные по активной аудитории соцсетей за осень 2025 года.В первую очередь я пошла изучать первоисточники. Потому что обсуждать «ощущения от платформ» можно бесконечно, но в реальности работает только статистика.Картина получилась довольно приземлённой. Без сенсаций.ВК не «вернулся» и не «ожил». Он никуда и не уходил. Платформа всё это время оставалась лидером по количеству активных авторов и объёму публикуемого контента. Более того, рост продолжается.В сентябре в ВК публиковались 22,5 млн авторов. Плюс 2,2 млн за период.В октябре в российских соцмедиа вышло 1,7 млрд публичных публикаций. Почти 320 млн из них — во ВК.И это уже не история про случайный приток или «перелив» аудитории, а устойчивая динамика.Можно продолжать снисходительные шутки про аудиторию и «не тот имидж». Но цифры на это никак не реагируют. Они просто фиксируют факт: ВК — крупная, активная и рабочая среда. Нравится это кому-то или нет — вопрос вторичный.Игнорировать её сегодня — не манифест и не эстетический выбор. Это вполне конкретное управленческое решение, за которым потом последует результат.Ссылка на полный текст исследования ТУТ

PythonTalk | Всё о Python

Авторепост

📄 Тратите годы на «дополнительное образование»? У меня для вас плохие новостиНашел интересный препринт (октябрь 2025, CESifo) с результатами масштабного эксперимента. Исследователи разослали 36,880 фиктивных резюме на реальные вакансии, чтобы понять, что на самом деле триггерит работодателей на приглашение к собеседованию.Сразу дисклеймер: исследование проводилось в США (рынок 2016-2017 гг., бизнес-вакансии).💬 "Ой, ну это же Америка, у нас всё по-другому!" — скажет скептик.💬 "Эвристики и фильтрация резюме работают везде одинаково" — ответит реалист. Ведь HR-фильтры — это не про глубокий анализ вашей души. И вот какие нюансы вскрылись:1️⃣ Фундаментальное доп. образование не играет ролиМногие технари любят козырять доп. образованием по фундаментальным дисциплинам. Мол, дополнительная специализация по математике или другим наукам показывает кругозор и аналитические способности.Результат: Влияние на конверсию в собеседование — строгий ноль.Работодателю (по крайней мере, на первом этапе скрининга) абсолютно плевать на ваши академические ачивки, если они не являются основной специальностью. Потратили 200 часов на теорвер? Молодец, возьми с полки пирожок, но оффер это не приблизит.2️⃣ Программирование "в вакууме" не работает.И вот тут самое интересное для нас. Исследователи разбили IT-скиллы на группы.— Просто указали «Программирование»? Эффект слабый.— Просто «Анализ данных» (Excel/Stat)? Тоже так себе.— Combo: Программирование + Анализ данных?🚀 Рост конверсии на 9.3%.🔎Тут должна быть информацией о моей Мастер-группе по data science, но она уже была вчера.Как известно, все исследования куплены мной, чтобы продвигать мои лекции.Вывод: Работодателю плевать, что вы знаете синтаксис Python. Ему нужно решение бизнес-задачи. "Я умею программировать" — это сырьё. "Я умею программировать и анализировать данные, чтобы вы принимали решения" — это продукт.3️⃣ Soft Skills решают (опять).Стажировки, где нужно было общаться людьми (sales), работают лучше, чем "аналитические" стажировки. Опыт учебы за границей тоже бустит резюме, но только для позиций, где надо работать языком (хех).Рынок боится "сычей". Им нужны люди, которые умеют в коммуникацию.Что с этим делать? 🤔🟣 Не учитесь ради строчки в резюме. Если знание не применимо в работе прямо сейчас — HR его проигнорирует.🟣 Качайте гибридность. Если вы джун или мидл, и у вас в резюме просто список технологий (Python, Docker, SQL) — вы скучный "калькулятор".Вы должны продавать комбинацию: Технический скилл + Прикладное применение.🟣 Не прячьте софт-скиллы. Если вы волонтерили, организовывали митапы или работали в продажах до IT — пишите это. Это работает лучше, чем еще один пет-проект, который никто не откроет.

Creative course

Авторепост

Признавайтесь, кто еще не заметил, что от перестановки мест слагаемых выдача меняется: количество работ остается прежним, а вот выдача гуляет. Причем, судя по всему, с тех дней, когда они еще более жестко стали в топы вмешивать совсем не топы. Я потерялась во времени, но, кажется, это случилось пару месяцев назад.Правило смены мест слагаемых так же работает и на смену окончаний, то есть, если одно слово замениться на множественное (появится s, или ed, или ing в конце), то выдача тоже меняется. Причем такой версии слова может и не быть среди ключей в работах. Кажется, Шаттр ведет себя как хитрая лиса стирающая путь хвостом. Вносят хаос в систему. И, с одной стороны, это хорошо, так как хорошие и релевантные работы увидят быстрее. Хотя, возможно, это сделано для компенсации того, что довольно слабые работы тоже увидят чаще. Судя по всему цель именно в том, чтобы в принципе сделать выдачу максимально разнообразной. Как ленту в соц сетях. Можно, даже, сделать смелый вывод, что ценность ключеобразования, то бишь SEO, теряет позиции и важнее становится, чтобы работа больше подходила под разные живые формулировки, а не под попадание идеальных ключей. Где-то здесь я смахнула слезу вспоминая, как написав 20 раз слово "pig" в ключах, продвинула работу в топ. Какие были времена!Еще я думаю, что они могут проводить а/б тесты, то есть для разных людей давать разный алгоритм выдачи. Так что поделитесь, пожалуйста, у кого так же. Ну и вообще, чё думаете по поводу всего этого? Это они так дают шанс новичкам? Хотят дать разнообразие покупателям? Или просто хотят покончить со стареющими стокерами? 😱Ну и лайки, конечно, не забывайте ставить. ❤️

Картетика.Канал

Авторепост

Большой обзор ГИС-трендов 2025 года 👀Что характеризует гео-сферу в 2025 году? В новой статье блога Юля с Наташей порассуждали на эту тему и выделили конкретные тренды с примерами из ГИС-мира.Почитать отдельно главы статьи:🔸Цифровые двойники городов🔸Интернет вещей и геоданные в реальном времени🔸GeoAI и машинное обучение🔸Фокус на данные🔸Рост рынка ДЗЗ🔸Тренды на рынке трудаК каждому тренду прилагается полезный список навыков, чтобы успевать за новыми технологиями 🌐P.S.: посодействовать более точному описанию рынка труда можно, пройдя этот опрос🔸

Градиент обреченный

Авторепост

Spotify утёкНа Annas Archive "забэкапили" Spotify. 300TB торрентов с музыкой выложат для скачивания, группами архивов по популярности треков.🟢В 300TB будет 86 миллионов треков из 256, покрывающих 99.6% прослушиваний.🟢Как по мне, так самое интересное это архив с метаданными, который уже выложили. Один архив на ~200Gb, второй на 3.9TB, в них данные по всем 256M треков. В блоге есть семпл на топ 10k песен.🟢 Есть еще торрент 2025_07_coverart.tar на 2.2TB, можно покачать обложечки.То есть можно взять и поанализировать данные от огромного сервиса (!). Например, пишут что у 70% от всех треков прослушиваний <1000. Больше статистики и картинок в блоге.Suno потирает руки.https://annas-archive.li/blog/backing-up-spotify.html

Программирование | книги

Авторепост

#АнализДанных #PowerQuery #PowerPivot #MSOffice 2025Современная аналитика данных в Excel: Использование Power Query, Power Pivot и других инструментов для расширенного анализа данныхАвтор: Маунт ДжорджРассмотрены современные методы очистки, анализа и визуализации данных в Microsoft Excel. Описаны инструменты Power Query для создания воспроизводимых процессов подготовки данных, средства Power Pivot для построения реляционных моделей и настройки аналитических показателей. Приведены практические примеры использования динамических массивов, функций на базе искусственного интеллекта и интеграции с языком Python. Показано, как создавать отчеты и аналитические материалы, ранее считавшиеся трудновыполнимыми в Excel. Книга ориентирована на специалистов по данным, бизнес-аналитиков и пользователей Excel, заинтересованных в расширении своих возможностей.Для аналитиков данных

Александр Львов

Авторепост

Рубрика «навайбкодил»За два вечера написал коннектор к API сервиса TGBooster, который собирает данные по всем кабинетам и кладёт в базу данных ClickhouseРаботает всё это в Yandex Cloud, данные обновляются каждые полчаса, отдельно загрузили всю статистику за два с половиной годаЕсть отдельный агент который проверяет базу на ошибки и делает повторные запросы если находит пробелыОсталось доделать только админку, чтобы гибко управлять доступами к базе данных и дашборды сформировать Зачем это всё? Чтобы экономить десятки часов специалистов каждый месяц, которые они сейчас тратят на выгрузку данных в гугл доки и правку формата данных в них, чтобы работали дашборды в DatalensКайф в том, что я просто писал, что мне нужно, а нейронка говорила куда нажимать и писала код. Я его вставлял, запускал тесты, скидывал ей логи, она правила баги пока не заработает

digital на минималках

Авторепост

И да, мне тут напомнили, что меня не только девопсы читают, поэтому, наверное, надо расшифровать всё, что я вам тут высралЧто вообще такое индекс?Индекс в MySQL - это по сути словарь в начале книги. Если у книги нет оглавления - чтобы найти нужную страницу, приходится листать каждую, одну за одной. Таблица без индексов делает ровно то же самое - просматривает ВСЕ строки, прежде чем найти нужную. Чем больше база - тем медленней это происходит и тем выше нагрузка, которую БД создает на сервер.Зачем индексы нужны?Чтобы база могла:- быстро находить нужные строки- быстро фильтровать (WHERE)- быстро сортировать (ORDER BY)- быстро объединять (JOIN)Без индекса любые операции по поиску превращаются в полный перебор записей таблицы - а это прямой путь к нагрузке, зависаниям и смерти по таймауту или Out Of Memory.Почему одного PRIMARY KEY обычно недостаточно?PRIMARY KEY есть у всех таблиц (практически) - он предназначен для уникальной идентификации строки. Но он помогает только если ты ищешь по нему же.А если твой запрос выглядит так:SELECT * FROM chat WHERE api_key = 'xxx';То MySQL с самого начала таблицы начинает перебирать все записи ровно до того момента, пока не наткнется на запись где api_key = 'xxx'. ChatLD уже наверное год, там десятки миллионов сообщений в таблице chat и вот, допустим, пришел сегодня новый стример, зарегистрировал аккаунт и получил свой api_key = 'xxx'. Каждый такой запрос будет сначала перебирать все записи в chat за весь год, пока, наконец, не дойдет до первой записи в чате нашего нового стримера.Что спасло ситуацию?Я добавил один-единственный вторичный индекс:ALTER TABLE chat ADD INDEX idx_api_date_id (api_key, date, id);И всё - нагрузка упала с 100+ до 0.3, сервер ожил, сервисы вздохнули, а я тоже.Кароче, юзайте индексы 😐

Новости нейронаук и нейротехнологий

Авторепост

Создан программный пакет для анализа сложных сетей мозга и социальных взаимодействийУченые разработали первый общедоступный программный пакет для языка программирования Python, который анализирует сложные сети. Новый инструмент позволяет изучать групповые взаимодействия между тремя и более объектами — от нейронов мозга до социальных связей. Разработка позволила авторам выявить фундаментальные различия в организации нейронных сетей в головном мозге у пациентов с депрессией и здоровых людей. Пакет открывает новые возможности для исследователей в области нейронаук, социологии, биологии и анализа данных. Результаты исследования, поддержанного грантом Российского научного фонда (РНФ), опубликованы в журнале Frontiers in Network Physiology.https://neuronovosti.ru/sozdan-programmnyj-paket-dlya-analiza-slozhnyh-setej-mozga-i-sotsialnyh-vzaimodejstvij/

Digital Developer → всё о proptech🔥

Авторепост

Как визуальная аналитика в ERP помогает выявлять узкие места в девелоперских проектахСтроительные проекты должны быть продуманными и просчитанными. Любая небольшая ошибка может привести к серьезным последствиям. Они сказываются на сроках завершения, бюджете и качестве. Главная сложность — вовремя заметить возникающие проблемы. Чем дольше игнорируются недостатки, тем тяжелее их исправлять.Сергей Кутанин, коммерческий директор IT-компании «Философт»: «Самое опасное в узком месте – не сам факт его существования, а то, что оно остается незамеченным длительное время».♦️ Визуализация в ERP позволяет выявлять узкие места там, где раньше они оставались скрытыми. ➡️ В новом материале собрали ключевые инструменты, которые помогают обнаруживать проблемы на ранней стадии и предотвращать срывы сроков и бюджета.@digital_developer

Трансгуманизм в далеком городе

Авторепост

Я прям таю, когда человек, на вопрос, что главное в трансгуманизме отвечает: «Стиль». Но, надо его качать. На этот счёт родилась абсолютно гениальная идея: хакатон по визуализации данных. Даты много, ничего непонятно, многое скучно, давайте донесём. Тем более давно хотели собраться в Москве. Если уж встречаться, то масштабно, сразу начнем делать проекты и сразу сделаем. Как записаться? Ща сайт сделаем, а так мне можно писать. Утром гугл-форму сделаю. В субботу через субботу приходите.

REAL DIGITAL

Авторепост

Как эффективно организовать хранение данных: LakeHouse и хранилище S3💾🏗️🚀В условиях постоянно растущего объема данных и работы с ИИ-нагрузками важно грамотно выстраивать архитектуру хранилища. Эффективным подходом, объединяющим архитектуру LakeHouse и сервис Object Storage, поделились эксперты Yandex Cloud. ⚙️📊Подход LakeHouse эволюционно сформировался как гибрид Data Warehouse и Data Lake, объединив их преимущества. LakeHouse позволяет хранить сырые данные, но за счет открытых табличных форматов и сопутствующих метаданных добавляет им структуру, а также обеспечивает поддержку транзакций. 🧱📚Подход обычно применяется в тесной связке с объектным хранилищем S3, где хранятся сырые данные. S3 обеспечивает надежность и масштабируемость под любые объемы данных. ☁️📦Использование S3 под задачи LakeHouse и ML/AI, а также совместное использование S3 и баз данных — основные тренды в работе с объектными хранилищами. 📈🤖Источник: Digital Business#ИИ #RealDigital #технологии #инфраструктура

mtrushko

Авторепост

💃🏼 Приготовьтесь, сейчас будет урок, который спасёт вам кучу времени!Если вам срочно нужны новые фишки в Excel, этот пост прямо для вас 🤝Нужно посчитать выручку, используя две разные таблицы:✔️ Первая: продажи в штуках по городам / месяцам / категориям✔️ Вторая: цены по SKU и по месяцам🔥 В чём подвох?1️⃣ Структура не совпадает. В первой таблице товары идут по колонкам, во второй по строкам2️⃣ Цены меняются каждый месяц, нужен матч сразу по двум параметрам: товар + месяцВПР здесь «сломается», ИНДЕКС+ПОИСКПОЗ справится, но анализировать потом такие данные будет неудобно.И тут на арену выходит блистательный Power Query 🔥🔥Он аккуратно приведёт таблицы к единому виду, развернёт как надо, соединит по двум критериям и посчитает выручку в одно действие. А дальше любое обновление данных в один клик ✔️ Делюсь видео с объяснением и файлом для тренировки. Пишите в комментариях, получилось ли у вас?

Синергия рода со Светланой Усмановой🍀

Авторепост

🌍 А если бы вся история человечества была одной огромной родовой системой……тогда эта карта - как генная линия Земли.Каждая точка - человек.‼️Самый известный, самый влиятельный, самый заметный, рождённый именно здесь.Учёные собрали и проанализировали миллионы биографий.И создали карту, на которой каждое место на планете «отмечено» одной судьбой.Кто-то лидер. Кто-то - учёный. Кто-то - творец или спортсмен.Категории разные, как и роли в роду.И я залипла.Потому что это не просто любопытно.Это… почти телесно.Ты смотришь, кто родился рядом с тем местом, где ты появилась на свет и вдруг ловишь: какое эхо во мне живёт? что через меня хочет проявиться?🍀Это не про сравнение, а про ощущение, что мы - продолжение.Что место, в котором вы родились, уже знало великие выборы, великие падения, великие мечты.И, возможно, что-то из этого теперь звучит в вас.🔎 Найдите свою точку на этой карте, проект интерактивный. И поделитесь впечатлением! #ресурспопоиску

Юлия Захарчук - Crypto Angel

Авторепост

3. Информация= деньги В октябре prediction-рынки слили имя лауреата Нобелевской премии мира за ночь до официального объявления.В этом месяце тем же способом утекли топ-артисты Spotify Wrapped.Prediction markets дают возможность понять, насколько вероятно наступление события, потому что показывают, как на него ставят люди с реальной информацией и деньгами.Например, мы ждём airdrop Lighter и видим, что вероятность выросла с 72% до 85%, это значит, что рынок все больше в этом уверен. Дальше мы можем посмотреть, кто именно делает крупные ставки: подозрительно точные кошельки, которые ставят не только на дату airdrop, но и на связанные рынки вроде FDV (где вероятность ниже и прибыль выше), что похоже на поведение инсайдеров. Значит у нас появилось более точное понимание, что шанс airdrop становится ещё выше.Последние дни весь X обсуждает инсайдера из Google, который заработал 1 млн$ за одень день на ставках рынках поиска Google. А до этого заработал 150к$ на релизе Gemini.

Глебсмит

Авторепост

Я часто пишу, что человек сегодня - прежде всего месторождение данных для ИИ. Проблема в том, что создание таких месторождений дорогое: инфраструктура, интеграция систем, годы поддержки. Частный бизнес в числе прочих проблем получает за такое иски - в них сидят сегодня все западные "мэйджоры". Но если спроектировать месторождение за государственный счёт, все сходится. Бюджет оплачивает инфраструктуру и обеспечивает "прикрытие" сбора государственным интересом и регуляторной обвязкой. В Штатах проект Genesis ровно про это, но есть и у нас аналоги. ФабулаПостановление Правительства №822 от 31 мая 2025 года создаёт федеральный регистр "лиц с отдельными заболеваниями". Фактически - описание датасета, оформленное как нормативный акт. Оператор — Минздрав. Поставщики — медорганизации, аптеки, ОМС, система маркировки лекарств. Пользователи – все, включая МВД. Пациент в перечне участников отсутствует: он не участник, он - сырьё.Ключевое: "Исключение записей из регистра не предусмотрено". Накапливается лонгитюд: человек — запись навсегда, к которой добавляются диагнозы, назначения, госпитализации, исходы. Интеграция с маркировкой лекарств даёт связку "пациент — диагноз — препарат— исход". Идеальная структура для машинного обучения в промышленных масштабах собранная за госсчёт.1⃣ Беременность навсегдаВ перечень "заболеваний" включены коды O00-O99 — беременность, роды, послеродовый период. Это состояние, не болезнь. Но для авторов регистра разницы нет. Данные беременной – такой же актив, значит, она должна быть посчитана наравне с диабетиком и онкобольным. Записи не удаляются. Женщина, родившая в 2027-м, в 2050-м по-прежнему числится "лицом с отдельным заболеванием". Документ написан теми, кто проектирует потоки данных, а не теми, кто понимает, что эти данные означают.2⃣ Психиатрия Коды F01, F03-F99 — практически весь психиатрический раздел МКБ. Человек с паническими атаками на фоне развода получает запись в регистре. Пожизненно. Через двадцать лет, когда он давно здоров, система всё ещё знает его как «лицо с отдельным заболеванием». МВД — в списке пользователей. База всех когда-либо обращавшихся к психиатру с привязкой к СНИЛС - тоже актив. Вопрос лишь в том, кто и когда решит его использовать особенно в условиях когда данные являются объектом купли-продажи и на черном рынке.3⃣ АсимметрияРегистр охватывает миллионы: онкология, диабет, ИБС, рожавшие, обращавшиеся к психиатру. Та же система годами не может создать регистр орфанного заболевания с сотней пациентов. Разница понятна. Орфанный регистр — обязательства: каждый пациент — право на терапию за миллионы рублей в год. Система сопротивляется. Регистр "лиц с отдельными заболеваниями" - месторождение.4⃣ БенефициарыОфициальная цель - планирование ресурсов. Реальные бенефициары: ИИ-разработчики получают размеченный датасет для "ассистентов врача". Фарма - т.н. real-world evidence – данные об эффективности в клинической практике. Страховые - предиктивную аналитику для оптимизации тарифов. IT-интеграторы - многолетние контракты на обслуживание. Фармацевтические организации, кстати, уже в перечне пользователей с некоего априорного "согласия пациента". Классический регуляторный захват: регулятор действует в интересах отрасли. Здесь происходит кое-что новое: регулятор сам строит актив для отрасли. Все в плюсе, пациент же получает запись, которая не удаляется.5⃣ СрокиСрок действия - шесть лет. Не эксперимент, не осторожность регулятора, а расчёт времени для накопления коммерчески значимого объёма данных. Датасет с таким лонгитюдом позволяет отследить прогрессирование диабета от диагноза до осложнений, исходы инфарктов, эффективность противоопухолевой терапии. К 2032 году — миллионы строк записей с полной историей. Впрочем, у системы есть и преимущества: если вы когда-то были беременны - Минздрав об этом не забудет. Даже когда вашему ребёнку исполнится тридцать.

ГРАФДИЗЩ®

Авторепост

Мы много лет чувствовали, что то, как мы ищем визуалы онлайн, сломано. Застряло на технологиях 2001 года. Мы хотели чего-то более плавного, умного и быстрого.Представляем Spiral — наш новый визуальный поисковик.Ищите что угодно — неясную идею, сложный бриф или даже одно изображение.Spiral возвращает организованные, многопоточные результаты за секунды, охватывая то, о чём вы думаете, с разных сторон. Всё в одном окне — без необходимости прокручивать.Смотрите временные линии, эстетику, референсы и связи.Spiral уже запущен.🔗 soot.com#ЩLAB by r.

Python | Программирование

Авторепост

🔖 Шпаргалка по Scikit-LearnЭто универсальная библиотека с открытым исходным кодом для анализа данных, написанная на Python.👇 Полная шпаргалка ниже#Шпаргалка

Записки профессора-уголовника

Авторепост

В журнале "Уголовное право" № 11 вышла моя заметка про новую статью 272.1 УК РФ о незаконном обороте персональных данных. Написана она была, понятно, по горячим следам принятия нормы, а потому это просто пока теоретический комментарий закона с подсвечиванием возможных квалификационных проблем (способы, пределы деяния, совокупность, конкуренция и т.п.). Пойдёт практика реальная (а её немного уже, но есть) - будем обобщать и дальше следить. Позднее статья, скорее всего, появится в К+.

Маркировка рекламы, отчетность в ОРД и рекламный сбор | Дмитрий Хатин

Авторепост

💁‍♂️Роскомндзор с ЕРИР провели встречу с бизнесом и представителями ОРД насчет планов развития и грядущиx измененийЧто можно сказать?🤔Система будет далее обрастать новыми правиламиТак было всегда. Когда развивается продукт (ОРД), то плодятся регламенты, что приводит к усложнению работы с нимРоскомнадзор и ЕРИР в частности будут совершенствовать систему контроля исполнения отчетности в ОРД, что будет подразумевать, как я предполагаю, серьезного (чем дальше тем больше) увеличение количества админпротоколов за нарушения. Сейчас море ошибок либо задержек с отчетностью прощается только лишь в связи с несовершенством контроля (с этим они активно работают) со стороны Роскомнадзора либо из-за ограниченного трудоресурса на ведение дел👉 Особо стоит заметить про упомянутое "запретов на передачу сведений об интернет-рекламе сторонними контрагентами..."Если принять во внимание самый негативный сценарий, то Роскомнадзор планирует запретить третьим лицам (не имеющим никакого отношения к рекламной цепочке) в иx ОРД оказывать услуги по ведению отчетности. Участники рекламной цепочки смогут только предоставлять доступ к своему ОРД третьим лицам для ведения отчетности#ерир, #роскомнадзор, #отчетность_орд

Мир аналитика данных

Авторепост

📊 Теперь через 0.95-квантиль! Топ-5% пользователей с наибольшим количеством заказовЯ понимаю - пятница, но я обещала дать расчет как можно решить задачку с собеса другим способом. Вдруг в выходные захочется потренироваться? 😜 Мы брали топ 5% пользователей по порядковому номеру (row_number).Этот способ особенно полезен, когда важно выделить пользователей, которые попадают в верхнюю часть распределения по значению, а не просто занимают первые 5% позиций в сортировке.📌 Что такое квантиль?Квантиль — это значение, “разрезающее” распределение данных на доли.95-й квантиль (0.95) — это число, ниже которого лежит 95% всех значений.Соответственно, всё, что равно или выше этого порога, — это верхние 5% распределения.👉 Это и есть математическое определение топ 5% по значению, а не по рангу.📘 Пример на наших цифрах. Методика расчёта квантиля, чтобы понимать саму теориюУ нас есть количество заказов по пользователям cnt, всего 20 значений.1️⃣Сортируем 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 3, 4(тут лень вписывать имена), 6(Алиса), 8(Саша), 10(Ева)95-й квантиль = 10Значит, в топ-5% попадут пользователи с количеством заказов ≥ 9.2️⃣ Находим позицию квантиляИспользуем формулу: k=p×n, где p — нужный квантиль (для 95% это 0.95), n — размер массива.𝑘=0.95×20=193️⃣ Берём k-ый, то есть 19-й элемент = 8. 📌 Значит, 95-й квантиль = 8Это значит - 95% пользователей сделали ≤ 8 заказов.А значит топ 5% — это те, у кого 👉 cnt > 8 Это как раз одна Ева с кол-вом заказов cnt = 10🧩 Ну и код, не в ручную же считать, когда у нас sql есть. Используем approx_quantilequery = """with user_orders as ( select u.user_id, u.name, count(o.order_id) as cnt from users u left join orders o on u.user_id = o.user_id group by u.user_id, u.name),threshold as ( select approx_quantile(cnt, 0.95) as p95 from user_orders)select user_id, name, cntfrom user_orders uocross join threshold twhere uo.cnt > t.p95"""result = duckdb.query(query).to_df()🎯 ИтогСуществуют разные определения квантилей (в numpy, R, SQL, Spark, Excel — свои методы).Но в задачах на собеседования чаще всего используют именно эту базовую методику

Travel-маркетолог Елена Белоусова

Авторепост

Как в Яндекс Метрике учитывать конверсии из мессенджеров?Сегодня выступала на конференции CRM TRAVEL DAY 2025 и рассказала о новшестве Яндекса для повышения эффективности рекламных кампаний турагентств. Смотрите, вам же наверняка часто пишут в мессенджеры WhatsApp, Telegram, Viber на сайте вместо того, что заполнить форму или квиз? Просто туристам так удобнее, да и нам с вами тоже 🤷‍♀️ Но при этом по умолчанию в Метрику уходят только данные по кликам, а сколько реально написали в мессенджеры, остается неизвестным. Ранее для подключения отслеживания именно переписок, использовались навороты. Скажу так, что из 100+ клиентов, с кем мы работали, это было настроено у единиц. В начале ноября Яндекс раскатал новую функцию чат-трекинга. Интеграция с Яндекс.Метрикой сейчас поддерживается тремя сервисами: Radist Online, Wahelp и i2crm. Пишут, что будут добавлять и другие. Для подключения нужно настроить передачу идентификатора пользователя — ClientID, UserID, Yclid или PurchaseID — и создать уникальный идентификатор чата, связанный с ними. Завершив все необходимые настройки, Метрика будет фиксировать события: о начале диалога, ответе менеджера или оформлении заказа в переписке. А вам это поможет увидеть, сколько переходов в мессенджеры действительно превращается в диалоги и продажи туров, и понять, из каких источников приходят такие пользователи.Ну очень хорошая новость, очень! ❤️ — если ждали такое

Датавиз в BI • Алиса Ручкина

Авторепост

«Как это нельзя?»Когда я ушла из логистики в аналитику данных (про мой путь можно почитать в посте-знакомстве), я думала, что мне больше не придётся общаться с людьми. Буду тихонько сидеть и работать с предсказуемыми чиселками и программами. Как же я ошибалась! Продравшись через джунгли хардовых скиллов, я поняла, что некоторые аспекты работы не изменились, а именно коммуникация с заказчиком.Только раньше это были заказчики перевозки контейнера, а теперь заказчики разработки дашборда. Всё так же нужно выстраивать отношения, сглаживать негатив и проявлять эмпатию. Например, аккуратно сообщать о технических ограничениях:- Как это нельзя снять контейнер с судна в промежуточном порту? Поменялись планы и нам не надо везти его до конца!- Как это нельзя выбрать несколько измерений для кросс-фильтрации в FineBI? Мне это нужно для анализа данных!Схема ответа может быть такой же:1️⃣ Присоединение к эмоциям:«Понимаю твоё удивление — кажется, что это базовая функция и должна работать в любом BI-инструменте. Я бы сама хотела, чтобы она была»2️⃣ Чёткая плохая новость:«Но к сожалению, такой функциональности нет»3️⃣ Решение и план:«Давай добавим фильтр для выбора нескольких измерений, сейчас покажу несколько вариантов»❓Как вы считаете, BI-разработчик (и айтишник в целом) должен проявлять эмпатию? Или главное, чтобы таски закрывал?#bi_softskills #мысли

IT АНАЛитика | Вильд Виктор

Авторепост

Mapping: что это такое и зачем знать аналитику?Если вы работаете с интеграциями, то наверняка хотя бы раз сталкивались с маппингом.Штука простая… пока её не забыли сделать🙈.А если забыли, то разработчик задачу просто не сможет выполнить. А если и сможет как-то сделать, то скорее всего будут ошибки и интеграция не взлетит.Разберёмся, что это и зачем оно вообще нужно.Что такое маппинг?🧠Маппинг - это понятная таблица соответствий, которая показывает, какие данные из нашей системы должны попасть во внешнюю и в каком виде.Если совсем по-простому, это способ ответить на три вопроса:🟣Что у нас есть?Как поле называется у нас и какое значение там лежит.🟣Что ждёт другая система?Как это поле называется у них и что они хотят получить.🟣Нужно ли что-то менять по пути?Например, формат даты, статус клиента, код справочника или структуру данных.Задача аналитика свести эти три штуки вместе, понять, что именно ждёт внешняя система, где в наших данных это взять, нужно ли что-то преобразовать и в каком виде отправить, чтобы интеграция не развалилась.Где аналитик сталкивается с маппингом?➡️Интеграции - 90% всех задач.➡️Проработка API - особенно, когда описываем входящие/выходящие данные.➡️Миграции данных - когда нужно переносить информацию между разными системами.📄 ПримерДопустим, внешняя система хочет получать от нас 5 полей о клиенте:clientId, fullName, birthDate, status, riskSegment.А у нас это хранится как:id, fio, dob, clientCategory, riskLevel.Разные названия, разные форматы, иногда разные справочники. Где-то дата в формате DD.MM.YYYY, где-то статус хранится текстом, а у них нужен код.Что делает аналитик?Он готовит маппинг, в котором чётко прописывает:🐗 Как поле называется у нас и где оно живёт (таблица, метод, сервис).🦛 Как называется поле у внешней системы и что оно означает.🐘 Как преобразовать данные: формат даты, перекодировка статуса, замена справочника.🧌 Что делать, если данных нет: ставим null, считаем, не передаём.Частые ошибки➡️Пропустили обязательное полеСамое популярное. Ориентировались на старую доку, не уточнили обязательность, в итоге интеграция падает.➡️Неверный формат данныхНапример, внешняя система ждёт число, а мы отправляем строку.➡️Не проработали справочникиУ нас значение хранится, как "ACTIVE", у них оно "01".➡️Нет логики поведения при отсутствии данныхПоле пустое, что делать? Отдавать null? Рассчитывать? Не отправлять?🍌 Мини-чеклист хорошего маппинга1⃣ Добавляйте комментарии.Если у поля есть логика - фиксируйте её.2⃣ Прописывайте форматыТипы данных, длины, обязательность, справочники, преобразования - всё важно.3⃣ Указывайте источникТаблица, API-метод, сервис - откуда поле достаем.4⃣ ВерсионируйтеУбрали поле? Лучше отмечайте причину и ссылку на задачу. Через полгода проще будет вспомнить, если возникнут проблемы.5⃣ Согласовывайте с обеими сторонамиЕсли задача большая и сложная, лучше покажите маппинг коллегам из внешней системы, они могут подсветить ваши ошибки или неправильную логику.📣А вы часто делаете маппинг в своих задачах?IT АНАЛитика | Подписаться

Евгений Мамай | Право и цифра: юрист для диджитал- и онлайн-бизнеса

Авторепост

#вопросы_на_курсе В связи с Требованием на уничтожение ПД (7 дней) вы сказали, что это может быть требование конкретного лица к оператору на уничтожение его ПД (я думал, что это, например, решение суда). Правильно ли я понимаю, что требование на уничтожение ПД и отзыв согласия лица на обработку его ПД это разные вещи? Если да, то в чем отличие?1️⃣ У субъекта персональных данных есть право знать о факте обработки его персональных данных оператором, объеме, цели и правовом основании обработки персональных данных. 2️⃣ У оператора есть корреспондирующая обязанность предоставить указанные сведения субъекту. При этом, как мы с вами знаем, у оператора могут быть разные правовые основания обработки персональных данных, и лишь одно из них – это согласие субъекта на обработку его персональных данных. 3️⃣ В связи с этим, требования об уничтожении персональных данных и отзыв согласия лица на обработку персональных данных нужно рассматривать разными юридическими фактами, которые в некоторых случаях сходятся в одной точке. Например, человек может отозвать согласие, если оно ранее было дано, и потребовать уничтожить персональные данные. 4️⃣ Может иметь место факт и незаконной обработки персональных данных, в этом случае согласия как правового основания нет, а требование об уничтожении персональных данных может быть. 5️⃣ Руководствуясь ч. 3 ст. 20 ФЗ-152: Оператор должен предоставить возможность субъекту персональных данных ознакомиться с принадлежащими ему и обрабатываемыми оператором персональными данными, в срок не превышающий 7 рабочих дней, со дня предоставления субъектам сведений, подтверждающих, что данные являются неполными, неточными и актуальными, нужно внести в них изменения. Если будет подтверждено, что данные являются незаконно полученными или не являются необходимыми для заявленной цели обработки, то на их уничтожение также законом устанавливается 7 дней. ❗️ Обращу внимание, что обращение к оператору является правом, а не обязанностью субъекта персональных данных. В то же время не только через обращение к оператору субъект может добиваться исполнения своих прав.Например, субъект может обратиться с требованием о прекращении незаконной обработки персональных данных в Роскомнадзор или в суд. Соответственно, каждый из этих органов может вынести решение об обязывании оператора к удалению данных с нарушением требований законодательства.

ЦАРЬ КАЗАНСКИЙ

Авторепост

Модный вопрос: когда тексты по истории Казани можно будет писать при помощи нейросетей? Грустный ответ: ровно тогда, когда будет полностью оцифрована хотя бы одна из городских дореволюционных газет и вся «Красная/Советская Татария» по периоду после 1917 года.Вот тогда начнётся несколько лет вакханалии некачественных исследований, где Жировку в Адмиралтейской слободе будут путать с Жировкой на Кабане, а потом постепенно мы научимся это фильтровать. Но сейчас нормально оцифрованы лишь издания 1-ой трети 19-го века и «Казанские губернские ведомости» до конца 1850-х. А вот с главными изданиями, отражающими городскую повседневность — беда.Есть по паре оцифрованных лет «Казанского телеграфа» и «Камско-Волжской речи». Из всего содержательного богатства самой респектабельной дореволюционной газеты «Волжский вестник» оцифрован лишь один год. «Красная Татария» в электронном виде тоже доступна очень фрагментарно, а «Советская» есть только на бумаге.Важнейший для экономической истории «Казанский биржевой листок» — не оцифрован ни на один год!При такой степени оцифровки надо бояться не водянистых ответов нашкодившего школяра от ИИ, а полной утраты источниковой базы по истории Казани. Бумага ветшает (многие годы в истории города уже невозможно изучать из-за ветхости газет). А еще бумага плохо бэкапится, но хорошо горит.

Кадастр.Москва / Cadastre.ru

Авторепост

Определение координат границ (контуров) объектов недвижимости с применением материалов АФС выполняется следующими методами:🔴фотограмметрический (по стереопарам аэрофотоснимков): 🟥Определения координат характерных точек выполняют на стереопаре с наилучшим ракурсом на точку. 🟥При вертикальном положении конструктивных элементов объектов местности, являющихся границами объекта недвижимости (стена дома, забор и т.п.) допускается измерять характерную точку не на уровне земли, а выше, на уровне надежного опознавания. 🟥Самоконтроль измерений выполняется при необходимости путем переключения стереопар (ракурса) и повторного измерения характерной точки. Расхождение в положении характерной точки не должно превышать значения среднеквадратической погрешности определения координат характерной точки. 🟥Характерные точки, неуверенно распознающиеся на аэрофотоснимках (расположенные в тени, под кронами деревьев и т.п.) следует отдавать в полевое обследование.🔴картометрический (по ОФП): 🟥Рекомендуется стереоскопический просмотр полученной фотограмметрической модели, автоматическая и ручная фильтрация точек ЦМР. 🟥Дешифровочные свойства стереомоделей гораздо выше, чем одиночных снимков, они позволяют оценить объект в объемном виде. 🟥Не рекомендуется определять местоположения по перекрывающимся снимкам (малая производительность). 🟥Обработка снимков в «монорежиме» позволяет проводить измерение контрольных точек (специально маркированные, на открытых плоских участках) (п.9.1.5.2).Сведения об аэрофотоснимках, фотокартах, ОФП указываются в разделе «Исходные данные» межевого, технического плана (п.9.3.3). Методом определения координат является:🔴при использовании материалов аэрофотосъемки — фотограмметрический (п.9.3.4);🔴при использовании фотокарты, ортофотоплана, созданных в цифровом виде — картометрический (п.9.3.5). При указании фотограмметрического метода приводится размер проекции пикселя на местности для аэрофотоснимков и космических снимков в сантиметрах (п.9.3.6).При указании картометрического метода величина средней квадратической погрешности принимается равной 0,0005 метра в масштабе соответствующей фотокарты (п.9.3.7).Копии аэрофотоснимков, фотокарт, ортофотопланов в приложение (МП, ТП) не включаются, изображение соответствующей территории воспроизводится в схемах (п.9.3.10).Картометрический метод определения координат (по ортофотопланам) запрещен для применения в отношении земельных участков, отнесенных к землям населенных пунктов (прил.1).Ссылка на новость: https://кадастр.москва/news/1380#КадастрМосква #gkn77ru #кадастр #недвижимость #новости

FineBI в России

Авторепост

#кейс #v6Всем привет! 👋Пару месяцев назад один наш Клиент столкнулся со следующим кейсом - на некоторых критичных для бизнеса дашбордах стали отображаться некорректные данные. Всё осложнялось тем, что в тот день было какое-то очень важное совещание на котором должны были использовать эти дашборды. Чаще всего причина таких проблем в ошибках обновления источников и данные кейсы не были исключением. Пользователи уверяют, что буквально вчера все работало, как надо, а сегодня не работает, и никаких работ с источниками не проводилось (оно само 🙈).Оперативно подключились к поиску аномалии. В таких кейсах первым делом стоит начинать с поиска проблемного источника. Дашборды оказались сложными, с большим количество источников и визуализаций. Как правило - чем сложнее дашборд, чем больше источников, тем больше времени придется потратить на локализацию аномального источника (в данном кейсе мы потратили пару часов на поиск). Нашли. Успели до очень важного совещания бизнеса. По итогу проблема была в источнике на excel - один из пользователей некорректно внес изменения в файл и он перестал обновляться в системе. Стали искать более простые решения, которые позволят оперативно искать причины подобных ошибок. Нашли! Причем средствами FineBI! В версии FineBI 6.0.17 появилась функция Excel Attachment Loss, которая позволяет одной кнопкой посмотреть и продиагностировать все источники и потратить на всё считанные минуты, а не часы. Использовать её очень просто - переходим в раздел BI Tool > Excel Attachment Loss и нажмите на кнопку Detection.В этом случае вы можете использовать функцию потери вложений Excel, чтобы определить, какие файлы Excel потеряны, и быстро повторно загрузить их. После нажатия на кнопку, функция показывает название проблемной таблицы, её местоположение в системе и её создателя.Кстати, эту и другие фишки которые значительно упростят вам работу мы разбираем на нашем курсе, а если вам нужна скорая техническая помощь - оставляйте заявку

Славный АйТи – анонсы, технологии, GoLang

Авторепост

Хозяйке кликхауса на заметкуРеальный кейс: перетаскивал данные из одной большой таблицы в другую с изменением структуры через INSERT … SELECT. В какой-то момент селекты на перенесённых данных стали просто невозможно долгими, а при попытке переноса следующего куска я даже получил ошибку: Code: 252. DB::Exception: Too many parts (5585 with average size of 1.14 MiB) in table 'db.table'. Merges are processing significantly slower than inserts. (TOO_MANY_PARTS) Суть ошибки заключается в том, что партов (не путать с партициями) стало слишком много, а значит дальнейшая вставка нежелательна и может привести к деградации (о чём намекнули медленные селекты). Что вообще за парты? Основной движок в ClickHouse – это MergeTree. И название тут уже многое говорит, потому что это действительно некое дерево слияний, которое особенно важно для быстрой вставки данных.Как бы работала наивная медленная вставка? Мы бы брали входные данные, сортировали бы их по ORDER BY таблицы, затем брали бы файл с данными таблицы/колонки, и "расставляли" бы данные в соответствии с нужным порядком. Уже даже звучит не очень шустро. ClickHouse же делает иначе: когда в INSERT приходят данные, он распределяет их по небольшим отсортированным партам. Пока без слияния: максимально быстро данные получил и сохранил на диск. Но если дальше ничего не сделать, то медленно будет работать уже чтение, потому что в итоге партов станет слишком много, и каждый из них придётся читать отдельно. Как ускорить теперь чтение?Для этого ClickHouse выполняет фоновое слияние партов (background part merges), когда берётся несколько десятков маленьких партов, данные в них сортируются и объединяются, и записываются в большой парт. Затем берутся большие парты, точно также данные сортируются и объединяются, и появляется ещё больший парт. И всё это происходит автоматически и в фоне, можно прямо проверить SELECT * FROM system.merges . Подробнее можете прочитать в потрясающей доке https://clickhouse.com/docs/merges.Я прочитал часть с Merges are processing significantly slower than inserts , и решил проверить эти самые "merges", выполнив SELECT * FROM system.merges . В этой таблице вы можете увидеть активные в данный момент операции слияния. Я удивился, не увидев там ни одной операции слияния нужной мне таблицы. Окей, может там и не должно было ничего быть? Проверил количество активных партов, выполнив SELECT COUNT(*) FROM system.parts WHERE database = 'db' AND table = 'table' AND active; , и что бы вы думали? 5585 партов! Нет, тут точно что-то пошло не так!Видимо, я настолько утомил кликхаус, что он решил взять больничный! 😁РешениеПодтолкнуть ClickHouse к обработке мержей оказалось легко и задокументировано. Я запустил: SYSTEM START MERGES db.table;И сразу увидел в system.merges, как парты таблицы начали сливаться. Резюмируя 🤓1. Похоже иногда может возникнуть ситуация, что ClickHouse "забудет" начать слияние новых партов таблицы. Вполне вероятно это фиксят в каждой новой версии, но многие ли из вас успевают апгрейдить такой важный компонент, ещё и регулярно? 2. Косвенным признаком является драматичное замедление селектов (приходится считывать слишком много разрозненных файлов).3. Явным признаком является аномальное количество активных партов в system.parts и отсутствие какой-либо обработки в system.merges.4. SYSTEM START MERGES db.table; волшебным образом "подталкивает" кликхаус начать обработку таблицы без перезапуска и прочего.Славный АйТи 👨‍💻

Наталья Гриценко

Авторепост

Мы за последний год хорошо освоились в разработке стратегии и трафике в направлении IT (как B2B, так и B2C). И если очень грубо суммировать, то IT — это самая честная ниша: продукт либо закрывает задачу, либо нет. Там не работает «просто сделайте рекламу», там работает только аналитика, воронка и вменяемый диалог с продажами.Например:— В одном проекте (разработка ПО) мы пришли к стоимости квалифицированного лида ~8 000₽ на Директе. В короткий весенний спринт клиент получил и лиды, и продажи — дальше просто масштабировались.— IT-сервис по оцифровке документов DBrain: входящий лид ~10 000₽ при чеке 20+ млн. Тут вообще отдельная категория, когда лиды стоят «копейки» на фоне стоимости сделки, но цикл такой длинный, что полные данные клиент получает через кварталы.— Платформа для выплат ИП и самозанятым: ВК + Telegram Ads давали квалифицированный лид за 3 000₽, плюс отдельная воронка через вебинары — регистрация по 400₽, высокая доходимость.— ERP-система: при бюджете 100к на канал начали с входящего лида в ~5 000₽ (Директ + ВК).— И стартап SaaS-продукт для IT-специалистов Canvarus: в первый месяц — 228 регистраций, получили первые продажи платной подписки. Параллельно сами предложили клиенту скрипты и механику рассылок, чтобы вытягивать платные версии. Они продукт докручивают — мы трафик.За это и люблю IT-проекты, тут легко с клиентами говорить на языке цифр.Если вам нужно понять, как это будет работать конкретно с вашим продуктом — пишите @tat_target. Посчитаем вашу экономику и точки роста.

Открыть ленту