#машиноместаВот лишь бы чем заняться, только не уборкой 😜😅Кладовки взяла и теперь очередь машиномест.Но просто так ведь скучно выбирать, да?!Загрузила в gpt данные по результатам около 3 тыс торгов, предварительно снабдив матрицу различными признаками, характеризующими проданные объекты.И такая прелесть дальше началась 😍Как кодить на питоне такую аналитику ручками я уже не помню, но термины то все знакомые! 🤗 Кайф)В общем, делаю робкие попытки предсказать исход торгов ))))
Data Science и аналитика — страница 16
Лента темы
Я люблю оцифровывать рутину и пользоваться табличками😀Так и в этот раз я решила добавить шкалы обратной связи в работу со своими клиентами. Чтобы лучше понимать, движемся ли мы в верном для клиента направлении, есть ли прогресс, и что можно улучшить во взаимодействии. Плюс графиков в том, что можно видеть тенденцию и подтверждать результаты совместной работы.А что это вообще за зверь такой?🔹Outcome Rating Scale (ORS) — шкала оценки результата. Отслеживает, становится ли клиенту лучше от встречи в встрече.🔹 Session rating scale (SRS) — шкала оценки сессии. Помогает лучше понимать, как человек чувствует себя в работе с психологом.🩺 Регулярное использование шкал обратной связи даёт нам более точное представление о том, как у каждого из клиентов идут дела, и кому из них стоит уделить отдельное внимание. Это как держать руку на пульсе собственной практики: если что-то идёт не так, мы сразу узнаём же об этом.Источник - здесь также коллеги могут познакомиться с инструментом. Табличку я собирала сама и с помощью моего друга - Chat GPT 4o.
Что такое utm-метки и как их использовать?Регулярно встречаю в письмах ссылки без utm-меток — и каждый раз удивляюсь: неужели кто-то про них не знает? На всякий случай решил написать "новичковый" пост о том, что это и как их использовать.❓ Что такое utm-метки?Даже если вы о них никогда раньше не слышали, то точно видели: это часть ссылок, которая следует после основной ссылки и начинается со знака вопроса. Например, вот тут метка — это всё, что выделено курсивом: https://ya.ru/?utm_campaign=anons_060624&utm_medium=email&utm_source=Sendsay❓ Зачем нужны utm-метки?Основная их задача — помочь понять, откуда именно был совершён переход по ссылке.❓ Как "прочитать" метку?Все метки состоят из стандартных частей, например: ✅ utm_source — источник рекламы✅ utm_medium — тип трафика✅ utm_campaign — рекламная кампания✅ utm_content — о чём писалиВпрочем, это всё регулярно перемешивается и путается, так что вам важно понимать, как именно метки использует ваш конкретный клиент или придумать удобный для вас способ их применения.❓ Что писать в меткеТо, что нужно клиенту или вам, чтобы удобнее было различать различные источники переходов. Вернёмся к примеру выше. Что в нём можно найти?✅ utm_campaign=anons_060624 — анонс от 6 июня✅ utm_medium=email — отправлено по эмейлу✅ utm_source=Sendsay — использован сервис SendsayКак видите, даже чужую ссылку прочитать очень просто!❓ Что ещё нужно знать?Вот несколько важных моментов:✅ различные метки соединяются друг с другом с помощью символа &✅ пробелы в метках использовать нельзя✅ разные регистры — разные метки (email и Email — это не одно и то же)✅ на одном проекте используйте один принцип составления меток, а то запутаетесь!❓ Как сделать всё правильно?Если вы с техникой "на вы" и боитесь всё испортить, используйте сервисы для генерации utm-меток. Например, вот такие: раз и два. Только не сокращайте ссылки, почтовые клиенты это не любят!Остались вопросы? Задавайте в комментариях!#обучение
Почему информацию надо спасать: проблема цифрового архива Интернет создает ложное ощущение: всё, что мы выгрузили в сеть, останется там навсегда. На самом деле нет. Одни сервисы закрываются, и всё, что на них было опубликовано, пропадает, другие платформы страдают от утечек и проблем с серверами, третьи просто удаляют данные тех пользователей, которые долго не заходили в свой аккаунт. О том, как можно решить проблему архива в XXI веке, рассуждает доцент НИУ ВШЭ и соосновательница сообщества DHCLOUD Анастасия Бонч-Осмоловская 📎 Что будет с коллективной памятьюМы ежесекундно создаём огромный цифровой архив человечества, но при этом непонятно, сложится ли из этого так коллективная память, без которой невозможно будет представить наше будущее. Проблему сохранения воспоминаний в новую технологическую эпоху, когда документов очень много, а живут они очень недолго, впервые артикулировал в 1975 году архивист Джеральд Хэм. С тех пор проблема стала только острее. Сегодня мы создаем множество born digital документов, которые никогда не существовали в материальном виде, а сразу были созданы «в цифре». Про born digital говорят, что они одновременно перманентны и эфемерны: с одной стороны, «интернет помнит всё», и опубликованное однажды в интернете практически невозможно вывести из публичного поля, с другой — цифровые документы очень легко изменяются или становятся недоступными. ⛓️ Где хранится интернетПервыми инициаторами цифровой архивации стали институты памяти — музеи, библиотеки, архивы. Например, в 1976 году был создан Окфордский текстовый архив. С развитием интернета достаточно быстро возникло понимание необходимости архивного хранилища сайтов — Интернет-архива. WaybackMachine, открытый в 1996 году, за это время вырос в огромное хранилище сайтов и документов, обнаруженных в сети.🔗 Куда ведут ссылкиВ 2017 году вышло исследование того, насколько актуальны ссылки на веб-ресурсы в научных статьях, опубликованных с 1997 до 2012 годы. Результаты были совершенно поразительны: более 75% веб-ресурсов, ссылки на которые имеются в научных статьях, изменили с тех пор свое содержание. Получается, что цифровизация фантастически ускоряет обмен научным знанием, но одновременно ставит под удар сам процесс его трансляции будущим поколениям ученых — то, что до сих пор считалось основой развития науки.О том, важны ли архивы электронных переписок (спойлер: очень!), какую роль в создании архивов играет краудсорсинг и какую еще сыграет искусственный интеллект, узнаете из полной версии текста.🤖 «Системный Блокъ» @sysblok
"Бигдата знает про вас все, но ничего не может понять"#цитата
Как Google следит за SEO и нами?Сеошники годами пытались разгадать алгоритм ранжирования сайтов в Google, но компания не раскрывала своих секретов. До сегодняшнего дня. Случайная утечка документов позволила наконец-то узнать, что скрыто за кодом и как это можно использовать в своей работе. Держите главные инсайты:👆Google отслеживает количество кликов на веб-страницу внутри браузера Chrome, чтобы выбрать, какие страницы сайта включить в карту сайта для поисковых запросов. Так что теперь мы точно знаем, что Chrome следит за нами максимально пристально.👆NavBoost — это фактор ранжирования Google, который улучшает результаты поиска. Для этого он смотрит на данные о кликах. В «утекших» документах пишут, что NavBoost смотрит на «короткие» и «длинные» клики и вообще, на то, как долго пользователь остается на странице после перехода по ссылке из поиска Google.👆Алгоритм не любит прямолинейные домены. Лет 10 назад бытовало мнение о том, что чем больше ключевых слов вы запихнете в название сайта, тем выше он заранкируется. Well, no. Поисковик наоборот пометит сайт, как спам, и понизит его в поисковой выдаче.👆Также у поисковика есть «белый список» для определенных тем. Это значит, что такие сайты одобряются модераторами вручную, прежде чем попасть в поисковую выдачу. В «белый список» попадает ковид, политика и выборы. Пам-Пам-Паааам!Не секрет, что гугл — это большая машина для слежки за пользователями, свежие документы в очередной раз это подтвердили. Ну что жжж… Другого ожидать не приходится!
AI-тулы для аналитики в эдтехе нужны или нет?Для привлечения новых пользователей в приложение или на сайт компании используют различные диджитал каналы. При принятии финального решения о покупке у пользователя может быть несколько касаний с рекламой. AI и предиктивные модели позволяют прокидывать ценные данные между каналами и обучаться точнее и лучше.Чем AI будет полезен в аналитике, Андрей Блюменталь (кофаундер и CEO Lemon AI и участник группы R-Founders Generative AI Startups), рассказал на классе группы R-Founders Global EdTech:Любые AI-решения влияют на- минимизацию времени (аналитик с сырыми данными тратит больше времени)- минимизацию фактора ошибки- удешевление и эффективностьЧто может ИИ:1. Полностью анализировать все данные из разных источников — даже TV и офлайн (через тул можно во всех своих данных найти четкий сегмент)2. «Предсказывать будущее» — это дает экономию на ненужных А/В тестах 🥁 Хак: предварительно проверьте тул на исторических данных: попросите предсказать и сравните с фактами, чтобы проверить точность предикта.3. Помочь с принятием решения и ответить на вопрос «Сколько денег я получу?»Когда предикты могут быть не нужны:- недостаточно событий - короткий цикл сделки- команда настолько большая, что те, кто отвечают за UA и Retention, не пересекаютсяВарианты тулов, которые помогут с аналитикой:Lemon AIULUTableauSegmentStreamКакие ещё классные тулы для аналитики и предиктов вы знаете? Давайте соберём целый список.@rfoundersgoglobal
1️⃣ Подробная отчетность с множеством метрик и параметровВозможность посмотреть и выгрузить отчеты с 30+ встроенными метриками и 100+ параметрами. Это позволяет проводить детальный анализ данных, давая тебе представление о различных аспектах кампаний, что помогает оптимизировать их эффективность2️⃣ Встроенный редактор лендинговДля создания, редактирования и управления локальными лендингами в одном пространстве. Встроенный редактор упрощает процесс, позволяя быстро загружать и корректировать страницы3️⃣ GeoDBГЕО-база данных позволяет настраивать географические данные для более точного таргетинга и понимания нужной ЦА. 4️⃣ Удаленное управление через Click API/Admin APIПозволяет легко интегрироваться с твоими существующими системами. Это обеспечивает возможность оперативного обновления и корректировки кампаний, повышая гибкость и адаптивность5️⃣ Продвинутое A/B-тестирование и функция мультиофферЭто облегченное проведение сложных A/B-тестирований и создание мультиофферных воронок6️⃣ Многопользовательский доступПозволяет настраивать права и просматривать журнал активности. Эта функция особенно полезна для команд, обеспечивая безопасное и эффективное сотрудничество7️⃣ Множество интеграцийИнтеграции с основными платформами: Facebook*, TikTok, Google Ads, Cloudflare и Namecheap. Эти интеграции упрощают процесс импорта данных и управления кампаниями в разных источниках*Признана экстремистской организацией и запрещена на территории РФ8️⃣ Возможность email-трекинга Помимо веб-трекинга, Keitaro может отслеживать взаимодействия пользователей с электронными письмами. Можно встроить пиксель в свои письма, и отслеживать, когда письмо было открыто, сколько раз, IP-адрес устройства, страну и пр.9️⃣ Трекинг офлайн-кампаний с QR-кодамиKeitaro позволяет объединить офлайн и онлайн маркетинг при помощи QR-кодов. Их можно размещать на плакатах, листовках или любых физических рекламных материалах. Ты сможешь отслеживать, сколько людей сканировали QR-код, их геолокацию, тип устройства и пр.🔟 Детализированный трекинг взаимодействий пользователей с твоим сайтомПри правильной настройке и интеграции Keitaro на сайт, ты можешь детально отслеживать взаимодействия пользователей, включая посещения конкретных страниц и клики на определенные кнопки. Эти данные помогают понять поведение пользователей, выявить узкие места в пользовательском пути и оптимизировать сайт для лучшей производительности и пользовательского опыта
🥰 У Google утекло 2500 страниц с описанием алгоритмов поисковой системы Кто-то из стажеров Google по ошибке опубликовал документацию на GitHub)) Будьте аккуратнее Выяснилось, что на самом деле Google сортирует сайты по "авторитету" (хотя заявляет обратное), использует данные браузера при ранжировании результатов (тоже отрицают)Это офигеть какая новость, потому что люди, зная алгоритм, будут стараться продвинуть свой сайт в поисковой выдачеИсследование тут:https://ipullrank.com/google-algo-leak
Тг-чат под кэггл сореву:Бля, парни, рил уже не успеем, у меня один инфер 36 часов. Олег, расчехляй бульборезку, пора мешать. Не, хуй знает, икс-ларж добавил децл поверх ларж. Мож че нарукожопил. Давай уже так мешать. А черт, хларж не влезет уже? Дистиллировать некогда? Ладно, хер с ним, мешай просто ларж, только SWA бери, а не last. Позже на LinkedЫн:I am thrilled and deeply honored to secure the 127th place in the latest international Hryak Arousal Prediction Challenge on Kaggle hosted by McKeeeenze. Genuinely humbled to become world’s 11th Quadruple Kaggle Expert. Above all, the greatest benefit has been working with such a true master as Oleg. His calm wisdom and patience are second to none. Oleg: Thanks, Bob! Truly honored to have worked with you. Your energy and passion served as a beacon for the whole team.
Давайте жесткий тур по задачкам на собесы по мл. Буду иногда вкидывать задачи из РЕАЛЬНЫХ собесов, а в комментах будем смотреть решения. Задача: Обучили модель. Log_loss = 0.3 Посчитали Accuracy, он получился 0.6. Задача бинарной классификации. Может ли…
Очень бы хотелось порекомендовать что-то, прям, годное по временным рядам на русском языке, но пока самое лучшее, что нашел - это вот этот ютуб-мини-курс, к которому у меня масса претензий, начиная от низкого качества звука и заканчивая очень поверхностным объяснением происходящего. Но, в целом, разобраться можно и общий пайплайн понятен. Может, пригодится кому. Ну, или кто-то посмотрит, поймет, что хорошего материала нет и сделает :) Можно чтобы не совсем с нуля, но и не уровень бог Воронцова, пожалуйста :)https://www.youtube.com/watch?v=92EF4vqaBSE&list=PL7GGfr9mTeYWniRK11xuFsEky07oUQ_tX
🛠 dolphie - функциональный tui инструмент для получения информации и аналитики работы MySQL\MariaDB сервера...https://github.com/charles-001/dolphie#mysql #mariadb #tui
Как налоговая собирает на вас компромат ❓На этой неделе в клубе проводила эфир, где мы разбирали тему анализа налоговых рисков.Там я делилась информацией, как налоговая анализирует компанию и как нам ее необходимо посмотреть.Обычно после таких анализов, когда клиенту выдаю результат, мне говорят: «А откуда вы это знаете?»)Делюсь основными моментами, которые каждому важно доя понимания 👇Надо понимать, что в век цифровизации налоговым орган обладает огромным инструментарием и программным обсепечением, которое постоянно обновляется.Расскажу про основные источники ⬇️ 1️⃣ АИС-Налог-3 - обеспечивает контроль над деятельностью налогоплательщика путем создания единого и достоверного ресурса, содержащего всю информацию по конкретному налогоплательщику, в том числе сведения, позволяющие своевременно выявлять признаки ухода от уплаты налогов Когда мы читаем акт проверки, то там часто написано «По данным АИС-Налог-3…» 2️⃣ АСК НДС - думаю плательщики НДС наслышаны об этой программе. Система, которая отслеживает движение денежных средств, выстраивает цепочки взаимодействия контрагентов, устанавливает признаки фиктивности совершенных операций и сделок, выявляет расхождения в налоговой отчетности, не допускает неправомерных вычетов по НДС И здесь взаимосвязи, разрывы простые и сложные, признаки однодневок, транзитеров и конечно статус выгодоприобретателя (того, кто должен закрыть этот разрыв). Там же можно увидеть вещи, которые казалось бы не ведут к уходу от налогов (сделаю отдельный пост, Потмоу что есть бухгалтеры и предприниматели, которые этим грешат и не знают, какую могилу себе роют) 3️⃣ ФИР - федеральный информационный ресурс о населении 4️⃣ АСК ДФЛ - выявление конвертных зарплат 5️⃣ Система проверки подмены трудовых отношений самозанятыми 6️⃣ Даже первичные признаки дробления подсвечивает программа 7️⃣ Налаженная связь с базами данных других структур (ЗАГС, Таможня, Банк, ГИБДД и т.д.) 8️⃣ Сайт налогоплательщика 9️⃣ Соцсети налогоплательщика 1️⃣0️⃣ Рекламные объявления налогоплательщика, сюда же статьи, подкасты, книги 1️⃣1️⃣ Размещенные вакансии налогоплательщикаВ проверках и анализе рисков имеет значение ВСЕВид деятельности, насколько близок налогоплательщик к обычаям делового оборота, переезды, госзаказы, блокировка счетов, недостоверности, административная структура и т.д.И еще очень важно то, как выстраивается взаимодействия с налоговой, сотрудниками и партнерами.Да, да это тоже важно. Потому что иногда интерес к совершенно неприметной компании с небольшими оборотами вызывает та самая жалоба от сотрудника или конкурента)Вы уже поняли, что я топлю за рост и масштабирование бизнеса и чтобы это было безопасно. Это самое главное я считаю 😎
Долгожданный «честный роадмеп» дата саентиста, который я очень ждала выпустить Писали вместе с моим очень хорошим другом Димой, сейчас Middle Data Engineer в GlowByte, ранее Research Scientist в Тинькофф и Data Scientist/ML Engineer в УБРиР. Почему так хотелось выпустить статью именно про Димин путь.Дима действительно сам с нуля выучился на дата саентиста без покупки обучений в кредит и вышки по программированию, а чисто по открытым курсам и источникам в интернете, построил классный карьерный путь и после этого даже закончил магистратуру по DS, на счет важности которой в его пути я отдельно попросила дать комментарий. Его можно легко продавать как очередную историю успеха в стиле «Дата саентистом можно стать за год с нуля», но мне очень хотелось показать важность начальных условий, с которых он начинал этот путь. Дима написал в статье: «Если ваши знания в математике ограничиваются девятью классами школы - путь в DS для вас закрыт» - я не очень люблю такие категоричные высказывания, но не стала редактировать его мысли. Однако в основном, именно из-за этого мне и хотелось опубликовать эту статью. До «года вхождения в дата саенс» у Димы уже за плечами было техническое образование с классной математической подготовкой, о чем он подробно рассказал в статье. И если ваш уровень математики застрял на «я не помню, как решать квадратные уравнения» или «что такое координатные оси?», то есть в районе 6 класса школы - то до Диминого «нуля» вам нужно наверстать 10 лет изучения математики средней школы, потом старших классов и далее высшей математики технического вуза, а только потом думать о покупке обучения именно Data Science. В статье вы найдете: ⁃ Какие темы он изучал по этапам с ссылками на источники ⁃ Какие главы математики действительно пригодились в работе ⁃ Как подготовиться к собеседованию и какие темы точно нужно знать ⁃ На столько ли важно оканчивать магистратуру по анализу данных или можно обойтись без нееОт себя добавлю, что не смотря на то, что разные этапы его пути я застала лично и слышала эту историю уже не раз, мне дико понравилось читать статью и на мой взгляд, вышло просто бомбически, начиная от подробностей пути и стиля повествования до количества полезного материала. Будет полезно почитать и тем, кто уже начал свой путь в DS, кто только планирует и присматривается и всем остальным для общей образованности и понимания мира IT. Ссылка на статью: https://telegra.ph/Put-v-Data-Science-s-nulya-05-09
Всем привет! Давно сюда не писал, существую щас в бешенном ритме 😅Небольшие апдейты за последние пару недель:1️⃣ Жесткий факап на ЦП ЮФО 👨🦳2️⃣ Победа на ЦП ЦФО 🔼Давайте начнем по порядку. На ЮФО мы участвовали в кейсе "Семантическая классификация документов". Там нужно было реализовать сервис по проверке документов перед отправкой (классификация). Оценивалось все по формуле Количество Баллов * Score. В чем же заключается факап? Количество баллов у нас было около максимальным, а вот score получился 0.6. Суть в том, что получив тренировочный датасет и построив правильно валидацию, я смог получить на ней 99% качества. Расслабившись, я перешел к другим задачам. Но как потом оказалось, тестовый датасет состоял совсем из других документов (из другого распределения) и моя модель давала на нем перфоманс в 60%, а переобучать модель уже не было времени, потому что на предикт отводилось всего 1 час. В итоге первое место заняла команда с TF-IDF 🫠 (как оказалось этот алгоритм хорошо работает с разными данными). Ну а мы вместо 1 места заняли 7. Мораль: Теперь в будущих проектах я всегда буду иметь бейзлайны на руках для непредвиденных случаев.В ЦФО мы участвовали в кейсе по рекомендации образовательных курсов от компании GeekBrains. Кейс был настолько легким, что я за неделю до начала уже раздал задания (парсинг данных, АПИ, Презентация, анализ рынка, фронт) своей команде, чтобы уже во время хакатона оставалось доделать чуть-чуть. Мы построили RAG систему с уклоном в рекомендации. Мы заняли 1 место и обогнали команду со 2 места на 7 баллов! 🔥
Что смотрят россияне на YouTube?Сегодня вам расскажу о том, какой контент находится у нас в топе.Больше всего на YouTube россияне смотрят музыкальные видео - 22%. Потом идут развлекательные и блогерские видео - 21%. В топ-5 также входят видео про игры (11%), сериалы и детский контент (8%).Самое популярное видео среди молодежи 12-24 лет - челлендж Димы Масленникова с Импровизаторами. А для старшего поколения, от 35 до 54 лет, это выпуск Comedy Club с пародией на Такера Карлсона. Пользователей 55+ в основном интересовало видео «Последнее предсказание Ванги». Неизменное лидерство среди зрителей 25-34 лет держит песня «Синий трактор».У каждой возрастной группы есть свои любимые развлекательные каналы. Все возрастные категории интересуются профессиональным видеоконтентом, но особенно популярен он среди людей от 35 до 54 лет. Подростки предпочитают видео развлекательного контента от блогеров. А пожилые пользователи предпочитают аудиорассказы и видео о знаменитостях.
На правах той еще черепахи сообщаю — на днях наконец-то досмотрела интервью Павла ДуроваТонкую филологическую шутку про 1984 Карлсон не заценил, а жаль. В целом — все интервью было посвящено правильному решению загадки про два стула, которое Дуров, очевидно, знает, но прямо не назвал. В связи с чем и без того высокий кредит доверия, коим обладает основатель тележеньки, значительно подрос.О том, как Телеграм любимый повлиял на медиасистему России, вопроса и быть не могло, хотя для медиаисследователей, акторов и простых почитателей этот феномен будет представлять интерес еще долго. Но это все-таки наше полюшко, научное. А если бы Павел Валерьевич еще удобную аналитическую платформу по Телеграму для исследователей сделал, цены б ему не было(я знаю про tgstat, но его инструментов все-таки не хватает для масштабного исследования)
▶️Частый вопрос на консультациях по NOTION: «Нужно ли мне оформлять платную подписку?»Если вы работаете самостоятельно, или ваша команда до 10 человек, бесплатного тарифа (Free) вполне хватит для работы.Здесь есть несколько нюансов, про которые не все знают:⚪️ При создании аккаунта нужно указать, что он нужен для личного использования (даже если будете шерить доступ команде).⚪️ Гостей не добавлять как участников вашего пространства («member»), чтобы Notion не ограничил количество блоков.Какие есть ограничения на бесплатном тарифе:1️⃣ Прикрепленные файлы должны быть до 5мбКак можно решить:⚪️ сжать размер картинок, файлов⚪️ загружать картинки через ссылку (url)⚪️ загружать видео через платформы Youtube или Vimeo2️⃣ Ограничение по количеству приглашенных людейКак можно решить:⚪️забирать доступ у пользователей, которым больше не нужен доступ (например, подрядчик, клиент)⚪️публиковать страницы для доступа клиентам и др (они будут доступны только ссылке)⚪️создать новое пространство (workspace) и перенести часть страниц туда3️⃣ Ограниченные возможности настройки доступовНа бесплатном тарифе вы можете давать другим пользователм полные права, права на просмотр и комментирование. И как правило, это хватает для разделения прав, но в целом нужно понимать, что с полным доступом сотрудники могут удалить какие-то базы данных или страницы.Как можно решить:⚪️Отдельно хранить источники баз данных ⚪️Давать доступы только к тем базам данных, которые нужны сотруднику⚪️Не забывать забирать доступы у сотрудников, которые прекратили работу⚪️Использовать корпоративные гугл-аккаунты для сотрудников➡️Когда стоит подумать над платной подпиской?⚪️Если в вашей команде больше 10 человек или есть доп подрядчики, которым нужен постоянный доступ⚪️Если вам нужны более гибкие настройки доступа с разграничением админских и обычных правПишите в комментариях, если есть вопросы по подписке и тарифам Notion, с радостью помогу разобраться 😍#notion
Эффективные дашборды (часть 1). Основы.Как много вариаций оцифровки (в Excel, в CRM, в BI) я видела, как аналитик. Чаще всего дашборды создаются для контроля Отдела продаж. Даже чаще, чем для собственников. Поговорим об этом?Во-первых, давайте спросим себя: для чего мне нужны цифры по коммерции? И как я их использую по факту?1.1 Понимаю выручку и расходы за период ("в прошлом месяце спад, в текущем - восстановились");1.2. Следить за качественными метриками ("CR, Retention стабильны", - потестируем очередную гипотезу!?)1.3. Десятки / Сотни таблиц, цифр, графиков ("считаем все по-максимум, успеваем следить и работать с 1-3-мя метриками, фокус на другие показатели не меняем без необходимости");1.4. В моем бизнесе по каждой метрике свои ответственные, ориентир на регулярном улучшении показателя (т.к. KPI по метрикам).Как еще бывает?) Поделитесь своим опытом🤓.Во-вторых, как часто я за ними слежу?2.1 Собираем ручками при необходимости;2.2 Каждый квартал/год руководители с подчиненными собирают отчеты (в Excel), обсуждаем итоги;2.3 Цифры считаются автоматически в BI (в динамике или исходя из периода, что выбран), но этот инструмент использую только я (собственник / руководитель ком.отдела), другим не до этого;2.4 Мы data-driven компания🤟;2.5 Мы действительно Data-driven🤑 (растем на 30-100% в год).P.S. Напишите в комментариях Ваши варианты, а я скорректирую повестки в будущих постах, чтобы было действительно полезно😎.
How does Uber build real-time infrastructure to handle petabytes of data every day?В статье рассказано как устроен стэк Uber, который обеспечивает аналитику, управление и хранение данных. В частности, ни используют Kafka, Flink, Pinot, HDFS и Presto. Читать статью.❗️Статья на Медиум.
Написал статью про семантический поиск с помощью посгреса и OpenAI API.Казалось бы, в посгресе и так есть неплохой полнотекстовый поиск (tsvector/tsquery), и вы из коробки можете проиндексировать ваши тексты, а потом поискать по ним. Но на самом деле это не совсем то, что нужно — такой поиск работает лишь по чётким совпадениям слов. Т.е. postgres не догадается, что "кошка гонится за мышью" — это довольно близко к "котёнок охотится на грызуна". Как же победить такую проблему?TLDR:1. Преобразовываем наши тексты в наборы чисел (векторы) при помощи API openAI.2. Сохраняем векторы в базе с помощью pgvector.3. Легко ищем близкие друг к другу векторы или ищем их по вектору-запросу.4. Ускоряем индексами.Как всегда, буду рад плюсикам на Хабре:https://habr.com/ru/companies/karuna/articles/809305/Канал Cross Join. Подпишись
ушел еще с одного собеса, потому что как мне казалось, я проваливал теорию, и мне было стыдно. больше не буду ходить на Data Science вакансии, буду ходить только на девелоперские
4 уровня продуктовой аналитики, которые замечаю в командах в разных компаниях:1. Первый уровень - команды практически ничего не измеряют. (Да, даже в 2024 году)Есть дашборды, которые показывают базовые показатели - кол-во пользователей, выручку, и смотрят в основном в этот дашборд стейкхолдеры. Управление в таких продуктах строится на опыте и экспертности продактов или самих стейкхолдеров. Такой подход вполне имеет право на жизнь, и хорошие продакты и опытные стейкхолдеры могут отлично драйвить продукт. Это как лететь без приборов и есть в этом профессионалы. Но на этот уровне вероятность ошибки довольно высокая. На этом уровне обычно не задают вопросов почему и что на что повлияло.2. Второй уровень - команды задаются вопросами - «что повлияло на верхнеуровневые метрики?», «почему выручка упала?» «Почему выручка выросла?». И начинают больше считать различные продуктовые метрики, которые либо связаны, либо коррелируют с верхнеуровневыми, строят гипотезы по тому как им меньше избегать ошибок. Команды начинают сегментировать аудиторию, строить гипотезы на сегментах. Более зрелые начинают проводить A/B тесты (10-ки и даже сотни). И опираются во многом на результаты A/B тестов. На этом же уровне команды начинают считать юнит-экономику.3. Третий уровень - полноценный Data Drive подход с автоматизацией работы с опорой на аналитику:- Строят предикативные подели по оттоку.- Строят предикативные модели по маркетингу.- Строят модели по сегментам, когортам и каналом привлечения. Автоматически выключают перегретые каналы, если экономика в них начинает расходится или повышается прогноз по оттоку пользователей из данного канала.- Смотрят и анализируют пользовательские сессии, подробно проваливаются в каждый шаг. ЕЩе на этом уровне команда начинает приоритизировать бэклог, опираясь на узкое место в юнит-экономике. 4. Четвертый уровень - когда команды пытаются понять, что на самом деле стоит за цифрами. Команды задаются вопросами «А почему именно происходит отток? Что недополучает пользователь? Какую ценность пользователь из данного канала и когорты ожидал получить и не получил?».Команды начинают систематизировать работу с данными с качественными исследованиями и понимаем пользователей и их потребностей.А как у вас в командах? Что видите?
🔵Готов уже 4-й GPT-кейс по применению этой технологии в RetailCRM - мы научились автоматически определять отрасль бизнеса исходя из того, что он продает. Это позволяет динамически сегментировать по отраслям магазины и наблюдать отраслевую динамику. Что интересно ТОП-12 наших категорий работающих у нас по числу магазинов! (не по числу заказов или выручкам)1. Одежда и обувь 18,4%2. Товары для дома и сада 11,9%3. Автотовары 8,2%4. Бытовая техника и электроника 8,1%5. Подарки 6,8%6. Косметика 5,6%7. Спорт и отдых 5,3%8. Детские товары 4,3%9. Зоотовары 4,2%10. Продукты питания 4,0%11. Цветы 3,5%12. Мебель 3,5%Традиционно у нас еще сильна ювелирка, но она берет не числом магазинов, а объемом продаж за счет высоких чеков относительно других сфер, как и мебель.Отдельно расскажем о том, какие отрасли лидеры по динамике роста.
Рефакторинг профориентационного тестаНаш профориентационный тест прошли 300+ человек — самое время посмотреть результаты 1го рефакторингаРешил рассказать, так как тут много разработчиков обучения, и ход моих рассуждений может быть вам интересен Было:🚫 Перекос в сторону 2го результата (почти 50%) 🚫 Результаты 4-8 — аутсайдеры (от 1% до 10%)🚫 Около нулевая воронка в 6-8 результатыСтало:✅ Схожий прогресс у групп результатов 1-3 (от 48 до 55 новых пользователей)✅ Опережающий темп роста группы 6-8 результатов (в 3.4, 5 и 17 раз)✅ При этом 6 и 7 результаты — самый высокий темп роста (в 5 и 17 раз)Нужен новый рефакторинг. Ключевая цель:⚡️ Равномерное распределение пользователей. Сейчас группы результатов 1-3 (среднее 51) и 4-8 (среднее 14)Так не должно быть. Поэтому корректирую формулировки ответов, количество и распределение баллов, взаимосвязь ответов и результатов. Внёс около 20 изменений в тест из 10 вопросов✈️ Следующая сверка — 500 ответов. А пройти тест и проект в целом — по ссылке (всё бесплатно)
Обзор уровня зарплат Data Scientists-ов и ML Инженеров в мире.Если точнее, речь о Предиктивной Модели, предсказывающей уровень ЗП Data Scientist-а в зависимости от страны проживания, индустрии и других факторов, построенной в рамках 2022 Kaggle Machine Learning & Data Science Survey - Analytics competition.Я уже заспойлерил самый важный фактор. Это страна. И Израиль третий по зарплатам данных специалистов, после США и Австралии. При этом, во всех 3-х лидирующих странах Уровень Зарплат в Data Science сильно превышает показатели ВВП на душу населения, в отличие от остальных стран где наблюдается сильная корреляция между этими 2-мя показателями.В статье выдвигается предположение, что эти страны научились систематически извлекать больше выгоды из работы Data Scientists-ов. И лучше всех в этом якобы преуспевают Банки. Возможно это действительно так, но по моим ощущениям только не для Израиля, где банки не выдерживают зарплатной конкуренции с Хайтек-компаниями, а «отрыв» зарплат от среднего уровня жизни характерен для всего Хайтека и объясняется прежде всего вливанием инвестиций в эту индустрию.Обзор, хоть и опубликован недавно, основан на данных 2022-го года. Практическая польза его тоже не особо велика, потому как он доказывает и так очевидное распределение уровня доходов по географическому признаку.Единственная интересная деталь здесь, в очередной раз доказывающая, что состоявшемуся Хайтекисту в Израиле живётся совсем неплохо - это 3-е место Израиля в зарплатном рейтинге. Почему я и решил с вами данным обзором поделиться.
Шикарная аналитика для статей на сайтахЗабавно, но об этом реально мало кто знает, мало кто рекомендует, и почти нет информации в интернете. Микро-разметка + одна, заныканая в дебри Яндекс-Метрики галочка позволяют включить просто шикарные отчеты. По дочитыванию статей (доскролл). — динамика просмотра статей;— доля материалов с дочитыванием;— время просмотра статьи;— процент пользователей, которые перешли на другие страницы сайта;— доля просмотров материалов с доскроллом;— показатели вовлечённости и посещаемость рубрик;— самые популярные статьи;— источники переходов;— общая сводка по изданию.🔥Можно даже оценить авторов по эффективности. Агонь, короче.Официальная справка яндекса, к сожалению отдает 400. Из того, что в интернете есть (и годное) из неофициального:Ответ на вопрос пользователя, как включить метрику доскроловИнфа про про микроразметкуИнфа про микроразметку и отдельный параметр счетчика, на примере вордпрессаТыкните носом в это вашего сеошника, если он вам про это не рассказал. Безобразие ж)
А если свой платформы для АБ-тестов нет и не используется готовое внешнее решение, приходится обходиться собственными силами. Тут у нас снова развилка:- писать свои функции-библиотеки- приспособить готовые библиотеки на питонеИз интересных библиотек могу выделить две:- Ambrosia от коллег из МТС- Kolmogorov ABacusНедавно потестировал Kolmogorov ABacus, очень даже неплохо. Основные особенности:- Оценка результатов эксперимента с помощью многих стат. критериев, в том числе бустрапа - собственно, ожидаемо- Инструмент для деления на группы с оценкой качества деления- Подготовка эксперимента - ошибки 1 и 2 рода, mde, расчет необходимой выборкиСсылки:- Гитхаб- Примеры оценки результатов эксперимента на гитхабе- Документация- Канал в телеграме- Чат поддержки в телеграме- Статья на Хабре об использовании
Второй фреймворк продуктовой аналитики больше посвящен процессу разработки продукта и принятию решений. Он не столь строго сформулирован, как первый, но общую идею все же можно вычленить: “a framework that helps to gain clarity and confidence to develop a product while also providing an effective tool to communicate priorities to the team”.Фреймворк четко связывается с этапами разработки продукта в периоде от концепции до начала оперирования и ключевыми задачами, которые стоят перед аналитиками на этих этапах. Грубо говоря, на какие вопросы должна отвечать аналитика в каждом периоде разработки проекта. Так, при работе с MVP (Minimum Viable Product) в сферу задач аналитиков входят следующие пункты:- segment analytics (to better target their audience)- customer journey mapping (touchpoints and interactions customers have with the product throughout their journey)- core event logging (to identify critical success metrics that align with the product’s objectives)- experimentation (to test hypotheses and refine the product)Здесь меньше ориентации на какие-то конкретные методы и инструменты и больше бизнес-вопросов, ответы на которые нужны продакт-менеджерам / продюсерам. И в этом смысле этот фреймворк полезнее, чем просто перечисление методов — он позволяет соотнести работу аналитика с бизнес-задачами. Что, на самом деле, встречается реже, чем хотелось бы.Тем не менее, у подобного подхода есть, на мой взгляд, свои недостатки. Во-первых, он практически не затрагивает весьма большой этап оперирования — как будто там все понятно и просто нужно поддерживать то, что уже есть. А во-вторых, он оставляет аналитикам несколько реактивную роль — перечисленные вопросы-задачи помогают принять решение относительно альтернатив, но вряд ли показывают путь к радикальным изменениям / пивотам. И в этом фреймворке, и в предыдущем лично мне не хватает важного измерения, вопроса “а почему пользователи ведут себя именно так?”. Один фреймворк останавливается на каких-то измерениях, второй — на ключевых бенчмарках. Но и тот, и другой весьма косвенно, через верхнеуровневые метрики обращаются к мотивации / потребностям пользователя и тому, как продукт их удовлетворяет. Впрочем, думаю, это нормально для функциональных продуктов, но может быть недостаточно для гедонистических продуктов типа игр.