SILLYFEED

Data Science и аналитика — страница 12

Лента темы

Пристанище Дата Сайентиста
Как улучшили ML-продукт, взглянув на данные по-новомуПочитал интересный пост про то как команда разрабатывала ML-систему для снижения числа негативных отзывов в сервисе заказов поездок. Первая версия снизила жалобы всего на 1% вместо необходимых 4,5%. После доработки — 3%, но этого всё ещё было недостаточно. В итоге помог новый взгляд на данные. Выяснилось что 20% водителей создают 80% поездок и жалоб.Фокус на этих водителях позволил снизить затраты и достичь цели.Вывод: Иногда дело не в модели, а в том, на какие данные мы смотрим.Заметка
ML for Value / Ваня Максимов
Начало карьеры в DSПоследнее время много кто спрашивает меня про старт карьеры в DS от студентов и ребят из других профессий: разработчики, продакты и даже был один социолог! Кстати, я был удивлен, но на соцфаке капец как много матстата - это годная база для старта в DS. Собрал в кучу все эти разговоры и свои советы - делюсь с вамиЭтап 1. А оно вам надо?Многие идут в DS за деньгами 300к/секунду. Может, лет 5-10 назад и было легко залететь с минимальными знаниями и супер-быстро вырасти, но сейчас это не так. Поиск стажировки или junior позиции - кровавый океан с конкуренцией под 100 чел на место. Чтобы вырваться в этой гонке вперед пригодится сильная мотивация помимо денег:- Сделать мир лучше: для HealthTech, Self-driving Cars, автоматизации производства и кучи других отраслей есть и правда социально полезное применение ML- Применить 4 года изучения математики/программирования: и правда получится это делать. Но скорее всего несколько в другом виде (много математики+ml в логиситике и страховании, например) и не факт, что в ML-направлении. В той же продуктовой аналитике мат стата может быть по факту даже больше- Быть на острие технологий/науки: GPT, GenAI, графовые сети, создание видео через AI - это действительно многим интересно. Но SOTA модели делают далеко не везде: учитывайте это- Занятный разговор про мотивацию услышал в подкасте "AI в действии" от ребят из ecom.tech - таймкод 5:48, если интересноЭтап 2. Попробуй - точно надо?Только не надо на этом этапе платить деньги) Есть куча бесплатных легендарных курсов- Andrew Ng для олдов- Курс от ODS- Курсы от Стэнфорда типа CS231n- Kaggle курсы, если вас драйвят ml-соревнования- Бесплатные курсы на Coursera, Stepik и тдБерите курс с изучением python + ml и обязательными домашками на код. Тут вы хотя бы минимально симитируете работу DS и поймете, а точно ли оно вам нравится? DS - sexy job со стороны, но в реальности 90% времени мы не делаем SOTA ml-модели, а выясняем суть задачи, чистим данные, строим фичи (предобрабатываем/токенизируем в llm/cv) и упорно растим какой-нибудь precision моделиЭтап 3. ПогружениеПонравилось? Теперь стоит выбрать предварительную специализацию: таблички, nlp или cv. И уже пройти более глубокий курс на эту тему. Тут советовать ничего не буду: есть годные и бесплатные, и платные курсы. Думайте сами - решайте самиСпециализация вам точно пригодится, потому что собесы проходят не по data science в общем (так было лет 7 назад), а по конкретным задачам команды. И как правило, даже для стажировки стоит довольно глубоко разбираться в специализации хотя бы в теорииЭтап 4. Первая стажировка / работаПосле завершения базового ml-курса + специализации рекомендую сделать такие пункты для стажировки или работы джуном- Сделайте pet-проект и оформите его на github. В теме разберетесь, из толпы выделитесь. На финалах вас могут спросить о пет проекте, а не рандомный вопрос, который вам особо не знаком- Сделайте хорошее CV на hh.ru и LinkedIn. Опыта работы у вас нет - опишите в деталях свои учебные и пет-проекты: что за задачу решали, какие метрики, что применяли и тд. Только пишите честно, что это учебные проект, а не работа (крик души нанимающего менеджера) 😅- Активно подавайтесь в релевантные компании. В порядке убывания эффективности работают такие каналы: Личное знакомство > Рефералка от сотрудника > One day offer > карьерный день студента > Подача через сайт компании > подача через hh.ru- Готовьтесь, что поиск работы может занять 2, 3, а то и 6 месяцев- Предложил бы ориентироваться на интересность задач и потенуиал роста, а не на деньги. Деньги в IT в любом случае у вас появятся только от уровня middle и вышеНу вот и все! Удачи во вкатывание в DS - все получится 🫰Реклама. ООО «Умное пространство», ИНН: 7811554010. Ерид: 2W5zFJhD57N
Белый хакер
🗂 Китайцы выкатили 3FS — мощную ФС для AI
Всем привет! Встречай 3FS (Fire-Flyer File System) — новую распределённую файловую систему, затачивающую AI-процессы под максимальную производительность. Китайская DeepSeek уже использует её для тренировки своих 600-миллиардных языковых моделей, а теперь выложила код в открытый доступ (C++ + Rust, MIT).
🗣 Что умеет? Прямой доступ к данным (Direct I/O), поддержка io_uring/AIO, работа в RDMA-сетях и оптимизация под SSD. Систему не смущает хаотичное чтение данных, свойственное AI-задачам, и она умеет гибко управлять репликацией. Данные дробятся на блоки, которые разбрасываются по узлам, равномерно распределяя нагрузку. А за согласованность реплик отвечает CRAQ (Chain Replication with Apportioned Queries).🗣 Тесты? В 180-узловом кластере (с NVMe SSD и 200Gbps InfiniBand) 3FS разогналась до 6.6 TiB/s. В меньшем варианте (25 хранилищ и 50 вычислительных узлов) выдала 3.66 TiB/min на тесте GraySort. Впечатляюще. А главное — экосистема AI получила новый инструмент, который теперь можно адаптировать под свои задачи.P. S Осталось только дождаться, когда 3FS дропнут в продакшен OpenAI или Google, и начнётся новый виток AI-гонки.#DeepSeek #BigData👍 Белый хакер
Горно-металлургия. Пересборка. Канал Дмитрия Пластинина
И всё же из перечисленных наиболее фундаментальной областью знаний является «архитектура данных». Мы тихонько [или ускоренно? последовательно!😃] движемся от документо-центрированного к дата-центрированному подходу в попытке делать 2D из 3D, проводить функционально-стоимостной анализ, вести интегрированное управление производством по всей цепочке, перерассчитывать экономику при каждом изменении (откуда бы оно ни прилетало). Без правильной организации структур данных и процессов управления ими современная ГМК работать не может.Вы можете подумать, что, мол, Пластинин в очередной раз пытается глаголить истину, все ГМК и так своими данными управляют. Однако, подумайте над каждым кружочком ниже. Если хотя бы один из ваших ответов — «нет» (т.е. кружочек пустой), данными вы не управляете. И это короткий список, в полном ещё полтора десятка вопросов, в т.ч. кас. этапа эксплуатации. Список этот доделываю сейчас, по запросу в личку (@DmitryPlastinin) смогу выслать на следующей неделе.
ML-легушька
Большие данные с большими яйцами, или ILP для самых маленьких.Что такое линейное программирование?LP (linear programming) - задача оптимизации с ограничениями, где и целевая функция, и ограничения являются линейными. Соответственно ILP - integer linear programming, добавляет ограничения на переменные - они должны быть целочисленными, (см картинку 1)Как решать?Эффективный на практике метод решения задачи линейного программирования предложили почти сто лет назад - симплекс-метод. Он основан на некоторых соображениях матана и линала, в которые сейчас мы погружать не будем. Для задачи целочисленного линейного программирования все становится СИЛЬНО СЛОЖНЕЕ.Однако, если вы python базированный гигачад шлепа, вам скорее всего не нужно задумываться над тем, как именно это решается - вы возьмете cvxpy и он goes brrrrСоставление задачиВ вашем случае основной проблемой будет составить непосредственно задачу - как описать какой-то реальный процесс на математическом языке, еще и чтобы оно решалось нормально? Давайте разберемся.Для этого есть простой чеклист:- ввести переменные, соответствующие задаче- ввести целевую функцию - то, что мы хотим максимизировать/минимизировать (доход/удовлетворенность/etc.)- ввести ограничения на переменные (например, мы не можем произвести больше продукции чем у нас есть, вложить больше денег и тому подобное)ПримерДля примера возьмем задачу из письменного экзамена по курсу в РЭШ который я вел, условие и решение на картинке 2. Что тут важно?- ввели переменные - в нашем случае это булевая переменная, отвечающая за выполнение фрилансером i работы j- ввели целевую функцию - максимизируем чистую прибыль системы- ограничение 1 - каждый исполнитель не может выполнять более двух задач- ограничение 2 - каждую задачу выполняет не более 1 исполнителяПодставили чиселки, пихнули в cvxpy - получили решение.Всем спасибо за внимание! Если тут наберется 100 огоньков и побольше репостов то будет вторая часть с разбором более сложных задач и некоторых трюков
Глеб Кудрявцев — продукты и бизнес
Вообще, что интересно — в рекламе сообщена чистая правда. Нейронки крайне плохо умеют в цифры так, чтобы это было точно. Плюс минус лапоть они умеют, причем неуверенно, а так, чтобы все циферки сходились — фиг. Чуть больше года назад пытались мы продавать сгенерированные AI отчеты, и это был один из моих личных примеров, когда продажи шли намного лучше реального продукта. Попросту — продукт вообще нифига не работал, выдавал дикую отсебятину, и продавать это было стыдно (не волнуйтесь, денег нам так и не заплатили, увидев возможности системы в реале)Но если честно, очень напоминает мне стандартные маркетинговые отчеты любой компании. Где конверсии? — Ой насяльника, этот лид упаль, тот потеряль, но продажи есть, смотри, выручка хорошо премия да!Ну короче. Чтобы вот так не говорить, а быть умным и дорогим спецом — образовывайтесь, неплохо и на курсы пойти, прямо скажем. Навык аналитики продакту безусловно полезен, ну и заменят их чуть позже, чем всех остальных. Вдобавок, можно будет понять, когда вас лечат другие аналитики, а когда реально отчет не сходится. Это вообще бесценно. Так что жмякайте по ссылочке и вперед обучаться 🙂
в кабинете IP-юриста | Екатерина Спиридонова
Google Analytics, Yandex.Метрики и персональные данныеРоскомнадзор просит удалять с сайтов Google Analytics, так как это считается использованием зарубежной метрической программы, и может указывать на использование баз данных, находящихся за пределами Российской Федерации — то есть трансграничную передачу персональных данных. О такой обработке нужно уведомлять РНК дополнительно
На этой неделе многим приходят уведомления (возможно, у РНК новая нейронка, которая ищет это в авторежиме)
❗️Не пропускайте такие уведомления от РНК, чтобы не схватить штрафYandex.Метрики использовать можно. Но в политику нужно обязательно включать информацию об использовании этого сервиса, и брать согласие с такой обработкойGoogle Analytics лучше заранее удалить (до того, как вам придет уведомление), потому что если сайт попадет в поле Роскомнадзора, то требованием об удалении только одного счетчика не ограничится: проверят всё, что касается обработки персональных данных на сайте: политику, согласие, формы и т.д.Как правильно оформить сайт, согласие на обработку персональных данных и т.п. говорили в этом посте https://t.me/ekalaws/586
Дети и плети 👶🏼👦🏻👩🏼‍🦱🧔🏾👵🏼
💩 500 миллионов какашек для зумеровименно столько 💩 отправили пользователи Blink за 2025 год нам всем и друг другуПросто. За полтора. Месяцааналитики приложения шеринга геолокации с друзьями исследовали паттерны общения и дружбы молодежи 18-26 леткакие выводы:🧽владельцы IOS в приложении Blink чаще имеют больше друзей, чем ребята с Android — подробный сплит на картинке🧽33% пользователей не пишет сообщений, а просто следит за перемещением друзей. эти пользователи проводят до двух часов в день 👀👀👀🧽88% пользователей используют стикеры и смайлы вместо текста. соответственно текстом пользуются только 12%. 🧽выбор инструмента коммуникации сказывается на дневной активности: стикероманы отправляют в день в среднем 146 стикеров 🆚 11 текстовых сообщений от пишущих 🧽топ стикеров, которые пользователи отправляли в 2025 году такой:💩 — 500 млн 💋 — 170 млн🍆 — 140 млнвсе три стадии психосексуального развития по Фрейду — done ✅ ♓️🈶🟡в махровом 2020 году я попросила агентство сделать стикер со СберКотом и 💩. тогда мне казалось это искрометной дерзостью, которая покажет, что герой из того же теста что и наша целевая аудитория. сейчас этим никого не впечатлить и не шокировать. как быстро выросли эти дети!
STEIN: ИБ, OSINT
📖 OSINT: подборка инструментов для геолокации: морей, гор и улицПомимо доступа к спутниковому OSINT в один клик, появляется всё больше и больше инструментов для выяснения точного местоположения, откуда был сделан фото или видео-снимок. Любая деталь — дорожный знак, вывеска, линии электропередач, рельеф гор на заднем плане и даже длина тени от столба может быть подсказкой для исследователей.1. PeakVisor Содержит данные о более 1 000 000 гор по всему миру. Рисует контуры гор, часто используется в расследованиях для опознавания локации по очертанию рельефа на заднем плане.· Using AllTrails and Peak Visor for Geolocation· Geolocating a Plane Shot Down in Ethiopia – Case Studies on Mountain Profiling with PeakVisor2. QGIS Свободная и опенсорсная ГИС, содержащая много дополнений и плагинов, таких как создание 3D-ландшафтов на основе данных с лидаров.· Бесплатные геоинформационные решения QGIS и NextGIS· Создание собственного репозитория плагинов QGIS3. Geotips Советы и лайфхаки от лучших игроков в GeoGuessr (международная игра-квест по определению геопозиции по фотке). Содержит инфу по типам дорог (покрытие, столбики, разметка, отбойники), дорожным знакам (с обоих сторон), автомобильным номерам, дорожным вывескам, линиям электропередач, мусорным бакам.(список полезных сервисов и инструментов для игры в Geoguessr)4. OpenInfraMap Карта содержит линии электропередач, телекоммуникацию, солнечную, нефтяную, газовую, водную инфраструктуру всего мира.5. Maritime Awareness Project (NBR) Интерактивные карты Южно-Китайского моря с месторождениями нефти и газа, районами рыболовства, зонами противовоздушной обороны и административными, заявленными, спорными зонами, подводными кабелями.#OSINT | 😈 @secur_researcher
Growth Marketing штуки 🦄
Nikita Bier про скилл в аналитике One of the most important skills to learn as a founder is how to use Mixpanel—especially with a very small sample size. This is not something you can delegate because only you will be obsessed enough to make sure your insights are valid.Almost everyday I see founders get deluded into thinking:A. They have an onboarding problem—that was actually triggered by internal debugging sessions by the devs, orB. Their onboarding is working—but they are not properly tracking logged-out usersC. Users are sharing their app—but they are just tracking attempts and not the final send eventsAt the earliest stages, you must be using a patchwork of filters to remove users and constantly be auditing individual sessions to see what is actually happening during apparent drop-off.Whenever I see someone who is a jedi in Mixpanel, I suddenly trust their assumptions 10x more.
Эмпатичный бизнес
Загнал на днях машину жены на ТО и понял, что моему внутреннему клиенту-интроверту как-то подозрительно хорошо. Сначала не понял, почему, а потом как понял. Процесс приемо-передачи автомобиля был организован без участия человека. Но чтобы ощутить глубину изменений, давайте проговорим, как этот процесс устроен во многих автосервисах до сих пор. Ты приезжаешь, паркуешь машину, тащишься к менеджеру приемки. У него, конечно, сидит другой клиент. Слышишь вечное: «Пожалуйста, подождите, специалист пока занят, как только он освободится – вас сразу же пригласят. Желаете чашечку кофе?».Занятой специалист освобождается. Начинается череда монотонных однотипных вопросов. Да, записывался на 11 часов. Да, вот СТС. Пробег такой-то. Автомобиль припаркован вот там. Да, все вещи забрал. Да, планирую подождать здесь. Да, номер телефона верный. Подпись. Подпись. Подпись.И объективно – вообще ничего сложного. И не так уж долго, пока не увидишь, что бывает по-другому. Приехал. Припарковал авто. Поставил несколько галочек в приложении. Получил QR-код. Этим QR-кодом открыл ячейку в терминале для хранения ключей. Положил ключ, закрыл ячейку, ушел по своим делам. Получил уведомление, что автомобиль готов. Оплатил через приложение проделанные работы, поставил несколько физических подписей, получил новый QR-код, открыл им ячейку, достал свой ключ, уехал. Красота и ликование. И вот прекрасная развилка в клиентском обслуживании. Есть какой-то отлаженный годами процесс и, допустим, хочется сделать его лучше. Первый путь скорее классический – давайте прикрутим мнимую заботу о клиенте. Предложим чай/кофе, спросим как дела, пригласим в зону отдыха, включим любимый фильм.Второй – технологический. Оставим клиента наедине с процессом и будем в него вмешиваться, только если у клиента возникнут какие-то проблемы. Кофе не будет, разговоров не будет, а уровень заботы в итоге только вырос, потому что появилась самостоятельность, а из процесса исчезли бестолковые диалоги и действия.Хотя, конечно, прекрасно понимаю, что предложить чашку кофе, пока «специалист освободится», в тысячи раз дешевле, чем внедрять новый софт.
Data-вдохновленные | KuzminaSH
Короче, учим SQL 🔜У меня SQL на не знаю каком уровне, но базовый синтаксис, всякие оконоки и join-ы я вроде прошла и босса победила. Если вы все еще с ними страдаете — LeetCode в помощь🔜Писать хороший код — это имхо про практику и код-ревью. Если у вас есть кто-то, кто может чекать ваш код — очень советую 🔜Но мне хочется чуть-чуть углубиться, я как-то пыталась читать Designing data-intensive applications и было даже интересно! То, что получилось понять...Но она оказалась слишком низкоуровневой что ли, поэтому ее я отложила 🔜Решила дать ChatGPT второй шанс посоветовать прикольную книгу, в этот раз выбор пал на Sql Performance Explained (например, тут есть)Вообще не обещаю, что также ее не заброшу, но оглавление и интро выглядят очень приятными, так что делюсь🙃❤️
Отсыревший подвал геймдизайнера
Принёс кое-что полезное: инди-разработчик вытащил большой массив информации из Steam, организовал собранные данные в удобные сеты и показал на примерах, какую неочевидную информацию можно оттуда вытащить. Находка очень полезная, вот видео со всеми подробностями. Кому актуально — изучайте. И не забудьте заглянуть в описание: там автор оставил много дополнительных ссылок по теме.И хоть работа проделана большая, тут есть куда продолжать. Думаю, следующим шагом необходимо обучить нейронку на этих данных, чтобы она предсказывала потенциальные тренды и остерегала от создания очередного карточного рогалика.
ЮРОТДЕЛ | Legal UP
Что такое метрические программы и как пользоваться ими без риска попасть под штрафыО них все знают, все применяют их, но боятся о них говорить, потому что четкого определения им нет даже в законе.РКН тщательно следит за тем, чтобы об использовании метрических программ предупреждали каждого посетителя каждого сайта и писали о них в Политике конфиденциальности и Согласии на сбор и обработку персональных данных.Да, сегодня в центре нашего внимания метрические программы. Бизнес часто использует их для сбора статистики сайтов.Если в свое время вы не продумали, как пользоваться метрическими программами, не нарушая закон, срочно исправляйтесь: 2025 идеально для этого подходит.Не будем томить. Если вы поняли, что теперь вам нужно знать:▪️ что обрабатывают метрические программы и причем тут ПД;▪️ как доработать сайт бизнеса, чтобы у РКН не появилось вопросов о применении метрических программ;▪️ как оформить согласие на сбор ПД метрическими программами…то переходите по ссылке. 4 минуты чтения статьи сэкономят десятки тысяч рублей, с которыми вы рискуете расстаться в момент оплаты штрафов Роскомнадзора.___Напишите сюда, чтобы задать вопрос
Илья в курсе
Поделюсь небольшим курсом для тех, кто начинает разбираться в статистике или хочет освежить знания - практикум по статистике на Python. Прошел на днях всего за неделю, выделяя час вечером. Курс заинтересовал тем, что ориентирован на финансовых аналитиков, и часть заданий была связана именно с этой тематикой. Возможность применить статистические методы в контексте.
Системный анализ | Чулан системного аналитика | Антон Зимин
🚀🖥 #posgreSQL #лайфхакМногие системные аналитики, придя на проект, сталкиваются с проблемой что PostgreSQL БД уже есть, а описания таблиц нет, да и доступ к ней дадут не скоро.🕓 В итоге когда дают доступ, начинается анализ каждой из таблиц, чтобы перенести в документацию ее описание.❔ Я задался вопросом: "Можно ли сразу выгрузить все описания таблиц разом?"❗️ Оказывается можно, держите готовый скрипт для postgreSQL:
-- Скрипт получения информации о таблицах БДSELECT  -- Наименование БД  current_database() as "Наименование БД",    -- Схема данных  current_schema as "Схема данных",    -- Наименование таблицы  relname as "Наименование таблицы",    -- Описание таблицы  obj_description(oid) as "Описание таблицы",    -- Наименование поля/столбца  column_name as "Наименование поля/столбца",    -- Тип данных  CASE    when character_maximum_length is not null    and udt_name = 'varchar' then concat(      udt_name :: varchar(255),      '(',      character_maximum_length :: varchar(255),      ')'    )    else udt_name  end as "Тип данных",  -- Описание поля/столбца  col_description(oid, ordinal_position) as "Описание поля/столбца"FROM  pg_class as a  right join information_schema.columns as b ON b.table_name = a.relname  -- WHERE  --  relname='<наименование таблицы>'
——#posgreSQL #лайфхакПодписывайтесь на ❤@sa_chulan
Наташа Косинова. Варю айти СУП
Интеграция как айсберг, много Титаников потопила 😶‍🌫️Сейчас на проектах, одна из часто встречающих задач - это интеграция информационных систем. Мы можем начать её делать влоб (ну правда, че там такого?), потом поймем, что много неизвестных (взрустнулось...штож.. ), а дальше мы нырнём и увидим, то, что скрывает вода (депрессия).У нас на курс интеграции приходили директора различных направлений. Сначала они пришли с запросом:Хотим понять, что вы такого делаете в этой интеграции, почему так долго?Потом они начали говорить:А чего так сложно?? Зачем это всё!? Потом произошла новая стадия:Ох, это и долго, и сложно, и непросто. Мы вам сочувствуем...Проектирование не является линейным процессом, я бы сказала, что это гибкий навык, который включает в себя в том числе и системный подход.Проектирование зависит от: 1.Мотива - включён в процесс деятельности. 2.Контекста - условия, нормы, правила допущений. 3.Алгоритма - последовательности действий в определённом контексте. Сверху мы видим айсберг: это информационные системы компаний, сервисы, хорошо если есть цели бизнеса и бизнес-процессы. И что вроде бы сложного? Фактически вставить "вилку в розетку, и лампочка загорится!" Но мы часто смотрим не туда! А Титаник уже идёт прямым курсом на айсберг... То что скрыто под водой, это альтернативные сценарии, обработки, ошибки, администрирование, сопровождение, логирование, квотирование, безопасность и т. п... То есть сам корень айсберга и окружение, а водичка может нам добавлять нароста и айсберг будет расти и вширь, и вглубь... Как-то руководитель проекта нам сказал:Ну ребята, ну камон, что там делать то! Интеграция с SAP, маппинг описали и всё! За месяц сделаете!Спойлер - не сделали... Месяц занял полгода. Потому что чем глубже ныряешь, тем больше видишь. Что же такого в интеграции? В ближайшие 2 недели, я устрою #челлендж и буду писать про проектирование интеграции информационных систем. ✅Посмотрим на то, что скрывает под водой айсберг. ✅Куда мы, аналитики обычно не смотрим. ✅Как проекту - Титаник провести во время диагностику, чтобы не напороться на айсберг. ✅Буду вспоминать истории из жизни, как не надо делать))#интеграция #мойопыт #курсинтеграции #заварушка #системныйаналитик Пишите вопросы, что непонятного в задачах интеграции?
redlse
Есть еще пример. Сидят 5 бабушек в строительной компании и считают кирпичную кладку. Процесс сложный, занимает +- неделю. Приходит студентка и за месяц делает excel которая считает кладку за час. Что произойдет с бабушками? Что со студенткой? При условии что владелец бизнес не глупый человек.
Асоциальный СЕО | Ивлев
Управленческий дашбордРовно год назад, в январе 2024, создал инструмент, который лёг в основу 2024 года - управленческий дашборд. Я не думаю, что придумал что-то небывалое, но сейчас уже невозможно понять как жили без этого. Он развивался весь год, что-то добавлялось, что-то уходило ибо теория и практика не всегда сходятся. Было много дискуссий на тему оценки того, что считается хорошим результатом, а что плохим, что добавить, а что убрать.Спустя год выпустил большой апдейт, включающий в себя более 40 обновлений для всех отделов, который призван пройти эффективно 2025 год.Что это такое?Это по сути таблица, которая отображает все ключевые метрики по всем подразделениям и охватывает большинство сотрудников в довольно простом и удобном виде. Важно, что данные между подразделениями открыты и руководители всегда видят, что происходит друг у друга и за счет чего. Что дает этот инструмент?1. Единую систему координат для отделов, через которую понятно что от них ожидается для общего результата, что хорошо, а что плохо и на что надо влиять.2. Понятный способ синхронизации между отделами: каждый человек видит, что происходит по соседству, может помочь или осуществить горизонтальный спрос.3. На уровне руководителей становятся очевидны управленческие решения, если где-то долгое время всё «красное» и нет соответствующей реакции от руководителя.4. Позволяет оценить динамику подразделений по дистанции года.5. Помогает фокусироваться на действительно ключевых и измеримых результатах и задачах и интегрировать их дальше в отделы.На текущий момент вижу оптимальным глубоко возвращаться с управленцами к нему 1 раз в месяц и прокладывать путь на следующий месяц. Для более короткой дистанции есть другие инструменты, о которых возможно напишу отдельно.
Гражданин Антонов
Вижу эту картинку форсят и ужасаются.1. Это ВК, а не ВК Видео. ВК — всегда был популярной соцсетью.2. На графике мы видим, что увеличение аудитории ВК происходит реще летом 2023, чем после летней блокировки Ютуба. С чем это связано? Моя гипотеза: с тем, что былые сайты вдруг перестали открываться. То есть это и аудитория ушедшая со Спотифая на ВК Музыку, и с Тиндера в ВК Знакомства, и прочее-прочее-прочее.3. Отдельно хочу отметить, что, например, ОВД-Инфо (иноагент) продолжает вести паблик ВК, хотя сайт в РФ давно не работает. То есть это и на какой-то процент (незначительный, но все же) может быть либеральная аудитория, не освоившая Телеграм.4. Вот и получается, что за два года, с блокировкой всех конкурентов, в экосистему ВК пришло всего 6 миллионов новых людей. Это очень смешная цифра.5. И отдельно смешное падение у Ютуба. То есть из-за блокировки Ютуб перестали смотреть всего 2 миллиона человек. Это серьезный удар для несуществующего офиса русского Ютуба, но в масштабах информированности страны это буквально капля в море.6. Также там смешная механика подсчёта по количеству уникальных пользователей в месяц. То есть зашел в учебный чат = каждый день смотришь часовую документалку на Ютубе.Резюме: Экосистема ВК всё еще кринж. Видеоплеер ВК перетянул, в лучшем случае, несколько сотен тысяч человек. Русский народ — передовой отряд цифрового сопротивления.
Карягин
Все новое – хорошо забытое староеВ СМИ активно обсуждается идея проектирования единой доверенной платформы для обмена и анализа данных — ее создание предусмотрено федеральным проектом «Искусственный интеллект» нацпроекта «Экономика данных».Уже мало кто вспомнит про Открытое правительство и концепцию открытых данных. Тогда на определенном этапе трансфера инновации у бюрократического аппарата возникло естественное для него желание – систематизировать все открытые данные (и государственные, и частные), создав единого глобального оператора данных. Идея открытости умерла, но намерение создать платформу для обмена и анализа данных – нет. Интенция регламентировать быстрый технологический прогресс сама по себе представляется довольно сомнительной, однако даже не это является главной проблемой.Учитывая регулярные сообщения о взломах различных баз данных как частных, так и государственных, концентрация огромных массивов информации в одном месте представляется чрезвычайно опасной.
Кирилл Орешкин. Маркетинг игр
Новогодние итоги рефлексии. Часть 5. Сервис A/B-тестов Steam-страниц + агентство.Пост будет состоять из двух частей. Приготовтесь :) В мобильных играх сервисов статистики и аналитики очень много, и во многом благодаря им рынок и растет. А в Steam ситуация иная. Тут скорее жуткий недобор полезных сервисов. Одна из проблем, с которой почти все сталкивались, это оценка стим-страницы. Она хорошая или плохая? И если не подходить субъективно, то как это вообще понять? Ведь инструментов для этого у тебя нет.Вообще в целом стим-страницы - это поле загадок и домыслов. Мало кто понимает, как люди там себя ведут. Ведь нет способа это увидеть :)И более того, ты не только увидеть не можешь, у тебя нет способа и нормально тестировать свою страницу. Во всех нишах маркетологи проводят сотни аб-тестов, чтобы сделать лучшую посадочную страницу (лендинг). А в стиме ты не можешь сделать аб-тест. Не используешь по сути ключевой инструмент маркетинга.И мы решили это исправить :) Тем более что на мобилках есть SplitMetrics, с помощью которого создается страница, идентичная апсторовской, но где ты можешь замерять результаты и сравнивать разные страницы.Мы сделали точной такой же продукт :) Но для Стима.Берешь свою текущую страницу, делаешь ее копию на сервисе, и делаешь вторую страницу, где будут какие-то отличия. Например, другие скриншоты или трейлер или описание или гифки. Затем льешь траффик на эти две страницы и смотришь, какая работает лучше.Поскольку мы только-только закончили делать стартап, то думали, что это может быть что-то аля стартаперской истории. Но глубоко пока не размышляли. Было интересно попробовать сделать этот сервис для того, чтобы понять лучше поведении людей на стиме и плюс это могло сильно дать буст внимания агентству. Мы те кто могут делать аб-тесты на стиме. Вот тут уже позиционирования агентства начинало вырисовываться. Поэтому мы решили рискинуть и сделать этот сервис. Даже без ясного понимания, как мы будем его использовать в итоге. Но это было точно полезно, работало в других нишах и соответственно, имело смысл делать.Прошлый свой продукт - сервис по лечению бессонницы - мы делали 3 года из-за вечных изменений продукта, идеи и нашей тупости. А аб-тестилку мы уже сделали за 3 месяца :) Как только появился рабочий прототип, мы дали его инди-разработчикам на тесты, и все ооочень хорошо восприняли сервис. Сразу начали пользоваться, улучшать страницы, нам говорили, что этот продукт помог совсем иначе понять, как работает поведение человека на странице.Мы еще прикрутили туда сервисы записи видосов экранов, и можно было посмотреть, что и как делает пользователь на твоей стим-странице. Это выглядело фантастически. И мы были первыми, кто видел как в действительности ведут себя люди на стиме. Экспертность росла и набухала :) Но мы все еще до конца не знали, как будем продавать этот сервис. Может делать стартап?Но для стартапа нужен очень большой рынок. Весь рынок стима - 10 млрд$. И это продажа игр, а мы делаем софт для улучшения маркетинга. Сколько всего денег тратится на маркетинг в стиме? Ну пуска 10% от продаж. Это 1млрд$. Сколько из миллиарда идет не на закупку траффика и инфлов, а на покупку сервисов аналитики и прочего софта? Ну 10% от всего бюджета в лучшем случае. Это 100млн$.На все-все-все софты для маркетинга.Стартап тут не построишь. Слишком маленький рынок. Можно продавать как SaaS-платформу. Покупаешь и пользуешься. Стоит может несколько сотен долларов в месяц, может тысячу, разные планы.Может так сделать?Но снова сталкиваешься с тем, что рынок небольшой и… дикий. Здесь мало кто вообще делает хоть какой-то маркетинг, а уж оптимизировать его таким образом и делать аб-тесты - это запрос существенного меньшинства.Причем самый прикол, что большие издатели считают, что им это все еще и не особо требуется. Они заливают весь интернет рекламой, а стим-страницей не занимаются.
Рюмочная ИПП
Российская база бухгалтерской отчетностиПредставляем вам Российскую базу бухгалтерской отчетности (РББО, RFSD) — первую открытую альтернативу СПАРК-Интерфакс, Ruslana, Контур.Фокус и СБИС. До сих пор исследователям приходилось покупать доступ к данным, формировать выгрузку и импортировать данные в статистический пакет. Теперь отчетности всех компаний можно загрузить тремя строками на Python:from datasets import load_datasetimport polars as pl# Эта строка загрузит всю РББО (6,6 ГБ+) и поместит ее в 🤗-кэш-директориюRFSD = load_dataset('irlspbru/RFSD')Наша база собрана из официальных источников — ЕГРЮЛ ФНС, архивных данных Росстата и отчетностей, полученных через Государственный информационный ресурс бухгалтерских отчетностей (ГИР БО). Сейчас РББО охватывает 2011–2023 годы и содержит 56,6 млн наблюдений. Мы планируем ежегодно обновлять базу по мере поступления новых данных в ГИР БО. Ближайшее обновление — в июле 2025 года.Важное отличие РББО от коммерческих продуктов состоит в том, что она включает не только все годовые неконсолидированные отчетности российских организаций, но и сведения об организациях, не подавших отчетность несмотря на такую обязанность. Процесс сбора и валидации данных документирован в препринте: https://arxiv.org/abs/2501.05841.В репозитории на GitHub мы приводим примеры использования РББО в экономических исследованиях:🌍 Для макроэкономистов — оценка процентных расходов российских компаний🏭 Для отраслевых рынков — оценка производственной функции предприятий обрабатывающей промышленности🗺 Для экономических географов — новый способ оценить пространственное распределение ВВП России с помощью данных фирмСкачать РББО можно здесь:🤗 Hugging Face: https://huggingface.co/datasets/irlspbru/RFSD💤 Zenodo: https://doi.org/10.5281/zenodo.14622209На GitHub также перечислены открытые проблемы и пути улучшения РББО. Будем рады вашему участию и помощи.
Если быть точным
СМИ: с 1 января запретили автоматический сбор данных о госзакупках. Так ли это?С 1 января перестал работать FTP-сервер «Госзакупок», с помощью которого любой желающий мог выгрузить данные о госзакупках в машиночитаемом виде. Для аналитиков закрытие сервера не стало неожиданностью: об этом предупреждали еще год назад. Изначально планировалось, что доступ будет закрыт с 1 июля 2023 года, но сроки были сдвинуты.▫️Что изменилосьРаньше FTP-сервер был открыт для всех: с него можно было выгрузить машиночитаемые данные в XML‑формате с публичной частью информации о закупках и контрактах: извещения, протоколы, сведения о договорах и прочее. Сейчас для доступа к информации в машиночитаемом виде для физлиц нужно указать цель получения данных, адрес, электронную почту и телефон. Для юрлиц – загрузить сертификат руководителя (со сведениями СНИЛС) или сертификат организации (со сведениями ОГРН), говорится в инструкции. Это позволит контролировать, кто и какую информацию выгружает.При этом «отсутствие корректного обоснования получения данных» может быть основанием «для ограничения функционала или блокировки работы сервисов». Кроме того, будет установлен лимит на количество запросов в час, но конкретное число в инструкции не указано. Аналитики также беспокоятся, что изменится и формат данных. Это не первое ограничение информации о госзакупках:🔺После начала боевых действий в Украине из-за риска «вторичных санкций» госкомпании получили возможность не публиковать данные о закупках. На данный момент не видны госзакупки на сумму около 10 трлн руб. 🔺В результате исказилась статистика о госзакупках: ее было сложно анализировать даже Минфину. В апреле 2023 года часть данных о закупках вернули в «закрытый контур» ЕИС.🔺Из-за закрытости заказчикам стали реже размещать тендеры, а поставщики – участвовать в них. В октябре в Минфине заявили, что смягчать режим закрытости закупок для госкомпаний пока не планируется.▫️Есть ли другие источникиАрхивная информация о госзакупках есть у сервиса «Госзатраты». Получить доступ к данным можно через API. Сервис уже получил регистрацию в новых «сервисах отдачи информации» ЕИС, говорит руководитель «Госзатрат» и автор телеграм-канала «Ах, этот Минфин» Ольга Пархимович. В ближайшее время команда планирует перенастроить его и проверить лимиты выдачи. ⚫️Чтобы мы могли дальше рассказывать о российской статистике — поддержите нас. Это можно сделать через Boosty или Patreon.
Маркетплейсы: Эффект Хамис
Небольшой лайфхак: как настроить рекламную кампанию только на рекомендационной полке с помощью автобидера Market Guru.1. Включите рекламную кампанию в своём личном кабинете продавца.2. Перейдите в раздел "Бидер" и откройте вкладку "Автоматизация".3. Добавьте новое правило: • Условие: количество просмотров больше одного. • Действие: исключить эти запросы.4. Активируйте правило.5. Выберите один главный кластер и установите для него максимальную ставку в диапазоне.6. Сохраните настройки.Через некоторое время рекламная кампания начнёт автоматически очищать все запросы, оставит только один и будет откручиваться только на рекомендационной полке.
Субъективный оргздрав
Моё предположение состоит в том, что в связи с ужесточением конкуренции за ресурсы здравоохранения доступность данных для анализа научными специалистами будет возрастать. В развитых странах драйверами этого процесса станут доминировании затрат связанных со здоровьем (как прямых на медицину, так и непрямых на соцобеспечение нетрудоспособных контингентов) в структуре ВВП и снижение стоимости аналитики за счёт применения ИИ-инструментов (как в качестве способа обеспечения качества данных, так и аналитического инструмента). А вот будут ли эти исследователи, как сейчас, условно вольными птицами или же речь пойдёт об усилении аналитических центров - это большой вопрос. Конечно, система конкуренции за анализ данных и формирование наиболее рациональной трактовки представляется более эффективной, но этому могут помешать процессы консолидации государственной власти, которые, кажется, носят повсеместный характер.
В этом есть смысл | Ельчанинова
Подсмотрела у админов, как они подводят итоги года в каналах: выгружают 12 топовых постов за год из платного TGStatsМне тоже захотелось такую красоту, но муж взрастил во мне маленького крахобора. Ужас какой-то, я такой не была никогда…И что вы думаете, я сделала? Правильно: выгрузила все посты из телеграм-канала, вместе с охватами, реакциями и комментами, затем собрала все в эксельку, поколодовала с формулами и закинула в чатгпт все проанализировать. Последнее можно было не делать, но я решила перед вами выпендриться.И собственно что. Получились вот эти 12 постов, которые выбрались в топ по количеству ваших реакций (только убрала дайджесты, опросы, новости и закрепы — для чистоты) 👇🏻😄 Метрика про кайф😄 Прием в контенте: добавить драмы😄 Как новички в моей команде проходят онбординг😄 Откуда брать свежие идеи для контента: лекция для VK Prostor😄 Психанула и забронила весь календарь звонками😄 Комфортнейший часовой пояс для удаленщика😄 Мои результаты платного продвижения канала😄 Чем стратегия отличается от креатива😄 Сколько зарабатывают методисты курсов (или планируют)😄 Что бывает, когда добавил в портфолио не свою работу😄 Что читать креатору, чтобы генерить идеи😄 Как за пару минут расшифровать звонок или аудио с помощью ИИ😄 Мышление бедняка на работеЗаняло все это у меня где-то полчаса, но знаете, проще было купить TGStats 😂
Короче, английский
Работа моя весьма познавательнаПомимо лингвистической составляющей (да, преподы тоже учатся; нет, до конца выучить можно только таблицу умножения на форзаце тетрадки) узнаешь массу прикольных необязательных вещей:- как лучше торговаться на Авито- как лучше торговать на Авито- как в Европе ходят на свиданки- чем бесят канадцы- чем не бесят канадцы- чем отдельно (опять) отличился Квебек- как обсуждают деньги в Нидерландах- почему некоторым аутистам так клево делать карьеру в айтиКак вы понимаете, это все за один день😄И мое любимое - по какому принципу Яндекс подкидывает рекламуКстати, после нашего обсуждения другу подбросили рекламу бриллиантовых сережек за 28 миллионов. Мне кажется, к этому чуваку стоит присмотреться, как будто бы я знаю про него не все