⬆ 2/2Похожим образом будет работать и наша модель, с той разницей, что контролер принимает свои решения подсознательно, а модель абсолютно четко осознает, на сколько % она уверена в качестве того или иного продукта, и какую точку на графике метрик нужно выбрать с учетом заданных штрафов. Цена неточных вводных Приступим, наконец, к расчетам, и посмотрим, к чему будут приводить погрешности в понимании бизнес-последствий в самом простейшем случае. Дано: - метрики разработанной модели соответствуют графику выше, математически он описывается уравнением x * y = 100; - на производстве 4% реального брака (и 96% качественной продукции) - издержки от отправленного клиенту брака - 1000 руб./шт. - издержки доп. контроля от неверно отбракованного качественного товара - 10 руб./шт. При таких вводных оптимальное решение (x = 4,9%; y = 20,4%) дает общие ожидаемые издержки 3,92 руб. на единицу продукции. Кому интересно - математика кейса во вложении. Давайте посмотрим на типичные грабли, по которым тут можно пройтись, и их последствия: 1. Использование базового подхода "просто хотим максимально редко ошибаться" Результат: x = 49%; y = 2,04%, общие издержки 19,79 руб./шт., то есть в 5 раз больше оптимальных, лишние издержки составят более 400%. Довольно очевидно, что этот факт - результат того, что один из типов ошибки в 100 раз дороже другого. Насколько это будет важно при меньших соотношениях? Вот немного цифр: - при соотношении 14 к 1 лишние потери в издержках будут составлять 100% - при соотношении всего 7 к 1 - 51% - наконец, если одна ошибка дороже другой всего в 2 раза, бизнес потеряет 6,1% В реальных задачах часто встречается ситуация, когда последствия разных ошибок отличаются во много раз, поэтому борьба идет за десятки и сотни процентов эффекта. 2. Неточность в оценке издержек Например, мы забыли, что контролер стоит компании не просто расходов на зарплату, но еще и расходов на рабочее место, дмс, налогов и т.п. Это примерно в 2 раза увеличивает издержки от его проверок - вместо реальных 10 руб./шт. мы заложили в расчет 5 руб./шт. Результат: x = 3,46%; y = 28,87%, общие издержки 4,16 руб./шт. - потери есть, но гораздо меньше, всего на 6% хуже оптимума. Впрочем, безусловно, даже за 6% снижения издержек все равно стоит побороться. 3. Неточность в оценке реальной доли дефектов Например, мы почему-то считали, что у нас не 4% брака, а 2,5%, и заложили это в расчеты. Результат: x = 6,2%; y = 16%, общие издержки 4,04 руб./шт. - потери всего 3%, то есть наш кейс почти не изменяется от этого. На этом очень упрощенном примере видно, что неточность во вводных проекта приводит не только к неточности "на бумаге" при защите проекта - в отличие от обычных проектов, она также ведет и к разработке реально другой системы, и к другим результатам на выходе из проекта. Делает ли это проекты сложнее? Безусловно. Значит ли это, что игра не стоит свеч? Конечно, нет, ведь речь зачастую идет об огромных потенциальных эффектах - но важно понимать эти риски и работать с ними.#AI #метрики
Data Science и аналитика — страница 15
Лента темы
Продуктивности дайджест— Продуктивная чакра открылась, и я тут же залетел в базы данных и аналитику, насобирал себе курсов, видосов, датасетов и вперёд sql-кой шайтанить. Краски будней отдают металлическим оттенком, а новые идеи словно всё это время стояли у двери.— Уже давно интересуюсь Web-3 и его идеей единого интернет-аккаунта с трекингом всей сетевой активности (госуслуги, не надо), поэтому свежеиспечённой идеей накануне сразу же стал личный сайт, да не абы какой. В первую очередь понятное дело, что это визитная карточка, посадочная страница и бла-бла, но что, если зайти за границы всего этого и использовать личный сайт, чтобы.. отцифровать себя? Перенести весь контент из физической памяти в цифровую. Звучит, и всё это порождает куда более интересный проект — огромнейшая база данных по всем сферам жизни с её сплошной аналитикой. Как ещё связать своё сердце с аналитикой, как буквально не превратить свою жизнь в сплошную аналитику? А что, прекрасная дань всему научному сообществу. Получается, после этого себя уже реально можно будет называть социальным экспериментом.— Каждый раз изучая новые сферы в айти, думаю: блин, а я ведь когда-то сидел вон в той сфере, а еще вон в той, а между ними вон в той — generalist. Можно всю жизнь сидеть и познавать айти, она быстрее закончится. За последние пару лет не было и дня, где я бы что-то не познавал, и кажется до сих пор, что от всей этой Марианской впадины знаю процентов 10. Считаю несправедливым тратить 10 лет жизни на погружение в одну айти-область, вынуждено отказываясь от остальных 100500. Отчаянные уходят и на полжизни, прокапывают там ещё глубже, а новым поколениям потом приходится расширять себе мозги. Ладно, так уж и быть, я смирюсь, что не стану Head of IT, освою своих покемонов и сделаю на них бизнес.
Признаюсь вам - я не очень шарю за базы данных. Я могу сделать запрос, написать какой-то простой sql, но вот проектировать базы это точно не то чем я люблю заниматься.Если возможно использую базу как сервис, типа того же supabase.com.А сегодня я узнал что они запилили бесплатный онлайн инструмент postgres.new, который позволяет таким хомячкам как я с легкостью задизайнить базу потягав прямоугольники и нажаловавшись AIшке.Причем есть возможность эту базу потестить прямо в браузере благодаря pglite.dev (postgress на WASM)Можете потыкать сами или посмотреть как это тыкают на Ютубе.
CRM должна быть! Базовые must-have настройки 🚀Я до сих пор встречаю компании, которые не используют CRM или используют ее в недостаточной степени. Печально, что на ровном месте теряется эффективность: часто из-за непонимания ценности, предрассудков руководителя или печального опыта…Независимо от того, работаете ли вы в B2B или B2C, CRM - это ключ к успешным продажам и качественному обслуживанию клиентов, а значит росту выручки и прибыли. Ниже 5 базовых настроек, которые должны быть в каждой CRM, чтобы вы могли получить максимальную отдачу:1. Создание безопасной единой базы клиентовЗначительно упрощает управление клиентскими данными, позволяет быстро находить нужную информацию, избегать дублирования, лучше понимать клиентов и эффективнее продавать и обслуживать. Да создание базы требует много времени на начальном этапе, но результат стоит того.И да, в отличие от базы клиентов в файле excel, из CRM ее достать и унести достаточно сложно. Слышали истории, когда ведущий сотрудник по продажам «уводил» клиентов в другую компанию или создавал свою? При наличии CRM системы сотрудника можно уволить одним кликом, и он сразу потеряет доступ к бесценной информации.2. Настройка этапов продажCRM позволяет отслеживать и анализировать продвижение сделок по воронке, выявлять узкие места и улучшать процесс продаж. Многие вещи за менеджеров могут делать роботы. Это настраивается просто и сильно экономит время специалистов.Хотите 2 книги «Идеальная b2b воронка продаж» и «Идеальная b2с воронка продаж»? Запускайте мой телеграм бот и пишите «воронка».3. Интеграция с электронной почтой, мессенджерами и телефониейДумаете, это сложно и дорого? CRM предлагают простые и доступные решения. Замыкание клиентов на личные номера и почту, не понимание, о чем они говорят с клиентами… несет свои риски.Интеграция централизует всю коммуникацию, упрощает доступ к истории взаимодействий, а это повышает уровень продаж и качество обслуживания клиентов.4. Автоматизация задач и напоминанийНастройка автоматического создания задач и напоминаний для менеджеров на каждом этапе сделки снижает вероятность забыть о важных действиях, повышает дисциплину, эффективность работы и ответственность менеджеров.CRM настоящий органайзер, который не даст забыть важное и даст в нужный момент пендаль импульс для ускорения5. Настройка отчетности и аналитикиНевозможно управлять тем, что невозможно измерить или оцифровать. Хотите увеличить продажи? Насколько? А какие ключевые метрики есть сейчас? Насколько они точны, правдивы, актуальны?...Создание дашбордов и полезных отчетов (по продажам и не только) позволяют фокусироваться на важном, помогают принимать правильные решения, улучшать стратегии роста бизнеса.Мой пост – искреннее желание донести ценность CRM, не важно крупная вы компания или эксперт, который сам себя продает. Важно то, что она должна быть. Ее наличие и грамотное регулярное использование помогает поддерживать актуальность и конкурентноспособность.Для Вас это важно?
Мы все конечно ненавидим еврокоммисию за их законы и часто по делу (ну кроме андройдафилов - им наверное нравится как та прогнула Эпол).Самая последняя ненависть - это неотделяемые крышачки 😅 Но я с ними много лет назад познакомился на примере беговых гелей и там это было сделано нормально. И даже можно заметить что у многих напитков это тоже норм, а вот кока-кола поленились и сделали дубова.Или вот сегодня наткнуля на твит про аналитику и gdpr. Вас тоже задолбали эти попапы? Но ведь оказывается можно сделать полностью совместимую с gdpr аналитику когда можно не спрашивать ничего у пользователя, и при этом бизнесу это тоже круче, потому что нет попапа - нет отказа от сбора. Так как я тоже работаю в супер зарегилированной финансовой отрасли я тоже это наблюдаю - регуляции часто пишутся достаточно гибко, чтобы прогнуть их как вам удобно. Так что если где-то криво - скорее всего кто-то поленился.https://x.com/PlausibleHQ/status/1821855402453004349

Spark!= Pandas + Поддержка больших данныхБудьте осторожны, перенося свои знания с Pandas на Spark.Pandas и Spark оперируют одним и тем же типом данных — таблицами. Однако способ их взаимодействия с ними существенно отличается.Тем не менее, многие программисты часто переносят свои знания из Pandas в Spark, предполагая схожесть архитектуры, что приводит к узким местам в производительности.https://blog.dailydoseofds.com/p/spark-pandas-big-data-support
🥴 Reverse ETL — антипаттерн или норм?у меня тут недавно наконец-то сложилась картинка в голове! до этого краем уха слышал этот новый термин, но никак не мог переложить его на реальность. А потом увидел схемку где помимо стандартного направления источник → двхбыла дополнительная стрелочка:источник → двх → (обратно) источник в итоге понял, что видел уже два таких кейса и пока ощущения смешанные:1) считать бонусы определённому срезу сотрудников. был кейс когда ставка зависит от количества и статуса лидов например (или других штук, которые можно посчитать только в двх)2) сейчас есть задача передавать данные между микросервисами (разные команды): микросервис А производит данные, их сгружаем в ДВХ, там происходит очистка и обогащение; а потом мы эти данные выгружаем в микросервис Б. по второму кейсу не покидает ощущение «наколеночности» решения: получается, между двумя по-задумке-быстрыми сервисами появляется прослойка в виде батчевого двх с куском логики. двх сюда впилили, потому что там данные уже очищенные и обогащённые (из сервисов В и Г) — чтобы получить такое же вне двх это надо повторять эту логику с тем же набором данных.из плюсов вижу, что сразу «повышаются ставки» для наших данных и двх в целом — и пользователи начинают оперативно спрашивать за качество и свежесть) приходится проактивно шевелить булками и навешивать метрики с мониторингами. Это добавляет быструю обратную связь на результаты работы команды и держит всех в тонусе.⌘⌘⌘что думаете про Reverse ETL? какбэ антипарттерн или норм? есть альтернативы? как «правильно»?
Такая идея, бахнуть серию постов про всякие базовые ML-алгоритмы, которые используются в ПА. Без душноты, без кода (максимум со ссылкой на самую залайканую версию на гитхабе) — про принцип работы и какие задачи можно ими решать. Интересна тема, или ML уже со всех сторон все рассмотрели? 🤔
Shadowmap — полезное приложение для оценки свето-тени на локации. В бесплатной версии функционал ограничен, но всё-равно очень круто. Есть версии для смартфонов.Shademap — совсем бесплатный аналог. Тоже круто, но по ощущениям менее точно за счёт грубых моделей.

ДОЖАТЬ ДО КОНЦАНедавно был выпускной в mathshub.Это школа, где я выиграла грант в прошлом году на обучение аналитика данных. Тогда у меня случилось выгорание в дизайне. Мне было очень сложно учиться, я закончила блок python и попросила перевести себя на следующий поток. Мне пошли на встречу. Откровенно говоря, я не думала, что осилю всё обучение. И вот прошел год обучения и я смогла. Я изучала статистику, математику, SQL, python, Tableau, продуктовые метрики, EDA, теорию вероятностей. Конечно, математика и статистика меня покорили. А продуктовые метрики и визуализация данных открыли для меня новый мир знаний)На новой работе я узнала об аналитиках в информационной безопасности, и как-нибудь я о них вам расскажу. Но это будет другая история. Учеба — это ещё одна работа, я вам серьезно говорю. Гордитесь, что вы учитесь 💚


Недавно общались с одним из вас и обсуждали алгоритмическую торговлю на российском фондовом рынке (торговля с помощью роботов). Ребята занимаются этим серьезно и не первый год. Вообще, роботы это замечательно. Они облегчают жизнь, снижают до минимума влияние эмоций на торговлю, идеально следят за риском ... Но проблема заключается в том, что на российском рынке наиболее доходный ее вид - внутридневная торговля (а здесь имеет смысл заниматься только этим видом торговли, чтобы не "смешить вкладчиков банков") - имеет ограничение: внутридневная торговля не масштабируема.Если вы хотите сделать алгоритмическую торговлю смыслом своей жизни (и иначе зачем вообще сюда лезть?) и одним из основных источников дохода, это означает, что скоро вам придется сильно наращивать капитал до миллиардов рублей, а далее привлекать капитал инвесторов (в виде ДУ). Ну, или люди сами понесут к вам деньги, как только вы начнете на треке в 3-4 года показывать стабильно позитивеые результаты с доходностью > 20% годовых. И в этот момент [если вы не инсайдер или не разгоняете рынки через ТГ-каналы] вы крайне быстро упретесь в объем, который не сможете размещать через сделки на Мосбирже из-за огромного проскальзывания (из-за низкой ликвидности российского рынка цена входа в сделку будет заметно отличаться от текущей, а это доп убыток). Это несущественно для среднесрочной и, тем более, для долгосрочной торговли, но это критично для внутридневной торговли. Но есть и вторая проблема: такие крупные сделки внутри дня привлекут внимание серьезных участников. И вас будут "наклонять" всё чаще, потому что у вас нет "запаса терпения" (времени и капитала).Но хуже всего обстоят дела с торговлей неэффективностей, в т.ч. арбитраж, например, через срочный рынок (это наиболее надежный и наименее рисковый вид торговли). Здесь вы упретесь в отсутствие ликвидности уже после первых пары десятков миллионов рублей, а в некоторых инструментах - еще до миллиона рублей.И самая вишенка, ради которой весь пост. Ребята (о которых шла речь в начале поста) лишь "тренируются" на российском рынке, набивают руку, отрабатывают систему, чтобы потом уйти на рынок США. И тут (я могу сказать из собственного опыта): вот такой фигней не стоит заниматься. Рынок акций и деривативов США это реально другое. Всё другое. Вообще всё. Те годы, которые вы потратите на "отработку системы" на российском рынке, - вы просто потратите ЗРЯ. Просто, выкинете. ГОДЫ. Или сразу в США, если ставите эту деятельность в качестве профессиональной для себя.И теперь перекладываем эту частную (про трейдинг) логику вообще на все бизнеса и затем на всю жизнь человека (любые его виды деятельности, в которых он хочет развиваться).Есть продукты (товары и услуги, виды деятельности), которые бессмысленно тестировать на малых рынках. И, если цена входа на другой рынок не слишком высока (по сравнению с малым - то есть вам хватает капитала на "тесты"), то заходите сразу в него. Потому что отличия могут быть существенные и даже критичные: из-за ментальности, законов, технических особенностей, негласных правил и т.д.Запомните и запишите базовую истину:▪️ тратьте сейчас время на то, чем будете заниматься в будущем;▪️ не тратьте сейчас время на то, чем не будете заниматься в будущем.| Денис Сучилин @dsuchilin | ECWORLD | Жизнь. Бизнес. Логика. Развитие
Telegram Ads Big DataПочти во всех проектах годами собираются базы пользователей с номерами телефонов. Всегда хотелось использовать их в рекламных кампаниях в Телеге. Такие рекламные цепочки с несколькими касаниями запускал в Фб, Вк и на других площадках. Эффективность ретаргета всегда была и есть на высоте. А вчера меня натолкнули на мысль протестить и подключить улучшенный кабинет.Такая возможность сейчас есть напрямую у МТС и реселлеров Елама и Onespot. В чем преимущества:👏 можно загружать базы пользователей с номерами телефонов и находить похожих на эти базы пользователей👏 можно взять у менеджеров готовые базы пользователей по разным нишам исходя из активностей и поведению в интернетеПомимо перечисленного, менеджеры могут просегментировать аудиторию по полу, возрасту, гео, интересам и касанию с брендом. Пользователи по интересам будут собраны не так как в обычном кабинете с привязкой к каналам, а совокупно по 5+ параметрам (подробности не уточняются).Все это заманчиво звучит [думаю, идею вам продал 😀]. НО!Как оказалось, это пока не работает для всего онлайн-образования (инфобизнеса) и криптовалют, что занимает самый большой пласт рынка в Telegram. Для чего работает? Для оффлайн-обазования, недвижимости и всех прочих индустрийУ меня сейчас все проекты в тематике инфобиза, так что не фартануло протеститьУ кого есть опыт работы с Бигдатовским кабинетом, напишите в комментах как оно работает и стоит ли подключать. Ну и вообще делитесь мыслями, идеями по этому поводу, вдруг меня читает сам Дуров 🥷

Зачем фиксировать в CRM сайты клиентов? В принципе, можно (и нужно) фиксировать сайты контрагентов хоть в Excel (если вы все еще в нем работаете). Я же поделюсь базой и фишками для тех, кто использует CRM. 1. Заполнять поле Сайт в карточке Компании нужно по строгим правилам (иначе пользы не будет). Я рекомендую писать только домен и доменную зону. Без всяких слеэшей и https. То есть правильно: pavluk.online Неправильно: https://pavluk.online/ 2. Предыдущий пункт позволит настроить проверку на дубли. Если кто-то попробует завести еще одну карточку той же самой компании и корректно заполнит поле “Сайт” – система проинформирует о найденном клоне. Особенно полезно, когда в компании и/или головах сотрудников нет понимания, какие нужно давать названия карточкам Компаний (например, потому что Ozon это ООО “Интернет Решения”, а “Магнит” – вообще “Тандер”). 3. Не меньше (а порой больше) бед, чем дубли, приносит процедура (вернее ее нарушение) прикрепления Контактов к Компаниям. Староверы делают это вручную (поэтому часто медленно и плохо, а иногда вообще никак). Правильно делать это роботами, которые трекают почту Контакта, вытаскивают из нее то, что после “собачки”, ищут совпадения по полю “Сайт” среди Компаний. Если нашли – Контакт автоматом крепится к Компании. Разумеется, мы говорим только о корпоративных доменах и игнорируем емейлы на бесплатных почтовиках. 4. Предыдущий пункт можно развить. Ибо зачастую менеджер или аккаунт, закрепленный за Компанией, общается или хотя бы знаком с парой человек. Тогда как Контактов из этой Компании в базе может быть несколько десятков. И их число, по идее, еще и пополняется из самых разных источников. Так вот роботов можно научить делать следующее. Появился в системе новый Контакт – в него автоматически летит приветственное письмо от сотрудника, отвечающего за эту Компанию. Мол, общаюсь с вашими коллегами такими-то, будем и с вами знакомы! Либо, если мы говорим о заявках, просто автоматически их распределять между сотрудниками с учетом закрепления (а не орать в рабочем чате “Чей клиент”?). #клиентоориентированность #бизнеспроцессы #битрикс24

❤ 2 бесплатных проекта для практики навыков анализа данных и PythonНиже - бесплатные практические проекты от Coursera без пробных периодов и привязки карты.Время на выполнение каждого - примерно 8 часов.1. Веб-скрапинг и анализ вакансий data analyst с помощью PythonВ этом проекте вы поможете кадровому агентству найти для клиентов подходящие вакансии, чтобы у них было преимущество перед другими соискателями. Вам нужно будет извлечь данные о вакансиях с нескольких сайтов, визуализировать и проанализировать их.👨💻 Проект2. Анализ данных об использовании социальных сетей с помощью PythonВ этом проекте вы будете работать аналитиком данных в маркетинговой фирме, специализирующейся на продвижении брендов в социальных сетях. Ваша задача - использовать Python для извлечения, очистки и анализа твитов в определенных категориях (здоровье, семья, еда и т. д.) и создания визуализаций.👨💻Проект
🇯🇵 Большой справочник формул Notion 2.0. Запуск – через … дней! Вообще-то он уже доступен. 👀 Но, пожалуйста, дайте мне ещё несколько дней, чтобы проверить его на наличие косяков, отладить работу и записать видео о том, как им лучше пользоваться. Перед запуском справочника я обещала рассказать, с какими сложностями мне пришлось столкнуться при работе над проектом. Но то ли под влиянием хорошего настроения, то ли от того, что мой мозг окончательно расплавился под горячим столичным солнцем, передумала. Решила не грузить вас своим нытьём в этот приятный летний денёк. Давайте лучше поделюсь некоторыми цифрами: 🇪🇷 1,5 года шла работа над справочником; 🇪🇷 9-я версия сайта предстанет перед вами; 🇪🇷 9 статей о работе с формулами в Notion было подготовлено для справочника; 🇪🇷 100+ подробных описаний функций и операторов было составлено; 🇪🇷 300+ формул было собрано из реализованных мной проектов и написано специально для справочника; 🇪🇷 1500+ файлов изображений было создано и загружено.И это – не финишная точка. Справочник будет развиваться – дополняться статьями и новыми формулами. Ну а если разработчики Notion внедрят новые функции, не сомневайтесь: их описание появится на страницах сайта. Интересно посмотреть? Тогда оставьте здесь свой огонёчек. А я пока пойду докручивать, чтобы порадовать вас уже на следующей неделе.
‼️ Библиотека Unstructured в Python: Примеры и Применение ‼️🔻 Установка и Основы UnstructuredДля начала использования библиотеки Unstructured, её необходимо установить. Это можно сделать с помощью командного менеджера pip:pip install unstructuredБиблиотека предоставляет удобные методы для работы с различными типами данных. Например, для чтения текста из файла можно использовать следующий код:from unstructured import Texttext_data = Text.from_file('example.txt')print(text_data.content)Эти простые команды позволяют легко импортировать и работать с текстовыми данными.🔻 Обработка Текстовых ДанныхОдной из основных возможностей библиотеки Unstructured является обработка текстов. Она позволяет выполнять такие задачи, как токенизация, лемматизация и извлечение ключевых слов. Рассмотрим пример токенизации текста:from unstructured import Texttext_data = Text('Это пример текста для токенизации.')tokens = text_data.tokenize()print(tokens)Этот код разобьёт текст на отдельные слова, что может быть полезно для дальнейшего анализа и обработки данных.🔻 Работа с ИзображениямиUnstructured также поддерживает работу с изображениями. Она позволяет извлекать текст из изображений с помощью технологии OCR (Оптическое Распознавание Символов). Рассмотрим пример извлечения текста из изображения:from unstructured import Imageimage_data = Image.from_file('example.png')text_from_image = image_data.extract_text()print(text_from_image)Этот код позволяет прочитать текст, содержащийся в изображении, и вывести его на экран. Это может быть полезно для задач по автоматизации и анализа данных.
Крылышко или ножка 🤬Как продуктовая аналитика увеличивает продажи? Представьте, что вы владелец сервиса доставки еды. Вы внедрили продуктовую аналитику и увидели, что 64% поисковых запросов в вашем приложении были неудачными. Клиенты искали «наггетсы», а в поисковой строке вводили, например, «курочка на закуску». Нулевой ответ на поиск — разочарованные клиенты. Продуктовая аналитика позволяет выяснить, как пользователи взаимодействуют с продуктом, какие функции наиболее популярны, на каких этапах люди чаще всего отказываются от использования продукта и как повысить вовлеченность, удерживать клиентов. В финале: 🔵Неудачных запросов осталось всего 3%. 🔵Созданы «умные рекомендации» (персонализированные подборки для разных групп клиентов), что повысило средний чек. 🔵Совокупный результат — продажи увеличились на 10%.Больше кейсов по продуктовой аналитике — в моем новом материале в РБК Pro. iGrunis — Маркетинг. Тренды
Не так просто на слух определить аккорды, особенно в каком-нибудь Cardiacs — RES. Поэтому я юзаю sonic visualiser для анализа микса — это просто мощный аналитический софт написаный британскими учеными на субсидии правительства. Он хорош так же чтобы найти аккорды в треке или чтобы раскидать анализ изменения темпа в музыке в стиле рубато, или чтобы определить в одном инструменте ноты. А потом, например, это все экспортировать в миди или в красивые графики. Есть там и более сложные вещи для DSP инженеров которые скорее всего тебе не будут так интересны.Но вот конкретно анализатор аккордов Chordino в нем меня впечатляет, он в 95% случаев угадывает аккорды правильно, и это не нейронка а простая алгоритмика и считается за 2 секунды.
Precision-based designs for sequential randomized experimentsДля тех кто привык следовать Fixed Horizon или mSPRT дизайну появилась альтернатива от Spotify. В пейпере рассматриваются два типа дизайна и их достоинства перед Sequential Test / FH: - FWCID (fixed-width confidence interval design)- FPD (fixed power design)В отличие от подхода Wald'а, который принято чаще остальных использовать в качестве инструмента для последовательного тестирования, который отвечает на вопрос "есть ли эффект?", мы хотели бы ответить на вопрос "какова величина эффекта?". Помимо этого, авторы ссылаются на другие недостатки классического подхода: меньшая мощность, чем у fixed-sample дизайна, а также ожидание конечного рассчитанного времени.Подкреплено это все симуляциями MC на julia + python Подробнее изучить на архиве:https://arxiv.org/pdf/2405.03487
Почему полезно слушать рэп Известный рэпер однажды зачитал: «200К, 300К, 500К, миллион». С этим сложно поспорить. Буква «К» подставляется максимум к трёхзначным числам.Непонятно, зачем «Кинопоиск» сделал это с четырехзначным «1085К». Когда дело касается миллиона, то сокращённо пишут — «1M». Выходит, что рэп всё-таки может дать полезные знания. А многие по-прежнему ругают жанр.

Как закончилась учеба, я дала себе обещание читать исследования. Для того, чтобы не потерять навык чтения исследований и расширять свое представление о разных методах в индустрии/иногда рисерче.В этом плане, мне очень нравится Uber. Они выделяются открытостью, есть статья у них насчет предсказания времени, и недавно вышло об их Ценовой Стратегии (основная тема моего научного чтива на следующий месяц). Хоть там все в общих чертах, понятно, что решение в реальном времени у них происходит исходя из локации, мероприятий, цены у конкурентов, также они стимулируют разными способоми водителей ездить в точки высокого спроса. В общем, ничего интересного, буду рада если когда нибудь они опубликуют что-то такое же детальное как и для предсказания времени.А вот, что действительно интересно было начать читать - статью как именно работает динамическое ценообразование. Она большая, так что рассказывать буду в несколько частей.Перед образованием цены стоит поговорить про то как соотносится клиент и водитель. Способ 1: First-dispatch protocol.Мы можем автоматически назначить водителем только того, кто сейчас доступен (не совершает поездку) и находится ближе всех к клиенту. Работает ли это лучше, чем просто ловить такси на улице (в симуляции) - да. Всегда ли? Нет. Поэтому логично смотреть и тех водителей, которые могут еще выполнять поездку, но находятся в определенном радиусе, что улучшает ситуацию.Но есть и другой способ, не такой очевидныйСпособ 2: BatchingДело в том, что на данный момент имея N клиентов и M водителей комбинация назначений эффективная, но что если через 10 секунд допустим появится новый клиент, который поменяет ситуацию (картинка). В общем, этот алгоритм выигрывает у первого способа, уменьшая время ожидания каждого из клиентов. Он и реализован на момент 2019 года в Uber, Didi, Lyft (в своих вариациях конечно, но сейчас не об этом). Дальше идет формулирование проблемы математически через integer linear program (читайте как система линейных неравенств, с функцией увеличения "выгоды" от комбинации). Но этот алгоритм не очень дальнозоркий, поэтому в литературе существуют варианты со стахостическими играми и другими математическими приколами. Как оказывается часто, сложность и затратность их использования перевешивает возможный выигрыш. Улучшения и применения в случаях, когда мы рассматриваем не просто такси, а несколько остановок внутри маршрута, описаны как указывают авторы в публикации 2017 года.Для меня пока эта статья стоит низким приоритетом, ведь я просто хочу узнать как работает динамический прайсинг)))) Так смотря литературу, можно никогда из нее не выбраться👻

Про функторы и кластеризациюВ работе "An Impossibility Theorem for Clustering" (2002) Jon Kleinberg определяет три простых свойства, которым должна удовлетворять любая кластеризация, а затем доказывает, что ни один алгоритм кластеризации не может обладать всеми тремя свойствами одномоментно. Пусть дано множество S, состоящие из n ≥ 2 точек и некоторая полуметрика (без неравенства треугольника) на нем d:S×S→R. Пусть D(S) — множество полуметрик на S, а Π(S) — множество разбиений S на дизъюнктные подмножества. Тогда кластеризацией назовем функцию f: D(S) → Π(S), которая каждой полуметрике на S ставит в соответствие некоторое диз.разбиение. Kleinberg предложил следующие три свойства, которым должна отвечать каждая такая функция f:1. Инвариантность относительно гомотетии (scale invariance): f(d) = f(alpha * d) для любых d из D(S) и alpha > 0 из R;2. Насыщенность (?) или richness: f сюръекция;3. Непротиворечивость или consistency: пусть есть две полуметрики d и d', а Г некоторое разбиение S. d' это Г-трансформация d, если d'(i,j)≤d(i,j) для всех пар из одного кластера в Г, аналогично d'(i,j) ≥ d(i,j) для всех пар в различных кластерах, тогда d и d' не противоречат друг друг, если d' это f(d) трансформация d, то f(d) = f(d'), т.е. кластеры уплотняются и расползаются при замене метрики d на d';Существуют алгоритмы кластеризации, которые сочетают в себе любые 2 из 3 перечисленных свойств. Допустим S — множество вершина графа, а d(i,j) — вес ребра. Рассмотрим три функции кластеризации, которые находят подграфы, выбирая некоторое подмножество ребер: 1. выберем произвольное 1<k<n и упорядочим ребра по весу, будем добавлять ребра в подграф из упорядоченного списка ребер, пока он не будет иметь ровно k связных компонент; 2. выберем произвольное r и будем добавлять ребра с весом не меньшим r, полученные компоненты связности и назовем кластерами;3. выберем произвольное 1 > alpha > 0 и пусть R это max(d). Будем сохранять ребра с весом не более alpha * d; Утверждение: Функция 1 удовлетворяет 1 и 3 (число кластеров ограничено k сверху), функция 2 удовлетворяет 2 и 3 (варьируем r, получаем разные разбиения и теряем инвариантность относительно гомотетии), а функция 3 удовлетворяет 1 и 2.И тут в дело врывается топологический анализ данных, с уже классической статьей "Classifying Clustering Schemes" (2013) by Gunnar Carlsson & Facundo Memoli. Ключевая идея их работы заключается в том, что эти свойства кластеризации могут быть закодированы как морфизмы в категории конечных метрических пространств таким образом, что ответом будет не функция кластеризации, а функтор кластеризации в подходящую категорию и он будет обладать уже всеми желанными свойствами.
Случилась транзакция от jared, где он перевел майнеру 49eth в качестве комиссий за транзакцию. Разобрал что случилось подробнее https://telegra.ph/O-tom-kto-poznal-dzen-i-uniswap-v3-06-28
https://confidence.spotify.com/ — Спотифай упаковал свою платформу для А/Б-тестов в B2B продукт. Фенси лендинг прилагается.Яндекс и Авито тоже занимаются подобным сейчас. Интересный тренд.
Пересобираем ОЭСРНа следующей неделе старый сайт с данными ОЭСР перестает работать, вся статистика переползает на новый портал. Есть очень удобный excel-файл с переходной таблицей между старыми и новыми рядами. Для пользователей R на основе этого файла подготовил пару функций, позволяющих:(а) искать в нем нужный кодOecdCode = function(search_phrase) { require("data.table") require("openxlsx") url <- "https://gitlab.com/sis-cc/topologies/oecd-migration/-/raw/main/OECDDatasetsCorrespondence.xlsx" corresp <- openxlsx::read.xlsx(url) names(corresp) <- corresp[8,] corresp <- corresp[-c(1:8),-c(8:9)] row.names(corresp) <- c() CODES1 <- corresp[tolower(corresp$`OECD.Stat Dataset name (EN)`) %like% tolower(search_phrase), c(1:2,5)] CODES2 <- corresp[tolower(corresp$`OECD Data Explorer dataset name (EN)`) %like% tolower(search_phrase), c(1:2,5)] CODES <- rbind(CODES1, CODES2) CODES <- CODES[duplicated(CODES$`OECD.Stat Dataset code`)==F,]}(б) загружать по найденному коду полный рядOecdBulk = function(code) { require("data.table") require("openxlsx") require("glue") url <- "https://gitlab.com/sis-cc/topologies/oecd-migration/-/raw/main/OECDDatasetsCorrespondence.xlsx" corresp <- openxlsx::read.xlsx(url) names(corresp) <- corresp[8,] corresp <- corresp[-c(1:8),-c(8:9)] row.names(corresp) <- c() rw <- which(corresp[,1] == code) link <- corresp[rw,"OECD Data Explorer link"] pos1 <- as.numeric(gregexpr(pattern = '\\[ag]=',link)) pos2 <- as.numeric(gregexpr(pattern = '\\[id]=',link)) AG <- substr(link,pos1+5,nchar(link)) ID <- substr(link,pos2+5,pos1-4) link_dwnl <- glue::glue("https://sdmx.oecd.org/public/rest/data/{AG},{ID},/all?dimensionAtObservation=AllDimensions&format=csvfilewithlabels") DATA <- data.table::fread(link_dwnl)}Пример использования:CODE <- OecdCode("gdp") # таблица с кодами по запросу "gdp"DATA <- OecdBulk("PDB_GR") # данные по выбранному коду из таблицы
RFM-анализ: как узнать самое важное о клиентах 🍎Профессор по Python&ML договорился и нам дали выгрузки о всех транзакциях реального магазина за год, и сказали, что можем делать с ними все, что захотим.Я предложила провести RFM-анализ :) продажи улетят в космос, а коллеги будут аплодировать стоя, если вы его примените 👹 RFM — модель сегментации клиентов, где мы присваиваем каждому числовое значение, основываясь на его покупательском поведении. 🕊️В неё входят 3 шкалы:• Recency — как давно клиент в последний раз покупал у нас товар, где 1 — давно, а 3 — недавно• Frequency — как часто клиент у нас покупает• Monetary — насколько большой средний чек Людям даются баллы по шкале от 1 до 3 или от 1 до 5. Далее три числа собираются в одну цифру (131, 221 и т.д.)Нехитрыми вычислениями понимаем, что сегментов может быть 27 или 125. Для упрощения дальнейшей работы некоторые сегменты объединяются так, что финально получается 10 типичных сегментов. У каждого сегмента есть свое название и характеристики, например: • Champions — это те кто покупал недавно, покупает часто и много. То есть самые денежные клиенты • At risk — склонные к оттоку: те, кто раньше покупали много и часто, но в последнее время не совершали покупок • Potential Loyalist — вроде недавно покупали, но на средние суммы, есть потенциал для того, чтобы продавать им больше Для каждого сегмента уже придумана индивидуальная стратегия работы. Магия в том, что каждый покупатель попадает в какой-то сегмент. И в теории если я вижу, что Маша раньше покупала много, но в последний месяц не сделала ни одной покупки, мы отправим именно Маше push-уведомление или имейл со скидкой и напоминанием о себе.Часто нет ресурса работать сразу с 10 сегментами. В таком случае мы определяем, в каком сегменте клиентов больше всего и какие из них наиболее прибыльные. Для этого можно построить tree map, и я это сама научилась делать с помощью Python (на картинке к посту), чем очень довольна и горжусь :) • Подробнее про анализ и как это реализовать на Питоне


Разоблачение: Как государственные цифровые ресурсы стали частной собственностьюНедавно стало известно о сомнительной сделке между Министерством просвещения и Freedom Holding, касающейся создания ЕДИНОЙ цифровой образовательной платформы. Однако за громкими заявлениями о новшествах скрывается лишь переформатирование уже существующей платформы Bilimland, причем под управлением Рауана Кенжеханулы.Согласно информации, полученной от моих читателей, пять лет назад все государственные цифровые образовательные ресурсы программы E-LEARNING, на которую были выделены огромные суммы — более 250 миллионов долларов США, были перемещены на портал Bilimland.Эти учебные материалы, на которые было потрачено более 6 миллиардов тенге, создавались для того, чтобы помочь нашим детям учиться лучше. Однако вместо того чтобы сделать их доступными для всех учеников, их передали бесплатно на коммерческий портал Bilimland. Это решение вызывает вопросы: почему ценные образовательные ресурсы, купленные за наши налоги, теперь контролируются частной компанией?Бывший вице-министр министерства образования, отвечающий за технологии, Рустем Бигари, сказал, что это было сделано для экономии денег, которые шли бы на поддержку этих ресурсов.Так вот, представьте: государство купило образовательные материалы за большие деньги, чтобы школы могли использовать их бесплатно. Но вместо этого, эти материалы отдали частной компании Рауана Кенжеханулы. Затем его компания ТОО «BILIMLAND» начала продавать всем школам доступ к тем же самым материалам министерства, которые должны были быть бесплатными. Это не просто странно, но и навевает мысли о возможном злоупотреблении полномочиями или коррупции.Таким образом, Министерство образования фактически «подарило» государственные активы Рауну Кенжеханулы. Впоследствии доступ к этим ценным ресурсам стал платным, что позволило Кенжеханулы и его новому партнеру, Тимуру Турлову, начать извлекать прибыль, продавая доступ к ресурсам, первоначально предназначенным для бесплатного пользования школьниками.Это решение вызывает серьезные вопросы к Рустему Бигари о законности и этичности передачи государственных активов в частные руки. Как могло произойти, что ценные образовательные материалы, купленные на государственные деньги, оказались в собственности у частных лиц, которые теперь зарабатывают на них?Крайне важно, чтобы вице-министр Арай Уразова немедленно инициировала процесс расследования этой сделки и возврата цифровых ресурсов в государственное владение.Министерство просвещения должно немедленно предпринять шаги для возврата цифровых ресурсов, которые были незаконно переданы в частные руки. Это необходимо для того, чтобы запустить портал бесплатного электронного обучения E-LEARNING и гарантировать всем учащимся свободный и бесплатный доступ к образовательным материалам. Это критически важно для обеспечения равных образовательных возможностей в стране.Тимур Турлов, который теперь контролирует эти ресурсы, должен объяснить, как он планирует вернуть их обратно государству. Становится ясно, что этот вопрос требует тщательного расследования и срочного возврата этих цифровых материалов государству, чтобы они снова стали доступны для всех.Пришло время для Рауана Кенжеханулы объяснить, почему он посчитал возможным перепродать государственное имущество Турлову и как он собирается исправить ситуацию. Наше общество заслуживает прозрачности и честности от лиц, вверенных заботой о будущем нашего образования.#тимуртурлов#рауанкенжехан#рустембигали#коррупционныесоставляющие
Пять сервисов для Tg-каналаТестирую и пробую я кучу всего, но выбрала топ, которым реально чаще всего пользуюсь. Вдруг и вам пригодится:🫤 Бот по подписчикам. Видно, кто откуда подписался, кто отписался и сколько времени пробыл в канале. Ежедневно утром присылает отчёт за вчера: @tgTrack_bot😑 Бот по упоминаниям. Шлёт сообщение, когда ваш канал упоминули на просторах Telegram. Со ссылкой на источник упоминания: @TGAlertsBot😶 Бот анти-бот. Для идентификации и массового удаления бот-аккаунтов из числа подписчиков. Платный, но эффективный: @keep_robot😬 Конструктор ботов. У сервиса понятные мануалы + много видео на YT, так что навострилась сама быстро собирать простые формы: Puzzlebot.🙄 Аналитика канала. Из двух вариантов всё же остановилась на том, где мне комфортнее. Регулярно изучаю данные, собираю подборки и делаю выводы: TgStat.А у вас какой набор? Делитесь)P. s. Про кнопку в закреплённом сообщении писала тут.
Сегодня у нас по традиции рубрика #постотдруга Сухов Владимир, эксперт в области хранилищ данных и BI. Руководит командой разработки BI, ежедневно поддерживающей сотни ТБ данных, которыми пользуются тысячи пользователей на всей территории РФПродолжаем про факторы, влияющие на успешное развитие технологий анализа данных в современных компаниях. Здесь мы с вами их выделили, теперь рассмотрим каждый подробно:Технические факторы – это что с технической точки зрения у вас есть для анализа данных? Какая серверная инфраструктура, какое ПО? Технический фактор – это то, на что вы непосредственно тратите деньги: покупаете сервера, лицензии СУБД, BI-систем, облачных решений. Технический фактор начинает играть свою роль, когда у вас заполнилась БД и нужно расширяться, и возникает дилемма: удалить какие-то старые ненужные данные (это всегда жалко, потому что кажется, что ненужных данных не бывает), расширить существующий сервер или перейти на другое решение – сменить вендора или вообще переехать в облако. Это не очень простые вопросы, но практика показывает, что если вы не пустили всё на самотёк, а потратили определённые силы и средства на решение такого рода вопросов, вы выработаете работоспособное решение (возможно и не самое оптимальное, но работоспособное) и будете развиваться дальше.Технологические факторы – это то, как вы работаете с данными. В каких системах они у вас порождаются? Собираете ли вы их в единое корпоративное хранилище данных или пытаетесь анализировать прям в системах-источниках или непосредственно обращаясь к ним? Если собираете, то как? А потом анализируете где? У вас какая-то единая для всех BI-система, или у вас разные BI-системы для разных типов должностей и ролей, или у вас какая-то доминирующая система и зоопарк мелких систем вокруг, или просто зоопарк систем? Сюда же относятся методики анализа данных – какие показатели считать, как их считать, как обеспечить «единую версию правды» в масштабах всего предприятия. Эти вопросы существенно более сложные, чем вопросы, связанные с техническим фактором. Характерное время их решения – годы. Методика их решения – серьёзная кропотливая работа высококвалифицированных специалистов-архитекторов хранилищ данных и BI-систем, бизнес-аналитиков, архитекторов ИТ-систем предприятия и топ-менеджеров, санкционирующих те или иные решения и выделяющих ресурсы на них.Организационные факторы – это то, как у вас распределены роли и зоны ответственности в вопросах работы с данными и как вы в итоге их используете. Это самая сложная серия вопросов. Практика показывает, что именно в этот фактор упирается большинство проектов по превращению предприятия в data-driven. Условно, если топ-менеджер прекрасно чувствует свой бизнес без всякого глубокого анализа данных и принимает решения на основе неформализованной информации, имеющейся у него, то анализ данных приживётся в лучшем случае на среднем и нижнем управленческих уровнях. Причём приживётся не очень хорошо, потому что без координирующего выраженного запроса сверху уровень развития соответствующих технологий и соответствующей техники будет не высоким. Но возможно, просто на таком предприятии и не нужен сильно развитый data-driven подход. В тех же случаях, когда он действительно нужен, в нём должен быть заинтересовано высшее руководство компании, причём заинтересовано с хорошим уровнем погружения в вопрос.Это вводная часть разговора на тему анализа данных и data-driven подхода. В этой тематике есть много достаточно интересных вопросов для обсуждения: принципы построения корпоративного хранилища данных, принципы распределения ролей при работе с данными, типы пользовательских задач и сценариев работы с данными, подходы к решению задач по обеспечению отчётности и анализа данных и многое другое. Если будет соответствующий интерес, мы можем продолжить эту тему в следующих постах.#постотдругаГлавный по цифровизации | Александр Афанасьев | CIOaaS
На месте не сижу... ИИ работает 🫡Нашлось всего 36 тыс уникальных площадок в РСЯ с учетом выгруженной мной статистикой с 2020 года + статистика Николая (Гнусный Маркетолог) и Анны (прислала статистику на почту) и Сергей (дал ссылку на свою гугл таблицу площадок)... Не густо конечно. Я думал там будет порядка 200-300 тыс уникальных площадок, а тут... Пока что группирую все площадки по тематикам, далее надо будет найти способ выгрузить автоматом их "посещаемость", среднее количество рекламных блоков на 2-3 внутренних страницах, есть ли фул-скрин реклама или нет... может ещё че придумаю туда упихать ☺️Как использовать список? Да как угодно. Можете хоть для себя лично создать свой список сайтов которые вы будете сходу добавлять в минус-площадки где есть фул скрин реклама и эта площадка вообще никак не заботится об удобстве своих пользователей и максимально пытается выжЭЭЧЪ деньги из РСЯ и с бюджетов наших клиентов.Вот если бы прислали все свои выгрузки площадок по всем клиентам с первых дней работы. Цены бы вам не было :) Но увы и ах... лентяи 😂
