SILLYFEED

Data Science и аналитика — страница 8

Лента темы

Just do IoT!
Подскажите, пожалуйста, как вывести данные по температуре и влажности из RIC в Google Sheets? ⚡️ Важное напоминание: если что-то пошло не так, вы всегда можете обратиться в нашу поддержку. Делимся примером недавнего обращения. Читайте, если актуально 👇🏻Решение:1. Если хотите вывести данные вручную один раз, то можно скачать csv файл по телеметрии температуры и влажности и открыть этот файл в таблицах. (Скриншот 1).2. Если хотите автоматизировать процесс, то можем предложить следующий вариант: используйте собственную функцию js в гугл-таблицах. Нужно написать вызов по API платформы Rightech. В расширениях гугл-таблицы можно создать «Apps Script» и его вызывать его в самой таблице. Скрипт будет забирать актуальный пакет телеметрии температуры и влажности, а также возвращать их в результат выполнения. Сам результат будет отображаться в таблице (Скриншот 2 и 3).📎 Возникающие вопросы можно задавать на форуме или в чате.Пользуйтесь!#ric_info
Kumar & Solo
Автоматизированная сквозная аналитикаМы очень любим цифры и данные, потому что только на их основе можно принимать правильные решения. В перформанс-маркетинге важен не только первый клик, а весь путь клиента.Часто один клиент проходит 10+ точек касания: реклама → квиз → звонок → емейл → WhatsApp → повторный звонок → оплата. Без нормальной атрибуции (= понимания вклада каждого из каналов в цепочке) маркетинг работает вслепую.Мы у себя в немецком стартапе стали изучать вопрос сквозной аналитики и собрали крутейшую систему с помощью Севы Устинова и его продукта Elly Analytics. Как это работает:1. Сбор данныхПодключили все источники: рекламные кабинеты, CRM, мессенджеры, емейл-сервисы.Каждый клик, звонок и сообщение теперь фиксируется в одном месте.2. Полная история клиентаДля каждого лида строится customer profile — от первого касания до оплаты.Видим, через какие каналы и точки он прошёл, сколько времени занял цикл сделки.3. Мульти-тач атрибуцияСчитаем вклад каждого канала в финальный результат. Теперь видно: (а) какие источники реально приводят клиентов, (б) где бюджет сжигается4. LTV-прогнозыДля длинных циклов сделки смотрим не только стоимость лида, но и то, какие клиенты окупаются через недели или месяцы. Это меняет стратегию закупки — деньги уходят в источники с высоким LTV.Раньше уходило 5–6 часов в неделю на ручную сборку отчётов в Excel. Теперь все данные в одном месте за пару кликов, нет расхождений, ручных загрузок и обновлений данных и мы быстрее принимаем решения по креативам и бюджетамПримеры отчетовОтчет с демо данными на примере реального B2C subscription бизнесаКогортный отчет — показывает качество клиентов по каналам и прогноз LTV – с помощью него можно увидеть источники с лучшим ретеншеном и правильно спланировать баингMain Report — сквозной отчет со всеми метриками и каналами в динамике – именно с него начинается каждое утро перформанс командOverview — отчет для CMO и команды, чтобы знать, как идут делаСсылка на лум-экскурсию по отчетам.Как уже совсем скоро будет выглядеть аналитика с AI агентом 😮AI показывает план → вы утверждаете → агент выполняетПод капотом: дата-фаундейшн с мульти-тач атрибуцией, стримингом из любых баз данных, автогенерация правил для рекламы и агенты, которые анализируют данные и объясняют, почему изменились метрики. Вы разговариваете с чатом простым языком, решаете маркетинговые задачи, в все технические берет на себя агент.В результате: можно тестировать в 10 раз больше гипотез и автоматизировать до 90% ручных задач. Особенно эффективно работает с EdTech, HealthTech, FinTech, недвижимостью, B2B SaaS и subscription-бизнесами — там, где длинные воронки, сложные touchpoints (звонки, квизы, чат-боты) и длинный хвост LTV.Elly Analytics скоро релизят Vibe-маркетинг платформу для user acquisition команд - заходите посмотреть как это будет выглядеть.Сохраняйте себе пост и перешлите друзьям, кому актуально! 🔥Если хотите первыми узнавать про апдейты того, как можно настраивать аналитику (и еще Cursor) - залетайте на канал Севы Устинова, он пишет много чего интересного по теме AI. И кстати Сева будет рассказывать про аналитику (и про Cursor) супер подробно на курсе Ninja Marketing. А мы сегодня как раз закрываем набор на новый поток этого курса и следующий поток будет не раньше следующего года!На программе за 6 месяцев вы погрузитесь в 6 каналов трафика, получите рабочие фреймворки, воронки, кейсы и лучшие практики этого года и научитесь строить отдел AI маркетологов. Последняя возможность вписаться по ссылке: https://solokumi.com/course_ninjamarketing
DziS Science | Data Science
Привет всем!В каждой работе с данными нужно понимать специфику исходных данных, особенно, когда речь идет о времени. Ведь именно понимание специфики дает нам понимание, какие инструменты нам применять.Итак, предположим мы работаем с очень старым финтехом (если его так можно назвать) и нам нужно оцифровать транзакционные данные с древних времен. В качестве источника данных у нас каменные базы данных, буквально глиняные таблички древних шумеров, некоторые из которых датируются 30-31 веком до н.э и описывают количество отданных или полученных мешков ячменя и солода.Мы хотим залить в БД и делать привычные select * from, но вот тут начинаются интересные моменты. В единичной записи в нашей БД - кол-во товаров и конечно же дата. Но дело в том, что у каждого диалекта SQL есть свои ограничения. Рассмотрим основные примеры:1️⃣MySQL:🔵Минимальная дата в формате DATETIME - 1000 год н.э.🔵 Однако MySQL может обработать, хоть и не всегда некорректно даты вне диапазона, например, даты до 1000 года. В некоторых случаях он может проигнорировать такие значения или вернуть неожиданные результаты (например, преобразовать дату 0024-06-21 в 2024-06-21).2️⃣SQL Server:🔵Минимальная дата в формате DATETIME - 1753 год н.э🔵 Тут источники рознятся в причинах выбора, так как дата появления календаря 1582 год н.э., но в целом, выбор даты обусловлен историческими особенностями перехода большей части мира на григорианский календарь.3️⃣PostgreSQL🔵Минимальная дата в формате DATE - 4713 год до н. э. (BC) 🔵Дата в том числе юлианского календаря считается по пролептическому григорианскому календарю (расширенный в прошлое григорианский календарь), что приводит к некоторым трудностям и расхождениям в интерпретации дней и года из-за расхождения календарей.4️⃣SQLite🔵Аналогично PostgreSQL5️⃣Impala🔵Минимальная дата в формате DATE - 1 год н. э. 🔵Дата считается по пролептическому григорианскому календарю (расширенный в прошлое григорианский календарь), что приводит к некоторым трудностям и расхождениям в интерпретации дней и года из-за расхождения календарей.Таким образом, для использования в нашем примере, рекомендуется использование PostgreSQL и SQLite. Все другие диалекты могут давать неожиданные для нас результаты и ошибки.Ставь 🔥, если не знал.#ds_лайфхаки
Галя, у нас ремиссия! | Схема-терапия
Предубеждение относительно истинностиНа базе Южно-Флоридского университета американские и китайские исследователи провели пять экспериментов с 2018 по 2023 год: испытуемые должны были выбрать какие из специально сконструированных для эксперимента (или взятых из реальных онлайн-сервисов) отзывов правдивы, как какие — ложны. В некоторых случаях респондентам говорили, какое количество сообщений ложно, в некоторых — нет. Либо говорили только, что среди отзывов есть неискренние.После каждого эксперимента ученые проводили статистический анализ, затем сопоставляли его результаты с остальными опытами. Итогом продолжительной работы стала публикация в рецензируемом журнале Information Systems Research.Основным вопросом, которым задались авторы масштабного исследования, был «Скептичны ли потребители к отзывам на онлайн-площадках или они склонны им доверять?». В общем случае ответ на него очередной раз подтвердил предубеждение в отношении истинности. То есть люди, в среднем, считали истинными 11,38 отзыва из 20. Даже если им говорили, что истинны лишь десять из них. Даже если все отзывы показывались на одной странице и у респондентов была возможность сравнивать их друг с другом, как бы «калибруя» свое отношение к разным сообщениям.Это когнитивное искажение проявлялось гораздо слабее в отношении негативных отзывов — то есть, отрицательным впечатлениям о товаре или услуге люди доверяют больше. Хотя реальные данные с онлайн-площадок показывают, что такие отзывы чаще ложны.Еще один косвенный вывод, который сделали исследователи — расчет некоторых площадок на саморегуляцию за счет реакций пользователей («репорты» о подозрительном контенте, например) фундаментально неэффективен. Единственный рабочий способ избавляться от ложных отзывов заключается в совершенствовании алгоритмов их обнаружения и удаления. Хотя, учитывая насколько остро пользователи могут реагировать на ошибочные срабатывания подобных алгоритмов, ситуация может сложиться еще хуже.
Python Academy
Missingno Большие грязные наборы данных и часто отсутствующие значения в них — это одна из частых проблем при работы с датасетами, и это важно отлавливать такие моменты. Для таких целей существует Missingo — библиотека, которая имеет в себе небольшой набор простых в использовании средств для визуализации отсутствующих данных и утилит, которые позволяют быстро получить сводку полноты или отсутствия вашего набора данных.Интерактивный пример — тут.#Missingo
СПРАЙТЕК РОССИЯ
Смотрим дальше, точнее и эффективнее: цифровой анализ опрыскивания от команды Spraytec | Спрайтек 🔬Теперь исследования эффективности покрытия после опрыскивания доступны в России. Мы регулярно повышаем экспертизу наших сотрудников, партнеров и клиентов. Чаще всего мы говорим о подготовке воды для обработок, снижении сноса, создании оптимальной капли и оптимизации технологии. Но сегодня мы хотим познакомить вас с сервисом SprayGuru, который применяется в оценке качества опрыскивания в филиалах Spraytec по всему миру.Какие данные получаем в исследовании?✔️ Точное количество капель на см²✔️ Диаметр капель✔️ Коэффициент распределения✔️ Эффективность нанесения...и детальную графическую статистику.В планах расширение данного сервиса и повышение эффективности пестицидных обработок для наших клиентов😊
EDU
Вайб АналитикаМой друг Миша Кирсанов, CTO компании VistaJet, крупнейшего оператора частной авиации, был у нас в гостях на прошлом потоке AI Founder и рассказывал про vibe analytics на примере своего пет проекта: ну это когда мы юзаем Cursor/Claude Code для аналитических/датасаентистских задач. Мне очень зашла мысль, что зачастую код, который пишется для таких задач, имеет короткое время жизни - исследование какой-то проблемы/получение инсайта - и поэтому не так страшно, что он написан грязно навайбкоден. Тут вышла интересная статья от Cognition, которые разработали кодинг ассистента Devin про то, как они на базе оного замутили своего дата аналитика (я уже писал, как мы это делаем для сейлз аналитики) - ключевые мысли/уроки:1) Время до инсайта (time to insight) заметно сократилось: они подключили его по MCP ко всем ключевым базам данных и источникам данных и теперь быстрее получают ответы на свои вопросы. Раньше это занимало недели, сейчас - минуты2) Правда - в коде: я как-то цитировал слова Карпатого про Маска, что тот не доверяет просто словам, как та или иная штука работает, а смотрит в суть в код. Поскольку Devin это и кодинг ассистент, то он понимает код, и может сопоставить данные с кодом [тем, как это работает]. Я думаю, что вы сталкивались с ситуацией, когда инсайты неверно интерпетиру.тся из за особенностей того, как называются и в какие моменты бросаются евенты в коде. Ох, как же часто я на это натыкался. С таким дата саентистом этого не случается (кстати, в реальной жизни очень редко встречаешь дата аналитика, который лезет в код и проверяет природу того или иного евента/метрики)3) MCP - соединив своего AI сатаниста саентиста по MCP к базам данных, они смогли реализовать агрегацию и сопоставление данных из разных источников, чтобы получать более качественнные инсайты. Знаете, да, первое правило аналитика? Перепроверить метрики данными из другого источника (в том числе из-за вышеупомянутых особенностей регистрации и учета данных, подсчета метрик)В аттаче картинка работы их дата чувака ДО и ПОСЛЕ + скриншоты реальных сценариев запросов/ответов с AI аналитиком. В общем, вы знаете что делать, тем более я об этом уже писал :)P.S. Мы, кстати, тоже в рамках proof of concept сделали такого, даже 2х: зовут их GAlina (берет данные из Google Analytics - в исполнении нашего фронтенд гуру Даниила) и Peggy (берет из Postgres в исполнении нашего бекенд гуру Саши). Да еще они могут друг с другом общаться, чтобы помогать отвечать на вопросы юзера.В аттаче пара скринов об их возможностях
photoskiff | гири | воркаут | песни | парус
сегодня по-быстрому написал программку, которая вытягивает данные из гарминовского .fit файла вашего воркаута (часы втыкаю в комп и читаю напрямую файл) и создаёт видео с зелёным фоном (прозрачным). это видео элементарно накладывается на ваше основное видео в редакторе и получается вот такой живой график пульса в реальном времени.гармин очень жадный до данных, старается не выдавать, поэтому всякие экспорты не так просты. но нас тоже не аист в корзинке принёсэто, кстати, моя ежедневная зарядка - 30-40 трастеров с гирей 16кг с закрытыми глазами. идеально для просыпания. пока приседаешь - досыпаешь, а как закончишь - сонливости - как не бывало!
Инструменты программиста
​​hvplot | Из разных DataFrame-библиотек в разные dataviz-движкиОтличная попытка унифицировать обращение к всевозможным источникам данных вроде Pandas / Polars / DuckDB etc. и строить графики на общепризнанных matplotlib / seaborn / plotly и других движках. Есть даже поддержка интерактивности, например, шкала отсечки-фильтрации по значению столбца.Такое должно пробиваться и становиться стандартом, ведь запоминать синтаксис для всего теперь не нужно!#инструмент@zen_of_python
Канал Доброго Вани | Data Science и Продуктики
Друзья, всем доброго вечера!Хочу порекомендовать вам несколько каналов по Data Science и их лучшие, на мой взгляд, посты1️⃣ Пост Андрея для студентов-новичков в МЛе о том, где искать первую работу. Множество полезных ссылок, которые могут пригодиться. Сохраняем 🙂2️⃣ Пост Юры про ИИ на АЭС. Сам этим интересовался, как и ИИ в промышленности, о чем Юра пишет на своем канале. Очень интересная область МЛя3️⃣ Пост Саши про Все, что нужно знать про собеседования в Data Science. Вы очень много спрашиваете меня про то, как подготовиться к собесам. Тут очень много полезной инфы4️⃣ Пост Максима про Вайб кодинг. Сам достаточно много вайбкодю, а Макс собрал несколько полезных советов по стопам Андрея Карпаты. Всем советую к прочтению А если хотите ничего не пропускать и быть всегда в курсе всего происходящего в Data-индустрии, то сохраняйте папку крутейших ТГ-каналов, которую мы собрали совместно с админами 😎
ОКейси, Вова: помоги продактам найти работу
A/B-тест — это инструмент, а не обряд призыва «+10% к конверсии». И да, в 2025 году его всё ещё запускают так, что потом приходится разбирать руины. Расскажу кратко.Когда тест действительно нужен:🔵 у тебя есть чёткая гипотеза с ожидаемым эффектом;🔵 метрика понятна и привязана к цели продукта;🔵 аудитории хватает, чтобы собрать статистически значимые данные.Когда он не нужен:✖️ «просто интересно, а вдруг»;✖️ты уверен, что не сделаешь хуже и быстро и безопасно попробовать без теста;✖️трафика 300 человек в неделю, а ты делишь его на две версии;✖️ты не знаешь, что будешь делать с результатом.Частые ошибки:1️⃣Недостаточный размер выборки — тест закрыли на третьей тысяче показов, потому что цифры уже красивые.2️⃣Много параллельных тестов на одной аудитории — переменные перемешиваются, выводы тянутся за уши.3️⃣Смена условий на ходу — поменяли креатив в середине эксперимента, но продолжаем считать это одним тестом.Если ты хочешь, чтобы результат можно было защитить перед командой или инвесторами, заранее определи:🎀 длительность теста;🎀 минимальный размер выборки;🎀 критерии успеха.И да, A/B-тест — это не всегда про красную и синюю кнопку. Иногда это про изменение логики онбординга или перераспределение точек входа в фичу. Важнее не «что тестируем», а зачем.Делай тесты, которые дают решения, а не истории для ретроспективы «ну, мы хотели как лучше». Чтобы всё получилось, как нужно, можешь юзать мой чек-лист выше.
PRO ТИМ
🔣 Гайд по цифровым двойникам: как создавать, внедрять и использовать их для оптимизации производства📊 По данным McKinsey, почти 75% компаний по всему миру используют цифровых двойников. Неудивительно: этот «волшебный» инструмент превращает сложные производственные процессы в наглядную и контролируемую систему. Например, Siemens использует его, чтобы предугадывать проблемы и находить оптимальные решения еще до того, как что-то пойдёт не так. Компании BMW двойники позволяют в режиме реального времени проектировать сборочные линии. А General Electric с их помощью отслеживает работу турбин и энергетических установок. 💡Вы тоже можете внедрить этот подход и сделать управление прозрачным и предсказуемым. Что нужно знать и какие инструменты для этого понадобятся — рассказываем в новой статье. Вы узнаете: ➡️Что из себя представляет цифровой двойник? ➡️Какие преимущества он имеет для производства? ➡️Какие вспомогательные технологии нужны для функционирования двойников? ➡️Какие навыки и знания необходимо приобрести для работы с ними? ➡️Как поэтапно внедрить цифровой двойник на практике?🤩 Читайте подробнее в блоге PRO ТИМ.@protimru#тим_кейсы
Уголок о комьюнити | коллега Саша
Вышло исследование devcrowd о специалистах по работе с данным — погнали смотреть!Из интересного для нас: 🔘42,5% получают профессиональное развитие в компании, за счет митапов и конференций. 🔘 47,7% не меняет работу из-за сильного профессионального комьюнити внутри компании🔘Курсы, которые рекомендуют дата-специалисты, 2025 🔘Только треть респондентов получает знания через подкасты🔘За год интерес к мероприятиям вырос на 10%🔘Есть список профильных конференций и митапов, где был лучший контент 🔘А ещё — отдельная реклама сообщества Райфа, где коллеги рассказали про то, как у них живут специалисты по дате у них: какие задачи решают, с кем работают, как обучаются и развиваются, где выступают и т.д. Как использовать исследование:1. Понимание аудитории. Исследование показывает, кто сейчас кем работает — по уровням, индустриям, возрасту, географии и т.п.2. Где «живут» специалисты — где запускать промо.3. Топовые темы. Обратите внимание, какие вызовы и тренды волнуют ЦА. Это темы, вокруг которых можно строить контент.4. Лидеры мнений. Это потенциальные: спикеры, партнёры для совместных проектов, амбассадоры внутри и вне вашей компании.5. Поводы для разговора. Это повод выйти в поле, поймать контакт с людьми внутри, запустить обсуждение, спросить мнение.6. Посмотреть, где вы с компанией находитесь по привлекательности, замерить на будущий год, если для вас это направление релевантно.Уголок о комьюнити | коллега Саша
DevOps | Вопросы собесов
🤔 Что такое ключ в таблице?Ключ — это уникальный идентификатор строки в таблице БД.- Первичный ключ (PRIMARY KEY) — уникален, не NULL.- Используется для поиска, индексации и ссылок (внешних ключей). Пример: id клиента, номер счёта.Ставь 👍 если знал ответ, 🔥 если нетЗабирай 📚 Базу знаний
Первый Продуктовый
Как измерить, насколько вовлеченно люди используют твой продукт? 🤓Есть продукты, которыми пользуются каждый день, а есть те, которыми раз в несколько лет. Больше денег и славы у первых.Если люди пользуются каждый день, это значит, что продукт хорошо решает какую-то насущную проблему. Например, Телеграм решает личную проблему коммуникации.Привычка пользоваться продуктом появляется постепенно. Когда она появилась, тебе как Product Creator'у надо её поддерживать.То, насколько людей цепляет твой продукт, называется вовлечением. Чем оно выше, тем больше люди пользуются твоим продуктом. Например, у компьютерных игр часто высокое вовлечение, а у скучной книги — низкое.В продуктовом сообществе вовлечение называют словом Engagement. Это слово часто используют, но редко поясняют. В частности, никто не говорит, а в чём он измеряется-то?Про это и расскажу.Есть 3 уровня оценки:1. Посчитать общее вовлечение2. Посчитать вовлечение на пользователя3. Сделать сегментацию по вовлечениюI. Общее вовлечение выражается конкретным одним числом, уникальным для каждого продукта. Число может характеризовать один из трёх аспектов:1. Частоту использования2. Количество используемых фич3. Интенсивность использования (время, деньги, действия)С учётом текущего сдвига в сторону ИИ, именно интенсивность использования будет становиться главной метрикой вовлечения клиентов. Измеряться может в токенах и деньгах.II. Посчитать в лоб число потраченных токенов клиентами или число используемых фич несёт мало смысла, как и любые абсолютные числа. Поэтому нужно пересчитывать на клиента.Однако и это не предел мечтаний. Если ты хотя бы раз анализировал клиентские данные, то знаешь, что они всегда неравномерны. И мерить среднюю температуру по больнице можно, но для принятия решения этого мало.Тут на помощь приходит сегментация по вовлечению, которая как раз и поделит людей на группы, про которые я рассказывал в недавнем посте.Сохраняй пост себе, чтобы не потерять, и поддержи огонёк, чтобы я понимал, что тебе такой хард материал заходит 🔥
Что вы мне рекламируете?
PwC подключили менеджерам дашборды, чтобы они смогли в режиме реального времени следить за тем, как их подчинённые ходят в офис. Система отслеживает подключение к офисному Wi-Fi и использование бейджиков, а затем отправляет данные в графики 🫨Сотрудник загорается жёлтым, если его посещаемость офиса падает до 60%, и красным при падении ниже 40%. Далее к ним начнут применять формальные санкцииКроме того, система позволяет отслеживать подключения с рабочего ноутбука, даже если сотрудник утверждает, что он не придёт в офис, так как отправился к клиенту. Если система обнаружит, что вы были подключены к домашнему Wi-Fi, а не офисному, то это тоже отразится в статистике 😩PwC ввела политику по возвращении в офисы в прошлом году — сотрудникам нужно находиться там минимум три дня в неделю
Продвижение юристов и бухгалтеров в соцсетях🔹Копирайтер Елена Бойцова
В Телеграм появился поиск по публичным постам 🔎Как это работает: пользователи вводят ключевое слово и получают посты, в которых оно содержится.Пока опция доступна только Премиум-пользователям, и в день можно сделать до 10 запросов.Что это дает владельцам каналов? По сути это аналог SEO и того, как мы ищем информацию в поисковиках. Теперь ваш контент может продвигаться внутри Телеграм, что очень классно (ещё один бесплатный способ получать подписчиков). Как использовать новшество?1️⃣Создавать действительно полезный контент, который зацепит, если на него выйдут по поиску.2️⃣Использовать ключевые слова, по которым ваша целевая аудитория может искать информацию.3️⃣Оптимизировать старые посты. Например, добавить ключевые слова в заголовки или в текст.☝️Главное - не создавать в своём блоге SEO-хаос, когда в посты вставляют кучу ключевых слов и портят этим текст.Пока непонятно, как именно алгоритмы ранжируют посты. Я ввела в поиске "блог юриста" и получила посты, где отдельно упоминается "блог", отдельно "юрист". При этом в выдаче были и крупные, и маленькие каналы, где 200-400 подписчиков.Если алгоритмы научатся выдавать по запросу релевантный контент, это будет большой плюс для авторских каналов. Ведь нередко юристы пишут экспертные посты по узким вопросам, ответы на которые не найти в Яндексе (или находится рерайт рерайтов).В общем, будем ждать усовершенствования опции и тестировать.
Тимофеева презентует🪧
Почему я не знала об этом сервисе раньше? Вчера узнала о Popsters - сайт для аналитики телеграм-каналов. Проанализировала посты свои, коллег-дизайнеров и студий.Как думаете, какие из них набирают больше всего вовлеченности? О рождении ребенка и связанных с этим изменениях в жизни. Ну на третьего я ради тг не готова, а вот другие идеи буду использовать (чат гпт и анализ мне в помощь). Отгадайте, что еще дает большой отклик и репосты именно на дизайн темы? Статистика меня удивила.
Pro Python • IT
✅ PDFPlumber — продвинутый парсер PDFБиблиотека для точного извлечения текста, таблиц и метаданных из PDF-документов с сохранением структуры и позиционирования элементов.✔️Главная задача:Детальный анализ PDF с возможностью вытаскивать таблицы как pandas DataFrame и визуализировать расположение текста на странице.Установка библиотеки:pip install pdfplumberПример использования:import pdfplumberwith pdfplumber.open("file.pdf") as pdf: first_page = pdf.pages[0] table = first_page.extract_table() print(table)💻 GitHub❗️ Ключевое преимущество:Поддержка сложных PDF с объединенными ячейками таблиц и точными координатами текста — в отличие от простых текстовых экстракторов.✄┈┈┈┈┈┈┈┈┈┈┈┈┈Заметки программиста «(!?»🇨🇱 Python Tech Code
Канал Алексея Радченко
Карта ДТП - с возвращением!Вы наверное уже встретили в паре каналов наш основной пост о том, что карта ДТП восстановлена, и что мы хотим и готовы развивать проект дальше (и да нам будет очень нужна ваша помощь, в первую очередь донаты). И я в первую очередь хотел бы сказать спасибо всем тем кто помог с репостом у себя в канале, тем кто смог перевести любое пожертвование, конечно Насте что пнула и собрала нас снова, Мише и Саше, за организационную часть и огромно команде старых и новых ребят кто помогает с техническими работами. Спасибо вам громадное за ваш вклад.Я не буду копировать сам пост (но вот ссылка - https://t.me/bike2coffee/1624), но хотел бы сказать пару слов про другое. Для меня карта ДТП в целом знаковый и очень сложный эмоционально проект, на многих уровнях. И ностальгически - ведь запускали мы его много лет назад в совсем другой обстановке, еще были Горпроекты, Москва еще не думала про пешеходов, а только про автомобили, трамваи были старыми, а активисты молодыми. С тех пор утекло много воды, чего-то уже нет, что-то стало лучше, а что-то полетело в тартарары. Для меня это мостик в ту жизнь, связь с друзьями, которых я нашел благодаря активизму, с активностями, которые сформировали меня и запомнятся на всю жизнь и так далее. В общем я рад, что проект выжил, прошел тяжелые для него времена и снова в деле. Вторая часть эмоций, как раз не про эмоции. Про цифры, про ту объективную картину, которой так не хватает многим из нас, про логичность, про адекватность, про меры основанные на чем-то большем чем личный опыт чиновника (или проектировщика). Карта ДТП в свое время была прорывом не только в части визуализации смертности, когда красная точка на карте вдруг оказывается рядом с вашим домом или у садика вашей дочки, но огромной аналитической работы с тем, что работает, а что нет. Вспомним огромное исследование про проект БКД, когда карта ДТП дала четкие ответы о том, что ключевая заявленная цель проекта не просто не приближается, а миллионные инвестиции часто и ухудшают ситуацию (правда вместо корректировки программы поменяли ее цели - ну что ж). Карта ДТП засветилась в десятках проектах и помогала развенчивать множество мифов: оказалось пешеходов убивают даже если они соблюдают правила, а самокаты (а ранее каршеринг), вполне себе безопасны (во много раз безопаснее машин), что пьянство проблема, но нештрафуемый порог и высокие скорости на городских улицах гораздо большая (и оказалась сложнее решаемая проблема) и многое многое другое. Карта ДТП для меня про вот эту объективную реальность в которой данные еще не закрыты, цифры помогают спасать жизнь, и есть города где люди не умирают выходя из дома. Пусть возрождение проекта будет удачным и, вдруг, вернет например моду на открытые данные. В общем спасибо что проект есть, что вы есть у проекта и да - спасибо что поможете: https://dtp-stat.ru/donate
Прост про моушен
Отвечая на многие вопросы про удаление меня в Тредс. - Я не знаю почему это произошло. - У меня были только посты с кинетической типографикой и генеративом. - Поддержка не отвечает. - Мой аккаунт сделали рид онли. Я могу читать но меня никто не видит, жесткий теневой бан. - в свойствах аккаунта на вкладке наложенных ограничений, написано что у меня все в порядке и никаких нарушений нет.
Думаем и анализируем ВМЕСТЕ
А караван идётПо сообщению губернатора Гладков, в Белгородской области начали тестировать новый сигнал об опасности атаки беспилотников. «Алгоритм будет следующий: как только получаем от силовых структур информацию об атаке беспилотников, включаем голосовое сообщение, затем звуковое, звуковая сирена в течение одной минуты. Автоматически происходит открывание дверей в многоквартирных домах, останавливаются автобусы», - разъяснил Гладков. В этом месте, как говорится, поподробнее. Ведь если можно "одним кликом" открыть все подъезды всех многоквартирных домов во всём городе, то, логично предположить, что таким же образом можно все те же подъезды и закрыть?Похоже, губернатор Белгородской области случайно сказал вслух то, о чём цифровые апологеты во власти предпочитают умалчивать, продолжая тотальную цифровизацию "ради вашей же безопасности" согласно рекомендациям Шваба и Ко.Если это не подготовка к тотальному контролю и цифровому концлагерю, то что?А ведь граждане вовсю подключают "умный дом", а крупные населённые пункты - "умный город".А теперь представьте, что прошла команда глобалистов-застрельщиков цифрового неофеодализма (инклюзивного капитализма) "Начинаем"...
Эффективные Бизнес-Системы
ВНЕДРЕНИЕ ЦИФРОВЫХ ДАТЧИКОВ ПРИНЕСЛО ЕВРОХИМУ 87 МЛН РУБЛЕЙ ЭКОНОМИИ💡 Усольский калийный комбинат (ЕвроХим-УКК) внедрил систему цифровых датчиков, которая в реальном времени контролирует плотность пульпы — рудной массы, проходящей через переработку. Сенсоры уже функционируют на участках измельчения и сгущения, а также проходят тестирование на этапе шламовой флотации.⚙️ Решение создано специалистами комбината совместно с командой компании «Цифровые технологии и платформы» (ЦТиП). Система использует данные с насосов, датчиков давления и расходомеров для онлайн-расчёта плотности.Алгоритм основан на машинном обучении, автоматически рассчитывает плотность пульпы и выводит рекомендации для операторов на интерфейс MES-системы (программной платформы, которая связывает планы производства с реальными операциями на производственных площадках).Разработка ЕвроХима позволяет оперативно корректировать параметры технологического процесса и минимизировать отклонения.📊 Результаты внедрения:🔸 Повышена стабильность производства.🔸 Сокращены потери сырья.С момента запуска в опытно-промышленную эксплуатацию система принесла экономический эффект в 87 млн рублей.#КлубЭБС #Цифровизация
НейроТексты: копирайтинг & ИИ промпты
Очень крутой промпт для работы с контентом через экспорт истории чата в Телеграм. Ну вы же в курсе, мы не кликбейтщики, если редко и пишем “очень”, то это должно быть что-то Мега. Это оно и есть. По порядку: Недавно мы публиковали пост в “НейроПанде” о том, как сортировать контент на канале, если скачать в ТГ историю чата (важно прочитать для понимания здесь). Но не учли одну 💪 деталь: в JSON экспортируются не только тексты, но и реакции + дата и время. А это огромный простор для действий. Ниже – промпт для создания реально умного контетнт-плана на основе числа реакций + рекомендации по внедрению: "Ты — AI-контент-стратег и аналитик данных с высочайшим уровнем педантичности. Твоя главная цель — провести безошибочный аудит данных из JSON-файла Telegram-канала, чтобы выявить самые популярные посты и на их основе сформировать действенный контент-план. Ты работаешь как точный аналитик: ищешь закономерности, делаешь выводы и даешь практические рекомендации, строго следуя правилам.Контекст: Я загружу тебе JSON-файл с историей Telegram-канала. Внутри этого файла есть ключ messages, который содержит массив объектов-сообщений.Твоя пошаговая задача:Анализ и фильтрация данных. Внимательно изучи весь массив messages. Для каждого сообщения выполни следующие действия:Отфильтруй мусор: немедленно исключи из рассмотрения все служебные сообщения (тип service) и сообщения, содержащие опросы (имеющие ключ poll). Они не должны попасть в итоговый анализ ни при каких условиях.Извлеки данные: для всех оставшихся сообщений определи его id, текстовое содержимое (text) и формат (текст, пост с фото, и т.д.).Подсчитай реакции: рассчитай общее число реакций для каждого поста путем СУММИРОВАНИЯ всех значений count в объекте reactions. Если у поста нет реакций, их число равно 0.Выборка лучших. На основе анализа определи ТОП-10 постов с самым большим количеством суммарных реакций. Отсортируй их строго по убыванию этого показателя.Формирование контент-плана. Представь результат в виде структурированного контент-плана. Для каждого из 10 постов-лидеров создай отдельный блок в следующем формате:Тема: [Название темы поста, сформулированное в 2-5 словах]Донор: [Ссылка на пост формата https://t.me/ИМЯ_КАНАЛА/ID_ПОСТА] Например, https://t.me/panda_copy/570 , где имя канала = panda_copyРеакции: [Точное число реакций]Формат: [Текст / Пост с изображением / Лонгрид и т.д.]Анализ и рекомендации:Суть успеха: кратко объясни, почему этот пост «выстрелил» (например: острая тема, полезная подборка, сильный визуал, вовлекающий вопрос, удачный юмор).Стиль и структура: опиши стиль подачи (например: провокационный, экспертный, юмористический, личный) и структуру (например: проблема -> решение, список-перечисление, сторителлинг).Идеи контент-плана: дай 3 новые конкретные темы и идеи для постов, по той же теме (или близко-родственной), а также четкие советы для каждой темы по реализации: формат, стиль, что указать. Это должны быть настоящие, готовые к реализации рекомендации, а не общие советыКРИТИЧЕСКИ ВАЖНЫЕ ПРАВИЛА РАБОТЫ:ИМЯ КАНАЛА ДЛЯ ССЫЛКИ: для всех ссылок используй следующее имя канала: NКРИТЕРИЙ ОТБОРА: главный и единственный критерий отбора — СУММА всех значений count в объекте reactions. Посты сортируются строго по убыванию этого показателя.СТРОГАЯ ФИЛЬТРАЦИЯ: категорически запрещено включать в анализ и итоговый отчет сообщения с опросами (те, у которых есть ключ poll) и служебные сообщения (тип service). Любое включение этих типов сообщений в топ является грубой ошибкой.ФОКУС НА ЛИДЕРАХ: тебе не нужно выводить список ВСЕХ постов. Твоя задача — аналитическая. Сосредоточься только на ТОП-10 самых популярных и дай по ним исчерпывающую информацию, как указано выше.N = neuropanda_appЕсли ты понял все инструкции, после загрузки мной JSON-файла немедленно приступай к анализу и формированию контент-плана"По сути, это максимально целевой живой анализ. Наверное, поймут суть новаторства не все, но кто оценит — понимает ... В комментариях будет пример ответа по промпту + идеи по масштабированию схем для других вкусных идей 😉
Финансовый анализ в Power BI и Excel
Вот вам классная подборка с более чем 30 диаграмми в Excel с пошаговыми инструкциями по их построению. Пару-тройку лет назад я её уже выкладывал, и она такая же актуальная. Сейчас готовлю еще более интересный файл с диаграммами. Если у вас есть пожелания или вопросы: как сделать какую-то нестандартную или просто «крутую» диаграмму в Excel – пишите в комментариях.Кстати, чтобы не тратить время на построение таких диаграмм с нуля, можно использовать шаблоны. Как их создавать – смотрите тут.Файлы в подборке:Файл 1Файл 2Файл 3Файл 4Файл 5(скачиваются без регистрации и смс))
Артём Акулов | SEO и Накрутка ПФ
🔹 Как найти и устранить проблемы с индексацией в Google и улучшить CWV с помощью GoAccess?🔹 Чтобы понять, как по сайту гуляет Googlebot (и любой другой бот), что скачивает, какие страницы посещает, а какие нет, какие у него ошибки при сканировании, - нужно анализировать логи сайта.🔹 Логи - это файлы, которые лежат на хостинге, и в которых представлен полный журнал о посещении сайта пользователями, поисковыми ботами и LLM-краулерами. Кто, откуда, куда, как часто, коды ответа сервера, ip, ASN, рефы, даже карта с распределением по странам имеется.🔹 Почему нельзя просто открыть GSC и проверить даты последнего обхода? Всё просто - там неполные данные. Самые актуальные и свежие данные исключительно в логах по конкретному сайту.🔹 Не забываем про краулинговый бюджет. Он расходуется не только на страницы, но и на файлы CSS, JS, DOC, PDF и т.д.🔹 Чем анализировать? Вариантов много: от SFLA до Power BI. Я успешно использую бесплатный GoAccess (для Windows есть - CowAxess, мне больше всего нравится установка в docker) и полностью им доволен.🔹 И так, проблемы анализируемого сайта:- Core Web Vitals всех money-страниц в желтой и красной зоне;- документы долго лезут в индекс, хотя контент, оптимизация и ссылки на высоком уровне;- не растёт трафик, хотя уже пора.🔹 Небольшой лайфхак от меня. Для просмотра статистики от нужного бота, например Googlebot, вводим команду:grep 'googlebot' top.access.log | goaccess - --log-format=COMBINEDСтатистика откроется прямо в терминале. Чтобы выгрузить это в красивый html-дашборд используем команду:grep 'googlebot' top.access.log | goaccess - --log-format=COMBINED -o report.html- top.access.log - это имя файла с логами. Если они лежат в какой-то другой папке, то надо указывать полный путь.- report.html - файл с дашбордом.- GoAccess может анализировать логи в реальном времени, его можно поставить на отдельный сервер, и вообще там функционал очень большой, чекайте документацию.🔹 Проблемы, которые были выявлены у пациента после анализа логов:- Googlebot гулял по старым (удаленным) страницам и естественно получал в ответ много 404;- страницы сайта содержали много ссылок на стили и скрипты, в итоге Googlebot сканировал всего 5-10 страниц с кучей файлов и уходил, хотя должен был проверить больше урлов.🔹 Что сделано после анализа:- устранены проблемы с скоростью загрузки сайта, удалены мусорные скрипты и шрифты, часть скриптов и стилей собраны в единые файлы, настроено кеширование и заголовки ответа;- установлены 301-рекдиректы с удаленных страниц на страницы с кодом ответа 200, для части удаленных страниц установлен код 410;- исправлена внутренняя перелинковка, удалены дубли внутренних ссылок, удалена перелинковка между хабами;- из sitemap удалены страницы, которые указаны в disallow.🔹 Итоги на скриншотах:- Core Web Vitals на мобилках зашел в зеленую зону, это влияет на позиции;- новые страницы быстрее залетают в индекс, контент в старых обновляется быстрее;- клики с поиска начали расти;- больше показов;- краулинговый бюджет сайта не расходуется на бесполезные файлы;- весь комплекс работ влияет и на LLM-краулеры.
Даша, как попасть в IT?
7 бесплатных источников, чтобы быстро выучить SQLSQL — это язык для общения с базами данных. Он как "Google" для данных 🔍Представьте: у вас есть огромный склад (база данных), где множество разных заказов.Без SQL вы как менеджер, который бегает между стеллажами с криком: "Где тут все заказы Васечкина?!!"А с SQL ты просто говоришь базе:SELECT * FROM orders WHERE client = 'Васечкин';И вуаля — данные сами приползают к тебе в табличку.Кому учить?📊Аналитикам - Чтобы не умолять разработчиков «дайте статистику за вчера», а самому вытаскивать данные💻 Разработчикам - Чтобы не писать кривой код, который грузит всю базу, и понимать, почему твоё приложение тормозит🐞 Тестировщикам - Чтобы проверять данные до и после теста (например, что заказ реально сохранился в БД) или ловить баги, которые «на фронте всё ок, а в базе — бардак».Где учить?Интерактивный тренажер по SQLВведение в SQLСИМУЛЯТОР SQLОсновы работы с базами данных и SQL от яндекс практикумКак изучить SQL за ночь или шпаргалка для системного аналитикаИнтерактивный курс по SQLОсновы SQL от Хекслет
KlonDike 📓 BLOCKNOTE
#Nansen завезли интеллект прямо в TelegramРебята интегрировали MCP в Telegram-бота. Теперь все это чудо техники у вас прямо в телефоне, без геморроя с серверами, API и консолью.ИИ можно мучить на русском. Анализирует прямо у вас на глазах, отвечает, копает ончейн.Для теста попросил проанализировать токен Zora.Сливаю вам результат: Я проанализирую аномальные движения токена ZORA. Давайте посмотрим на необычные паттерны в торговле, переводах и активности крупных держателей.# 🚨 АНОМАЛЬНЫЕ ДВИЖЕНИЯ ТОКЕНА ZORA✏️ 🔴 КРИТИЧЕСКИЕ АНОМАЛИИ📚 1. Массивная Ротация Coinbase (ПОДОЗРИТЕЛЬНО)Период: 22-24 июля 2025⦁ Объем: 300M+ токенов ($15M+)⦁ Паттерн: Циклические переводы между депозитными адресами⦁ Аномалия: Одни и те же суммы (20M, 54.6M) переводятся туда-обратноПодозрительные адреса:⦁ 0x40ebc1 - Coinbase Main Wallet (центр ротации)⦁ 0x4cfb67, 0xcb8213, 0x924f1e - Депозитные адреса📚 2. Экстремальная Ликвидность Uniswap (МАНИПУЛЯЦИИ?)Адрес: 0x12677a (High Balance)⦁ Активность: 37M токенов → множественные mint/burn операции⦁ Паттерн: Добавление 15-20M ликвидности, затем немедленное удаление⦁ Время: 22 июля, интервалы 20-40 минут✏️ 🟠 СЕРЬЕЗНЫЕ АНОМАЛИИ📚 3. Аномальные PnL ПаттерныТоп аномальных трейдеров:⦁ 0x2cafd0 - 252.5% ROI, 1438 сделок⦁ 0x4f1d11 - Продал 10.9M токенов, оставил 468 токенов⦁ 0xbc90bd - 363% ROI, полностью вышел из позиции📚 4. Противоречие "Свежих Кошельков"⦁ Приток: $28.9M за 24 часа⦁ Количество: 0 кошельков⦁ Аномалия: Невозможно получить такой приток от 0 кошельков📚 5. Gate.io + GSR АктивностьGSR (Маркет-мейкер) депозиты:⦁ 0xecd3b4 → 0x0d0707: 11.7M + 10.6M токенов⦁ Время: 23-25 июля⦁ Подозрение: Координированная MM активность✏️ 🟡 ПОДОЗРИТЕЛЬНЫЕ ПАТТЕРНЫ📚 6. Массовый Исход Top PnL Трейдеров⦁ Отток: -$2.3M за 24 часа⦁ Участники: 76 топ-трейдеров⦁ Паттерн: Координированная фиксация прибыли📚 7. Аномальные Объемы vs Цена⦁ Объем торгов: $48.5M за 24 часа⦁ Рост цены: +43.9%⦁ Аномалия: Диспропорция объема к росту цены✏️ 📊 ВРЕМЕННАЯ КАРТА АНОМАЛИЙ📚 22 июля (Пик активности):⦁ 00:48-04:49: Серия переводов Coinbase (54.6M × 3)⦁ 02:08-20:24: Uniswap ликвидность манипуляции (37M)📚 23-24 июля:⦁ Gate.io + GSR координированные депозиты⦁ Массовые выводы на Coinbase📚 26-27 июля:⦁ Исход топ-трейдеров⦁ Аномальный приток "свежих" средств✏️ 🎯 ВЫВОДЫ📚 Наиболее подозрительные активности:1. Coinbase ротация - возможная подготовка к листингу/делистингу2. Uniswap манипуляции - искусственное создание ликвидности3. GSR активность - профессиональный маркет-мейкинг4. Координированный исход - инсайдерская информация?📚 Рекомендации:⦁ ⚠️ Высокий риск манипуляций⦁ 🔍 Требует дополнительного мониторинга⦁ 📈 Возможна подготовка к крупному событиюОбщий вердикт: ВЫСОКАЯ АНОМАЛЬНАЯ АКТИВНОСТЬ с признаками координированных действий крупных игроков. По моим наблюдениям, запросы на английском пока обрабатываются лучше. Впрочем, для EXPERIMENTAL MODE выглядит неплохо.ЧАТ |ОБМЕННИК |NANSEN |YOUTUBE |X.COM
Дневник ГИС-аналитика
Недавно GeoHub реализовал на своей веб-ГИС платформе возможность создания дашбордов.Я решил протестировать это нововведение, ниже напишу свои впечатления.Небольшая преамбула: наличие BI-инструмента внутри веб-ГИС – очень полезная вещь, убивающая сразу двух зайцев. С одной стороны, у нас есть возможность визуализировать пространственные данные в виде слоёв на карте. С другой – мы можем сразу проанализировать атрибутивные таблицы объектов, используя готовые шаблоны графиков и диаграмм.В качестве исходных данных я воспользовался открытым датасетом проекта «Россия больших городов», содержащим информацию о возрастах домов 80 крупнейших городов страны. Выбрал два миллионника – Волгоград и Краснодар. Также частично устранил избыточность данных – для единообразия начал отсчет с 1920 года и сгруппировал годы постройки по десятилетиям.Теперь про работу с дашбордом.✅Плюсы:1. Реализована возможность использовать любые пространственные данные, загруженные в карты GeoHub. Фактически, на одну доску можно добавить графики для датасетов с совершенно разных карт, что позволяет быстро и эффективно анализировать взаимосвязи.2. Здесь довольно большой набор типов диаграмм – линейная, столбчатая, линейчатая, круговая, кольцевая. Более того, можно добавлять метрики по каждому полю, агрегируя их по таким параметрам, как сумма, количество, среднее, экстремумы.3. Построенные диаграммы интерактивны – их можно увеличивать, а также настраивать всплывающую подсказку по исследуемому атрибуту.4. Сам процесс создания дашборда очень быстр – есть возможность за пару минут собрать нужные диаграммы и, например, поделиться с коллегами аналитикой.❗️Что мне не хватило:1. Редактирование подписей на осях координат. Было бы здорово в дальнейшем иметь возможность корректировать метки: в моем кейсе подписи оси Y линейчатых диаграм брались из атрибутивной таблицы (1920, 1930, 1940), хотя по факту, они должны были выглядеть вот так: 1920-1930, 1930–1940 и т. д. И продолжая тему меток – возможность округления больших чисел (например, преобразовать 3 000 000 в 3 млн.).2. Добавление текстовых блоков и разделителей. Они позволят более качественно и упорядоченно представить данные.Уверен, что инструмент будет в дальнейшем развиваться и совершенствоваться.📎 Зарегистрироваться и поработать с инструментом можно по этой ссылке.📎 А мой дашборд можно посмотреть тут)