Data Science и аналитика — страница 9

Лента темы

Успешный успех 💸

Авторепост

Алоха, успешныеМы сегодня к вам с очень интересным предложением 👀Один из участников команды In Touch настолько преисполнился от работы на маркетплейсах, что решил запилить полноценную ERP-систему для селлеров - MyProfit.На фига она вам? Сейчас расскажу. На данный момент программа находится на стадии Beta тестирования, и она уже умеет в:💸 юнит экономику (на данный момент под 4% налогов и фиксу)📝 работу с накладными (вход/выход/фбс) 📉работу с остатками на складе Uzum по модели ФБО/ФБС🏷️продажи. Тут имеются фильтры по СКУ с возможностью точечно мониторить позиции с актами, поставками, продажами. В планах запилить туда адекватные прогнозы оборачиваемости и подтарки товара, калькулятор ФФ, верхние склады и работу с другими маркетплейсами Yandex Market Go, Alif и т.д. Эти инструменты планируется прикручивать в процессе бета-тестирования. Главное преимущество программы в том, что она создана работающими селлерами которые не в теории знают все головняки и боли, для селлеров.Сча ребята готовы к запуску тестирования, и вы можете в этом поучаствовать. Тем кто будет в бете - после запуска, первый месяц бесплатно 🆓Штука на самом деле крутая и необходимая, и должна снять очень много головняков в работе на МП.‼️Чтобы потестить MyProfit - регайтесь вот здесь.Ещё ребята запустили канал в ТГ (куда ж без него), где будут пилить новости о обновах, прогрессе запуска и так далее.

Internet of Energy

Авторепост

Цифровые двойники произведут революцию в электросетях#энергопереход #практикиInternetofEnergy #ИРЭСЭнергетический переход предъявляет новые требования к распределительным сетям: если ранее они обеспечивали предсказуемый поток электроэнергии от крупных электростанций до потребителей, то сегодня необходима интеграция миллионов солнечных панелей, электромобилей, тепловых насосов, аккумуляторов и других устройств, создающих двунаправленные потоки электроэнергии и сложную динамику перетоков мощности сети. Быстрое устаревание сетей приводит к росту задержек и отмене проектов возобновляемой генерации и электрификации по всему миру.Для решения этой проблемы авторы статьи, опубликованной в журнале IEEE Electrification Magazine (т. 12, № 3 за 2024 год), Pablo Arboleya и Alberto Méndez рекомендуют операторам распределительных систем (DSO) перейти на новое поколение систем управления сетями на основе «цифровых двойников», которые в реальном времени обеспечивают DSO видимость, аналитику и гибкость сети.Читайте краткий обзор этой статьи.

Malex | Алексей Малинский

Авторепост

Как изменилась роль тимлида аналитики за 5 летПять лет назад у меня в команде появился первый аналитик, и я начал свой менеджерский путь. Параллельно компания и рынок бигтеха росли, а сама аналитика развивалась и распространялась по миру.Что поменялось за это время?Сноска: Я рассуждаю про среднюю ситуацию в бигтехе, по опыту Авито и общения с людьми на рынке. Понятно, что в стартапах и крайних кейсах может быть иначе.👉 Сильно вырос средний уровень аналитической культуры. Сейчас базовый мат. стат все чаще понимают и продакты, а автоматическая аб-платформа считается чем-то обычным. Тимлиду реже приходится объяснять команде, что надо катить эксперименты и валидировать ручные расчеты аналитиков.👉 Низковисящие фрукты закончились. Все меньше продуктов, куда можно прийти, правильно катнуть фичу - и вау, горы золота. Теперь аплифты сидят глубже, что требует более сложных методов и полной включённости тимлида.И как это отразилось на ожиданиях от тимлида?👉 От тимлида ожидается, что его команда приносит осязаемый результат. Важны не столько процессы, а конкретные аплифты от команды аналитики! Процессы лишь средство их достижения, а не цель.👉 От тимлида ожидается качественный проджект-менеджмент. Все хотят видеть драйвинг бизнес-проектов, а не только защитную функцию для команды. Хотя иногда второе помогает первому.Стандартные пипл-менеджмент и стейкхолдер-менеджмент функции никуда не делись, но фокусы поменялись. Быть тимлидом стало сложнее, но интереснее - можно реализовать много крутых идей! Если, конечно, они есть..❤️ - если полезно🔥 - если замотивировался

Изменения во благо

Авторепост

Я уже, кажется, рассказывала, что мы делаем для фонда очень крутую CRM-систему. Я бы даже сказала, что это цифровая среда, потому то она автоматизирует все процессы фонда.Обычно народ работает в каких-то бухгалтерских программах типа 1С, что-то делается просто в ручном режиме, а что-то автоматизируется частично. На определенном этапе развития, мне кажется, это проходят все фонды, да и все компании тоже.Мы поступили иначе. Когда мы поняли, что нам остро нужна автоматизация хотя бы внутреннего учета, мы решили сразу создать систему, которая охватила бы не только учет. Чтобы перепрыгнуть период «лоскутного одеяла» и сразу оказаться при полной цифре))))Ну, и это решение было, конечно, простым только в принятии. Потому что к цифровой среде должны быть готовы не только финансы (это дорого, особенно если не покупать готовое решение, а разрабатывать свое), и процессы в организации, и сотрудники. То есть должна быть определенная зрелость всего, чтобы после разработки систему не положили на полку, продолжив колупаться в гугл-таблицах и 1С.Когда я работала в бизнесе, то переживала полную смену цифровой системы компании минимум дважды. И каждый раз это был очень сложный процесс, который затрагивал все подразделения, даже те, которые вроде бы не пользуются системой. И это было сложно не только в разработке, но и во внедрении. Чтобы система заработала и стала инструментом для всех, всегда нужно пережить процесс изучения всех функций и привыкания к новому. И если кто-то думает, что в бизнесе это происходит проще, потому что там люди имеют определенный опыт и достаточно высокую степень компьютерной грамотности, то скажу прямо: ни хрена.У нас первые проблемы случились уже на этапе постановки ТЗ исполнителю. Потому что решить-то мы решили, что система будет всеобъемлющей, но как это все опустить на задачи, на какие разделы разбить, как описать все нужные нам функции, мы понятия не имели. Хорошо, что наш подрядчик был терпеливым, а наш внутренний менеджер проекта – ну, очень-очень целеустремленным.Постепенно, очень с большими мучениями (а главное, с многочисленными изменениями в процессе) мы рожали по одному разделу системы. Разработчик так же потихонечку, как мы создавали ТЗ, писал разделы.Потом их тестировали, потом наполняли информацией, потом еще сто раз тестировали и дорабатывали. Сейчас мы практически в финале процесса, занявшего несколько лет. Финансирование этого проекта – отдельная боль. Существенную часть мы оплатили из собственных средств фонда, но частично удалось добыть и грантовое финансирование (со 125-й попытки). Сейчас мы уже во многом пожинаем плоды этого труда, и они прекрасны. Автоматическая генерация кучи отчетных документов, учет всей помощи во всех возможных ракурсах (мы можем в любой момент мгновенно вытащить любые параметры по оказанной помощи. И по регионам, и по отдельным семьям, и по специалистам, которые работали и вообще как угодно). Работа по ежемесячной отчетности, которую мы вывешиваем на наш сайт, стала занимать минуты по сравнению с часами ранее.Уже почти весь бюджетный процесс (планирование и контроль) мы тоже делаем через систему, доводим отдельные детали. И это тоже быстро, а главное – возможность ошибок минимизируется. Никаких формул в экселе, никаких переносов вручную. Все делает система. В нее же интегрированы наши банковские счета, и поэтому все доходы и расходы тоже учитывает и считает система. Тут еще немного осталось доработать, но это именно немного.Что было самым сложным? – внедрить систему в голову команды)))) Добиться, чтобы каждый сотрудник научился неукоснительно вносить все данные, которые необходимы. Чтобы это перестало быть повинностью, а стало рутиной (тут мы в процессе). Я не преувеличу, если скажу, что наши сотрудницы, которые за внедрение отвечают, постоянно на связи со всеми подразделениями, постоянно напоминают, учат, держат за руку, не дают слиться никому. И именно поэтому все возможные данные появляются в системе в режиме реального времени.Когда я оглядывают назад, я не очень понимаю, как мы это вообще осилили.

Кирилл Гаврилов

Авторепост

Вот еще один классный сервис, который позволяет менеджерить базу данных как в ноушене.https://teable.io/Я сейчас пробую self-hosted развернуть и покликать некоторое время, но как идея мне уже нравитсяTelegram

Ах, этот Минфин

Авторепост

Минэк опубликовал видео с ответами на вопросы про Портал открытых данныхНа удивление, видео неплохое и даже содержательное (https://t.me/minec_russia/10643): есть ответы на часть вопросов, обсуждавшихся в профильных чатах, даже опубликовали тайм-коды.Но, публиковать только в формате видео ответы на волнующие пользователей-айтишников вопросы - это не тот формат коммуникации, который можно было бы назвать удобным. Продублировать видео текстом-интервью или FAQ было бы намного удобнее.Нерешенными все еще остаются, как минимум, следующие вопросы:- Почему Минэк не публикует и не создает свои открытые данные?- Почему полностью обошли стороной данные по финансам? От Минфина и Казначейства датасетов на портале нет, Казначейство, правда, вскользь упомянули в конце видео в разделе "планы». - Почему на портале не опубликованы условия (лицензия) использования открытых данных? В разделе «Нормативные документы» можно найти типовые условия почти 10-летней давности, но надпись «Все права защищены» в футере сайта заставляет сомневаться в возможности использования данных.- Чат-бот, судя по тексту в видео, починили. Но он до сих пор не может ответить ни на один вопрос и просто молчит.- С момента открытия Портала открытых данных удалено несколько сотен датасетов. В видео говорили о 200, но сейчас на портале еще почти на 100 датасетов меньше. Объясняется это наличием ошибок в датасетах и модерацией. Но ошибки надо исправлять (а не удалять дотасет), а модерацию надо проводить до публикации датасета, а не после.Единственное положительное в данном случае то, что о Портале Минэк хотя бы заговорил, есть шанс, что что-то изменится. И отдельный респект Минэку за то, что прямо и открыто признали ручную публикацию наборов открытых данных и отсутствие интеграции с другими системами.

Таблицы и Скрипты Гугл для бизнеса и анализа🤘🏻

Авторепост

❗️ Двигаем даты и время формулами в Google Таблицах Работа с датами - одна из самых частых задач в таблицах. И хорошо бы делать это не руками, а формулами!Что можно "двигать" формулами:• Добавить/вычесть дни: =A1+7 (прибавить неделю)• Перейти к началу месяца: =EOMONTH(A1,-1)+1• Найти конец месяца: =EOMONTH(A1,0)• Следующий понедельник: =A1+7-WEEKDAY(A1,2)+1• Прибавить рабочие дни: =WORKDAY(A1,5)Фишки для времени:⏱️ Прибавить часы: =A1+TIME(2,30,0) (добавить 2ч 30мин)⏲️ Округлить до ближайших 15 минут: =ROUND(A1*96,0)/96🕰 Время в секундах: =A1*24*60*60Полезные функции:DATEDIF() - разница между датами в годах/месяцах/дняхNETWORKDAYS() - количество рабочих дней между датамиYEAR(), MONTH(), DAY() - извлечь части даты✔️✔️✔️✔️✔️✔️✔️✔️Лайфхак: Для создания последовательности дат используйте =SEQUENCE(30,1,TODAY()) - получите 30 дней начиная с сегодня.Работать с датами через формулы - это как иметь машину времени прямо в таблице! 🕗✔️✔️✔️✔️✔️✔️✔️✔️Таблица с примерамиТаблица создана при активном участии нашего эксперта Смирнова Михаила. Подписывайтесь на его его канал.✔️✔️✔️✔️✔️✔️✔️✔️#GoogleSheets #Даты #Время #Формулы〰️〰️〰️〰️〰️〰️〰️〰️〰️С уважением, Дроздов Игорь〰️〰️〰️〰️〰️〰️〰️〰️〰️📗 Наш канал: t.me/GoogleSheets_ru📗 Наш чат: t.me/google_sheets_pro💰 Заказать работу или консультацию: @GoogleSheets_ru_cm @oshliaer @Mityayka1

Евгений Саргош | Phoenix Project

Авторепост

10 сервисов, которые я использую в линкбилдинге ежедневно ⚙️1. Ahrefs.com — поиск обратных ссылок, анализ ссылочного профиля, анкор-лист, проверка качества доноров2. LinkChecker.pro — массовая проверка ссылок на наличие, статус и индексацию3. Search Console — проверка входящих ссылок4. Screaming Frog SEO Spider — массовая проверка внешних и внутренних ссылок5. Hunter.io — поиск email-адресов для аутрича6. Disavow Tool (Google) — отклонение спамных ссылок7. OmegaIndexer.com — массовая и быстрая индексация ссылок8. Linkbox.pro — мониторинг ссылок, индексация, проверка анкор-листов, контроль доноров9. Linkdetective.pro — поиск альтернативных связей на площадках через посредников10. Snov.io - поиск контактов, верификация эмейлов, создание цепочек рассылок, аналитика. Находить качественные площадки, сохранять и сегментировать контакты в CRM

Авторепост

💻 PostgreSQL. Основы языка SQL.• Еще один бесплатный учебник по языку SQL, в котором рассматривается создание рабочей среды, описаны языки определения данных и основные операции выборки и изменения данных. Показаны примеры использования транзакций, уделено внимание методам оптимизации запросов. Материал сопровождается многочисленными практическими примерами. Отлично походит для самостоятельного обучения. В пособии рассматриваются следующие темы:➡Введение в базы данных и SQL;➡Создание рабочей среды;➡Основные операции с таблицами;➡Типы данных СУБД PostgreSQL;➡Основы языка определения данных;➡Запросы;➡Изменение данных;➡Индексы;➡Транзакции;➡Повышение производительности.➡️ Скачать книгу.#SQL

Обзоры Пива.txt

Авторепост

😎 Мой MLSD собес в Авито!!!TL;DR: я прошёл кейс на антифрод в real estate. Фидбек положительный 👍 ▶️Что было на кейсе? Как я понял, когда готовился, самое важное — это структура ответа. Я отвечал по такому пайплайну:1) описываю задачу своими словами2) выделяю пользу для бизнеса и для пользователя, бизнес, продукт метрики, контр-метрики.3) формулирую задачу в рамках ML, что поступает на вход, а что на выход модели, оценка нагрузки4) анализирую доступные данные, фичи + опр таргет5) бейзлайн (если можно)6) настраиваем мониторинг метрик (бизнесовые + системные)7) дизайн аб-теста8) указываю на проблемы и недостатки бейзлайна9) продвинутое ml решение (доп фичи, DL)10) дизайн аб-теста11) выкатка в прод, вырисовка архитектуры (сервисы, бдшки), требуемые гпушки, оценка нагрузки RPMТема кейса — поиск фродовых итемов в недвижимости на Авито.▶️Что я сделал хорошо (на мой взгляд)?- Метрики, бизнесовая часть- Быстро допёр до правильного определения "фрода" (тк меня однажды заскамили с арендой на Авито 😁)- Бейзлайн- Архитектура- Софт скилы▶️Что я сделал плохо (на мой взгляд)?- Когда усложнял решение туда-сюда размышлял, в итоге пришел к какому-то решению, но цепочка рассуждений была слабая- Пытался как-то вставить разметку через LLM, в итоге был провальный ход, но я вышел из этого тупика сам- АБ тестирование я кое-как с ошибками вытащил- Волновался, интервьюер по идее не заметил, но из-за этого было труднее думать. В будущем конечно нужно над собой работать😢 Видео не сохранилось. Так бы я его выложил, конечно, с разрешения HR и интервьюера.▶️Что в итоге?Я пока что в ожидании оффера. Так как собес прошел успешно и фидбек положительный, то я стану уважаемым мидлом (первого уровня), а не джунишкой-обоссышкой. Я очень рад!! 😇 Продолжу заниматься Fashion в Авито 💅P.S. В комментариях к посту фотки моих рассуждений на доске.

Авторепост

💡 STUMPY — библиотека для анализа временных рядов. Этот проект предлагает мощный инструмент для работы с временными последовательностями через вычисление matrix profile — специальной метрики, которая автоматически находит схожие паттерны в данных.Инструмент поддерживает распределённые вычисления через Dask и GPU-ускорение через Numba. Технология особенно полезна для обнаружения аномалий, повторяющихся фрагментов и семантической сегментации. Библиотека одинаково хорошо работает как на небольших наборах данных, так и на временных рядах длиной в миллионы точек. 🤖 GitHub @pythonl

Таня прочитала

Авторепост

Моя работа сейчас — в коммуникациях с людьмиПричём гораздо больше, чем обычно, поэтому приходится ходить в места скопления людей. Недавно сходила на встречу людей с моего факультета. Кто не знает – я заканчивала техническую специальность, по факту по образованию разработчик. Ну и окружающие люди около этой же сферы. Было очень интересно узнать, чем дополнительно занимаются все эти люди. Очень мало кто просто работает в найме (и больше ничего). У многих какие-то сайд проекты. Например - Один человек делает штуку, которая помогает записывать информацию о съёмке тем, кто снимает на плёнку: время и дата, локация, инфа о плёнке, камере и объективе, настройки кадра. - Другой делает инструмент для тренировки прохождения собеседований на основе искусственного интеллекта. Причём это не просто тесты, или как часто бывает на собеседованиях, что тебя поспрашивали, обещали перезвонить, а потом пропали насовсем. Это штука дает ещё и обратную связь, какие навыки стоит подтянуть исходя из твоих ответов.- Я сама вообще пришла на эту тусовку, чтобы собирать респондентов, с которых буду физически снимать мерки (что? Да).К чему это всё. Не всё равно, кто нас окружает. Кроссопыление смежными ролями часто здорово помогает увидеть какие-то новые стороны того, что делаешь сам, особенно когда делаешь это достаточно долгое время, и взгляд уже замылился. Плюс когда кому-то очень заходит то, что ты делаешь, это тоже классно мотивирует. Накидайте ребятам огонёчков, классные вещи ж делают. Я им передам:)

Тысяча фичей

Авторепост

Плейлист про оптимизацию запросов внутри ClickHouse. Разбираемся в том, как устроена самая быстрая аналитическая база. Пытаемся осознать инженерный майндсет человека, который фулл тайм занимается оптимизациями. Крутой плейст для настоящих профессоналов. 1. Мотивация и ClickBench2. PAW -- тула для измерения производительности3. Изучаем ClickHouse: индексы и данные4. x100 буст в запросах со строками5. Runtime Bit Indexes optimization6. Interval Indexes7. x10 less memory consumption8. Optimize ClickHouse with Heap 9. Оптимизация regexp

Мысли менеджера Сергея: как оно бывает

Авторепост

ИИ-шечка, которой можно вывести все сообщения в ТГ-канале, посчитать позитивные реакций и отсортировать по ним.ПрелюдияВ конкурсе ТГ-каналов сегодня - последний день голосования. Те, кто искренне хотел за мой канал проголосовать, но забыл в рабочей суете - велкам по ссылке, и выберите канал "Мысли менеджера". Кто не планировал голосовать - без проблем, пост немного не об этом.Когда конкурс стартовал, у меня было много "почему" я хотел в нем поучаствовать, одним из желаний было проверить, а как мои посты выглядят среди постов коллег? Не внутри одной номинации, а вообще, внутри всего конкурса, заходят ли они на широкую аудиторию? 🥇🏅🥉Организаторы честно признались, что объем желающих поучаствовать и объем классных постов превысил их все самые смелые ожидания, тем более, что это - такие же как мы все ребята, у них есть основная работа, личные дела, и в оставшееся время им модерить конкурс из 400 участников в 15 номинациях 😱⌨️ Захотелось мне ребятам помочь, и я сел писать ИИ-шку, которая могла бы облегчить проведение конкурса лучших постов. Ну вот чтобы среди тех, кого организаторы форварднули в канал @tg_contest_main , отобрать претендентов и среди них провести выбор лучших, например, голосовалкойДелюсь тем, что и как я сделал.Постановка задачи:Взять все посты ТГ-канала, посчитать у них позитивные реакции, сложить, и отсортировать посты по наибольшему числу суммарных позитивных реакций.Дисклеймеры- Т.к. я не программист - а менеджер, у меня под рукой не оказалось ряда полезных tools, и мне пришлось пользоваться тем, что нашлось. Возможно у профессиональных программистов найдутся приблуды получше и шаги упростятся.- Я работал с ИИ второй раз в жизни. Возможно, мой путь можно сделать проще, пишите тогда в комментах - как.Детали постановки:Я просил ИИ брать только посты-форварды, чтобы отсечь простые беседы.Решение (MVP)См. рис. 1 - табличка в XLS с постами, реакциями по ним, и посты отсортированы по убыванию суммы положительных реакцийШаги по достижению результата- Рис 2. Выгрузил содержимое всего чата канала в JSON. Для этого мне понадобился Telegram Desktop. Можно выгрузить и в HTML, но реакции искать потом проще в JSON- Рис 3. У меня есть доступ к среде разработки GigaChat (PlayGround). Если у кого нет - не критично, т.к. по итогу я использовал ее только для одного (см. далее)- Рис 4. Я открыл в Playground системный промт и написал своими словами решаемую задачу (я хочу получить таблицу, бла-бла-бла). После этого, я нажал кнопку "улучшить", и она чудесным образом отработала, переписав промт так, как удобно гигачату- Рис 5,6,7: 👉 Я скопировал полученный промт, пошел с ним в DeepSeek и стал использовать как пользовательский 👈 Т.е. вставил его в окно промта для web-версии. Почему в DeepSeek, а не в Gigachat - ну вот так :) Возможно, мне не повезло и у кого-то получится и с Gigachat тоже.На трех рисунках - как выглядит конечный промт. Конечно, реакции и правила суммирования вписывал туда я сам. Улучшатель от Gigachat задал понятный формат, инструкции, в частности: - 👆👆👆 пример JSON-запроса, который придет модели на вход - подробные требования к формату вывода - как проверить результат - рис 8. Но тут оказалось, что по крайней мере бесплатная версия DeepSeek не могла работать с большим файлом. Опытным путем я пришел к размеру около 190К. Пришлось мой JSON нарезать с помощью сервиса https://pinetools.com/split-files- рис 9. Полученный ответ я скопировал в Notepad++, т.к. у меня не нашлось лучше инструмента для работы с CSV. Все, что я делал в Notepad++ - склеивал ответы модели по каждым нарезанным частям JSON, а затем экспортнул в CSV.Дальше уже все просто: импортировал CSV в XLS как файл с разделителем, отсортировал по столбцу "Сумма всех реакций" и получил файл, который на рис. 1Пользуйтесь на здоровье для своих конкурсов, каналов, чатов.Спрашивайте в комментах, отвечу на все, поделюсь тем, что есть.Главный вывод: если я смог, то у ИИ - действительно не высокий порог входа, и +/- это может сделать каждый.#МояИИшечка

Data Bar | О data-проектах

Авторепост

1000 самых известных людей и выставка в ВегасеНа картинке выше моя работа "Pantheon" на выставке визуализаций Tableau Public Gallery в Лас-Вегасе. Всё проходило в рамках конференции "Tableau Conference" в ноябре 2019 года. В одну рамку работа не влезла поэтому получится диптих. Потом работа поехала в Сан-Франциско на большую конфу "Salesforce" и ещё куда-то. Через год её отправили в Россию, но получить не смог - был COVID и проблемы с оформлением документов на получение.Работа о 1000 самых популярных людей. Делал на английском и русском языках. На русский переводил для OpenDataDay 2020 в Москве. Саша Богачёв приглашал, было круто.Датасет очень интересный, нашёл его у Andy Cotgrave "Chart of Biography".Сайт проекта "Pantheon" здесь. MIT (Массачусетский Технологический Институт) придумал методику измерения популярности всех людей на планете по статьям и проанализировал всё что доступно в интернете. Получились ранги известности. Самые известные люди:1️⃣. Аристотель2️⃣. Платон3️⃣. Иисус Христос4️⃣. Сократ5️⃣. Александр ВеликийТеперь о визуализации. Меня как-то посетила мысль, что разные диаграммы можно попробовать соединить. Просто для того чтобы понять получится ли логично или нет. Первый раз реализовал эту мысль в работе "Freedom of the Press", и её приняли очень хорошо.А в Пантеоне эта мысль продолжилась, и в ней соединяются несколько визуализаций. Долго не мог найти датасет, а потом увидел проект "Пантеон" и понял что это то что надо. Нравится аналогия, что жизни людей - это нити, пронизывающие пространство. В визуализации соединяются: таймлайн, ранги, категории и карта (откуда родом человек). Сам виз - интерактивный дата-арт. Визуализация была экспериментом - хотелось посмотреть что получится. А получилось так, что эксперимент отобрали на выставку работ.

Вита про дизайн @viiolettavolkova

Авторепост

В своей дизайн-рутине часто смотрю финтех-рефы: как работают разные функциональности, как кто-то уже решает мою проблему, как красиво делают такие-то экраны, просто вдохновиться и освежаю взгляд. Ну в общем база! 🪄Хочу поделиться своими финтех-любимчиками или приложениями, которые вдохновляюсь, а на некоторые даже ориентируюсь 🛣• Revolut — мой любимчик номер 1 🫡 задают на рынке классные практики, круто придерживаются консистентности в приложении (к чему хочется стремиться). Основные флоу, микро-дизайн-решения, решения кейсов• Wise — когда-то был прям топ-1 для меня. Люблю их стиль иллюстраций. Часто смотрю по функциональностям, практики банковских флоу• Vivid — банк, счета и карты, переводы и тд. В основном смотрю банковские флоу, решение каких-то кейсов. Грубые тени и экстремально круглые плашки как у тинька – не по мне((• Glow — кошелек, крипта, переводы и тд. Очень приятный свежий UI, еще нравятся шторки• Wealthsimplee — Акции, ETF, крипта. Хороший пример минимализма, прям простоты в интерфейсе, и акцентах на красивых 3д со своим стилем• Lightyear — инвестиции. Для расширения насмотренности, люблю их блюрчики синие и экран переводов, насмотрелась 🤫• Cleo — прила для экономии. Отличный пример креативного креатива! Есть смелые интерфейсные решения, мемчики 😍, яркие сочетания цветов☕️ Делитесь, а за кем вы следите на рынке финтех-приложений и банкинга? Кто ваш топ-1?

Naturbook🌾ПРОФ Пермакультура

Авторепост

#методология ГИС технологии дают Цифровой двойник территории и позволяют создавать множество слоев и подслоев и фиксировать всю текущую инфу и быстро её актуализировать. Как стационарная карта пациента. Вы перманентно создаете инструмент управления садом. И он у вас в кармане на смартфоне. Проходя по рядам, как по палатам, видите все данные. А далее - вы управляете роем автопилотируемых устройств - трактор, дрон и они в соответствии с программой делают план по валу 🤗

Запрети мне псевдолейблить

Авторепост

3 место в #BirdClef2025Данные:1. Выкорчевали человеческий голос с помощью паблик кернела с каггла. 2. Взяли весь датасет 2025 года и к нему доложили 80% датасета 2023 года, добавив 112 новы классов. Оставшиеся 20% данных 2023 использовали для валидации. Локальная валидация не билась с ЛБ, но такая схема давала лучшую оценку сходимости модели. 3. Дополнительно вытянули еще данных из обоих открытых источнико, Xeno-Canto и INaturalist. 4. Запсевдолейбили всю неразмеченную часть, чтобы еще немного улучшить итоговые моделиМодели:Обучили зоопарк моделей на двух видах спектрограмм. Вообще почти всегда есть смысл покрутить параметы построения спектрограмм для того, чтобы увеличить разнообразие и не потерять в качестве. Главное одну модель не учить на двух видах.Список моделейtf_efficientnet_b0_nstf_efficientnetv2_b3tf_efficientnetv2_s.in21k_ft_in1kmnasnet_100spnasnet_100Интересные приемы для обучения:1. Семплировали случайные отрезки, а не честную нарезку по 5 сек. Говорят, так лучше училось2. Добавляли человеческий голос для аугментации. На мой взгляд не сильно вяжется с удалением голоса из изначального датасета, но видимо использовали этот прием чтобы голос 'равномерно' размазать по всему датасету3. FocalLoss4. Использовали Model Soup. Это способ 'ужать' в одну модель несколько чекпоинтов. Усредняем веса например 20 resnet c одинаковой архитектурой и обученных на одних данных. Получаем почти ту же стабильность, что и усреднение 20 отдельных предикшнов этих моделей, но со скоростью инференса и весом одного resnet.Кстати, тут можно обычно докрутить и делать только GreedySoup: пробовать в ансамбль добавлять только те модели, которые делают предикты лучше. Но опять же, тут надо верить в свой CV, а в этом соревновании наверно никто не верил в свой CV.Для сабмита использовали Post-processing with power adjustment. Идея проста, работает для очень классификации с очень большим числом классов. Берем предикты, из них выбираем n самых 'уверенных' и усиливаем их, занижая скоры для прочих классов.

Роман Писаревский / Про рекламу

Авторепост

А что если…Смотрите, Яндекс нам говорит:Ребята, ставим все метрику, и обучаем рекламные кампании на какие-то цели - и только так ваша реклама будет работать.Но при этом, мы все равно видим что трафик скачет как в жопустрелянный по разным сегментам. Даже если кампания обучена. То в одно объявление, то в другое. То в один возрастной сегмент - то в другой. Ну вы поняли.Так, а что если НЕ ставить метрику???Трафик все равно скачет, а ботов (возможно) можно и избежать. Они же на метрике завязаны. Наверное.Прикиньте, если Яндекс специально нас заставляет ставить Метрику, потом гонит туда ботов. Эта метрика на них обучается и вся эта конструкция прогрессирует. А что если просто не ставить Метрику?🤔

РИСЕРЧОШНАЯ

Авторепост

✅ Стоит ли верить в Scaling Law?Возможно, вы часто слышите про масштабирование рекомендательных систем, но откуда весь хайп вокруг этого? Кажется вполне логичным высказывание если обучим модель на больших данных, то получим лучшее качество. Но кажется что не все так просто, как на первый взгляд.И в итоге мы получим три параметра в формуле масштабирования:⭐️ объёма модели (число параметров)⭐️ размера обучающего датасета⭐️ вычислительных ресурсов (число FLOPs)Эти законы были впервые систематически описаны в контексте трансформеров в статье OpenAI:😛 `Kaplan et al., 2020 — "Scaling Laws for Neural Language Models"`Они показали, что loss моделей убывает как степенная функция от размера модели, данных и compute.Да и в общем-то в LLM, кажется логичным фурор над self attention и трансформерами, данные повсюду, и они бесплатные бери да пользуйся. Именно поэтому scaling law часто обсуждается в контексте трансформеров. Трансформеры оказались архитектурой, которая масштабируется очень хорошо. В общем-то в сообществе RecSys посмотрели на это и подумали, а можем ли мы сделать тоже самое? И тут мы сталкиваемся со проблемами:1️⃣А откуда взять столько данных? Большинство данных вообще не отображают предпочтения пользователя, они шумные да и вообще разряженные процентов 70 юзеров сделают меньше 30 кликов, тогда как в LLM счет на тысячи токенов.2️⃣А как это все вместить в десятки мс инференса, инференс по всей истории юзера даже самых актуальных ллм явно даже с этим не справится (либо у вас есть свой датацентр для этого)Ну вот у нас есть sasrec, bert4rec, any transformer, которые вполне справляются, но несравнимы по объему даже с самой маленький LLM. Получится ли нам решить проблему масштабирования или нет? Оставлю открытую концовку для ваших комментов

Авторепост

DataChain: AI-хранилище для текстов, картинок, видео и не толькоТак совпало, что эта неделя у нас оказалась посвящена разным способам хранения данных. Не будет отходить от темы и закончим на DataChain — AI-хранилище для преобразования и анализа неструктурированных данных.🔵DataChain интегрируется с внешним хранилищем вроде S3, где у вас лежат ваши тексты, картинки, видео и прочие данные. Он создает свой внутренний датасет, где собирает информацию обо всех этих объектах и дополняет мета-данными, которые генерирует с помощью ИИ. 🔵Затем вы с этими данными можете делать почти что угодно — трансформировать, фильтровать, группировать, искать файлы по заданным критериям (например, выбрать только все фотографии с котиками). 🔵Поддерживает мультимодальное версионирование без копирования, дублирования и перемещения данных и эффективные процессы обработки. Он может обработать только новые файлы или перепроверить те, которые выдавали ошибки, не тратя время на то, чтобы пройтись по всему датасету.Вот так от печати на бумаге, перешли к AI с мультимодальным версионированием. 👀

PyLinux - Всё о Linux, Python и IT

Авторепост

👩‍💻 Библиотека Python: glomglom — это мощный инструмент для безопасного доступа, трансформации и извлечения данных из сложных вложенных структур (dict, list, JSON и др.).Идеальна, если ты работаешь с вложенными данными из API, конфигов или сериализованных структур и хочешь избежать множества try/except и проверок ключей.⚙️ Пример использованияfrom glom import glomdata = { "user": { "profile": { "name": "Alice", "contacts": { "email": "[email protected]" } } }}# Извлекаем вложенное значениеname = glom(data, 'user.profile.name')print(name) # Alice# Значение по умолчанию, если путь не существуетphone = glom(data, 'user.profile.contacts.phone', default='N/A')print(phone) # N/A# Преобразование структурыspec = { "username": "user.profile.name", "email": "user.profile.contacts.email"}user_info = glom(data, spec)print(user_info) # {'username': 'Alice', 'email': '[email protected]'}➕ Преимущества:🟢 Удобная работа с deeply nested структурами🟢 Гибкие шаблоны и спецификации извлечения (dict, list, tuple, lambda)🟢 Возможность задавать значения по умолчанию и валидировать структуру🟢 Подходит для ETL, API data extraction и конфигураций✔️ Установкаpip install glom➡️ Ссылка на документацию😎 PyLinux | #python_libs

Авторепост

Что такое SNP и зачем они нужны?Но для начала, немного о ДНК. ДНК- это инструкция по сборке организма, записанная на алфавите из четырёх букв: A, T, G и C.Каждая буква- это азотистое основание:• A — аденин• T — тимин• G — гуанин• C — цитозинУ всех живых существ ДНК состоит из этих букв, но из-за мелких точечных мутаций последовательность немного отличается у каждого организма. Такие мутации называются SNP — single nucleotide polymorphisms, или по-русски — однонуклеотидные полиморфизмы 🤓🧬 А как это выглядит?Внешне — никак. Но генетически — очень даже.Допустим, у Васи на позициях 1485 и 77 стоит буква A, а у Пети — G, в то время как на позициях 207 и 6792 у Васи буква T, но у Пети C, и так далее по сотням тысяч подобных позиций. Эти отличия и делают ДНК каждого уникальной 🤩И вот что важно: SNP по большей части не возникают случайно, они наследуются. То есть, если два организма имеют очень много одинаковых SNP, то они скорее всего родственники. Чем больше совпадений- тем ближе родство. Поэтому SNP- это идеальный маркер для оценки генетической «похожести» организмов 🙏🔍 Как с помощью SNP определить родство?Вот у нас есть кучка ос, и мы хотим понять: кто тут чья мама, сестра, кузина и тетя, а кто вообще не родственник и просто сосед по гнезду. Что делаем: 1. Берём у каждой осы ДНК. 2. Определяем их генотип по 96 SNP. 3. Сравниваем:• Если совпадает много SNP — вероятно, это мать-дочь или сёстры.• Если совпадений поменьше — кузины и тёти.• Если почти нет совпадений — ну, просто соседи по гнезду.🧪 А как всё это технически делается?А вот это уже я показываю на видеве :)Я использовала систему Fluidigm, которая состоит из трех основных компонентов: 1. IFC (Integrated Fluidic Circuit) — это специальная пластинка, внутри которой по тончайшим каналам автоматически перемешиваются ДНК образцы с реагентами.Каждая реакция — на свой SNP и на свой образец 😌2. Juno - робот, который автоматически загоняет образец ДНК и праймер для SNP в микрофлюидную карту (центральный чип в IFC) — в каждую ячейку точно по капельке 🫡 3. BioMark — прибор, который считывает результат. Он определяет, какие буквы (аллели) у каждой осы в каждой SNP-позиции с помощью флюоресценции исходящей от образцов:• зелёный — AA• красный — GG• и если горят оба — значит AG (гетерозигота)Таким образом, можно прогнать 96 SNP у 96 особей (это аж 9216 реакций!) одновременно, и уже через пару часов получить готовый массив данных для анализа родства в колонии 😎#spilomena@BioPunkv

так и рождаются стратегии

Авторепост

Как то я заплатил за внедрение Powerbi 500 тысяч рублей и 3 месяца работы, а потом еще ежемесячно платил за обслуживание 20-30т рублей в месяц..А сейчас ИИ, 3 часа времени, 3000 рублей и сквозная аналитика базовая у меня готова. Вчера вечером решил попробовать и получилось.Теперь можно посадить ИИ-агента, который будет следить за показателями и может даже управлять потом компаниями.. и это уже будет в этом году. Походу теперь за веб сервисы не нужно будет платить.

Веб-аналитика от Якова Осипенкова / osipenkov.ru

Авторепост

Если у вас не получилось настроить отслеживание отправки формы с помощью Яндекс Тег Менеджера и стандартного триггера типа Отправка формы (ваша форма не вызывает стандартное событие submit, например, при отправке через fetch, AJAX или React), то вам точно подойдет вариант, описанный ниже.В его основе лежит специальная конструкция уровня данных (dataLayer), которую разработчик встраивает в код формы на сайте. О том, как это сделать, читайте в новом руководстве!💡 Это универсальный способ отслеживания отправки любой формы на вашем сайте с помощью Яндекс Тег Менеджера.✔️ Читать статью📊 Обучение Яндекс Метрике (по спеццене до 1 июля)

Антон Рожков. Интернет-маркетинг и управление командой

Авторепост

Как я автоматизировал поиск минус-слов в Директе с помощью PythonПродолжаю рассказывать как ИИ помогает в жизни. В данном случае я доработал скрипт с помощью Cursor, который писал 5 лет назад.Когда ты ведёшь десятки рекламных кампаний, даже рутинная задача типа минусовки может начать раздражать.Лет пять назад я работал на проекте Яндекс.Здоровье. Мне нужно было быстро разбирать отчёты, чтобы понять, какие слова в поисковых фразах тянут кампанию вниз. Раньше это выглядело так: выгрузка из Директа → фильтрация фраз с плохими метриками → поиск закономерностей глазами. И вот ты уже часами скроллишь CSV и сходишь с ума.В какой-то момент я начал изучать Python — и решил, что хватит страдать. Сделал скрипт, который:— берёт выгрузку из Мастера отчётов,— лемматизирует фразы (приводит слова к начальной форме),— считает, насколько каждое слово влияет на конверсию и CPA,— формирует CSV-отчёт, который сразу можно загрузить в шаблон Excel.Внутри Excel — сводная таблица. Сразу видно, какие слова тянут вниз, а какие, наоборот, помогают. А если данных мало — выручает minCPA: он показывает, насколько плохо может сработать слово с 80% уверенностью. Это помогает понять, как слово поведёт себя, когда данных станет больше.До скрипта один такой разбор занимал 2–3 часа. Теперь — меньше 10 минут. Стало проще ориентироваться в данных — без необходимости просматривать каждую поисковую фразу.Ну а теперь бонус: я подготовил инструкцию и сам файл, который берёт отчёт из Мастера отчётов Яндекс.Директа, лемматизирует фразы и раскладывает слова по строкам.Для Windows — исполняемый .exe, для Linux и Mac — скрипт на Python3. Пользуйся сам и делись с коллегами, если поможет:→ Инструкция по созданию лемма-отчёта (упрощение минусации)#ии #инструменты #ai #программа #яндексдирект #аналитика

Ночной Писаревский

Авторепост

Все говорят про вайб-кодинг, но никто не говорит про вайб-аналитикуЗа выходные собрал себе на Metabase дашборд, который подключается к PostgreSQL базе (ее же использует Replit) и выводит разные графики и показатели. Разумеется, я даже не знал, что такое Metabase и как им пользоваться, мне всё рассказал ChatGPT. Он же пишет мне нужные SQL запросы, когда я хочу вывести тот или иной показатель. Раньше: ⁃ Могу анализировать данные в Google Sheets с помощью сводных таблиц ⁃ Могу использовать готовые дашборды в PowerBI/Datalens, который собрали разработчики. Теперь: ⁃ Могу сам собрать любой дашборд, подключившись к базе напрямую ⁃ Могу запилить скрипт, который эту базу еще и пополняет внешними данными из других систем (например, из Stripe)Это ли не фантастика?

ОЛЕГ БАЛБЕКОВ

Авторепост

Привет!Не могу отпустить тебя в выходные, не поделившись крутым кейсом 🙂Кейс для тех, кто думает, что Big Data – это только про стартапы и маркетинг. Нет, друзья. У нас тут Промышленность с большой буквы – Pirelli. Завод. Станки. Миллионы операций каждый день. Итак, посмотрим подробнее?🛠 Задача: собрать данные с сотен станков, которые круглосуточно варят резину, и превратить этот хаос в понятную аналитику. Ранее всё делалось вручную – SQL-запросы, Excel, отчёты, которые складывались в таблицы, диаграммы, потом в отчёты по сменам, неделям, годам… и всё это – руками. Мы предложили решение: аналитическую платформу, которая сама: — собирает данные в реальном времени, — фильтрует по нужным критериям, — строит графики и диаграммы, — и даёт каждому отделу свой понятный интерфейс: от планирования до контроля качества.🧩 Сейчас запущено 3 модуля из 17: — Phase In – контроль запуска новых типоразмеров покрышек, — OEE – замер эффективности оборудования, — Циклы – статистика работы станков и операторов.И это только начало. Впереди модули по качеству, техническому обслуживанию и оптимизации расходов.Мы создаём по-настоящему кастомную BI-систему для большого производства. Без шаблонов и PowerPoint-фантазий. И если вдруг тебе интересно самому оценить результат – велкам на Behance, мы показали там все без прикрас :)Если у вас похожая история – напишите. Мы умеем превращать хаос в систему, даже если этот хаос весит 20 терабайт и пыхтит в цеху круглосуточно 🤖

Элина Якупова | Яндекс Директ для b2b

Авторепост

всем добрый обедУ меня интересная находка связанная с ИИ. Таблички в гугл можно программировать с помощью чата GPTВот несколько интересных запросов, которые я перестала делать руками:- Переносить данные из 1 таблицы в другую - теперь я просто создаю промт, что и куда вставить- Корретикровка данных внутри ячейки (убрать пробелы, точки, валюту)- Задаю правила по которым надо внести, те или иные данныеКак я это делаю:- Задаю запрос ГПТ - по типу "Вставь после названия каждой рекламной кампании поля Показы, Клики, СРС"- Обязательно!!!! Указываю, что нужно ссылаться на определенную таблицу (указываю ссылку - обязательно с правами редактора)- В коде он должен использовать ID таблицы гугл - В таблице во вкладке расширения нахожу кнопку как на скрине- Перехожу туда, вставляю код, сохраняю (надо делать сохранение после каждого нового изменения)- Нажимаю "Выполнить" и наслаждаюсь процессомПодойдет тем у кого много статы или не стандартные отчетыЕсли что-то не понятно или есть вопросики, обязательно пишите, помогу чем смогу)

Авторепост

Коллеги-подписчики обратились с вопросом о российских сервисах ИИ-обработки/дешифрирования космических снимков и тарификации их коммерческих версийЛовите мой субъективный список с активными ссылками:👌 Easy-Sat: ЦПДиТ- от 1 руб/кв.км <5>@easy_sat_russia🔥 Карта пожаров, Морской портал: Сканэкс - от 8 000 руб/месяц <4>@SCANEX_news ⚡ Созвездие-Вега: ИКИЗ - от 0,11 руб/га в год <1>@mediaiki👨‍💻 PHOTOMOD Radar Neuro: Ракурс - лицензия на ПО: 99 000 руб <9>vk.com/racurs_ph👀 Vision: Панорама- от 7,20 руб/кв.км <8>@kbpanorama 👾 Pixel.AI, Цифровая Земля: ТерраТех - от 30 руб/кв.км <2>@terratech_news🤡 Mapflow: GeoAlert- от 0,8$/кв.км <3>@geoalert 🚀 SR Data AI: SR Data- от 2 руб/Мб <6>@srspaceru 🤖 Иннополис - Artificial Cartographer: InnoIT- Geovision: Инногеотех - по запросу@iu_InnoIT, @innogeotech Ставьте лайк с соответствующим эмодзи лучшего сервиса, которым пользовались сами и рекомендуете другим ✌️

Открыть ленту