SILLYFEED

Data Science и аналитика — страница 17

Лента темы

Сайтозависим
Привет 👋 Слушок начал гулять что накрутка ПФ усё.Но. Даже после того как был обвал позиций и многие отнесли это к апдейту поиска Яши. По уменьшению влияния ПФ сайта на позиции, я не увидел что накрутчики ботов, снизили темпа выгула ботов. Мне даже показалось наоборот, что их стало больше.Бедолага антибот как отлавливал тысячами их так и ловит. Скорее всего это закончится пока Яндекс не применит прям кардинальных шагов к сайтам. И то потом будут использовать для черного сео, чтобы топить конкурентов. Так как куда то же надо будет девать миллионные фермы ботов 🤖 А пока, с большей вероятностью ПФ работает.Вы что нибудь заметили?)
OSINT | Форензика
🌺Инструмент для работы с картамиOverpass-Turbo StreetView Extension это достаточно интересный и полезный для Geoint-специалиста инструмент, доступный в формате расширения. Оно делает переход от результатов поиска в Overpass Turbo к просмотру карт и аэрофотоснимков особенно удобным.Если вам нужно глубже погрузиться в изучение территорий, или проанализировать геоданные, данное расширение станет для вас отличным помощником. Оно досточно простое в использовании и его достаточно установить в браузер на Chromium чтобы начать пользоваться.
Azat Ayupov (Rh+Gh)
Нейроджин и тут помог сделать довольно сложную для меня штуку. Сразу хочу добавить: я считаю, что опыт в написании кода все равно должен быть, иначе вряд ли что-то выйдет. Даже элементарно сложно поставить задачу, не зная как что работает. Поэтому база должна быть имхо.На сайте администрации города выложен генплан города с градостроительными зонами. Они нужны для определения того, что можно, а что нельзя строить на земельном участке. Например в промышленной зоне нельзя строить многоквартирные жилые дома и наоборот, промка в жилой зоне не допустима (хотя тут нужно смотреть более конкретно список). Генплан города есть в векторном виде и еще есть интерактивная карта, но она немного глюченная и неудобная. И еще там же на сайте есть архив с XML файлами - координатами в системе МСК 02 и всеми данными. То есть по идее можно взять весь архив, выкачать его при помощи питоновского кода - вытащить координаты, перепроецировать их из мск в географическую систему координат, добавить все необходимые данные, задать цвета и все записать в виде GeoJSON файла и потом просто подгрузить на любую карту в виде векторного файла. Например в Mapbox. С точки зрения экономии времени, сил и прочих ресурсов идея супер правильная. И да, ещё дать людям возможность скачать geojson. Сделать как-то все по человечески и для людей.И вот - первый шаг сделан. XML выкачан, первый полигон получен. На скрине Жилая зона, какая-то там, в общем не важно. Двигаемся дальше на пути к созданию нормальной карты нашего города, которая бы быстро работала и приносила пользу людям.
Выживут только свитчеры
Как я изучаю новоеКогда мне нужно изучить что-то с нуля, я ощущаю себя как слепой человек в незнакомой ему комнате. Я на ощупь начинаю исследовать эту комнату (предмет изучения), сантиметр за сантиметром, пока наконец в моей голове не возникает полная картина: диван вот тут, горшок с цветком вот здесь, а картина висит справа от двери. При этом я иду от общего к частному. Т.е. сначала я понимаю, что «на этой полке стоит горшок с цветком», а потом уже выясняю, что это конкретно за цветок.Сделала в Miro наглядную схему, как я начинала изучать дата-аналитику. Алгоритм такой: запрос с гугле (например, «Что такое дата-аналитика?» —> выписывание неизвестных терминов (например, «SQL, Python, Визуализация данных») —> запросы в гугле по неизвестным терминам.
делаю вид что умный
Analysoor checkerЧет они там намудрили, 3 таблицы разные, я так понял одна таблица это совмещенная 1 и 2 + их оценка кошеля.Чекер проверяет нахождение вашего кошелька в одной из трех таблиц и потом в results.txt пишет в какой таблице какие коши, дальше уже сами там оценивайте по их данным.Никакие библиотеки не нужны, просто питон на компе.Все по классике:1. Add all wallets in wallets.txt2. Run main.py3. All eligible wallets will be in result.txtScript runs in one thread, if you have many wallets, be patient.Шанс того, что я вам как-то помогу с запуском в комментах около нуля, гл
Мишки в интернете
Всем добра А как правильно то?Ребят, последнем посте мне накидали прям норм так в личку, что мол неправильно ты, Мишка, индекс проверяешь.В связи с этим хочу сделать мини опрос1. Смотрите ли вы индексацию в том гео в котором сайт/трафик или «просто смотрите».2.Какой самый верный способ проверки индексации страницы1. domain.com/url2. site:domain.com/url3. domain.com отрывок текста со страницы/иное уник значение4. отрывок текста со страницы5. отрывок текста со страницы в «»Проверив каждым из этих способов мы получили совершенно разные результаты «индексации»Да, если ссылка в консоли, она работает скажут душнилы, но зачастую имеем другой результат.П.с. Обновленные результаты скоро выложимП.с. Если так не чекали - забирайте на тест, много интересного можно найтиВсегда ваши @mishkivinternete
Тармолов про работу
Около десяти лет назад, чтобы проанализировать логи в Яндексе, необходимо было подключиться к специальному серверу с архивами access-логов и запустить скрипт на bash с использованием команды zgrep.Если же требовалось анализировать логи за несколько дней, это превращалось в длительное приключение.Однако все изменилось с появлением YT - собственной MapReduce-системы, способной обрабатывать огромные объемы данных. Это не просто звучит рекламно, YT действительно впечатляет ;)Вычислительные кластера в YT носят имена знаменитых математиков и ученых, таких как Hans Hahn. Это проявление уважения к великим умам человечества - очень по-яндексовому :)В прошлом году произошло значимое событие, и YT стал доступен в открытом доступе под именем YTsaurus. Теперь любой желающий может запустить свой локальный кластер с использованием того же docker-контейнера.Не буду перечислять все особенности и преимущества YTsaurus, легче прочитать на официальном сайте.На мой взгляд, YT предоставил тот самый MapReduce с "человеческим лицом", который был нам так нужен. Теперь YT используют разработчики, тестировщики, аналитики, менеджеры, дизайнеры, саппорт и так далее.Перечисляя столько профессий-клиентов платформы YT, я понял, что проще назвать тех, кто не использует YT. Может быть, только хозяюшки?#инфраструктура
Дорвеи, SEO etc.
Небольшая подборка сервисов, где можно анализировать трафик и видимость сайтов RU/БуржВсе из них имеют погрешность в данных т.к. собирают стату из расширений, прогнозируют на основе видимости по своим базам или покупают чужую дату, но в сумме можно проанализировать практически любой сайт (не нулевой).▫️ https://www.similarweb.com/ru/▫️ https://spymetrics.ru/ru▫️ https://metrica.guru/ru▫️ https://www.keys.so/ru▫️ https://spywords.ru/▫️ https://www.bukvarix.com/site/▫️ https://mutagen.ru/▫️ https://be1.ru/▫️ https://www.similarsites.com/▫️ https://www.worthofweb.com/website-value/▫️ https://ahrefs.com/traffic-checker
AI[ex]Time
Продолжаем серию #interview_questions. Напомню, под этим тегом я пытаюсь собрать не самые популярные вопросы с собеседований, которые часто вызывают трудности. В этот раз вопрос по теме статистики и проверки гипотез, который встретился на собеседовании в одну большую компанию, занимающуюся объявлениями.Вопрос: при условии, что H0 верна, какое распределение будет у p_value?Ответ: Равномерное. Вот хорошее чисто математическое объяснение https://statproofbook.github.io/P/pval-h0.html. Заключается оно в том, при H0 можно показать, что для любого 'a' P(p_val < a) = a (отсюда как раз и вытекает возможность устанавливать ограничения на ошибку первого рода в привычном виде по типу "сравни p_value с 0.05"). Единственный вариант, когда возможно такое равенство — когда p_value имеет равномерное распределение на отрезке [0, 1].Недавно появилась мысль собрать небольшой список из вопросов подобного рода, например, 100 вопросов по темам ML, NLP, CV, DA в формате вопрос/ответ/доп. ссылки. Было бы такое интересно?
Сделал сам + AI
Облом с аналитикой 📉Я люблю цифры — с ними жить проще и понятнее. Чем больше пользователей → тем больше хочется про них знать. Не только установки/удаления/просмотры страницы в сторе, но и открытие расширения, длительность записей, частотность, чтобы понять, кто пользуется и зачем.Звучит как супер простая задача. Вот есть аккаунт Google Analytics, нужно просто отправлять туда ивенты по открытию расширения и нажатиям кнопок, и всё.Оказалось — аккаунт в Google Analytics создается автоматически и только с правами на чтение. Чтобы отправлять события, нужно знать API secret, который доступен только администратору. Кто же администратор? ¯\_(ツ)_/¯ Как итог, код по отправке ивентов написан, но отправлять некуда🥲Поддержка ответила: «Спасибо, мы знаем про проблему, но пока не собираемся её решать, поищите воркэраунд в интернете» 🤡
Королёв про всё остальное (ex UX Research)
Можно делать количественные выводы на маленьких выборках, если привязываться к причинам с изученной частотой.Допустим, вы исследуете банковское приложение для физлиц. 3 из 10 респондентов не понимают, как посмотреть историю платежей. Считаете доверительный интервал, и оказывается, что 3 из 10 это от 1 до 59% популяции (p 0.95), т.е. проблема может быть супер редкой или супер частой. Это почти бесполезное знание.Вы копаете глубже и оказывается, что эти трое - единственные из всей тестовой выборки, кто не пользовался другими банковскими приложениями до этого. Добираете ещё четверых таких новичков, и да, оказывается, что из 7 новичков 6 не поняли, как смотреть историю операций (а из 7 опытных 7 поняли).Смотрим дальше: какова доля таких новичков в вашей аудитории? Гуглите, что аудитория банковских приложений на вашем рынке растёт на 5% в год, т.е похоже, что вы нашли частую (46-99% при p 0.95) проблему для 5% аудитории.Но потом вспоминаете, что стратегия вашего банка сейчас в том, чтобы привлекать больше подростков, 80% роста аудитории в этом году заложено на них. А аудитория среди подростков растёт на 20% в год, т.е. каждый пятый - новичок.Итог: ~15% (80% подростков*20% новичков среди них) аудитории вашего приложения в этом году - новички, и минимум половине из них скорее всего будет сложно найти историю платежей.Или ещё пример: вы делаете систему документооборота, и у одного из опрошенных клиентов специфическое требование - выгружать документы в каком-нибудь странном формате с водяными знаками на фоне.Выясняется, что нужно это потому, что клиент участвует в гос тендерах, а там при подаче обязательны документы в таком формате. Ищите инфу (иногда по косвенным данным), какая доля компаний вообще участвует в гос. тендерах, хоп, понимаете примерный размер аудитории, для которой требования релевантны.Или (это последний): вы делаете приложение для покупки ЖД билетов, и 4 из 10 людей сказали, что им важна модель вагона, хотят видеть её в поисковой выдаче при покупке билета. Копаете, выясняется, что все четверо состоят в клубе "побывай в вагонах всех существующих моделей". В нём всего три тысячи человек (вы нашли группу в ВК и форум), и это 0.001% вашей аудитории. Но четверо из них пришли к вам на интервью, т.к. они все друг с другом знакомы.Логика проста: наблюдения на маленькой выборке->огромный доверительный интервал->причины с изученной частотой->маленький доверительный интервал.На словах звучит красиво, а на деле так складно не получается - явные причины встречаются редко, обычно поведение обусловлено десятками факторов. Но всё часто находятся причины, которые позволяют сузить вероятную частоту с 1-56% до более практичной.Особенно в b2b продуктах - процессы клиента диктуют требования к продуктам, и маленькие выборки часто получается компенсировать типизацией клиентов и открытыми данными по ним.