✅ Любишь logQ применять — люби и частоты считать.Но мало кто знает, как решить одну из вечных болей — расчёт частот по миллиардам item_id.Вы все знаете этот кошмар, когда надо делать logQ-коррекцию или семплить негативы по популярности. Ты берёшь огромный словарь на Python и начинаешь его заполнять частотами. Особенно если вы сильно ограничены ресурсами, тогда у меня для вас плохая новость. Таблица частот для 10^9 ~ 4ГБ, и вроде бы не страшно, НО на каждый порядок она будет увеличиваться кратно.Так вот знакомьтесь — CMS (Count-Min Sketch).CMS — это маленькая таблица фиксированного размера, которая не растёт, даже если у тебя миллиард новых ID каждую неделю.Ты просто пропускаешь item’ы через несколько хэшей и обновляешь счётчики в таблице.Когда нужно узнать частоту — берёшь минимум из нескольких значений. cols → 0 1 2 3 4 5 ...h₁ [ 0 | 5 | 0 | 2 | 0 | 1 | ... ]h₂ [ 3 | 0 | 4 | 0 | 2 | 0 | ... ]h₃ [ 0 | 1 | 0 | 3 | 0 | 2 | ... ]Один и тот же ID каждый раз попадает в одни и те же клетки, аккуратно увеличивая их значения.В итоге у тебя всегда есть приблизительная частота, причём погрешность минимальна и даже полезна — слегка занижает популярность самых жирных item’ов, давая тебе бесплатную регуляризацию в logQ и sampled negatives.Конечно, если вы не считаете миллиарды айтемов будет проще посчитать линейным методом. Но если вы условный Pinterest — вам скорее всего придется искать приближенные методы.❗Мне особенно понравилась эта статья, она похожа на Unified Embedding. Эти два поста напомнили мне подход ученых к астрономии, если вы не можете что-то посчитать точно, вам достаточно найти приближение.MADE IN @researchoshnaya
РИСЕРЧОШНАЯ
@researchoshnaya · 2.4K подписчиков
Посты канала РИСЕРЧОШНАЯ в SillyFeed: единая лента публичных Telegram-каналов со ссылками на оригиналы.
Канал Дани Картушова о рекомендательных системах и AI.Более подробно — в первом сообщении.Автор —@redpfКаналы —@researchoshnaya·@danyatyping
Посты канала
4️⃣5️⃣6️⃣ Главный bottleneck в рекомендациях — embedding-таблицыДавно хотел рассказать про такую интересную штуку как unified embeddings, и кажется, что этот подход реально БАЗОЙ в генеративных рекомендациях.Если по-человечески, то раньше каждая фича жила в своей отдельной табличке с эмбеддингами, и, мягко говоря, при миллионах товаров или пользователей это была катастрофа.В отличие от LLM где вокабуляр составляет 40-50 тысяч токенов, мы оперируем миллионами товаров и пользователей. Поэтому мы ограничены как в расчете full CE, так и в том что-бы хранить все пространство. И вы знаете, мы неплохо научись бороться с этим бутылочным горлышком. Если нам тяжело и дорого считать всё напрямую — давайте считать приближенно.Один из таких подходов предложили исследователи Google под названием Feature Multiplexing: вместо независимых таблиц для каждого признака модель использует единое пространство эмбеддингов. Причем размеры этой таблицы мы можем задавать сами — а лукапы реализовать через агрегацию по хешам. Таким образом, один унифицированный эмбеддинг товара несёт семантику сразу из разных источников. По сути вы заставляете модель, в каком-то линейном слое, научить правильно декодировать эмбеддинг.Безусловно за все хорошее надо платить — теперь у вас открывается пассивный навык в виде 1-5% коллизий.Кроме Google unified матрицы используют Pinterest, Netflix, Yandex, WB, определенно стоит присмотреться!➡️ Unified Embedding❗В предыдущем посте кстати угадали альтернативную версию — semantic id. Одну из проблем мы решили, но вот вам следующий кейс: FullCE вы считать не можете у вас слишком много классов, а что тогда?MADE IN @researchoshnaya
4️⃣5️⃣6️⃣Как WB сделал «Поиск по фото»Продолжаю рассказывать про прикольные проекты коллег. В этот раз прикольную фичу — поиск по фото, которой я сам частенько пользуюсь. Особенно если нашел какую-то прикольную вещь в рилсах, или буквально недавно нашел чайник-термос в одном заведении. С точки зрения юзера схема супер простая: Заскринил — загрузил — выделил нужный объект — выбрал нужный товар. Кстати прикольно, что у нас есть OCR по объектам, я такого в других местах не встречал. Можно по одному фото сразу несколько вещей найти.Под капотом там не просто CLIP, сначала YOLO вырезает объект, OCR снимает артикулы/текст, потом SigLIP-эмбеддинги улетают в векторный поиск Qdrant (HNSW). Товары лежат уже в эмбеддингах заранее. Самое интересное — мультимодальная логика: поиск живёт не только в изображении. Фото обогащают тегами, которые заранее сгенерированы LLM офлайн по описаниям и визуальным признакам.Пост у ребят получился достаточно понятным, почти все технические детали разобрали, мне было легко читать.➡️ Почитать можно тут❗Ставьте 🔥 огонек если пользуетесь поиском по фотоMADE IN @researchoshnaya
Ещё по теме «Карьера и маркетинг»
Карьера и маркетинг300 СерегДелюсь с вами первой идеей живой историей (ярчайшим инфоповодом), которая прогремела 2 мая.В середине апреля один идейный Серега предложил всем тезкам встретиться на майских праздниках и выпить по кружке пенного. Для этого он создал закрытый чат для желающих. Отклик не заставил себя долго ждать — в нем оказалось несколько сотен человек. Встречу решили назвать «300 Серег». Прошла она в баре «Руки Вверх», где в видеообращении всех Серег поприветствовал Сергей Жуков.Будем обсуждать тот момент, что бар, и без того пользующийся популярностью, закрыли ради одной встречи? Думаю, нет. Все умеют считать.Какие охваты и репосты получил инициатор встречи, мне подсчитать не удалось, так как я узнала уже тогда, когда о ней писали и говорили многие. Но факт остается фактом: многие ждут продолжения в Питере и продолжают объединяться.Думаю, вскоре этот тренд захватит еще больше имен, а может быть, кто-то решит собраться и по знакам зодиака:) Весело было бы попасть на встречу трехсот Близнецов, учитывая, что все они будут говорить одновременно и обо всем подряд
Если вы все еще думаете, как запустить рекламу, создаете креативы и считаете бюджет на продвижение, вдохновитесь этой историей. Возможно, стоит хотя бы раз отойти от привычных механик и попробовать сделать что-то неординарное?Действуйте быстро, как и в случае с любым трендом и инфоповодом, — тогда сезон будет не только горячим, но и впечатляющим. Кстати, эта новость облетела многие СМИ и блоги. Те, кто давно читает мой канал, уже поняли направление мысли: хороший инфоповод лучше любой платной рекламы. Немного наблюдательности, творчества, креатива и скорости.Будете собирать всех с именем Виктория — зовите
Подписаться на канал в MAX | ВК


🤑 Вайбкодинг здорового человека, не курильщика.ИИ открывает окно возможностей (особенно, если насмотрелся инфоциган) и первое, что делает начинающий вайбкодер - бежит делать клон какого-то продукта, чтобы заработать хулиард денег, а еще хуже, если начинает играть в новатора и придумывать крутой, но никому не нужный продукт, а лучше не один, а сразу несколько, ну чтобы реализовать все свои гениальные идеи!Трещина на розовых очках появляется когда его Франкенштейн с тысячами строк кода, кучей интеграций, десятком технологий в стеке отказывается работать, как было задумано! Модель, тариф и количество токенов не спасут т.к. дело не в этом!Сначала кодинг, потом вайб! Дабы сделать что-то большое и стабильно работающее, нужно на базовом уровне разбираться в разработке - синтаксис, архитектура и т.д. Только при таком комбо будет ожидаемый результат.Но есть и хорошие новости! ИИ реально может вас апгрейдить, если вы будете использовать его локально в задачах автоматизации... Не пилить второй ahrefs, а сделать скрипт для обработки выгрузки из ahrefs. Не пилить тысячный таск трекер, а сделать скрипт, который из выгрузки закрытых задач генерирует отчет для клиента и т.д.Такими мелкими ИИ рычагами вы можете существенно оптимизировать время на выполнение рутинных задач. Больше задач за один и тот же промежуток времени = профит.Это как использовать электрическую газонокосилку вместо ручной косы, оказывая услуги по стрижке газонов!Всем профита и хорошего дня 🤘
SeoPraktika | Кравцов Виталий
Ну, судя по вашим "ну очень активным комментариям" под предыдущим постом😄, вы двигаетесь на заряде позитива и в разрешённых социальных сетях — в частности в MAX и VK. Эта позиция мне максимально понятна и ясна, и я сам стараюсь развивать эти площадки. Ладно, MAX я пока не развиваю, а просто аккуратно наблюдаю за ним со стороны.☝️ Но многие маркетологи, да и бизнес в целом, забывают про другие площадки или не расценивают их как источник клиентов. Завтра выйдет пост, где в формате Xmind я покажу вам работающие связки, которые вы сможете применить, а также те, которые, по моему мнению, кажутся максимально сомнительными и на которые не стоит тратить время.

И главный вывод, который я для себя сделала: дело не только в том, насколько умна модель, а в том, хорошо ли умеем мы с ней разговаривать. Пока, кажется, ответ — «не очень».@FemtechForce — о технологиях для здоровья женщинТекст подготовила #ОльгаТитова
Про AI-ускорение рутины разработчиков, которого... НЕТ! ч.5: свежие рандомизированные контролируемые исследования (РКИ) и не только.Покопался в актуальных исследованиях, отделил всякие опросы и ангажированные репорты от РКИ, выбрал только актуальные, за полгода-год. Вот, что получается:1️⃣ Самая известная работа METR (пост), которая показала прирост +20% по ощущениям и -20% по факту, получила странную попытку репликации (фев'26) от тех же авторов: взяли больше разрабов (57), понизили ставку ($50/час), получили +18% AI-ускорения для 10 участников из прошлой работы и +4% для 47 новых. Но до половины разработчиков отказались от неAI задач (??!!) и организаторы посчитали результаты ненадежными.Непонятно, почему самая известная работа по теме так и не получила нормального продолжения, с актуальными инструментами. Есть интересный разбор второго исследования на lesswrong. tldr: "ничего непонятно".2️⃣ "How AI Impacts Skill Formation" (фев'26): РКИ про обучение новой python-библиотеке - участники случайно делали задачу либо с AI-помощником, поиском и инструкциями, либо только с поиском и инструкциями. AI не дал статистически значимого ускорения по времени задачи, но результат теста на понимание упал на 17% (vs контроль без AI).Другими словами, AI помогает сделать задачу, но может мешать понять, что сделано. Особенно опасно для джунов и для ситуаций, где потом надо самому поддерживать код. Есть еще работа с такими же выводами (мар'26).3️⃣ Echoes of AI (фев'26), проверяли влияние AI на поддержку кода: разработчик добавлял фичу в Java/Spring Boot проект (с AI или без AI), другой разработчик получал решение и вручную его дорабатывал. Первые сделали задачу на 30% быстрее (и аж 56% для power AI-юзеров), а у вторых при поддержке кода был большой разброс от -45% до +33%, и в среднем весь прирост пропадал. 4️⃣ Не РКИ, но интересная работа (янв'26): американские разработчики в SAP несколько дней сдавали анкеты, записи экрана/мыши/клавиатуры, физиологические данные с браслета. В контролируемых сессиях были задачи на Java: кодинг, дебаг, документация, unit-тесты, мозговой штурм и др. Выводы кратко:• Умеренное использование AI сокращало время выполнения задач, но избыточное - мешало.• Когда разработчик начинает постоянно переключаться между кодом, подсказками, чатом и проверкой ответов, то продуктивность падает. • Лучше выглядели сценарии, где было взаимодействие с чатом. Вероятно, потому что чат лучше подходит для объяснений, проверки логики и задач, где нужно понять контекст.• AI одновременно воспринимался как повышающий и продуктивность, и когнитивную нагрузку.5️⃣ Тоже не идеальная "Speed at the Cost of Quality" (ноя'25): как влияет AI кодинг на дистанции в месяцы. tldr: главный вывод авторы вынесли в название работы - AI резко ускоряет разработку в краткосрочной перспективе, но одновременно увеличивает технический долг и сложность кода, что потом начинает тормозить проект. Добавленные строки выросли на +281% в первом месяце и +48% во 2-м, к 3-му месяцу вернулись к базовой линии. По коммитам аналогичный паттерн +55%/+14%.Рост накопленной сложности на 100% вызывает падение будущей скорости на 65%, создавая самоусиливающийся цикл технического долга.Устойчивая деградация качества: +30% предупреждений статического анализа и +41% когнитивной сложности, удерживается на горизонте наблюдения и переживает контроль на динамику скорости. То есть AI-код внутренне более сложен, а не просто более многочислен.6️⃣ На самом деле свежих качественных работ я найти больше не смог - остальное что-то странное, ангажированное или устаревшее. Очевидно, что в каких-то частях разработки AI может дать буст, особенно для коротких циклов, крошечных команд и джуниоров. Но этот буст скромный, а не 10х (как нам многие обещают). Массовых увольнений инженеров из-за этого тоже не будет. А я еще три года назад писал (раз, два, три), что AI изобретен, и наша задача - искать те редкие части своей работы, где AI реально помогает! @kyrillic
Гибридные работники более здоровы и продуктивны, чем те, кто работает из домаИсследования показывают, что гибридные работники, которые совмещают работу из дома и офиса, теряют меньше рабочих дней из-за проблем со здоровьем.Они демонстрируют более низкие показатели ожирения и психического стресса. Гибридная работа также может улучшить диету и снизить риск депрессии.В отличие от этого, работники, работающие полный рабочий день из дома или офиса, как правило, теряют больше рабочих дней и имеют более низкие показатели здоровья.Эти данные подчеркивают важность гибкости на рабочем месте. Гибридная работа позволяет сотрудникам найти баланс между работой и личной жизнью, что приводит к улучшению здоровья и производительности.Гибридные работники активнее участвуют в программах по улучшению самочувствия, например, в медицинских мероприятиях и инициативах по питанию.Они также проявляют большой интерес к физической активности и заботе о здоровье. Сотрудники, участвующие в таких программах, теряют меньше продуктивного времени.Гибридный подход к работе приносит пользу как здоровью, так и производительности. Работа из дома полный рабочий день может ухудшить состояние здоровья, а принудительная работа в офисе не всегда приводит к лучшим результатам.Необходим баланс между гибкостью и посещением офиса, чтобы сотрудники чувствовали себя здоровее и были продуктивнее.Источник

Kaspersky сообщают о компрометации DAEMON Tools. DAEMON Tools - это программа, которая позволяет "подключать" файлы образов дисков (например, ISO) как будто это вставленный в компьютер CD- или DVD-диск. Программа популярная, развивается с 2000 года. Версия с базовой функциональностью доступна бесплатно. Я её в своё время активно использовал. Так вот, эксперты Kaspersky обнаружили масштабную атаку на цепочку поставок через DAEMON Tools. Вредоносные версии программы распространяются с официального сайта с 8 апреля 2026 года (затронуты версии 12.5.0.2421-12.5.0.2434). На момент написания атака всё ещё продолжается.[ Читайте полностью в посте на сайте avleonov.ru ]➡️Ⓜ️ MAX | @avleonovrus #DAEMONTools #SupplyChain #Malware #Backdoor #InformationStealer #Shellcode #QUICRAT #Kaspersky #Securelist #AVBDiscSoft #Typosquatting #ZeroTrust

Всем привет. Побороть отсутствующий московский интернет непросто 😇😩Понятно, safety first, но быть без связи на переездах со встреч и в офисах, это максимально дискомфортно. В общем пока поймала сеть.. РБК Про про современное онлайн-обучение. Мне нравится ключевое в нем - потребление доступно везде. Для меня онлайн-обучение - один из ключевых инструментов получения системно информации на сегодняшний день. Конечно, ядерную физику вряд ли в онлайне можно выучить, потому что для таких фундаментальных историй требуется глубинное погружение. Но более сопутствующие знания - вполне. Первый комментарий.

Вчера я брала интервью у писателя Колсона Уайтхеда. От того, чтобы похвастаться тут меня остановило только то, что я до последнего момента не верила, что все получится и живой настоящий дважды лауреат Пулитцеровской премии мне позвонит по телефону.Кстати о "позвонит". Это было оговорено особо - что Уайтхед общается только по телефону, никаких зумов и прочей дребедени.И вот наступает заветное время, Уайтхед присылает имейл, что не может дозвониться. А вот установил бы мессенджер Макс, такой бы проблемы не было, - подумала я!(в итоге все вопросики порешали, теперь у меня есть личный телефон Колсона Уайтхеда, личный имейл Колсона УАйихеда и интервью Колсона Уайтхеда))