Эмбеддинги и векторная база на практикеИтак, мы знаем, что векторная база работает с эмбеддингами. Но что это за "массивы чисел" и как они создаются?Эмбеддинг — это результат работы модели, которая преобразует сложные данные в числовое представление. Существуют различные типы эмбеддингов в зависимости от данных, с которыми они работают.▫️ Текстовые кодируют смысл слов и предложений. Популярные модели: text-embedding-3-large, mxbai-embed-large.▫️ Графовые отражают структуру связей между объектами.▫️ Мультимодальные объединяют разные типы данных. Например, модель CLIP может закодировать изображение вместе с его текстовым описанием.Размерность вектора может варьироваться от сотен до тысяч чисел. Например, предложение "Привет, мир" может быть преобразовано в вектор из 768 чисел.Когда вы отправляете запрос, он также сначала превращается в эмбеддинг. Векторная база данных сравнивает его с векторами, которые уже есть в базе, и находит наиболее «близкие».Пример запроса:1. Запрос: "новости про AI"2. Создаётся эмбеддинг запроса: например, [0.12, -0.34, 0.56, ..., 0.05]3. Векторная база ищет в своей коллекции векторы, которые максимально похожи на вектор запроса.4. Результат: возвращаются документы или фрагменты текста, которые семантически связаны с "новостями про AI".Понимание этого процесса важно для разработчика. Качество поиска зависит от модели эмбеддингов, которую вы используете, и от выбранной метрики сходства. В конечном счёте, векторная база — это инструмент, который позволяет приложениям с AI работать с огромными объёмами данных, предоставляя релевантные и осмысленные ответы.#ai
Михаил Омельченко | AI&IT
@django_school · 4.8K подписчиков
Посты канала Михаил Омельченко | AI&IT в SillyFeed: единая лента публичных Telegram-каналов со ссылками на оригиналы.
Технический контент, туториалы и документация для IT-продуктов.20 лет в IT. Менторство.Реклама и сотрудничество:Telegram -@DJWOMSYouTube -https://www.youtube.com/c/DjangoSchool
Посты канала
In-Context Learning — обучение LLM в контексте Одна из самых сильных сторон больших языковых моделей — способность учиться на лету, без дообучения или изменения параметров. Это и есть In-Context Learning (ICL).Когда вы вводите промпт с инструкцией или примерами, модель не "знает" их заранее. Она буквально строит логику ответа внутри текущего контекста. Контекст становится временной "памятью" и пространством для рассуждений.Почему это важно?▪️ ICL позволяет использовать одну и ту же модель для десятков задач без отдельного обучения.▪️ Качество ответа напрямую зависит от того, как мы формулируем подсказку: порядок информации, стиль и даже примеры в промпте способны радикально менять результат.▪️ Это фундамент для техник вроде few-shot prompting и chain-of-thought.Чем ICL отличается от few-shot?Few-shot prompting — это частный случай In-Context Learning. Мы даём модели несколько примеров "вопрос–ответ", чтобы она уловила шаблон. Но ICL шире: модель может адаптироваться даже без примеров (zero-shot) или с одним примером (one-shot) — достаточно правильно задать инструкцию.Пример one-shot In-Context LearningЗадача: Определи тональность отзыва (Позитивный, Нейтральный или Негативный).Пример: Отзыв: "Очень понравился сервис, всё быстро и удобно." Ответ: Позитивный --- Отзыв: "Поддержка ответила быстро, помогли решить проблему." Ответ:#ai #icl
Недавно решал одну задачу на CrewAI для стримера.Суть задачиНужно собирать новости компьютерных игр на текущую дату. Формировать пост для телеграм и отправлять боту в ТГ. Посты всегда должны быть одного формата.Нужны были не просто новости, а новые игры, dlc, патчи, обновления и только на платформу PC.Так же одним из требований было, минимальные затраты на использование. Т.е. дешёвый сервер и дешёвый API LLM. Если с сервером проблем нет, то вот с LLM как бы есть. Агентская системаВ проекте два агента. Один ищет новости, фильтрует и сортирует их по заданным требованиям. Даёт краткое описание по заданной структуре.Второй агент, на основе этих данных формирует пост для телеграм + хештеги.После завершения задач, скрипт отправляет пост боту в ТГ.Проблемы с которыми столкнулсяИногда второй агент выдавал новости которых нет. Первым шагом скорректировал промпт, чтобы он основывался только на данных которые ему были переданы.Вторая проблема, он выдавал часть новостей, которым пара лет. Эта проблема была решена с помощью доработки промпта и введением агента менеджера.Использовать API хороших LLM нет возможности. Было принято решение в бета версии использовать локальную LLM. По результатам тестов остановился на qwen3:8b. Выдает достойный результат и подходит под ресурсы ПК.На результат работы можно посмотреть в Телеграм канале стримера.#crewai
Ещё по теме «Технологии»
ТехнологииПриятный UXW-паттернПонравилась простая схема для заголовка и подзаголовка в CleanMyMac:(key object + amount)to (action)И ещё хедер блока сверху тоже помогает.А когда объектов нет, достаточно менять только заголовок: No (objects) to (action)#лайк
Искренне не понимаю смысла вести канал, если тебе не нравится вести канал и для этого нужен ИИ.Что может быть жалостней зрелища, чем ИИ, пытающийся виртуозно шутить про 🍆 и 💩?
📌 Обучаю ИИ мыслить как я, чтобы не получать дефолтных ответов и рассуждений.Вместе с Клодом я просмотрела сотни своих чатов и рабочих кейсов, чтобы проанализировать то, как я мыслю, и научить Клод мыслить так, как это делаю я. И собрать skill под названием «anya-reasoning».Оказалось, что мое мышление опирается на вполне конкретные исследовательские и философские фреймы. Некоторые из них я знала, некоторые названия своих же методов мышления увидела впервые. Получилась такая реверснутая поговорка про «Назови врага по имени». Соль в том, что для лечения своих травм, важно их знать и уметь назвать. Здесь также, чтобы научить кого-то мыслить как ты, нужно знать, как это назвать и упаковать. Получается, назвать друга по имени. Например, какие принципы в моих запросах и диалогах увидел Клод:📎 Методологическая триангуляцияПринцип из качественной методологии: валидный стратегический вывод требует сходимости минимум трех независимых источников данных. В бренд-платформах это три слоя: видение бизнеса, реальные паттерны аудитории и вектор движения рынка. Точка их пересечения это единственное место, где рождается жизнеспособный инсайт. 📎 Разделение на observation / inference / conjectureБазовый эпистемологический принцип: факт, вывод и допущение, три разных уровня утверждения. Observation: зафиксировано в данных.Inference: логическое следствие с явным основанием.Conjecture: допущение, выходящее за пределы данных. 📎 Stated ≠ revealed preferencesПринцип из поведенческой экономики. Заявленное предпочтение не равно действительному. То, что респондент говорит в интервью, это сигнал, а не факт о его поведении. Реальный драйвер решений реконструируется в разрыве между «сказал» и «сделал».📎 Корреляция ≠ причинностьНаблюдаемая связь двух переменных не является доказательством причинной связи. Перед каузальным выводом нужна проверка трех альтернатив: обратная каузальность, общий фактор, селекционное смещение. «X коррелирует с Y» и «X вызывает Y» принципиально разные утверждения, требующие разного уровня доказательств.📎 Критерий фальсифицируемостиНаучное утверждение должно содержать условие, при котором оно ложно. Гипотеза без теста на опровержение — это мнение. Каждая стратегическая гипотеза формулируется с эмпирическим тестом: какое наблюдение ее опровергнет и при каком пороговом значении. .📎 Системное мышлениеСложные организационные проблемы это петли обратной связи, а не линейные цепочки причин. 📌 Как сделать такой скил для себя по мотивам собственных рассуждений и фреймов мышления:1⃣ Попросите Клод пройтись по вашим рабочим диалогам и рассказать, какие у вас повторяющиеся паттерны мышления. В каких ситуациях они проявляются? Как вы решаете типовые задачи? Какими кейсами это можно подтвердить? 2⃣ Уточняйте, просите себя прожаривать, не пропускайте теневые стороны вашего мышления.3⃣ Попросите упаковать в скилл и объяснить ваши принципы мышления научно, чтобы потом модель реально могла их применять. Зачем все это делать и какие выводы?Для меня проблема пресности ИИ-ответов в том, что дефолтная логика опирается на тысячу чужих рассуждений, которые выливаются в какую-то базовую компиляцию. Моя задача при работе с ИИ — получить не идеальный, выверенный, но при этом базовый и скучный ответ, а тот, что наиболее похож на то, как я сама думаю и принимаю решения. Могу ли я совершать ошибки? Да, могу. Но любое мое решение это тест гипотез.
Научить машину видеть лесС конца 1970-х годов спутники накопили огромный открытый архив снимков Земли. Можно буквально «отмотать» историю леса на десятилетия назад и посмотреть, как он менялся. Именно это и делает команда проекта «Стражник» — научного исследования усыхания темнохвойных лесов, которое ведётся в Сихотэ-Алинском заповеднике.Сергей Дудов, исследователь растительности Дальнего Востока из МГУ, куратор проекта, составляет карты темнохвойных лесов для каждого десятилетнего среза — с середины 1980-х годов до наших дней. Это позволит проследить динамику их площадей почти за сорок лет.В основе — методы машинного обучения. Но это, как объясняет сам Сергей, не просто нажать две-три кнопки на компьютере. Нужно приложить экспертный опыт: выделить на картах обучающие полигоны, то есть объяснить машине — вот здесь наши леса, здесь их нет. И сделать это для каждого временного среза. Это кропотливая, интеллектуально ёмкая работа, которая требует не только владения технологиями, но и глубокого понимания территории.Горный рельеф Приморья добавляет дополнительную сложность. Склон, постоянно затенённый из-за углов падения солнечных лучей, может выглядеть на снимке точь-в-точь как еловый лес — хотя на самом деле там совсем другая порода. Такие точки нужно заранее выявлять и исправлять, иначе карта будет искажена. Именно поэтому результаты дешифрирования снимков обязательно проверяются в поле — ногами и глазами.

Японцы наконец сделали фехтование смотрибельным. Больше никаких споров о том, кто кого вообще ткнул.Система Fencing Visualized в реальном времени отслеживает шпагу и дорисовывает за ней цветные следы. Без датчиков и всей этой обвески.Теперь это выглядит как нормальный бой, почти как в Звёздных войнах.
#Авито и их тестыЯ всегда писал, что на #Авито мы все подопытные крысы, что там всегда ведется миллион А/Б тестов, что "Авита у каждого своя"...Вот всего лишь 2 блока аналитики и формирования страницы в браузере, их там больше. Telegram не дал вставить столько текста, даже из одного блока, предложил в виде файла загрузить.1 картинка - это всего лишь небольшое окно "сообщения", что на каждой вкладке торчит. Второй блок никак не отображается.Но я вам увеличил, везде мы все находимся в разных тестовых группах. Контрольных, и тестовых. Каждый наш клик, каждое действие отслеживается. Но не для того чтобы вы нашли выгодное предложение, а для того, чтобы с продавцов драть больше денег, а анализ нашего поведения продавать рекламодателям.Просто живите с этим, что нет одинакового #Авито у двух разных людей (аккаунтов)
Недавно президент Путин заявил, что зарубежные оборонные ведомства инвестируют в развитие ИИ и добиваются значимых результатов, поэтому, чтобы сохранить «суверенитет и само существование России», российские технологии в сфере ИИ должны быть конкурентоспособны на мировом уровне, а «российская правовая база в сфере ИИ должна не сдерживать, а стимулировать разработку передовых технологий».Однако понимание многими чиновниками пути к достижению суверенитета и конкурентоспособности исключительно через цензуру становится большой проблемой. Алгоритмы не нейтральны, потому что их создают люди, а люди не нейтральны по самой своей сути. Информационным цензором становится «горстка корыстных организаций» и это беда. Впрочем, сейчас этим информационным цензором все еще является государство и все «запретительные» инициативы, которые вызывают мало понимания среди населения, стратегически связаны с попыткой сохранить свою монополию. Системы ИИ не нейтральны, и они влияют на то, как думают люди через целый набор «фильтров». Но такие же «фильтры» работают и в традиционных СМИ, о чем написали Эдвард Херман и Ноам Хомский еще в 1988 году в знаменитой книге «Производство согласия. Политическая экономия массмедиа». Просто информацию, доступную через ИИ, фильтрует другой субъект, отсюда и конфликт государств с корпорациями, контролирующими ИИ, и государств, где базируются эти корпорации, с государствами, где они не базируются.Системы ИИ не нейтральны. Но книги тоже не нейтральны. Тем не менее, человечество в целом давно пришло к выводу, что запрет книг — это путь в никуда. Отечественные чат-боты (вроде «Алисы») цензурировать можно, вообще запрещая высказываться на те или иные темы, но они при этом становятся малопригодными для интеллектуального пользования. Цензурировать же иностранные ИИ невозможно, их можно только заблокировать, но выход ли это?Отказаться от ИИ в современном мире уже невозможно, а попытки его цензурировать будут либо снижать качество языковой модели и делать ее неконкурентоспособной, либо продуцировать собственные предубеждения цензоров, точно также превращая чат-бот не в аналитический инструмент, а в инструмент пропаганды (пусть даже «своей», а не «вражеской», но где гарантии, что «свой» цензор не может стать агентом «врага»?)Вполне достаточно сделать так, чтобы люди хорошо разбирались в ИИ и понимали особенности собственного мышления, чтобы сознательно взвешивать риски и преимущества. При понимании того, как работают модели и их склонности воспроизводить одностороннюю картину действительности, пользователь может обращать внимание на противоречии в тексте, задавать наводящие вопросы и пытаться получить более сбалансированную информацию. Это значит, что решение проблемы с предвзятостью ИИ лежит не в сфере ИИ (он всегда будет предвзятым), а вне ее — в сфере качественного массового образования и обучения критическому восприятию текстов и хотя бы базовым навыкам их анализа.Цель не в том, чтобы контролировать то, что говорят чат-боты. Это так же бессмысленно и бесперспективно, как контроль за тем, что пишут писатели в книгах или комментаторы в соцсетях. История давно доказала, что результат всегда оказывается обратным. Цель в том, чтобы воспитать интеллектуальное поколение с критическим мышлением и предоставить ему достаточно разнообразной информации для ее критической оценки. Большое заблуждение считать, что народ глуп и только и ждет, как бы прочитать «вражескую» информацию и совершить предательство, и единственный спаситель — это цензор (которого берут из того же народа). Но народ может стать глупым, если ему ежедневно это внушать. Поэтому, как сказал президент, российская правовая база в сфере ИИ должна не сдерживать, а стимулировать разработку передовых технологий. Подробнее о западных и отечественных исследованиях, касающихся предвзятости ИИ, здесь.Подписывайтесь на канал https://t.me/red_wolf_says
Декомпозиция ролей, и кто же всё-таки я?Меня всегда коробил ярлык «маркетолог». Почему? Да потому что на рынке в него пытаются уместить вообще всё — от рислсов и креативов до трафика, PR и бренд-стратегии.Так кто же такой маркетолог? Одни считают, что это тот, кто нагонит лидов, другие уверены, что это смысловик, кто видит "за горизонт".В любом смол-толке, когда тебя спрашивают: «А ты чем занимаешься?», если ответить «маркетолог», можно услышать: «О, настраиваешь рекламу в инсте?» или «Слушай, а почему у меня видосы не залетают?».И собеседники весьма удивятся, если на всё это ты ответишь «нет» или «да хз», потому что это не твоя спецификация.И вот я углубился в изучение вакансий в поисках международного опыта. И среди сотен позиций, где на одного человека с припиской «маркетолог» пытаются, как в товарняк, нагрузить скоп из всех возможных ответственностей, я наткнулся на вакансии, в которых впервые за долгое время прочитал про себя... Но об этом ниже.Распределение ролей.В СНГ HR-ы и фаундеры упускают стык профессий. Для них есть глобально два лагеря:1. Аналитики (Data Analyst / BI). Суровые технари. SQL-запросы, кодиннг, дашборды в Power BI или Tableau. Им не до маркетинга и оцифровки креативов.2. Маркетологи и их руководители. И им точно не до баз данных, API и программирования. Звучит вообще как из разных вселенных.И я реально не припомню ни одной компании, куда заходил консалтить, где были бы роли вроде Marketing Analyst, Marketing Operations Manager, MarTech Lead.Из свежего на HH: 3 вакансии маркетинг-аналитика на 400 вакансий маркетологов. Остальных ролей просто нет.Когда на RU-рынке появятся отдельные MarTech роли?Мне кажется, что скоро.На западном рынке, особенно в B2B, без жесткой аналитики ты можешь уйти в разрыв за неделю. Там Marketing Analyst окупает свою месячную зарплату за день.В СНГ дешёвый трафик до сих пор прощал ошибки, но это время уходит. Сейчас трафик улетел в космос, а привычка не нанимать аналитиков осталась, продолжая винить во всех бедах маркетологов.Плюсом во многих бизнесах отделы маркетинга и продаж часто конфликтуют. Идея объединить их через RevOps (Revenue Operations) — это культурный сдвиг, к которому многие еще не пришли, до сих пор споря, кто главнее и кто кому должен подчиняться.Как только рынок задышит (надеюсь, это произойдет в ближайшее время) — вероятно, роли ювелиров (маркетинг аналитиков и маркетинг операционных менеджеров) начнут появляться массово, так как без хирургии на одних только бюджетах вывезти не получится.Так кто я?Определенно точно Я Marketing Operations Manager (с хард-скилами Marketing Analyst, что часто совмещается).Просто почитайте ключевые обязанности этой роли:- внедрение и оптимизация технологического стека (CRM, инструменты автоматизации);- создание дашбордов, работа с SQL, когортами, LTV, отслеживание KPI, поиск инсайтов в данных для оценки ROI и интерпретации данных для оптимизации стратегии маркетинга;- оптимизация рабочих процессов и регламентов для масштабируемости команды;- работа на стыке разных отделов (маркетинг, продажи, IT, продукт).И это не CMO. Это идеально описывает меня — прожженного технаря, который всем этим занимался, что в итоге и привело к созданию и развитию Флаиты. Я не теоретик и не креативный смысловик.Я всегда находился не на своём месте, словно вне этого рынка и это оказалось правдой. Я бежал чуть впереди текущего рынка профессий, не замечая перспектив там, где моя роль действительно была нужна.И попробовать пробиться на эту роль сейчас = не только возможный буст скилов с перспективой оказаться в роли Director of Marketing Operations / VP of Revenue Operations, где требуется опыт 15+ лет, но и сильный буст для инструментов аналитики Флаиты.Я смогу внедрить самое мясо в свои продукты из лучших практик международных игроков, где такой человек, как я, необходим.Удивительно, как спустя столько лет я узнаю о своей реальной ценности не от HR-ов, хэдов и карьерных консультантов, а из западного рынка вакансий. Ощущения будто родился в альтернативной реальности, перепутав двери.
Copilot в Windows 11 стал потреблять до 1 ГБ ОЗУMicrosoft обновила встроенный ИИ-помощник Copilot в Windows 11, заменив нативный код на веб-компоненты. Теперь приложение работает поверх полноценного браузера Microsoft Edge, который скрыто запускается вместе с ним.В фоне Copilot потребляет около 500 МБ оперативной памяти, а при активном использовании — до 1 ГБ. Для сравнения, старая версия на WinUI требовала менее 100 МБ.В папке Copilot обнаружены все исполняемые файлы Edge, включая движок Chromium. Компания обещала оптимизировать систему, но это обновление увеличило нагрузку на ОЗУ в десять раз.#новости @pcTeapot
Несколько несложных мер, которые помогут защитить ваш телефон от мошенников:- установите возможность доступа к важным приложениям на телефоне только по биометрии (отпечаток пальца или Face ID),- отключайте функцию автосохранения паролей в браузерах,- установите сложный пароль для разблокировки смартфона (от 6 символов),- поставьте запрет на показ смс-сообщений на заблокированном экране, чтобы нельзя было увидеть подтверждающие коды, которые вам приходят,- не оставляйте свой телефон без присмотра и не передавайте его в чужие руки — профессионалу достаточно буквально одной минуты, чтобы оформить на вас кредит или оплатить покупку вашими деньгами.