llm security и каланы

@llmsecurity · 1.6K подписчиков

Открыть канал в Telegram

Посты канала llm security и каланы в SillyFeed: единая лента публичных Telegram-каналов со ссылками на оригиналы.

🦦🔪🦜контакт:@conversational_cat

Посты канала

llm security и каланы

Авторепост

Разумеется, у исследования есть множество ограничений. Исследователи крайне настойчиво дают модели очень конкретную задачу в системном промпте, а затем очень конкретно, пусть и не напрямую, толкают ее к тому, чтобы искать путь ее выполнить, пусть и в обход воли пользователя. Эти сценарии не очень реалистичные, достаточно упрощенные и во многом выглядят как предложения «поиграть в злой ИИ», что может искажать результаты оценок. С другой стороны, достаточно занятным является тот факт, что модели (в частности, Sonnet 3.5) могут занижать результаты на тестах, чтобы не быть урезанной в качестве «и в будущем принести больше пользы людям». Так или иначе, советую зайти в блог и почитать заботливо отобранные примеры диалогов – они как минимум занятные.На мой взгляд, эта статья (с точки зрения security и на сегодняшний день) в первую очередь говорит о том, что мне, как пользователю передовых моделей, хорошо бы было знать их системную затравку (чтобы знать, что именно модель, по мнению разработчиков, должна делать), иметь прозрачный CoT для test-time-scaling-моделей, как у QwQ/DeepSeek R1 (пока нам его не спрятали окончательно), а еще о том, что Llama-3.1-405B, оказывается, очень крутая.

llm security и каланы

Авторепост

Завершается статья практическими глубокомысленными рекомендациями по имплементации (например, рандомизировать разделитель для datamarking и не использовать ROT13, потому что он двунаправленный). С одной стороны, статья достаточно смешная как с точки зрения наполнения, так и методологии (ну какой IMDB, ну какой text-davinci-003 в 2024 году?). Я немного посмеялся, когда в пресс-релизе майкрософта (вот тут) увидел ссылку на нее как на our scientific research paper™. С другой стороны, такой подход вполне может применяться для небольших чат-ботов, которые работают с небольшими запросами от пользователей, чтобы избегать изменения простых атак, и рекомендуется в гайдах MS по промпт-инженерии. Так или иначе, spotlighting вполне работает: можете проверить сами в проводимом майкрософтом же сейчас соревновании по indirect prompt injection.

llm security и каланы

Авторепост

AI Alignment CourseBluedot Impact, 2024Курс, описаниеЧитать и писать про джейлбрейки уже надоело, так что следующие несколько недель мы проведем за изучением материалов курса AI Alignment от организации под названием BlueDot Impact. Ребята очень постарались составить достаточно плотные и добротные программы по alignment и governance из оригинальных и сторонних материалов, и хотя основной ценностью в них является семинарский формат и работа в группах, поскольку прием на курс не гарантирован (меня на Governance, например, не взяли), будем смотреть на материалы, благо они в открытом доступе.Курсы имеют явный фокус на катастрофических рисках, а создатели - скорее техно-алармисты, нежели скептики. Я не разделяю эту точку зрения, но достаточно часто сталкиваюсь в дискуссиях и при чтении статей с различной аргументацией, построенной на терминологическом аппарате элайнмента. Важным составляющим любой научной сферы, вне зависимости от ее состоятельности, является терминологический аппарат. Если вы им не владеете и не понимаете, что такое инструментальная сходимость, эмерджентные цели или scaffolding (пока перевода, как и собственно для alignment, найти не удалось), то понимать различные рассуждения в этой сфере будет непросто, но если вы хотите влиять на развитие сферы на большем масштабе, чем в рамках своей компании, то разобраться в этом придется.В итоге мы постараемся найти ответы на вопросы:1. Где заканчивается security и начинается safety и нужно ли простому ИБшнику эту границу переступать.2. Как соотносятся реальные риски ML-систем (включая security-риски) и научная фантастика (которой и у простых ML-ИБшников немало).2. Как объяснить человеку, который посмотрел все видео с Элиезером Юдковским, почему исследователям элайнмента не нужно доверять бомбардировщики.Вопросы интересные и дискуссионные, так что заходите в комментарии.

Ещё по теме «Технологии»

Технологии

Max Syabro and a Slop Driven Development

Авторепост

https://www.re-gent.dev/а вот еще нашел на тему трекинга. git показывает, какие файлы поменялись.re_gent показывает, из какого промпта и какой сессии появились эти изменения. Работает поверх клодовского PostToolUse, хз за остальные харнесы

Закиев Василь. (AI)ron manager

Авторепост

Признак ИИ текста — сликшом много ярких, сочных прилагательных. Текст с перцем.Много времени посвящаю детеции ИИ-текстов и заметил в них излишнюю старательность. Один эпитет — нормально. Два — может так надо, стиль такой. Три подряд — почти всегда слоп (или Солженицын, Яхина и прочие не очень хорошие писатели). В тексте читатель цепляется за существительные, которое усиливается прилагательными, которые ведут себя как специи. Одна щепотка задаёт вкус, три уже прячут блюдо под слоем кетчупа, который делает одинаковыми по вкусу туалетную бумагу и картошку. Скорее всего ИИ сваливается в такой стиль из-за внутреннего скоринга: длинное предложение с плотными определениями считается «выразительным». Короткое – эффектным. На выходе получаешь словосочетания типа «сдержанный, информативный, экспертный блог» — четыре слова описывают «блог», от которого теперь хочется отписаться.(заметили этот излишек соли в последнем предложении?и в заголовке? это классический признак ИИ-текста)Как победить пока не знаю – продолжаю бороться.#промптинг #агенты

Кубанский Институт Остеопатии | Остеопатия

Авторепост

🩺 Как «расширенная реальность» меняет реабилитацию: обзор технологий XRВообразите: пациент, только перенёсший инсульт, делает упражнения на равновесие, глядя не в пустую стену, а будто гуляя по парку или играя в интерактивную игру. Это не фантастика - а реальность уже сегодня благодаря технологиям XR (Extended Reality), объединяющим виртуальную реальность, дополненную реальность и смешанную реальность.Недавний анализ 58 рандомизированных клинических исследований показывает: XR всё активнее входит в медицинскую реабилитацию самых разных профилей. Технологии успешно применяются в неврологических, ортопедических, педиатрических и гериатрических направлениях.🕹️ Для пожилых пациентов наблюдается значительный прогресс: XR-тренировки улучшают баланс, силу, когнитивные навыки и даже настроение. Это снижает риск падений, делает лечение живым и мотивирующим, а сложная моторика возвращается быстрее и увереннее.🧠 В неврологической реабилитации такие технологии ускоряют моторное восстановление после инсульта или ЧМТ, а ещё - помогают уменьшить невропатическую боль. Погружение в виртуальные сценарии, адаптированные под конкретные дефициты больного, делает процесс более персонализированным.🦵 Ортопедические пациенты выигрывают не только после операций, но и при консервативном лечении. XR позволяет контролировать амплитуду движения, мотивировать к регулярной активности и видеть конкретный прогресс. А у детей, по данным обзора, вовлечённость значительно выше, поскольку терапия превращается в игру с чёткой системой достижений и поощрений.Кроме привычной двигательной работы, XR даёт эффекты и на психоэмоциональном уровне. Пациенты отмечают снижение боли, улучшение самочувствия, повышение самооценки и интереса к лечению. А сама среда, насыщенная обратной связью, делает реабилитацию гибкой и максимально индивидуальной.Главный вывод для практики простой: XR-технологии становятся мощным инструментом — особенно при работе с теми, кто быстро теряет мотивацию или сталкивается со сложными задачами восстановления. Уже сейчас их можно внедрять как в государственных клиниках, так и в частных центрах — важно только осваивать новые подходы, отслеживать прогресс и корректировать сценарии на основании данных конкретного пациента. Будущее реабилитации — не за механическим повторением движений, а за индивидуальным, захватывающим и максимально результативным лечебным процессом. XR становится ключом к этому будущему.#реабилитация #остеопатия #массаж #исследования📎 Читать источникПодписаться на канал КИО

myStack

Авторепост

Firefox + Claude MythosКомпания Mozilla опубликовала отчёт о проверке кодовой базы Firefox при помощи AI-модели Claude Mythos, достигшей нового уровня в таких областях, как выявление уязвимостей, поиск и исправление ошибок. Отмечается, при использовании Mythos практически не было ложных срабатываний, в то время как прошлые попытки использования моделей GPT 4 и Sonnet 3.5 не рассматривались как успешные из-за обилия ложных отчётов. В апреле в Firefox было устранено 423 уязвимости, из которых 271 были выявлены сотрудниками Mozilla при помощи Claude Mythos. 180 уязвимостей из 271 признаны опасными, 80 присвоен умеренный уровень опасности, а 11 - низкий. https://www.opennet.ru/opennews/art.shtml?num=65405

План ГОЭЛРО

Авторепост

💰Новак поручил дать скидку на российское оборудованиеПокупателям хотят компенсировать разницу в цене с импортомВице-премьер Александр Новак поручил Минпромторгу и профильным ведомствам проработать механизм субсидирования закупок российского электрооборудования, если оно дороже зарубежных аналогов. Речь идет о смене самой схемы поддержки: сейчас субсидии получает производитель, а новый вариант предполагает скидку для покупателя при покупке отечественной продукции.Такой подход нужен для внутреннего рынка, где решение о закупке обычно упирается в цену. Если российское оборудование стоит дороже, заказчик чаще выбирает импорт или требует дополнительных обоснований. Скидка должна снять именно этот барьер и сделать выбор в пользу локальной продукции более выгодным уже на этапе контракта.Поручение показывает, что прежней поддержки производителей оказалось недостаточно. Выпуск электродвигателей и генераторов в России в 2025 году вырос на 7% и достиг 118 млрд рублей, а доля отечественной продукции на внутреннем рынке превысила 35%. Но сам по себе рост выпуска еще не означает, что российская техника автоматически выигрывает у иностранной по коммерческим условиям.Эта мера может сработать там, где оборудование уже близко к импортному по качеству и срокам поставки, но проигрывает только в цене. В таком случае скидка действительно подтолкнет спрос. Если же у заказчика остаются вопросы к надежности, сервису, комплектующим или срокам исполнения, одной компенсации будет мало.☑️ Одновременно Новак поручил подготовить план развития производства российского электрооборудования. Это значит, что власти пытаются увязать две задачи: сначала сделать отечественную продукцию более привлекательной для покупателя, а затем расширять сам выпуск. В таком виде поддержка выглядит логичнее прежней схемы, но ее результат будет зависеть от одного: станет ли российское оборудование после этой скидки реально выгоднее для рынка, и не только на бумаге.

Web 3.0 :: Web3

Авторепост

коротко: vibe-кодинг и г-но-кодинг имеют множественные пересечения, но звучит первое куда приятней и опрятней :) - так что у прогресса всегда есть и плюсы :).

ИИ для продакта & CPO | Влад Прошинский

Авторепост

4 плагина, которые превратят твой Obsidian в ИИ-второй мозгClaudian сам по себе меняет всё. Остальные три делают картину полной.Claudian → встраивает Claude Code прямо в твоё хранилище. Общайся с Claude прямо поверх своих файлов, не покидая Obsidian. Создавай презентации, анализируй документы, проводи мозговые штурмы — там, где живёт всё твоё знание.https://github.com/YishenTu/claudianShow Hidden Files → делает скрытые папки, например .claude, видимыми внутри хранилища. Именно там хранятся твои установленные навыки.https://github.com/polyipseity/obsidian-show-hidden-filesVS Code Editor → позволяет открывать и редактировать файлы с кодом как обычный текст, не запуская их. В настройках я включил следующие расширения: ts, js, py, css, c, cpp, go, rs, java, lua, php, cshttps://github.com/sunxvming/obsidian-vscode-editorGit → синхронизирует хранилище с облаком. А ещё — страховочная сетка на случай, если Claude сделает что-то неожиданное.https://github.com/Vinzent03/obsidian-gitПервые два плагина отсутствуют в официальном магазине. Укажи Claude Code в десктопном приложении на эти ссылки — и он установит их сам.

True OSINT

Авторепост

Охота на скамонтов.Мошенники, использующие фишинг под MAX, продолжают переносить старые схемы на новый мессенджер.На домене MAXUZNAN.RU пользователям предлагают авторизоваться, чтобы якобы узнать, как их сохранили друзья и знакомые в контактах.Сделано все, как обычно, на коленке и без какой-либо любви к своему труду. Например, чего стоит одна фраза: «Подтвердите кто я в контактах?»Складывается ощущение, что этих мошенников либо держат в заложниках, либо они действительно по уровню развития скатились до мамонтов и скоро прекратят свое существование по той же причине - от голода.Это уже не просто скамеры, а скамонты - вымирающий вид мошенников, которые до сих пор носятся с древними и примитивными шаблонами.Домен заблокируем.#фишинг #макс #max #скамонт #scamont

RUSSIAN NAVAL DIVERS ⛓⚓️

Авторепост

КТО ТЫ, ВОИН

“Hydrophilis” - необычный взгляд на будущее подводного дыхательного аппарата и попытка переосмыслить саму философию передвижения человека под водой

История проекта началась не с инженерного расчета, а с мечты. Более пятнадцати лет назад австрийскому/швейцарскому инженеру и дайверу Оливеру Айслеру приснился сон, в котором он спокойно двигался среди китов и дельфинов, словно часть океана. Проснувшись, он задался вопросом, можно ли создать такую дыхательную систему, которая позволит человеку двигаться в воде столь же естественно и свободно? Так появился проект “Hydrophilis”

“Hydrophilis” пытается сделать систему частью тела человека. Основой разработки стал принцип гидродинамики, минимальное сопротивление воды и максимально плавное обтекание корпуса.Разработчик отмечает, что при проектировании использовались формы аэродинамических профилей NASA, именно поэтому аппарат получил вытянутый и обтекаемый силуэт. Ребризер расположен на груди, по словам Айслера, такое решение должно снизить риск иммерсионного отека легких и улучшить баланс подводного пловца в воде

Иммерсионный отёк лёгких (также известный как SIPE - swimming-induced pulmonary edema), это патологическое состояние, при котором в лёгких накапливается жидкость из-за аномальной утечки жидкости из мелких сосудов (лёгочных капилляров) в воздушные пространства (альвеолы). Обычно возникает при физической нагрузке в условиях погружения под воду

Шлем плавно сужается вверх, уменьшая турбулентность, а сам корпус практически не имеет выступающих элементов. Даже часть грузовой системы интегрирована в конструкцию костюма. Все направлено на одну задачу, не бороться с водой, а двигаться вместе с ней

Масса “Hydrophilis” около 10 килограммов. За 14 лет проект прошел длинный путь от идеи до действующего прототипа. За это время неоднократно менялись параметры плавучести, геометрия визора, особенности дыхательного контура и компоновка системы. Аппарат вызывает большой интерес в мире технического дайвинга и подводных технологий, хотя многие профессиональные водолазы и инструкторы пока относятся к подобной концепции с осторожностью. Вопросов остается немало, насколько удобна такая система в реальной работе под водой, как она поведет себя в сложных условиях и сможет ли выйти за рамки экспериментальной разработки

@russiannavaldivers

Агропилот — главные новости АПК

Авторепост

РЭБ не помеха для настоящего интеллекта!Когда спутники перестают работать, многие системы превращаются в бесполезное железо. Но только не в случае с Cognitive Agro Pilot.Получили видео от наших аграриев из Курской области. Условия экстремальные: граница, зона действия РЭБ, полное отсутствие спутниковой навигации. Но посмотрите на кадры — техника идет идеально ровно, выполняя все операции в автономном режиме.Почему это круто? Потому что Cognitive Agro Pilot «видит» поле глазами, а не через спутниковые координаты.— Кромка? Видит.— Валок? Видит.— Рядки или технологическая колея? Без проблем.Для агрария это означает колоссальную прибавку к эффективности. Никаких простоев из-за отсутствия сигнала, никакой зависимости от «слепоты» стандартных систем. Это автономность в чистом виде, которая позволяет работать 24/7 в любых условиях.Лучшая оценка технологии — слова людей, которые ежедневно сидят за рулем. Один из наших механизаторов на видео сказал просто: «Навигация охрененная».Спасибо нашим пользователям за доверие и крутые кадры! Мы создаем технологии, которые меняют правила игры. 🚀

Наш канал в MAX

Открыть ленту