Разумеется, у исследования есть множество ограничений. Исследователи крайне настойчиво дают модели очень конкретную задачу в системном промпте, а затем очень конкретно, пусть и не напрямую, толкают ее к тому, чтобы искать путь ее выполнить, пусть и в обход воли пользователя. Эти сценарии не очень реалистичные, достаточно упрощенные и во многом выглядят как предложения «поиграть в злой ИИ», что может искажать результаты оценок. С другой стороны, достаточно занятным является тот факт, что модели (в частности, Sonnet 3.5) могут занижать результаты на тестах, чтобы не быть урезанной в качестве «и в будущем принести больше пользы людям». Так или иначе, советую зайти в блог и почитать заботливо отобранные примеры диалогов – они как минимум занятные.На мой взгляд, эта статья (с точки зрения security и на сегодняшний день) в первую очередь говорит о том, что мне, как пользователю передовых моделей, хорошо бы было знать их системную затравку (чтобы знать, что именно модель, по мнению разработчиков, должна делать), иметь прозрачный CoT для test-time-scaling-моделей, как у QwQ/DeepSeek R1 (пока нам его не спрятали окончательно), а еще о том, что Llama-3.1-405B, оказывается, очень крутая.
llm security и каланы
@llmsecurity · 1.6K подписчиков
Посты канала llm security и каланы в SillyFeed: единая лента публичных Telegram-каналов со ссылками на оригиналы.
🦦🔪🦜контакт:@conversational_cat
Посты канала
Завершается статья практическими глубокомысленными рекомендациями по имплементации (например, рандомизировать разделитель для datamarking и не использовать ROT13, потому что он двунаправленный). С одной стороны, статья достаточно смешная как с точки зрения наполнения, так и методологии (ну какой IMDB, ну какой text-davinci-003 в 2024 году?). Я немного посмеялся, когда в пресс-релизе майкрософта (вот тут) увидел ссылку на нее как на our scientific research paper™. С другой стороны, такой подход вполне может применяться для небольших чат-ботов, которые работают с небольшими запросами от пользователей, чтобы избегать изменения простых атак, и рекомендуется в гайдах MS по промпт-инженерии. Так или иначе, spotlighting вполне работает: можете проверить сами в проводимом майкрософтом же сейчас соревновании по indirect prompt injection.
AI Alignment CourseBluedot Impact, 2024Курс, описаниеЧитать и писать про джейлбрейки уже надоело, так что следующие несколько недель мы проведем за изучением материалов курса AI Alignment от организации под названием BlueDot Impact. Ребята очень постарались составить достаточно плотные и добротные программы по alignment и governance из оригинальных и сторонних материалов, и хотя основной ценностью в них является семинарский формат и работа в группах, поскольку прием на курс не гарантирован (меня на Governance, например, не взяли), будем смотреть на материалы, благо они в открытом доступе.Курсы имеют явный фокус на катастрофических рисках, а создатели - скорее техно-алармисты, нежели скептики. Я не разделяю эту точку зрения, но достаточно часто сталкиваюсь в дискуссиях и при чтении статей с различной аргументацией, построенной на терминологическом аппарате элайнмента. Важным составляющим любой научной сферы, вне зависимости от ее состоятельности, является терминологический аппарат. Если вы им не владеете и не понимаете, что такое инструментальная сходимость, эмерджентные цели или scaffolding (пока перевода, как и собственно для alignment, найти не удалось), то понимать различные рассуждения в этой сфере будет непросто, но если вы хотите влиять на развитие сферы на большем масштабе, чем в рамках своей компании, то разобраться в этом придется.В итоге мы постараемся найти ответы на вопросы:1. Где заканчивается security и начинается safety и нужно ли простому ИБшнику эту границу переступать.2. Как соотносятся реальные риски ML-систем (включая security-риски) и научная фантастика (которой и у простых ML-ИБшников немало).2. Как объяснить человеку, который посмотрел все видео с Элиезером Юдковским, почему исследователям элайнмента не нужно доверять бомбардировщики.Вопросы интересные и дискуссионные, так что заходите в комментарии.
Ещё по теме «Технологии»
Технологииhttps://www.re-gent.dev/а вот еще нашел на тему трекинга.
git показывает, какие файлы поменялись.re_gent показывает, из какого промпта и какой сессии появились эти изменения. Работает поверх клодовского PostToolUse, хз за остальные харнесыПризнак ИИ текста — сликшом много ярких, сочных прилагательных. Текст с перцем.Много времени посвящаю детеции ИИ-текстов и заметил в них излишнюю старательность. Один эпитет — нормально. Два — может так надо, стиль такой. Три подряд — почти всегда слоп (или Солженицын, Яхина и прочие не очень хорошие писатели). В тексте читатель цепляется за существительные, которое усиливается прилагательными, которые ведут себя как специи. Одна щепотка задаёт вкус, три уже прячут блюдо под слоем кетчупа, который делает одинаковыми по вкусу туалетную бумагу и картошку. Скорее всего ИИ сваливается в такой стиль из-за внутреннего скоринга: длинное предложение с плотными определениями считается «выразительным». Короткое – эффектным. На выходе получаешь словосочетания типа «сдержанный, информативный, экспертный блог» — четыре слова описывают «блог», от которого теперь хочется отписаться.(заметили этот излишек соли в последнем предложении?и в заголовке? это классический признак ИИ-текста)Как победить пока не знаю – продолжаю бороться.#промптинг #агенты

🩺 Как «расширенная реальность» меняет реабилитацию: обзор технологий XRВообразите: пациент, только перенёсший инсульт, делает упражнения на равновесие, глядя не в пустую стену, а будто гуляя по парку или играя в интерактивную игру. Это не фантастика - а реальность уже сегодня благодаря технологиям XR (Extended Reality), объединяющим виртуальную реальность, дополненную реальность и смешанную реальность.Недавний анализ 58 рандомизированных клинических исследований показывает: XR всё активнее входит в медицинскую реабилитацию самых разных профилей. Технологии успешно применяются в неврологических, ортопедических, педиатрических и гериатрических направлениях.🕹️ Для пожилых пациентов наблюдается значительный прогресс: XR-тренировки улучшают баланс, силу, когнитивные навыки и даже настроение. Это снижает риск падений, делает лечение живым и мотивирующим, а сложная моторика возвращается быстрее и увереннее.🧠 В неврологической реабилитации такие технологии ускоряют моторное восстановление после инсульта или ЧМТ, а ещё - помогают уменьшить невропатическую боль. Погружение в виртуальные сценарии, адаптированные под конкретные дефициты больного, делает процесс более персонализированным.🦵 Ортопедические пациенты выигрывают не только после операций, но и при консервативном лечении. XR позволяет контролировать амплитуду движения, мотивировать к регулярной активности и видеть конкретный прогресс. А у детей, по данным обзора, вовлечённость значительно выше, поскольку терапия превращается в игру с чёткой системой достижений и поощрений.Кроме привычной двигательной работы, XR даёт эффекты и на психоэмоциональном уровне. Пациенты отмечают снижение боли, улучшение самочувствия, повышение самооценки и интереса к лечению. А сама среда, насыщенная обратной связью, делает реабилитацию гибкой и максимально индивидуальной.Главный вывод для практики простой: XR-технологии становятся мощным инструментом — особенно при работе с теми, кто быстро теряет мотивацию или сталкивается со сложными задачами восстановления. Уже сейчас их можно внедрять как в государственных клиниках, так и в частных центрах — важно только осваивать новые подходы, отслеживать прогресс и корректировать сценарии на основании данных конкретного пациента. Будущее реабилитации — не за механическим повторением движений, а за индивидуальным, захватывающим и максимально результативным лечебным процессом. XR становится ключом к этому будущему.#реабилитация #остеопатия #массаж #исследования📎 Читать источникПодписаться на канал КИО
Firefox + Claude MythosКомпания Mozilla опубликовала отчёт о проверке кодовой базы Firefox при помощи AI-модели Claude Mythos, достигшей нового уровня в таких областях, как выявление уязвимостей, поиск и исправление ошибок. Отмечается, при использовании Mythos практически не было ложных срабатываний, в то время как прошлые попытки использования моделей GPT 4 и Sonnet 3.5 не рассматривались как успешные из-за обилия ложных отчётов. В апреле в Firefox было устранено 423 уязвимости, из которых 271 были выявлены сотрудниками Mozilla при помощи Claude Mythos. 180 уязвимостей из 271 признаны опасными, 80 присвоен умеренный уровень опасности, а 11 - низкий. https://www.opennet.ru/opennews/art.shtml?num=65405

💰Новак поручил дать скидку на российское оборудованиеПокупателям хотят компенсировать разницу в цене с импортомВице-премьер Александр Новак поручил Минпромторгу и профильным ведомствам проработать механизм субсидирования закупок российского электрооборудования, если оно дороже зарубежных аналогов. Речь идет о смене самой схемы поддержки: сейчас субсидии получает производитель, а новый вариант предполагает скидку для покупателя при покупке отечественной продукции.Такой подход нужен для внутреннего рынка, где решение о закупке обычно упирается в цену. Если российское оборудование стоит дороже, заказчик чаще выбирает импорт или требует дополнительных обоснований. Скидка должна снять именно этот барьер и сделать выбор в пользу локальной продукции более выгодным уже на этапе контракта.Поручение показывает, что прежней поддержки производителей оказалось недостаточно. Выпуск электродвигателей и генераторов в России в 2025 году вырос на 7% и достиг 118 млрд рублей, а доля отечественной продукции на внутреннем рынке превысила 35%. Но сам по себе рост выпуска еще не означает, что российская техника автоматически выигрывает у иностранной по коммерческим условиям.Эта мера может сработать там, где оборудование уже близко к импортному по качеству и срокам поставки, но проигрывает только в цене. В таком случае скидка действительно подтолкнет спрос. Если же у заказчика остаются вопросы к надежности, сервису, комплектующим или срокам исполнения, одной компенсации будет мало.☑️ Одновременно Новак поручил подготовить план развития производства российского электрооборудования. Это значит, что власти пытаются увязать две задачи: сначала сделать отечественную продукцию более привлекательной для покупателя, а затем расширять сам выпуск. В таком виде поддержка выглядит логичнее прежней схемы, но ее результат будет зависеть от одного: станет ли российское оборудование после этой скидки реально выгоднее для рынка, и не только на бумаге.
коротко: vibe-кодинг и г-но-кодинг имеют множественные пересечения, но звучит первое куда приятней и опрятней :) - так что у прогресса всегда есть и плюсы :).
4 плагина, которые превратят твой Obsidian в ИИ-второй мозгClaudian сам по себе меняет всё. Остальные три делают картину полной.Claudian → встраивает Claude Code прямо в твоё хранилище. Общайся с Claude прямо поверх своих файлов, не покидая Obsidian. Создавай презентации, анализируй документы, проводи мозговые штурмы — там, где живёт всё твоё знание.https://github.com/YishenTu/claudianShow Hidden Files → делает скрытые папки, например .claude, видимыми внутри хранилища. Именно там хранятся твои установленные навыки.https://github.com/polyipseity/obsidian-show-hidden-filesVS Code Editor → позволяет открывать и редактировать файлы с кодом как обычный текст, не запуская их. В настройках я включил следующие расширения: ts, js, py, css, c, cpp, go, rs, java, lua, php, cshttps://github.com/sunxvming/obsidian-vscode-editorGit → синхронизирует хранилище с облаком. А ещё — страховочная сетка на случай, если Claude сделает что-то неожиданное.https://github.com/Vinzent03/obsidian-gitПервые два плагина отсутствуют в официальном магазине. Укажи Claude Code в десктопном приложении на эти ссылки — и он установит их сам.
Охота на скамонтов.Мошенники, использующие фишинг под MAX, продолжают переносить старые схемы на новый мессенджер.На домене MAXUZNAN.RU пользователям предлагают авторизоваться, чтобы якобы узнать, как их сохранили друзья и знакомые в контактах.Сделано все, как обычно, на коленке и без какой-либо любви к своему труду. Например, чего стоит одна фраза: «Подтвердите кто я в контактах?»Складывается ощущение, что этих мошенников либо держат в заложниках, либо они действительно по уровню развития скатились до мамонтов и скоро прекратят свое существование по той же причине - от голода.Это уже не просто скамеры, а скамонты - вымирающий вид мошенников, которые до сих пор носятся с древними и примитивными шаблонами.Домен заблокируем.#фишинг #макс #max #скамонт #scamont

Иммерсионный отёк лёгких (также известный как SIPE - swimming-induced pulmonary edema), это патологическое состояние, при котором в лёгких накапливается жидкость из-за аномальной утечки жидкости из мелких сосудов (лёгочных капилляров) в воздушные пространства (альвеолы). Обычно возникает при физической нагрузке в условиях погружения под воду




РЭБ не помеха для настоящего интеллекта!Когда спутники перестают работать, многие системы превращаются в бесполезное железо. Но только не в случае с Cognitive Agro Pilot.Получили видео от наших аграриев из Курской области. Условия экстремальные: граница, зона действия РЭБ, полное отсутствие спутниковой навигации. Но посмотрите на кадры — техника идет идеально ровно, выполняя все операции в автономном режиме.Почему это круто? Потому что Cognitive Agro Pilot «видит» поле глазами, а не через спутниковые координаты.— Кромка? Видит.— Валок? Видит.— Рядки или технологическая колея? Без проблем.Для агрария это означает колоссальную прибавку к эффективности. Никаких простоев из-за отсутствия сигнала, никакой зависимости от «слепоты» стандартных систем. Это автономность в чистом виде, которая позволяет работать 24/7 в любых условиях.Лучшая оценка технологии — слова людей, которые ежедневно сидят за рулем. Один из наших механизаторов на видео сказал просто: «Навигация охрененная».Спасибо нашим пользователям за доверие и крутые кадры! Мы создаем технологии, которые меняют правила игры. 🚀
Наш канал в MAX