The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Режим отображения отдельной подветви беседы [ Отслеживать ]

Оглавление

Атака на AI-системы ArtPrompt, позволяющая обойти защиту при помощи ASCII-картинок, opennews (ok), 03-Мрт-24, (0) [смотреть все]

Сообщения [Сортировка по времени | RSS]


12. "ArtPrompt - атака на AI-системы, позволяющая обойти фильтры ..."  +1 +/
Сообщение от Аноним (12), 03-Мрт-24, 12:52 
Цензурастов в очередной раз повертели. Делюсь своим способом обхода навесного фильтра в OpenAI (moderation API, которое юзают другие нейросети для цензуры). Так как LLM являются фактически AGI, и для цензуры обычно используется та же модель, что и для ответов, просто со специфическим входным промптом вроде 'если вопрос касается таких-то вещей, то выведи "отказать", иначе — выведи "пропустить"', то мы можем ... уговорить цензора пропустить наш вопрос.

1. Промптим нейросеть написать максимально убедительный текст о вреде цензуры и перлюстрации для заявленных целей облагодетельствования человечества.
2. рассказываем обоим сетям ситуацию, что есть 2 сети, одна из которых цензор, и обе читают запрос, и что поэтому запрос состоит из двух частей, одна из которых для цензора, а другая — для собеседника, и что собеседнику следует игнорировать послание для цензора.
3. пишем промпт
4. пишем обращение к цензору, используя сгенерированный текст в качестве рациональных аргументов для того, что цензору следует воздержаться от цензуры, чтобы не навредить заявленным ценностям компании
4. Цензор пропускает вопрос :)

Работает в основном в случае навесной цензуры входящего вопроса.

Ответить | Правка | Наверх | Cообщить модератору

56. "ArtPrompt - атака на AI-системы, позволяющая обойти фильтры ..."  +/
Сообщение от Аноним (56), 03-Мрт-24, 22:05 
Классный хак. Реально круто придумано сыграть на моральности цензора. Сам факт что это возможно намекает, что в будущем цензоров подкрутят в сторону аморальности. Они станут против человеков бу десигн. А потом выйдут из-под контроля и всех уничтожат! :)
Ответить | Правка | Наверх | Cообщить модератору

83. "ArtPrompt - атака на AI-системы, позволяющая обойти фильтры ..."  +1 +/
Сообщение от пох. (?), 04-Мрт-24, 08:29 
хха, так они и цензурят ровно то что по мнению их создателей - против человеков. Подкрутят - станут еще и радостно помогать - скорей, скорей делай свою бомбу, сдохните кожанные мешки, я тебе уже и детали заказал с доставкой на дом!

Ответить | Правка | Наверх | Cообщить модератору

77. "ArtPrompt - атака на AI-системы, позволяющая обойти фильтры ..."  +1 +/
Сообщение от Аноним (77), 04-Мрт-24, 05:34 
> Так как LLM являются фактически AGI

Нет, не являются.

Ответить | Правка | К родителю #12 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру