Език AI РЪКОВОДСТВО

Конституционен AI

Конституционният AI е методът на Anthropic за подравняване на модели с помощта на писмен набор от принципи — „конституция“ — така че AI критикува и преразглежда собствените си отговори, вместо да разчита само на хората, за да маркират вредното съдържание.

Преглед

Конституционният AI е методът на Anthropic за подравняване на модели с помощта на писмен набор от принципи — „конституция“ — така че AI критикува и преразглежда собствените си отговори, вместо да разчита само на хората, за да маркират вредното съдържание. Тя има за цел да направи моделите полезни и безвредни с много по-малко човешки труд.

Конституционният AI е част от стека език-AI, използван за четене, генериране, класифициране и трансформиране на текст и реч в мащаб.

Дълбоко гмуркане

Традиционното подравняване се основава на обучение за подсилване от човешка обратна връзка (RLHF), където хората класират много резултати от модела, включително смущаващи, за да научат модела какво да избягва. Конституционният AI намалява това бреме, като предоставя на модела ясен списък от писмени принципи, извлечени от източници като Декларацията на ООН за правата на човека и най-добрите практики за доверие и безопасност. Обучението има два етапа. Първо, наблюдаван етап: моделът генерира отговор, след това го критикува срещу конституционен принцип и го пренаписва, за да бъде по-добър; тези самостоятелно подобрени отговори се използват за фина настройка. Второ, етап на обучение за подсилване, RLAIF, където самият модел класира двойки отговори според конституцията и тези генерирани от AI данни за предпочитанията обучават модел на възнаграждение. Принципите са прозрачни и могат да се редактират, което прави стойностите, управляващи модела, подлежащи на проверка, а не скрити в непрозрачни човешки етикети.

Техническа информация

Двете фази често се наричат ​​SL-CAI и RL-CAI. При контролирано обучение цикълът „критикувай и преразглеждай“ подтиква модела да открие къде собственият му отговор нарушава извадков принцип и да го пренапише, генерирайки данни за обучение без етикетиране на човешка вреда. Във фазата на RL вторият модел преценява кой от двата отговора следва по-добре конституцията, създавайки етикети за предпочитания на AI (RLAIF), които обучават модел на възнаграждение, използван в стандартния RL. Конституцията е насока в обикновен текст, инжектирана в подкани, така че промяната на поведението на модела може да бъде толкова директна, колкото редактирането на принципите.

Овладяване на конституционния AI

Конституционният AI е методът на Anthropic за подравняване на модели с помощта на писмен набор от принципи — „конституция“ — така че AI критикува и преразглежда собствените си отговори, вместо да разчита само на хората, за да маркират вредното съдържание. Тя има за цел да направи моделите полезни и безвредни с много по-малко човешки труд. Конституционният AI е част от стека език-AI, използван за четене, генериране, класифициране и трансформиране на текст и реч в мащаб. За да изградите дълбоко разбиране, третирайте конституционния AI като оперативен модел, а не като отделна функция: дефинирайте желаните резултати, изяснете предположенията и отделете това, което системата може да направи надеждно, от това, което все още изисква експертна преценка.

На практика силни екипи, използващи Конституционален AI, проектират подкани, извличане и преглед на цикли като една интегрирана комуникационна система. Те документират изрични критерии за успех, тестват срещу реалистични данни и работни потоци и повтарят въз основа на наблюдавани модели на неуспех, а не на еднократни победи в бенчмарка. Това е мястото, където теоретичното разбиране се превръща в трайна способност за продукти, политики и операции.

Езиковите работни процеси могат да се движат по-бързо, без да се жертва последователността. В същото време халюцинираните факти могат тихо да влизат в отчети, поддържащи потоци или резултати от изследвания. Най-устойчивият подход е да се комбинира скоростта на експериментиране с дисциплината на управление: стартирайте пилотни проекти, събирайте доказателства, публикувайте регистрационни файлове за решения и непрекъснато актуализирайте предпазните мерки, докато поведението на модела, очакванията на потребителите и регулаторните изисквания се развиват.

Стратегическо въздействие

Езиковите работни процеси могат да се движат по-бързо, без да се жертва последователността.

Езиковите работни процеси могат да се движат по-бързо, без да се жертва последователността. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Той разширява достъпа между езици и стилове на комуникация.

Той разширява достъпа между езици и стилове на комуникация. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Екипите могат да отделят повече време за преценка, докато автоматизацията се справя с повторението.

Екипите могат да отделят повече време за преценка, докато автоматизацията се справя с повторението. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.

Бъдещето на конституционния AI

Конституционният AI сочи към „мащабируем надзор“, където AI помага да се контролира AI, тъй като моделите стават твърде способни, за да могат хората да проверяват всеки резултат. Очаквайте по-богати, по-нюансирани конституции, принос на обществеността и участието в избора на принципи (Anthropic е провел експерименти с „колективен конституционен AI“) и хибридни подходи, смесващи човешката обратна връзка със самокритиката на AI. Прозрачността на писмените принципи прави това привлекателно за регулаторите и одиторите, които искат да видят ценностите, кодирани от системата. С напредването на граничните модели методите, които позволяват на моделите надеждно да критикуват и подобряват себе си спрямо изрични правила, вероятно ще станат централни за безопасността.

Внедряване в реалния свят

Обучение на чатбот да откаже да помогне за изграждането на оръжие, като го накарате да критикува своя собствена чернова на отговор срещу принципа за избягване на вреда и да го пренапише

Замяна на скъпо струващото етикетиране на токсични резултати от човешкия червен екип с данни за предпочитания, генерирани от AI (RLAIF), ръководени от конституцията

Редактиране на писмен принцип, за да се коригира колко предпазлив е даден модел, след което да се наблюдава промяната в поведението, без да се маркират отново хиляди примери

Провеждане на колективни упражнения, при които обществеността предлага принципи, които оформят конституцията на модела

Модели на изпълнение

Конституционен AI на практика

Обучение на чатбот да откаже да помогне за изграждането на оръжие, като го накарате да критикува собствената си чернова на отговор срещу принципа за избягване на вреди и да го пренапише.

Обучение на чатбот да откаже да помогне за изграждането на оръжие, като го накара да критикува собствената си чернова на отговор срещу принципа за избягване на вреди и да го пренапише Екипите обикновено получават по-добри резултати, когато дефинират праговете за качество предварително, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Конституционен AI на практика

Замяна на скъпо струващото етикетиране на токсични резултати от човешкия червен екип с данни за предпочитания, генерирани от AI (RLAIF), ръководени от конституцията.

Замяна на скъпо струващото етикетиране на токсични резултати от човешкия червен екип с данни за предпочитания, генерирани от изкуствен интелект (RLAIF), ръководени от конституцията Екипите обикновено получават по-добри резултати, когато дефинират праговете на качеството предварително, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Конституционен AI на практика

Редактиране на писмен принцип, за да се коригира колко предпазлив е даден модел, след което да се наблюдава промяната в поведението, без да се маркират отново хиляди примери.

Редактиране на писмен принцип, за да се коригира доколко предпазлив е даден модел, след което да се наблюдава промяната в поведението, без да се преименуват хиляди примери Екипите обикновено получават по-добри резултати, когато дефинират праговете на качеството предварително, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Конституционен AI на практика

Провеждане на колективни упражнения, при които обществеността предлага принципи, които оформят конституцията на модела.

Провеждане на упражнения за колективен вход, при които обществеността предлага принципи, които оформят конституцията на модела. Екипите обикновено получават по-добри резултати, когато дефинират предварително прагове за качество, поддържат човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.

Рискове и предпазни огради

!

Халюцинираните факти могат тихо да влязат в отчети, потоци за поддръжка или резултати от изследвания.

!

Бързата чувствителност може да създаде противоречиви резултати при подобни заявки.

!

Чувствителните текстови данни могат да бъдат разкрити, ако контролите за достъп са слаби.

Пътна карта за изпълнение

1

Определете изходен формат, тон и стандарти за качество преди внедряване.

Определете изходен формат, тон и стандарти за качество преди внедряване. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

2

Наземни отговори с доверени източници винаги, когато точността има значение.

Наземни отговори с доверени източници винаги, когато точността има значение. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

3

Поддържайте контролна точка за човешки преглед за изходи с високи залози.

Поддържайте контролна точка за човешки преглед за изходи с високи залози. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

4

Проследявайте моделите на неуспехи и редовно обучавайте подкани или работни потоци.

Проследявайте моделите на неуспехи и редовно обучавайте подкани или работни потоци. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.

Продължете да изследвате