Преглед
Tree-of-Thoughts позволява на модела да изследва много пътища на разсъждение успоредно, като клони на дърво, вместо да се ангажира с една линия на мисълта. Може да гледа напред, да оценява частични решения и да се връща от задънени улици.
Tree-of-Thoughts Reasoning е технически градивен елемент, който влияе върху качеството на модела, цената на инфраструктурата, латентността и надеждността в мащаб.
Дълбоко гмуркане
Въведено от Yao et al. през 2023 г. Tree-of-Thoughts (ToT) обобщава подканянето на веригата от мисли. Когато веригата от мисли създава една линейна последователност от стъпки на разсъждение, ToT структурира проблема като дърво: всеки възел е частично решение („мисъл“) и моделът генерира няколко кандидат-следващи мисли от всеки възел. Отделна стъпка за оценка оценява колко обещаващ е всеки клон, а алгоритъм за търсене, като търсене в ширина или първо в дълбочина, решава кои клонове да се разширят и кои да се съкратят. Това позволява на модела умишлено да изследва, да гледа няколко стъпки напред и да се връща назад, когато даден път изглежда необещаващ. ToT блесна със задачи, които побеждават алчното мислене с един път, най-известната Game of 24, където GPT-4 с верига на мисълта решава около 4% от пъзелите, но ToT тласна успеха до приблизително 74%.
Техническа информация
ToT има три части: генератор на мисли, който предлага следващите стъпки на кандидата, оценител на състоянието (често същият LLM подканен да оцени или гласува за частични решения като „сигурно/може би/невъзможно“) и процедура за търсене (BFS, DFS или beam search), която навигира в дървото. Тъй като моделът оценява частични състояния и съкращава слаби разклонения, той разпределя изчисленията към обещаващи региони на пространството за решения, търгувайки с допълнителни изводи за значително по-висока точност при трудни проблеми.
Овладяване на разсъжденията на дървото на мислите
Tree-of-Thoughts позволява на модела да изследва много пътища на разсъждение успоредно, като клони на дърво, вместо да се ангажира с една линия на мисълта. Може да гледа напред, да оценява частични решения и да се връща от задънени улици. Tree-of-Thoughts Reasoning е технически градивен елемент, който влияе върху качеството на модела, цената на инфраструктурата, латентността и надеждността в мащаб. За да изградите дълбоко разбиране, третирайте Tree-of-Thoughts Reasoning като оперативен модел, а не като отделна функция: дефинирайте желаните резултати, изяснете предположенията и отделете това, което системата може да направи надеждно, от това, което все още изисква експертна преценка.
На практика силни екипи, използващи Tree-of-Thoughts Reasoning, оптимизират избора на архитектура, данни и инфраструктура спрямо надеждността и цената. Те документират изрични критерии за успех, тестват срещу реалистични данни и работни потоци и повтарят въз основа на наблюдавани модели на неуспех, а не на еднократни победи в бенчмарка. Това е мястото, където теоретичното разбиране се превръща в трайна способност за продукти, политики и операции.
Архитектурните решения стимулират производителността и оперативните разходи в продължение на години. В същото време оптимизирането на един бенчмарк може да скрие по-широки системни слабости. Най-устойчивият подход е да се комбинира скоростта на експериментиране с дисциплината на управление: стартирайте пилотни проекти, събирайте доказателства, публикувайте регистрационни файлове за решения и непрекъснато актуализирайте предпазните мерки, докато поведението на модела, очакванията на потребителите и регулаторните изисквания се развиват.
Стратегическо въздействие
Архитектурните решения стимулират производителността и оперативните разходи в продължение на години.
Архитектурните решения стимулират производителността и оперативните разходи в продължение на години. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.
Техническото образование помага на екипите да изберат правилния стек, а не само най-новия.
Техническото образование помага на екипите да изберат правилния стек, а не само най-новия. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.
По-добрият инженерен избор намалява инцидентите, свързани с надеждността в производството.
По-добрият инженерен избор намалява инцидентите, свързани с надеждността в производството. При висококачествени внедрявания това се превръща в измерими правила за работа, граници на собствеността и повтарящи се ритуали за преглед, така че екипите да могат да мащабират доверието, вместо да мащабират неяснотата.
Внедряване в реалния свят
Решаване на Game of 24 чрез разклоняване кои две числа да се комбинират първи и изрязване на аритметични пътища, които не могат да достигнат 24.
Творческо писане със съгласуван план, където моделът чертае няколко сюжетни плана, оценява ги и разширява най-силното, преди да напише проза.
Пъзели с ограничения като мини кръстословици, където всяка запълнена дума е мисъл и несъвместимите клонове са изоставени.
Многоетапни математически или планови проблеми, при които моделът изследва алтернативни междинни стъпки и се връща назад от тези, които нарушават ограниченията.
Модели на изпълнение
Дърво на мисли Разсъждение на практика
Решаване на Game of 24 чрез разклоняване кои две числа да се комбинират първи и изрязване на аритметични пътища, които не могат да достигнат 24.
Решаване на Game of 24 чрез разклоняване на кои две числа да се комбинират първите и съкращаване на аритметични пътеки, които не могат да достигнат 24 Екипите обикновено получават по-добри резултати, когато дефинират прагове за качество отпред, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.
Дърво на мисли Разсъждение на практика
Творческо писане със съгласуван план, където моделът чертае няколко сюжетни плана, оценява ги и разширява най-силното, преди да напише проза.
Творческо писане със съгласуван план, където моделът чертае няколко сюжетни очертания, оценява ги и разширява най-силните, преди да напише проза. Екипите обикновено получават по-добри резултати, когато дефинират предварително прагове за качество, поддържат човешки път на ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.
Дърво на мисли Разсъждение на практика
Пъзели с ограничения като мини кръстословици, където всяка запълнена дума е мисъл и несъвместимите клонове са изоставени.
Ограничителни пъзели като мини кръстословици, където всяка попълнена дума е мисъл и несъвместимите клонове са изоставени Екипите обикновено получават по-добри резултати, когато определят праговете на качеството предварително, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.
Дърво на мисли Разсъждение на практика
Многоетапни математически или планови проблеми, при които моделът изследва алтернативни междинни стъпки и се връща назад от тези, които нарушават ограниченията.
Проблеми с многоетапна математика или планиране, при които моделът изследва алтернативни междинни стъпки и се връща назад от тези, които нарушават ограниченията. Екипите обикновено получават по-добри резултати, когато дефинират предварително прагове за качество, поддържат път на човешка ескалация за крайни случаи и проследяват както печалбите в производителността, така и разходите за грешки във времето.
Рискове и предпазни огради
Оптимизирането на един бенчмарк може да скрие по-широки системни слабости.
Разходите за инфраструктура и поддръжка често се подценяват.
Пропуските в сигурността и видимостта могат да нарастват, когато системите стават по-сложни.
Пътна карта за изпълнение
Определете целите за латентност, качество и разходи преди внедряването.
Определете целите за латентност, качество и разходи преди внедряването. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.
Бенчмарк при реалистични условия на натоварване и данни.
Бенчмарк при реалистични условия на натоварване и данни. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.
Мониторинг на инструмента за грешки, отклонение и въздействие върху потребителя.
Мониторинг на инструмента за грешки, отклонение и въздействие върху потребителя. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.
Подгответе пътеките за връщане назад и реакция на инцидент преди мащабиране.
Подгответе пътеките за връщане назад и реакция на инцидент преди мащабиране. Отнасяйте се към всяка стъпка като към вход за доказателства: ако критериите не са изпълнени, поставете на пауза разпространението, запълнете празнината и едва след това разширете използването.