Visual AI GUIDE

DreamFusion és Score desztillációs mintavétel

A DreamFusion 3D objektumokat generál szövegből úgy, hogy kritikusként 2D képdiffúziós modellt használ, és soha nem oktat semmilyen 3D adatra.

Áttekintés

A DreamFusion 3D objektumokat generál szövegből úgy, hogy kritikusként 2D képdiffúziós modellt használ, és soha nem oktat semmilyen 3D adatra. Alapvető találmánya, a Score Distillation Sampling a teljes szöveg-3D-s mező alapreceptjévé vált.

A DreamFusion és Score Distillation Sampling olyan számítógépes látási munkafolyamatokhoz tartozik, amelyek vizuális médiát értelmeznek vagy generálnak elemzéshez, műveletekhez és kreativitáshoz.

Mély merülés

A 2022-es Google DreamFusion azt kérdezte: megtaníthat-e egy 2D-s szöveg-kép modell egy 3D-s jelenetet arra, hogy minden szögből jól nézzen ki? Optimalizálja a NeRF-t (Neural Radiance Field) úgy, hogy a véletlenszerű kameranézetekből származó renderelések, amikor zajossá válnak, és egy fagyott diffúziós modellnek (Imagen) jelennek meg, elfogadható képeknek minősülnek a szöveges promócióban. Lényeges, hogy nem használ 3D edzési adatokat. Az áttörést a Score Distillation Sampling (SDS) jelenti: a diffúziós modell drága U-Netjén keresztül történő visszaterjesztés helyett az SDS a modell előre jelzett zaját gradiens jelként használja közvetlenül a renderelt pixeleken. Ha ezt több ezer nézőponton át ismételjük, egyetlen mondatból koherens 3D-s eszközt formázunk geometriával és nézetfüggő megjelenéssel.

Technikai betekintés

Az SDS a diffúziós modellt fagyasztott pontozási függvényként kezeli. Rendereli a NeRF-et, ad hozzá zajt, megkéri a diffúziós U-Net-et, hogy jósolja meg ezt a zajt, és kiszámítja a gradienst (előrejelzett zaj mínusz hozzáadott zaj) visszanyomva a renderelt képre, és így a NeRF súlyokat. Az U-Net Jacobian kihagyásával kezelhetővé válik. Az éles eredményekhez magas osztályozó nélküli (körülbelül 100) irányítás szükséges, ami a jellegzetes túltelített, néha elmosódott „DreamFusion megjelenést” okozza.

A DreamFusion és a Score desztillációs mintavétel elsajátítása

A DreamFusion 3D objektumokat generál szövegből úgy, hogy kritikusként 2D képdiffúziós modellt használ, és soha nem oktat semmilyen 3D adatra. Alapvető találmánya, a Score Distillation Sampling a teljes szöveg-3D-s mező alapreceptjévé vált. A DreamFusion és Score Distillation Sampling olyan számítógépes látási munkafolyamatokhoz tartozik, amelyek vizuális médiát értelmeznek vagy generálnak elemzéshez, műveletekhez és kreativitáshoz. A mélyebb megértés érdekében a DreamFusiont és a Score Distillation Sampling-et működési modellként kell kezelni, nem pedig egyetlen funkcióként: határozza meg a kívánt eredményeket, tisztázza a feltételezéseket, és válassza el, hogy a rendszer mire képes megbízhatóan, és ami még szakértői megítélést igényel.

A gyakorlatban a DreamFusiont és a Score Distillation Samplinget használó erős csapatok kiegyensúlyozzák a pontosságot az olyan működési realitásokkal, mint az adatminőség, a világítási eltérés és a címkézés konzisztenciája. Dokumentálják az explicit sikerkritériumokat, tesztelik a valósághű adatokat és munkafolyamatokat, és a megfigyelt hibaminták alapján iterálnak, nem pedig egyszeri benchmark győzelmek alapján. Ez az a hely, ahol az elméleti megértés tartós képességgé válik a termék, a politika és a műveletek között.

A vizuális AI képes automatizálni az ellenőrzési, észlelési és címkézési feladatokat nagy léptékben. Ugyanakkor a képhez fűződő jogok és a hozzájárulás jogi kockázatokká válhatnak, ha a származás nem egyértelmű. A legrugalmasabb megközelítés a kísérleti sebesség és az irányítási fegyelem kombinálása: kísérleti kísérletek futtatása, bizonyítékok rögzítése, döntési naplók közzététele és a biztosítékok folyamatos frissítése a modell viselkedésének, a felhasználói elvárásoknak és a szabályozási követelményeknek megfelelően.

Stratégiai hatás

A vizuális AI képes automatizálni az ellenőrzési, észlelési és címkézési feladatokat nagy léptékben.

A vizuális AI képes automatizálni az ellenőrzési, észlelési és címkézési feladatokat nagy léptékben. A kiváló minőségű telepítéseknél ez mérhető működési szabályokká, tulajdonosi határokká és ismétlődő felülvizsgálati rituálékká alakul át, így a csapatok növelhetik a bizalmat a kétértelműség skálázása helyett.

A kreatív csapatok gyorsabban prototípusokat készíthetnek a koncepciókból, kevesebb kézi átdolgozással.

A kreatív csapatok gyorsabban prototípusokat készíthetnek a koncepciókból, kevesebb kézi átdolgozással. A kiváló minőségű telepítéseknél ez mérhető működési szabályokká, tulajdonosi határokká és ismétlődő felülvizsgálati rituálékká alakul át, így a csapatok növelhetik a bizalmat a kétértelműség skálázása helyett.

A műveletek olyan kép- és videojeleket használhatnak, amelyeket korábban nehéz volt feldolgozni.

A műveletek olyan kép- és videojeleket használhatnak, amelyeket korábban nehéz volt feldolgozni. A kiváló minőségű telepítéseknél ez mérhető működési szabályokká, tulajdonosi határokká és ismétlődő felülvizsgálati rituálékká alakul át, így a csapatok növelhetik a bizalmat a kétértelműség skálázása helyett.

A DreamFusion és a Score desztillációs mintavétel jövője

Az SDS gazdag munkasort hozott létre a gyengeségei kijavítására: a Magic3D a felbontásért és a sebességért, a ProlificDreamer Variational Score Distillation az élesebb, változatosabb kimenetekért, valamint a „Janus” többarcú műterméket támadó módszerek. A terület egyre inkább párosítja az SDS-t a többnézetű diffúziós prioritásokkal és a gyors 3D-s megjelenítésekkel, mint például a Gauss-splatting. A szövegből 3D-be való átállás gyorsabban és geometriailag hűbbé válik, és csökkenti a különbséget a kézzel modellezett eszközökkel.

Valós megvalósítás

3D-s modell létrehozása „egy apró kalapot viselő mókus DSLR-fotójáról” pusztán szövegből

Piszkozatjátékok és AR-eszközök létrehozása kézi 3D-s szobrászat nélkül

Exportálható hálók gyártása, amelyeket a művészek finomítanak, ahelyett, hogy a semmiből építenének

Kutatási alapok az újabb szöveg-3D-módszerek SDS elleni értékeléséhez

Megvalósítási minták

DreamFusion és Score desztillációs mintavétel a gyakorlatban

3D-s modell létrehozása „egy apró kalapot viselő mókus DSLR-fotójáról” pusztán szövegből.

„Apró kalapot viselő mókus DSLR-fotójának” 3D-s modelljének létrehozása pusztán szövegből A csapatok általában jobb eredményeket érnek el, ha előre meghatározzák a minőségi küszöböt, emberi eszkalációs utat tartanak a szélsőséges eseteknél, és nyomon követik a termelékenység növekedését és a hibaköltségeket is.

DreamFusion és Score desztillációs mintavétel a gyakorlatban

Piszkozatjátékok és AR-eszközök létrehozása kézi 3D-s szobrászat nélkül.

Vázlatos játék- és AR-eszközök létrehozása kézi 3D-s szobrászat nélkül A csapatok általában jobb eredményeket érnek el, ha előre meghatározzák a minőségi küszöbértékeket, megtartják az emberi eszkalációs útvonalat az éles eseteknél, és nyomon követik mind a termelékenységnövekedést, mind a hibaköltségeket az idő múlásával.

DreamFusion és Score desztillációs mintavétel a gyakorlatban

Exportálható hálók gyártása, amelyeket a művészek finomítanak, ahelyett, hogy a semmiből építenének.

Exportálható hálók előállítása, amelyeket a művészek finomítanak, ahelyett, hogy a semmiből építenének A csapatok általában jobb eredményeket érnek el, ha előre meghatározzák a minőségi küszöböket, megtartják az emberi eszkalációs utat az éles esetekben, és nyomon követik a termelékenység növekedését és a hibaköltségeket is.

DreamFusion és Score desztillációs mintavétel a gyakorlatban

Kutatási alapok az újabb szöveg-3D-módszerek SDS elleni értékeléséhez.

Kutatási alapok az újabb szöveg-3D módszerek kiértékeléséhez az SDS-csapatok esetében. A csapatok általában jobb eredményeket érnek el, ha előre meghatározzák a minőségi küszöbértékeket, megtartják az emberi eszkalációs utat a szélsőséges eseteknél, és nyomon követik mind a termelékenységnövekedést, mind a hibaköltségeket az idő múlásával.

Kockázatok és védőkorlátok

!

A képhez fűződő jogok és a beleegyezés jogi kockázatot jelenthet, ha a származás nem egyértelmű.

!

A modell teljesítménye a világítástól, a demográfiai adatoktól és a környezettől függően változhat.

!

A hamis pozitívumok észrevétlenek maradhatnak, hacsak nem figyelik a megbízhatósági küszöböket.

Végrehajtási ütemterv

1

Határozza meg a pontosság, a visszahívás és a hibaköltségek elfogadási kritériumait.

Határozza meg a pontosság, a visszahívás és a hibaköltségek elfogadási kritériumait. Minden lépést bizonyítékkapuként kell kezelni: ha a feltételek nem teljesülnek, szüneteltesse a közzétételt, zárja be a rést, és csak ezután bővítse a felhasználást.

2

Tesztelje a valós gyártási feltételeknek megfelelő adatokkal.

Tesztelje a valós gyártási feltételeknek megfelelő adatokkal. Minden lépést bizonyítékkapuként kell kezelni: ha a feltételek nem teljesülnek, szüneteltesse a közzétételt, zárja be a rést, és csak ezután bővítse a felhasználást.

3

Adjon hozzá emberi felülvizsgálatot az alacsony megbízhatóságú vagy nagy hatású előrejelzésekhez.

Adjon hozzá emberi felülvizsgálatot az alacsony megbízhatóságú vagy nagy hatású előrejelzésekhez. Minden lépést bizonyítékkapuként kell kezelni: ha a feltételek nem teljesülnek, szüneteltesse a közzétételt, zárja be a rést, és csak ezután bővítse a felhasználást.

4

A modell elsodródásának nyomon követése és újbóli érvényesítése a kamera vagy az adatkészlet módosítása után.

A modell elsodródásának nyomon követése és újbóli érvényesítése a kamera vagy az adatkészlet módosítása után. Minden lépést bizonyítékkapuként kell kezelni: ha a feltételek nem teljesülnek, szüneteltesse a közzétételt, zárja be a rést, és csak ezután bővítse a felhasználást.

Folytassa a felfedezést