ቪዥዋል AI መመሪያ

VQ-VAE እና Discrete Latents

VQ-VAE ምስሎችን፣ ኦዲዮን ወይም ቪዲዮን ከተከታታይ ቁጥሮች ይልቅ ከተማረው የኮድ ደብተር ወደተወሰዱ ትንሽ ፍርግርግ ይጨምቃል።

አጠቃላይ እይታ

VQ-VAE ምስሎችን፣ ኦዲዮን ወይም ቪዲዮን ከተከታታይ ቁጥሮች ይልቅ ከተማረው የኮድ ደብተር ወደተወሰዱ ትንሽ ፍርግርግ ይጨምቃል። ይህ የተለየ ማነቆ እንደ ትራንስፎርመሮች ያሉ ኃይለኛ ተከታታይ ሞዴሎች ሚዲያን እንደ ቃላት እንደ 'ቶከኖች' እንዲይዙ ያስችላቸዋል።

VQ-VAE እና Discrete Latents ለመተንተን፣ ለአሰራር እና ለፈጠራ ምስላዊ ሚዲያን የሚተረጉሙ ወይም የሚያመነጩ የኮምፒውተር-እይታ የስራ ፍሰቶች ናቸው።

ጥልቅ ዳይቭ

VQ-VAE (Vector Quantized Variational Autoencoder)፣ በ2017 በቫን ደን ኦርድ እና ባልደረቦቹ DeepMind አስተዋወቀ፣ ድብቅ ቦታው የተለየ የሆነ አውቶኢንኮደር ነው። ኢንኮደር ምስልን ወደ ተከታታይ ቬክተሮች ፍርግርግ ይለውጠዋል; እያንዳንዱ ቬክተር በተማረው የመክተት ኮድ ደብተር (የቬክተር ኳንትላይዜሽን) ወደ ቅርብ መግቢያው ይጣላል። ዲኮዲተሩ ምስሉን ከቁጥራዊ ኮዶች እንደገና ይገነባል። ድብቅ ሥዕሎቹ አሁን የመጨረሻ የመረጃ ጠቋሚዎች ስለሆኑ የተለየ ሞዴል ስርጭታቸውን ሊማር እና አዲስ ይዘት ማመንጨት ይችላል። ይህ ባለ ሁለት ደረጃ የምግብ አዘገጃጀት DALL-E 1ን፣ ጁኬቦክስን ለሙዚቃ እና VQGANን ያጎናጽፋል፣ ይህም ለበለጠ መልሶ ግንባታ የአመለካከት እና የተቃዋሚ ኪሳራ ይጨምራል። ከፍተኛ ታማኝነት ያላቸውን ምስሎች ለማምረት VQ-VAE-2 በርካታ ጥራቶችን አከማችቷል።

ቴክኒካዊ ግንዛቤ

የመጠን ደረጃ (argmin ቅርብ-ጎረቤት ፍለጋ) የተለየ አይደለም፣ ስለዚህ VQ-VAE በቀጥታ-በኩል የሚገመተውን ይጠቀማል፡ ግራዲየሮች በቀጥታ ከዲኮደር ግቤት ወደ ኢንኮደር ውፅዓት ይገለበጣሉ ልክ እንደ ማንነቱ መጠን። ስልጠና የመልሶ ግንባታ መጥፋትን፣ የኮድ ደብተር ኪሳራ ወደ ኢንኮደር ውፅዓቶች የሚጎትት እና የመቀየሪያውን ኮድ ለተመረጡት ኮዶች የሚጠብቅ የቁርጠኝነት ኪሳራ ያጣምራል። የተለመደው ውድቀት ጥቂት ኮዶች ብቻ የሚጠቀሙበት የኮድ ደብተር መደርመስ ነው።

VQ-VAE እና ልባም ሌተንትን ማስተር

VQ-VAE ምስሎችን፣ ኦዲዮን ወይም ቪዲዮን ከተከታታይ ቁጥሮች ይልቅ ከተማረው የኮድ ደብተር ወደተወሰዱ ትንሽ ፍርግርግ ይጨምቃል። ይህ የተለየ ማነቆ እንደ ትራንስፎርመሮች ያሉ ኃይለኛ ተከታታይ ሞዴሎች ሚዲያን እንደ ቃላት እንደ 'ቶከኖች' እንዲይዙ ያስችላቸዋል። VQ-VAE እና Discrete Latents ለመተንተን፣ ለአሰራር እና ለፈጠራ ምስላዊ ሚዲያን የሚተረጉሙ ወይም የሚያመነጩ የኮምፒውተር-እይታ የስራ ፍሰቶች ናቸው። ጥልቅ ግንዛቤን ለመገንባት፣ VQ-VAE እና Discrete Latentsን እንደ የክወና ሞዴል ይያዙ፣ አንድ ባህሪ ሳይሆን፡ የተፈለገውን ውጤት ይግለጹ፣ ግምቶችን ያብራሩ፣ እና ስርዓቱ አሁንም የባለሙያዎችን ፍርድ ከሚያስፈልገው ነገር ለይ።

በተግባር፣ VQ-VAE እና Discrete Latents የሚጠቀሙ ጠንካራ ቡድኖች ትክክለኛነትን እንደ የውሂብ ጥራት፣ የመብራት ልዩነት እና የመለየት ወጥነት ካሉ ተግባራዊ እውነታዎች ጋር ያመጣሉ። ግልጽ የስኬት መስፈርቶችን ይመዘግባሉ፣ በተጨባጭ መረጃ እና የስራ ፍሰቶች ላይ ይፈትሻሉ፣ እና የአንድ ጊዜ ቤንችማርክ ከማሸነፍ ይልቅ በተስተዋሉ የውድቀት ቅጦች ላይ ተመስርተው ይደግማሉ። ይህ የንድፈ ሃሳባዊ ግንዛቤ በምርት፣ ፖሊሲ እና ኦፕሬሽኖች ላይ ወደ ዘላቂ አቅም የሚቀየርበት ነው።

ቪዥዋል AI የመመርመሪያ፣ የማወቅ እና የመለያ ስራዎችን በሚዛን መጠን በራስ ሰር ሊያደርግ ይችላል። በተመሳሳይ ጊዜ፣ የምስል መብቶች እና ፍቃድ ማረጋገጫው ግልጽ ካልሆነ ህጋዊ አደጋዎች ሊሆኑ ይችላሉ። በጣም ጠንካራው አካሄድ የሙከራ ፍጥነትን ከአስተዳደር ዲሲፕሊን ጋር ማጣመር ነው፡ አብራሪዎችን ማስኬድ፣ ማስረጃን መያዝ፣ የውሳኔ ምዝግብ ማስታወሻዎችን ማተም እና የሞዴል ባህሪ፣ የተጠቃሚ የሚጠበቁ እና የቁጥጥር መስፈርቶች ሲዳብሩ ጥበቃዎችን ያለማቋረጥ ማዘመን ነው።

ስልታዊ ተጽእኖ

ቪዥዋል AI የመመርመሪያ፣ የማወቅ እና የመለያ ስራዎችን በሚዛን መጠን በራስ ሰር ሊያደርግ ይችላል።

ቪዥዋል AI የመመርመሪያ፣ የማወቅ እና የመለያ ስራዎችን በሚዛን መጠን በራስ ሰር ሊያደርግ ይችላል። ከፍተኛ ጥራት ባለው ማሰማራት ውስጥ፣ ይህ ወደሚለካ የአሠራር ደንቦች፣ የባለቤትነት ወሰኖች እና ተደጋጋሚ የግምገማ ሥነ ሥርዓቶች ይተረጎማል ስለዚህ ቡድኖች አሻሚነትን ከማስፋት ይልቅ በራስ መተማመንን ሊጨምሩ ይችላሉ።

የፈጠራ ቡድኖች በጥቂት የእጅ ክለሳዎች ጽንሰ-ሀሳቦችን በፍጥነት መተየብ ይችላሉ።

የፈጠራ ቡድኖች በጥቂት የእጅ ክለሳዎች ጽንሰ-ሀሳቦችን በፍጥነት መተየብ ይችላሉ። ከፍተኛ ጥራት ባለው ማሰማራት ውስጥ፣ ይህ ወደሚለካ የአሠራር ደንቦች፣ የባለቤትነት ወሰኖች እና ተደጋጋሚ የግምገማ ሥነ ሥርዓቶች ይተረጎማል ስለዚህ ቡድኖች አሻሚነትን ከማስፋት ይልቅ በራስ መተማመንን ሊጨምሩ ይችላሉ።

ክዋኔዎች ከዚህ ቀደም ለማስኬድ አስቸጋሪ የነበሩትን የምስል እና የቪዲዮ ምልክቶችን መጠቀም ይችላሉ።

ክዋኔዎች ከዚህ ቀደም ለማስኬድ አስቸጋሪ የነበሩትን የምስል እና የቪዲዮ ምልክቶችን መጠቀም ይችላሉ። ከፍተኛ ጥራት ባለው ማሰማራት ውስጥ፣ ይህ ወደሚለካ የአሠራር ደንቦች፣ የባለቤትነት ወሰኖች እና ተደጋጋሚ የግምገማ ሥነ ሥርዓቶች ይተረጎማል ስለዚህ ቡድኖች አሻሚነትን ከማስፋት ይልቅ በራስ መተማመንን ሊጨምሩ ይችላሉ።

የVQ-VAE እና የልዩ ድብቅ ነገሮች የወደፊት ዕጣ

ምስሎችን፣ ኦዲዮን እና ቪዲዮን ከጽሑፍ ጋር ተመሳሳይ በሆነ የቃላት ዝርዝር ውስጥ የሚያሳዩ ወደ የተዋሃዱ የመልቲሞዳል ሞዴሎች ለመግፋት ልዩ ድብቅ ነገሮች ማዕከላዊ ናቸው። እንደ ቀሪ እና ውሱን scalar መጠናዊ ማሻሻያዎች፣ ትላልቅ የኮድ ደብተሮች እና የተሻለ አጠቃቀም ማመጣጠን ውድቀትን እየቀነሱ እና ታማኝነትን እያሳደጉ ናቸው። ሞዴሎች ሁለቱንም የመረዳት እና የማመንጨት ዓላማ ያላቸው እንደመሆኖ፣ በVQ-VAE ሃሳቦች ላይ የተገነቡ ጠንካራ ቶከናይዘርሮች መሰረታዊ ንጥረ ነገር ሆነው ይቆያሉ፣ እየጨመረ የሚወዳደሩ እና ከተከታታይ ድብቅ ስርጭት አቀራረቦች ጋር ይጣመራሉ።

የእውነተኛ-ዓለም አተገባበር

DALL-E 1 አንድ ትራንስፎርመር እንደ የኮድ ደብተር ኢንዴክሶች ተከታታይ ምስሎችን ማመንጨት እንዲችል የተለየ VQ-VAE tokenizer ተጠቅሟል።

VQGAN VQ-VAEን ከአጋጣሚ እና ከአስተሳሰብ ኪሳራ ጋር በማጣመር ጥርት ያለ እና ከፍተኛ ጥራት ያላቸውን የምስል ቶከኖች ለሥዕል ማመንጨት።

የOpenAI ጁክቦክስ VQ-VAEን በጥሬው ኦዲዮ ላይ ተተግብሯል፣ይህም ሙዚቃን ለጀነሬቲቭ ሞዴሊንግ ልዩ ኮዶችን ጨመቀ።

VQ-VAE-2 የተደራረቡ ተዋረዳዊ ልዩ ድብቅ ሥዕሎችን በዘመኑ የነበሩትን GANs የሚወዳደሩ፣ ከፍተኛ ታማኝነት ያላቸውን ምስሎች ለማዋሃድ።

የትግበራ ቅጦች

VQ-VAE እና Discrete Latents በተግባር

DALL-E 1 አንድ ትራንስፎርመር እንደ የኮድ ደብተር ኢንዴክሶች ተከታታይ ምስሎችን ማመንጨት እንዲችል የተለየ VQ-VAE tokenizer ተጠቅሟል።

DALL-E 1 discrete VQ-VAE tokenizer ተጠቀመ ስለዚህ ትራንስፎርመር እንደ የኮድ ደብተር ኢንዴክሶች ቅደም ተከተል ምስሎችን ማመንጨት ይችላል ቡድኖቹ ብዙውን ጊዜ የጥራት ደረጃዎችን ከፊት ሲገልጹ የተሻለ ውጤት ያገኛሉ፣ ለዳር ጉዳዮች የሰው ልጅ መስፋፋት መንገድን ይጠብቃሉ እና ሁለቱንም የምርታማነት ትርፍ እና የስህተት ወጪዎችን በጊዜ ሂደት ይከታተላሉ።

VQ-VAE እና Discrete Latents በተግባር

VQGAN VQ-VAEን ከአጋጣሚ እና ከአስተሳሰብ ኪሳራ ጋር በማጣመር ጥርት ያለ እና ከፍተኛ ጥራት ያላቸውን የምስል ቶከኖች ለሥዕል ማመንጨት።

VQGAN VQ-VAEን ከተቃራኒ እና ከአስተዋይ ኪሳራ ጋር በማጣመር ጥርት ያለ እና ከፍተኛ ጥራት ያላቸውን የሥዕል ማስመሰያዎች ለሥዕል ትውልዶች ለማምረት ቡድኖች ብዙውን ጊዜ የጥራት ደረጃዎችን ፊት ለፊት ሲገልጹ የተሻለ ውጤት ያገኛሉ ፣ ለጫፍ ጉዳዮች የሰውን እድገት መንገድ ሲይዙ እና ሁለቱንም የምርታማነት ትርፍ እና የስህተት ወጪዎችን በጊዜ ሂደት ይከታተላሉ።

VQ-VAE እና Discrete Latents በተግባር

የOpenAI ጁክቦክስ VQ-VAEን በጥሬው ኦዲዮ ላይ ተተግብሯል፣ይህም ሙዚቃን ለጀነሬቲቭ ሞዴሊንግ ልዩ ኮዶችን ጨመቀ።

የOpenAI ጁክቦክስ VQ-VAEን በጥሬው ኦዲዮ ላይ ተተግብሯል፣ ሙዚቃን ወደ ልዩ ኮዶች ለጀነሬቲቭ ሞዴሊንግ ቡድን በመጨመቅ ብዙውን ጊዜ የጥራት ደረጃዎችን ከፊት ሲወስኑ የተሻለ ውጤት ያገኛሉ፣ ለዳር ጉዳዮች የሰው ልጅ መሻሻል መንገድ ሲይዙ እና ሁለቱንም የምርታማነት ትርፍ እና የስህተት ወጪዎችን በጊዜ ሂደት ይከታተሉ።

VQ-VAE እና Discrete Latents በተግባር

VQ-VAE-2 የተደራረቡ ተዋረዳዊ ልዩ ድብቅ ሥዕሎችን በዘመኑ የነበሩትን GANs የሚወዳደሩ፣ ከፍተኛ ታማኝነት ያላቸውን ምስሎች ለማዋሃድ።

VQ-VAE-2 የተደራረቡ ተዋረዳዊ ዲስኩር ድብቅ ሥዕሎች በዘመናቸው ከ GANs ጋር የሚወዳደሩ ቡድኖች አብዛኛውን ጊዜ የጥራት ደረጃዎችን ሲወስኑ የተሻለ ውጤት ያገኛሉ፣ ለጫፍ ጉዳዮች የሰውን ዕድገት መንገድ ሲይዙ እና ሁለቱንም የምርታማነት ትርፍ እና የስህተት ወጪዎችን በጊዜ ሂደት ይከታተላሉ።

አደጋዎች እና የጥበቃ መንገዶች

!

የምስል መብቶች እና ፈቃድ ግልጽ ካልሆነ ህጋዊ አደጋዎች ሊሆኑ ይችላሉ።

!

የሞዴል አፈጻጸም በብርሃን፣ በስነ-ሕዝብ እና በአካባቢው ሊለያይ ይችላል።

!

የመተማመን ገደቦች ካልተቆጣጠሩ የውሸት አወንታዊ ነገሮች ላይታዩ ይችላሉ።

የትግበራ ፍኖተ ካርታ

1

ለትክክለኛነት፣ ለማስታወስ እና ለስህተት ወጪዎች የመቀበያ መስፈርቶችን ይግለጹ።

ለትክክለኛነት፣ ለማስታወስ እና ለስህተት ወጪዎች የመቀበያ መስፈርቶችን ይግለጹ። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።

2

ከእውነተኛ የምርት ሁኔታዎች ጋር በሚዛመድ ውሂብ ይሞክሩ።

ከእውነተኛ የምርት ሁኔታዎች ጋር በሚዛመድ ውሂብ ይሞክሩ። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።

3

ለዝቅተኛ እምነት ወይም ከፍተኛ ተጽዕኖ ትንበያ የሰው ግምገማን ያክሉ።

ለዝቅተኛ እምነት ወይም ከፍተኛ ተጽዕኖ ትንበያ የሰው ግምገማን ያክሉ። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።

4

ከካሜራ ወይም የውሂብ ስብስብ ለውጦች በኋላ የሞዴሉን ተንሸራታች ይከታተሉ እና እንደገና ያረጋግጡ።

ከካሜራ ወይም የውሂብ ስብስብ ለውጦች በኋላ የሞዴሉን ተንሸራታች ይከታተሉ እና እንደገና ያረጋግጡ። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።

ማሰስዎን ይቀጥሉ