የድምጽ AI መመሪያ

SoundStream Neural Codec

SoundStream የGoogle ከጫፍ እስከ ጫፍ ያለው የነርቭ ኦዲዮ ኮዴክ ንግግር እና ሙዚቃ ጥራትን በመጠበቅ እጅግ በጣም ዝቅተኛ በሆነ ቢትሬት የሚጨምቅ ነው።

አጠቃላይ እይታ

SoundStream የGoogle ከጫፍ እስከ ጫፍ ያለው የነርቭ ኦዲዮ ኮዴክ ንግግር እና ሙዚቃ ጥራትን በመጠበቅ እጅግ በጣም ዝቅተኛ በሆነ ቢትሬት የሚጨምቅ ነው። እንደ ኦፐስ ያሉ ባህላዊ ኮዴኮችን በተመሳሳይ ቢትሬት ስለሚያሸንፍ እና ዘመናዊ አመንጭ የኦዲዮ ሞዴሎችን ስለሚያበረታ አስፈላጊ ነው።

SoundStream Neural Codec ንግግርን፣ ሙዚቃን እና ድምጽን ለግንኙነት፣ ተደራሽነት እና የሚዲያ ምርት በሚቀይሩ የኦዲዮ-AI የስራ ፍሰቶች ውስጥ ተቀምጧል።

ጥልቅ ዳይቭ

በ2021 በGoogle አስተዋውቋል፣SoundStream ከሶስት ክፍሎች በአንድ ላይ የሰለጠኑ ሙሉ በሙሉ የነርቭ ኮዴክ ነው፡- ጥሬ ሞገድ ቅርፁን ወደ የታመቀ የቬክተሮች ቅደም ተከተል የሚቀይር፣ እነዚያን ቬክተሮችን የሚሰርዝ (RVQ) ቀሪ ቬክተር ኳንቲዘር (RVQ) እና አብዮታዊ ለውጥን የሚያፈርስ ነው። በሁለቱም የመልሶ ግንባታ ኪሳራ እና የGAN አይነት ባላንጣ አድሎአዊ የሰለጠነ ነው፣ ስለዚህ ውፅዓት በቁጥር ብቻ ከመቅረብ ይልቅ ተፈጥሯዊ ይመስላል። ጎልቶ የሚታየው ባህሪ 'ሊሰፋ የሚችል' ወይም ኳንትዘር-ማስቆያ ስልጠና ነው፡ ነጠላ ሞዴል ከ3 እስከ 18 ኪ.ቢ.ቢ ገደማ ባለው የቢትሬት ፍጥነት ላይ ብዙ ወይም ያነሱ የኳንትራይዘር ንብርብሮችን በመጠቀም በቀላሉ ሊሰራ ይችላል፣ ያለ ምንም ዳግም ስልጠና። በአንድ ሞዴሉ በስማርትፎን ሲፒዩ ላይ በሚሰራው በአንድ ሞዴሉ በ3 ኪባ /Kbps/ Opus በ12 ኪባ /ሰ /ሰ/ እንደሚበልጥ ተዘግቧል።

ቴክኒካዊ ግንዛቤ

ሞገድ ቅርጹ አብነት በሚቀንሱ በተደረደሩ ውዝግቦች ውስጥ ያልፋል፣ ይህም በእያንዳንዱ ክፈፍ አንድ መክተትን ይፈጥራል (ለምሳሌ 75 ክፈፎች/ሰከንድ)። RVQ በመቀጠል እያንዳንዱን መክተት እንደ የኮድ ደብተር ኢንዴክሶች ቁልል ያደርገዋል። ቢትሬት የፍሬም ፍጥነት የንቁ ኳንታይዘር ጊዜ ቢትስ ብዛት በኮድ ደብተር እኩል ነው። የኳንትዘር ማቋረጥ በዘፈቀደ የ RVQ ቁልል በስልጠና ወቅት ይቆርጠዋል፣ ይህም ቀደምት የኮድ ደብተሮች በጣም አስፈላጊ የሆነውን መረጃ እንዲይዙ ያስገድዳቸዋል ስለዚህም ኮዴክ በዝቅተኛ ዋጋዎች በሚያምር ሁኔታ ይቀንሳል።

SoundStream Neural Codecን ማስተዳደር

SoundStream የGoogle ከጫፍ እስከ ጫፍ ያለው የነርቭ ኦዲዮ ኮዴክ ንግግር እና ሙዚቃ ጥራትን በመጠበቅ እጅግ በጣም ዝቅተኛ በሆነ ቢትሬት የሚጨምቅ ነው። እንደ ኦፐስ ያሉ ባህላዊ ኮዴኮችን በተመሳሳይ ቢትሬት ስለሚያሸንፍ እና ዘመናዊ አመንጭ የኦዲዮ ሞዴሎችን ስለሚያበረታ አስፈላጊ ነው። SoundStream Neural Codec ንግግርን፣ ሙዚቃን እና ድምጽን ለግንኙነት፣ ተደራሽነት እና የሚዲያ ምርት በሚቀይሩ የኦዲዮ-AI የስራ ፍሰቶች ውስጥ ተቀምጧል። ጥልቅ ግንዛቤን ለመገንባት SoundStream Neural Codecን እንደ ኦፕሬሽን ሞዴል እንጂ አንድ ባህሪ አይደለም፡ የሚፈለጉትን ውጤቶች ይግለጹ፣ ግምቶችን ያብራሩ እና ስርዓቱ አሁንም የባለሙያዎችን ፍርድ ከሚያስፈልገው ነገር ይለዩ።

በተግባር፣ SoundStream Neural Codec የሚጠቀሙ ጠንካራ ቡድኖች ጥራትን፣ መዘግየትን እና ፍቃድን ልክ እንደ የማሰማራቱ ስትራቴጂ አስፈላጊ አካል አድርገው ይመለከቱታል። ግልጽ የስኬት መስፈርቶችን ይመዘግባሉ፣ በተጨባጭ መረጃ እና የስራ ፍሰቶች ላይ ይፈትሻሉ፣ እና የአንድ ጊዜ ቤንችማርክ ከማሸነፍ ይልቅ በተስተዋሉ የውድቀት ቅጦች ላይ ተመስርተው ይደግማሉ። ይህ የንድፈ ሃሳባዊ ግንዛቤ በምርት፣ ፖሊሲ እና ኦፕሬሽኖች ላይ ወደ ዘላቂ አቅም የሚቀየርበት ነው።

በጽሑፍ፣ በትረካ እና በድምፅ በይነገጾች ተደራሽነትን ያሻሽላል። በተመሳሳይ ጊዜ፣ ፍቃድ ሲጎድል የድምጽ አላግባብ መጠቀም እና የማስመሰል አደጋዎች ይጨምራሉ። በጣም ጠንካራው አካሄድ የሙከራ ፍጥነትን ከአስተዳደር ዲሲፕሊን ጋር ማጣመር ነው፡ አብራሪዎችን ማስኬድ፣ ማስረጃን መያዝ፣ የውሳኔ ምዝግብ ማስታወሻዎችን ማተም እና የሞዴል ባህሪ፣ የተጠቃሚ የሚጠበቁ እና የቁጥጥር መስፈርቶች ሲዳብሩ ጥበቃዎችን ያለማቋረጥ ማዘመን ነው።

ስልታዊ ተጽእኖ

በጽሑፍ፣ በትረካ እና በድምፅ በይነገጾች ተደራሽነትን ያሻሽላል።

በጽሑፍ፣ በትረካ እና በድምፅ በይነገጾች ተደራሽነትን ያሻሽላል። ከፍተኛ ጥራት ባለው ማሰማራት ውስጥ፣ ይህ ወደሚለካ የአሠራር ደንቦች፣ የባለቤትነት ወሰኖች እና ተደጋጋሚ የግምገማ ሥነ ሥርዓቶች ይተረጎማል ስለዚህ ቡድኖች አሻሚነትን ከማስፋት ይልቅ በራስ መተማመንን ሊጨምሩ ይችላሉ።

የሚዲያ ቡድኖች በትንሽ በጀቶች የተጣራ ድምጽ በፍጥነት መላክ ይችላሉ።

የሚዲያ ቡድኖች በትንሽ በጀቶች የተጣራ ድምጽ በፍጥነት መላክ ይችላሉ። ከፍተኛ ጥራት ባለው ማሰማራት ውስጥ፣ ይህ ወደሚለካ የአሠራር ደንቦች፣ የባለቤትነት ወሰኖች እና ተደጋጋሚ የግምገማ ሥነ ሥርዓቶች ይተረጎማል ስለዚህ ቡድኖች አሻሚነትን ከማስፋት ይልቅ በራስ መተማመንን ሊጨምሩ ይችላሉ።

ከደንበኛ ጋር የሚገናኙ ስርዓቶች የንግግር ግንኙነቶችን በትልቁ ደረጃ ማካሄድ ይችላሉ።

ከደንበኛ ጋር የሚገናኙ ስርዓቶች የንግግር ግንኙነቶችን በትልቁ ደረጃ ማካሄድ ይችላሉ። ከፍተኛ ጥራት ባለው ማሰማራት ውስጥ፣ ይህ ወደሚለካ የአሠራር ደንቦች፣ የባለቤትነት ወሰኖች እና ተደጋጋሚ የግምገማ ሥነ ሥርዓቶች ይተረጎማል ስለዚህ ቡድኖች አሻሚነትን ከማስፋት ይልቅ በራስ መተማመንን ሊጨምሩ ይችላሉ።

የ SoundStream Neural Codec የወደፊት

SoundStream አብነት አቋቁሟል ይህም በኋላ እንደ EnCodec እና DAC ያሉ ኮዴኮችን ያጣሩ፣ እና ልዩ ቶከኖቹ እንደ AudioLM እና MusicLM ላሉ አመንጪ ስርዓቶች መገኛ ሆነዋል። ዘሮች ወደ ዝቅተኛ ቢትሬት እንኳን የሚገፉ፣ በትርጉም የተዋቀሩ ቶከኖች ለቋንቋ-ሞዴል አይነት የድምጽ ማመንጫዎች ግብአቶች፣ እና ለቀጥታ ጥሪዎች፣ የመስሚያ መርጃዎች እና የመተላለፊያ ይዘት እና መዘግየት በጥብቅ በተገደቡበት መሳሪያ ላይ ይበልጥ ጥብቅ በሆነ መልኩ እንዲሰማሩ ይጠብቁ።

የእውነተኛ-ዓለም አተገባበር

በከፍተኛ ቢትሬት ከውርስ ኮዴኮች የበለጠ ግልጽ በሆነ ድምፅ ወደ ~3 ኪባ/ሰዎች የድምጽ ጥሪዎችን በመጭመቅ

የGoogle AudioLM እና MusicLM አመንጪ ሞዴሎችን የሚመገቡ ልዩ የኦዲዮ ቶከኖች በማመንጨት ላይ

በተንቀሳቃሽ መሳሪያዎች ላይ በቅጽበት ዝቅተኛ ባንድዊድ የድምጽ ዥረት በሲፒዩ ኮድ መፍታት እና መግለጽ

ሁሉንም የይዘት አይነቶችን በሚይዝ ነጠላ ሞዴል ውስጥ ሙዚቃን እና ድባብን በብቃት ማከማቸት ወይም ማስተላለፍ

የትግበራ ቅጦች

SoundStream Neural Codec በተግባር

በከፍተኛ ቢትሬት ከውርስ ኮዴኮች የበለጠ ግልጽ በሆነ ድምፅ ወደ ~3 ኪባ/ሰዎች የድምጽ ጥሪዎችን በመጭመቅ።

በከፍተኛ ቢትሬት ከውርስ ኮዴኮች የበለጠ ግልጽ በሆነ ድምጽ ወደ ~3 ኪባ የሚደረጉ የድምጽ ጥሪዎችን መጭመቅ ቡድኖች ብዙውን ጊዜ የጥራት ደረጃዎችን ከፊት ሲገልጹ የተሻለ ውጤት ያገኛሉ፣ ለጫፍ ጉዳዮች የሰውን እድገት መንገድ ሲይዙ እና ሁለቱንም የምርታማነት ትርፍ እና የስህተት ወጪዎችን በጊዜ ሂደት ይከታተላሉ።

SoundStream Neural Codec በተግባር

የGoogle AudioLM እና MusicLM አመንጪ ሞዴሎችን የሚመገቡ ልዩ የኦዲዮ ቶከኖች በማመንጨት ላይ።

የGoogle's AudioLM እና MusicLM አመንጪ ሞዴሎችን የሚመግቡ ልዩ የኦዲዮ ቶከኖች ማመንጨት ቡድኖች ብዙውን ጊዜ የጥራት ደረጃዎችን ከፊት ሲገልጹ የተሻለ ውጤት ያገኛሉ፣ ለዳር ጉዳዮች የሰውን እድገት መንገድ ሲይዙ እና ሁለቱንም የምርታማነት ግኝቶችን እና የስህተት ወጪዎችን በጊዜ ሂደት ይከታተላሉ።

SoundStream Neural Codec በተግባር

በሞባይል መሳሪያዎች ላይ በሲፒዩ ኢንኮዲንግ እና ዲኮዲንግ በእውነተኛ ጊዜ ዝቅተኛ ባንድዊድ የድምጽ ዥረት።

በሞባይል መሳሪያዎች ላይ በሲፒዩ ኢንኮዲንግ እና ዲኮዲንግ የእውነተኛ ጊዜ ዝቅተኛ ባንድዊድ የድምጽ ዥረት ቡድኖች ብዙውን ጊዜ የጥራት ደረጃዎችን ፊት ለፊት ሲገልጹ፣ የሰው ልጅ መስፋፋት መንገድን ለዳር ጉዳዮች ሲይዙ እና ሁለቱንም የምርታማነት ትርፍ እና የስህተት ወጪዎችን በጊዜ ሂደት ሲከታተሉ የተሻለ ውጤት ያገኛሉ።

SoundStream Neural Codec በተግባር

ሁሉንም የይዘት አይነቶችን በሚይዝ ነጠላ ሞዴል ውስጥ ሙዚቃን እና ድባብን በብቃት ማከማቸት ወይም ማስተላለፍ።

ሁሉንም የይዘት አይነቶችን በሚያስተናግድ ነጠላ ሞዴል ውስጥ ሙዚቃን እና ድባብን በብቃት ማከማቸት ወይም ማስተላለፍ ቡድኖች ብዙውን ጊዜ የጥራት ደረጃዎችን ፊት ለፊት ሲገልጹ የተሻለ ውጤት ያገኛሉ፣ ለዳር ጉዳዮች የሰው ልጅ እድገት መንገድን ሲጠብቁ እና ሁለቱንም የምርታማነት ትርፍ እና የስህተት ወጪዎችን በጊዜ ሂደት መከታተል።

አደጋዎች እና የጥበቃ መንገዶች

!

ስምምነት ሲጠፋ የድምፅ አላግባብ መጠቀም እና የማስመሰል አደጋዎች ይጨምራሉ።

!

ትክክለኛነት በአነጋገር ዘዬዎች፣ ቀበሌኛዎች ወይም ጫጫታ አካባቢዎች ላይ ሊወድቅ ይችላል።

!

ሰራሽ ኦዲዮ ግልጽ ምልክት ሳይደረግበት ለትክክለኛ ንግግር ሊሳሳት ይችላል።

የትግበራ ፍኖተ ካርታ

1

ለድምጽ ቀረጻ፣ ክሎኒንግ እና እንደገና ጥቅም ላይ ለማዋል ግልጽ የሆነ ፈቃድ ያግኙ።

ለድምጽ ቀረጻ፣ ክሎኒንግ እና እንደገና ጥቅም ላይ ለማዋል ግልጽ የሆነ ፈቃድ ያግኙ። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።

2

በተለያዩ የድምጽ ማጉያዎች እና የበስተጀርባ ሁኔታዎች ላይ ጥራትን ይሞክሩ።

በተለያዩ የድምጽ ማጉያዎች እና የበስተጀርባ ሁኔታዎች ላይ ጥራትን ይሞክሩ። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።

3

አንድ ሰው መቼ ውጤቶችን መገምገም ወይም ማጽደቅ እንዳለበት ይግለጹ።

አንድ ሰው መቼ ውጤቶችን መገምገም ወይም ማጽደቅ እንዳለበት ይግለጹ። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።

4

ሰው ሰራሽ ኦዲዮን ይሰይሙ እና ለተጠያቂነት የፕሮቨንስ መዝገቦችን ያስቀምጡ።

ሰው ሰራሽ ኦዲዮን ይሰይሙ እና ለተጠያቂነት የፕሮቨንስ መዝገቦችን ያስቀምጡ። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።

ማሰስዎን ይቀጥሉ