የድምጽ AI መመሪያ

MusicLM ተዋረዳዊ ሙዚቃ ትውልድ

MusicLM የ _AIU_PROTECTED_11__ የጽሑፍ-ወደ-ሙዚቃ ሞዴል ነው፡ ለብዙ ደቂቃዎች ወጥነት ያለው ድምጽ የሚያመነጨው እንደ 'በተዛባ ጊታር ሪፍ የተደገፈ የሚያረጋጋ የቫዮሊን ዜማ ነው።

አጠቃላይ እይታ

MusicLM የGoogle የጽሑፍ-ወደ-ሙዚቃ ሞዴል ነው፡ ለብዙ ደቂቃዎች ወጥ የሆነ ድምጽ የሚያመነጨው እንደ 'በተዛባ ጊታር ሪፍ የተደገፈ የሚያረጋጋ የቫዮሊን ዜማ'። በአንድ ተዋረድ ውስጥ ሞዴሎችን በመደርደር፣ የሙዚቃ ትውልድን በድምጽ ቶከኖች ላይ እንደ ቋንቋ ሞዴሊንግ በመመልከት የረዥም ክልል የሙዚቃ መዋቅርን ስለፈታ ፋይዳ አለው።

የMusicLM ተዋረዳዊ ሙዚቃ ትውልድ ንግግርን፣ ሙዚቃን እና ድምጽን ለግንኙነት፣ ተደራሽነት እና የሚዲያ ምርት በሚቀይሩ የኦዲዮ-AI የስራ ፍሰቶች ውስጥ ተቀምጧል።

ጥልቅ ዳይቭ

በ2023 መጀመሪያ ላይ በGoogle ጥናት የተገለጸው MusicLM የሙዚቃ ትውልድን እንደ የቋንቋ ሞዴል ቃላትን እንደሚተነብይ ተከታታይ የድምጽ ቶከኖች አድርጎ ይቀርፃል። የውክልና ተዋረድን ይጠቀማል፡ የትርጉም ቶከኖች (w2v-BERT ከሚባል ሞዴል) እንደ ዜማ እና ሪትም ያሉ ባለ ከፍተኛ ደረጃ መዋቅርን በረጅም ርቀት ላይ ይይዛሉ፣ አኮስቲክ ቶከኖች (ከSoundStream ነርቭ ኮዴክ የተወሰደ) እንደ ግንድ እና ሸካራነት ያሉ ጥሩ ዝርዝሮችን ይይዛሉ። A first stage generates semantic tokens from the text prompt, then later stages fill in acoustic detail conditioned on those semantics. Text conditioning comes from MuLM/MuLan, a joint music-text embedding trained so descriptions and audio land in the same space. This staged approach lets MusicLM stay musically consistent over minutes rather than drifting after a few seconds.

ቴክኒካዊ ግንዛቤ

The key idea is decoupling structure from texture across a token hierarchy. Coarse semantic tokens are sparse and slow-changing, so a Transformer can model long-term form without a huge sequence length. የአኮስቲክ ቶከኖች ጥቅጥቅ ያሉ እና ከፍተኛ ደረጃ ያላቸው ናቸው፣ ነገር ግን አስቀድሞ በተቀመጡት የትርጉም ጽሑፎች ላይ ቅድመ ሁኔታ መተንበይ ብቻ ያስፈልጋቸዋል፣ ይህም እያንዳንዱን ደረጃ ትራክት ያደርገዋል። SoundStream's residual vector quantization produces the layered acoustic codes that a final decoder turns back into 24 kHz waveforms.

ሙዚቃ ኤልኤም ተዋረዳዊ ሙዚቃን ማቀናበር

MusicLM የGoogle የጽሑፍ-ወደ-ሙዚቃ ሞዴል ነው፡ ለብዙ ደቂቃዎች ወጥ የሆነ ድምጽ የሚያመነጨው እንደ 'በተዛባ ጊታር ሪፍ የተደገፈ የሚያረጋጋ የቫዮሊን ዜማ'። በአንድ ተዋረድ ውስጥ ሞዴሎችን በመደርደር፣ የሙዚቃ ትውልድን በድምጽ ቶከኖች ላይ እንደ ቋንቋ ሞዴሊንግ በመመልከት የረዥም ክልል የሙዚቃ መዋቅርን ስለፈታ ፋይዳ አለው። የMusicLM ተዋረዳዊ ሙዚቃ ትውልድ ንግግርን፣ ሙዚቃን እና ድምጽን ለግንኙነት፣ ተደራሽነት እና የሚዲያ ምርት በሚቀይሩ የኦዲዮ-AI የስራ ፍሰቶች ውስጥ ተቀምጧል። ጥልቅ ግንዛቤን ለመገንባት፣ MusicLM ተዋረዳዊ ሙዚቃን እንደ ኦፕሬሽን ሞዴል ይያዙ፣ አንድ ባህሪ ሳይሆን፡ የሚፈለጉትን ውጤቶች ይግለጹ፣ ግምቶችን ያብራሩ፣ እና ስርዓቱ አሁንም የባለሙያዎችን ዳኝነት ከሚያስፈልገው ለይ።

በተግባር፣ የMusicLM ተዋረዳዊ ሙዚቃ ትውልድን የሚጠቀሙ ጠንካራ ቡድኖች ጥራትን፣ መዘግየትን እና ፍቃድን እንደ የማሰማራቱ ስትራቴጂ አስፈላጊ ክፍሎች አድርገው ይቆጥሩታል። ግልጽ የስኬት መስፈርቶችን ይመዘግባሉ፣ በተጨባጭ መረጃ እና የስራ ፍሰቶች ላይ ይፈትሻሉ፣ እና የአንድ ጊዜ ቤንችማርክ ከማሸነፍ ይልቅ በተስተዋሉ የውድቀት ቅጦች ላይ ተመስርተው ይደግማሉ። ይህ የንድፈ ሃሳባዊ ግንዛቤ በምርት፣ ፖሊሲ እና ኦፕሬሽኖች ላይ ወደ ዘላቂ አቅም የሚቀየርበት ነው።

በጽሑፍ፣ በትረካ እና በድምፅ በይነገጾች ተደራሽነትን ያሻሽላል። በተመሳሳይ ጊዜ፣ ፍቃድ ሲጎድል የድምጽ አላግባብ መጠቀም እና የማስመሰል አደጋዎች ይጨምራሉ። በጣም ጠንካራው አካሄድ የሙከራ ፍጥነትን ከአስተዳደር ዲሲፕሊን ጋር ማጣመር ነው፡ አብራሪዎችን ማስኬድ፣ ማስረጃን መያዝ፣ የውሳኔ ምዝግብ ማስታወሻዎችን ማተም እና የሞዴል ባህሪ፣ የተጠቃሚ የሚጠበቁ እና የቁጥጥር መስፈርቶች ሲዳብሩ ጥበቃዎችን ያለማቋረጥ ማዘመን ነው።

ስልታዊ ተጽእኖ

በጽሑፍ፣ በትረካ እና በድምፅ በይነገጾች ተደራሽነትን ያሻሽላል።

በጽሑፍ፣ በትረካ እና በድምፅ በይነገጾች ተደራሽነትን ያሻሽላል። ከፍተኛ ጥራት ባለው ማሰማራት ውስጥ፣ ይህ ወደሚለካ የአሠራር ደንቦች፣ የባለቤትነት ወሰኖች እና ተደጋጋሚ የግምገማ ሥነ ሥርዓቶች ይተረጎማል ስለዚህ ቡድኖች አሻሚነትን ከማስፋት ይልቅ በራስ መተማመንን ሊጨምሩ ይችላሉ።

የሚዲያ ቡድኖች በትንሽ በጀቶች የተጣራ ድምጽ በፍጥነት መላክ ይችላሉ።

የሚዲያ ቡድኖች በትንሽ በጀቶች የተጣራ ድምጽ በፍጥነት መላክ ይችላሉ። ከፍተኛ ጥራት ባለው ማሰማራት ውስጥ፣ ይህ ወደሚለካ የአሠራር ደንቦች፣ የባለቤትነት ወሰኖች እና ተደጋጋሚ የግምገማ ሥነ ሥርዓቶች ይተረጎማል ስለዚህ ቡድኖች አሻሚነትን ከማስፋት ይልቅ በራስ መተማመንን ሊጨምሩ ይችላሉ።

ከደንበኛ ጋር የሚገናኙ ስርዓቶች የንግግር ግንኙነቶችን በትልቁ ደረጃ ማካሄድ ይችላሉ።

ከደንበኛ ጋር የሚገናኙ ስርዓቶች የንግግር ግንኙነቶችን በትልቁ ደረጃ ማካሄድ ይችላሉ። ከፍተኛ ጥራት ባለው ማሰማራት ውስጥ፣ ይህ ወደሚለካ የአሠራር ደንቦች፣ የባለቤትነት ወሰኖች እና ተደጋጋሚ የግምገማ ሥነ ሥርዓቶች ይተረጎማል ስለዚህ ቡድኖች አሻሚነትን ከማስፋት ይልቅ በራስ መተማመንን ሊጨምሩ ይችላሉ።

The Future of MusicLM Hierarchical Music Generation

MusicLM's hierarchical token approach became a template for later systems like MusicGen and commercial music tools. ጥብቅ የዜማ ማስተካከያ (ሂም አንድ ዜማ፣ ሙሉ ዝግጅት ያግኙ)፣ ረጅም ሙሉ በሙሉ የተዋቀሩ ዘፈኖች ከጥቅሶች እና ዝማሬዎች ጋር፣ እና በመሳሪያዎች እና ቁልፍ ላይ የተሻለ ቁጥጥርን ይጠብቁ። እሾሃማዎቹ ጉዳዮች ህጋዊ እና ስነ ምግባራዊ ናቸው፡ የስልጠና መረጃ ፍቃድ መስጠት፣ የአርቲስት ፍቃድ እና የውሃ ምልክት የመነጨ ድምጽ ስለዚህ ከሰው ሰራሽ ሙዚቃ መለየት አሁን የማሰማራት ዋና ዋና ነገሮች ናቸው።

የእውነተኛ-ዓለም አተገባበር

Turning a written scene description into a film or trailer score, e.g. 'አስደናቂ ኦርኬስትራ ግንባታ ከመዘምራን ጋር'

Generating background music conditioned on an image caption or even painting descriptions for art installations

Extending a short hummed or whistled melody into a fully instrumented arrangement

Producing varied stock-music tracks at different tempos and moods for advertising and content creators

የትግበራ ቅጦች

MusicLM Hierarchical Music Generation in practice

Turning a written scene description into a film or trailer score, e.g. 'አስደናቂ ኦርኬስትራ ግንባታ ከመዘምራን ጋር'

Turning a written scene description into a film or trailer score, e.g. 'Epic Orchestral Building with Choir' ቡድኖች ብዙውን ጊዜ የጥራት ደረጃዎችን ፊት ለፊት ሲገልጹ፣ የሰው ልጅ መሻሻል መንገድን ለጫፍ ጉዳዮች ሲያደርጉ እና ሁለቱንም የምርታማነት ትርፍ እና የስህተት ወጪዎችን በጊዜ ሂደት ሲከታተሉ የተሻለ ውጤት ያገኛሉ።

MusicLM Hierarchical Music Generation in practice

Generating background music conditioned on an image caption or even painting descriptions for art installations.

የበስተጀርባ ሙዚቃን በምስል መግለጫ ፅሁፍ ላይ ማመንጨት አልፎ ተርፎም ለሥነ ጥበብ ጭነቶች መግለጫዎችን መቀባት ቡድኖች ብዙውን ጊዜ የጥራት ደረጃዎችን ፊት ለፊት ሲገልጹ፣ ለዳር ጉዳዮች የሰው ልጅ መሻሻል መንገድ ሲያደርጉ እና ሁለቱንም የምርታማነት ትርፍ እና የስህተት ወጪዎችን በጊዜ ሂደት ሲከታተሉ የተሻለ ውጤት ያገኛሉ።

MusicLM Hierarchical Music Generation in practice

Extending a short hummed or whistled melody into a fully instrumented arrangement.

አጭር ዜማ ወይም የፉጨት ዜማ ሙሉ በሙሉ በመሳሪያ ወደተዘጋጀ ዝግጅት ማራዘም ቡድኖች ብዙውን ጊዜ የጥራት ደረጃዎችን ከፊት ሲወስኑ የተሻለ ውጤት ያገኛሉ፣ ለዳር ጉዳዮች የሰውን እድገት መንገድ ሲይዙ እና ሁለቱንም የምርታማነት ትርፍ እና የስህተት ወጪዎችን በጊዜ ሂደት ይከታተላሉ።

MusicLM Hierarchical Music Generation in practice

Producing varied stock-music tracks at different tempos and moods for advertising and content creators.

የተለያዩ የአክሲዮን-ሙዚቃ ትራኮችን በተለያዩ ጊዜዎች ማምረት እና ለማስታወቂያ እና የይዘት ፈጣሪዎች ስሜት ቡድኖች ብዙውን ጊዜ የጥራት ደረጃዎችን ከፊት ሲገልጹ የተሻለ ውጤት ያገኛሉ ፣ለጫፍ ጉዳዮች የሰውን እድገት መንገድ ሲይዙ እና ሁለቱንም የምርታማነት ግኝቶችን እና የስህተት ወጪዎችን በጊዜ ሂደት ይከታተላሉ።

አደጋዎች እና የጥበቃ መንገዶች

!

ስምምነት ሲጠፋ የድምፅ አላግባብ መጠቀም እና የማስመሰል አደጋዎች ይጨምራሉ።

!

ትክክለኛነት በአነጋገር ዘዬዎች፣ ቀበሌኛዎች ወይም ጫጫታ አካባቢዎች ላይ ሊወድቅ ይችላል።

!

ሰራሽ ኦዲዮ ግልጽ ምልክት ሳይደረግበት ለትክክለኛ ንግግር ሊሳሳት ይችላል።

የትግበራ ፍኖተ ካርታ

1

ለድምጽ ቀረጻ፣ ክሎኒንግ እና እንደገና ጥቅም ላይ ለማዋል ግልጽ የሆነ ፈቃድ ያግኙ።

ለድምጽ ቀረጻ፣ ክሎኒንግ እና እንደገና ጥቅም ላይ ለማዋል ግልጽ የሆነ ፈቃድ ያግኙ። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።

2

በተለያዩ የድምጽ ማጉያዎች እና የበስተጀርባ ሁኔታዎች ላይ ጥራትን ይሞክሩ።

በተለያዩ የድምጽ ማጉያዎች እና የበስተጀርባ ሁኔታዎች ላይ ጥራትን ይሞክሩ። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።

3

አንድ ሰው መቼ ውጤቶችን መገምገም ወይም ማጽደቅ እንዳለበት ይግለጹ።

አንድ ሰው መቼ ውጤቶችን መገምገም ወይም ማጽደቅ እንዳለበት ይግለጹ። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።

4

ሰው ሰራሽ ኦዲዮን ይሰይሙ እና ለተጠያቂነት የፕሮቨንስ መዝገቦችን ያስቀምጡ።

ሰው ሰራሽ ኦዲዮን ይሰይሙ እና ለተጠያቂነት የፕሮቨንስ መዝገቦችን ያስቀምጡ። እያንዳንዱን እርምጃ እንደማስረጃ በር ያዙት፡ መመዘኛዎቹ ካልተሟሉ፣ መልቀቅን ለአፍታ አቁም፣ ክፍተቱን ይዝጉ እና ከዚያ ብቻ አጠቃቀምን ያስፋፉ።

ማሰስዎን ይቀጥሉ