فوگاتو، منعطف ترین ساز صوتی جهان، اولین خود را آغاز کرد

Fugatto

تیمی از محققان هوش مصنوعی چاقوی صوتی ارتش سوئیس را ساخته اند، چاقویی که به کاربران اجازه می دهد خروجی صدا را به سادگی با استفاده از متن کنترل کنند.

در حالی که برخی از مدل‌های هوش مصنوعی می‌توانند آهنگ بسازند یا صدا را تغییر دهند، هیچ کدام به خوبی نمایش جدید نیستند.

Fugatto (مخفف Foundational Geneative Audio Transformer Opus 1) نامیده می شود، هر ترکیبی از موسیقی، صداها و صداهای توصیف شده توسط دستورات را با استفاده از هر ترکیبی از متن و فایل های صوتی ایجاد یا تبدیل می کند.

به عنوان مثال، می‌تواند یک قطعه موسیقی را بر اساس یک پیام متنی ایجاد کند، ابزارهایی را از آهنگ موجود حذف یا اضافه کند، یا لحن یا احساس را در صدا تغییر دهد – حتی به افراد اجازه می‌دهد صداهایی تولید کنند که قبلاً هرگز نشنیده‌اند.

Ido Zmišilanyi، تهیه کننده، ترانه سرا و یکی از بنیانگذاران One Take Audio، یکی از اعضای برنامه NVIDIA Inception برای استارت آپ های پیشرفته، می گوید: «این چیز عجیب است. صدا الهام بخش من است.

درک صحیح از صدا

رافائل واله، مدیر تحقیقات صوتی کاربردی در NVIDIA و یکی از بیش از ده‌ها نفر پشتیبان Fugatto و همچنین یک رهبر ارکستر و آهنگساز، گفت: ما می‌خواستیم مدلی بسازیم که صدا را مانند انسان‌ها درک و تولید کند.

Fugatto از چندین کار تولید و تبدیل صدا پشتیبانی می‌کند، و اولین مدل پایه و پایه هوش مصنوعی است که ویژگی‌های اضطراری را نشان می‌دهد – توانایی‌هایی که از تعامل قابلیت‌های آموزش‌دیده مختلف آن ناشی می‌شوند – و توانایی ترکیب دستورالعمل‌های فرم آزاد.

بخوانید:   Rendered.ai NVIDIA Omniverse را برای تولید داده های مصنوعی یکپارچه می کند

واله گفت: “Fugatto اولین قدم ما به سوی آینده ای است که در آن یادگیری چند وظیفه ای بدون نظارت در سنتز و تبدیل صدا از داده ها و حجم مدل ناشی می شود.”

لیست پخش نمونه برای موارد استفاده

به عنوان مثال، تولیدکنندگان موسیقی می‌توانند از Fugatto برای نمونه‌سازی سریع یا تغییر ایده‌های آهنگ، استفاده از سبک‌ها، صداها و سازهای مختلف استفاده کنند. آنها همچنین می توانند افکت ها را اضافه کنند و کیفیت صدای کلی آهنگ فعلی را بهبود بخشند.

زمشلانی می‌گوید: «تاریخچه‌ی موسیقی، تاریخچه‌ی فناوری است، وقتی سمپلر به دنیا آمد، ما در حال نوشتن فصل بعدی هستیم موسیقی ما یک ساز جدید داریم، یک ابزار جدید برای ساخت موسیقی – و این بسیار هیجان انگیز است.

هر آژانس تبلیغاتی می‌تواند Fugatto را برای هدف قرار دادن سریع یک کمپین موجود در مناطق یا موقعیت‌های مختلف، اعمال لهجه‌ها و احساسات مختلف به صداگذاران، اعمال کند.

ابزارهای یادگیری زبان را می توان برای استفاده از هر صدایی که گوینده انتخاب می کند سفارشی کرد. یک دوره آنلاین را تصور کنید که با صدای یکی از اعضای خانواده یا دوستان صحبت می شود.

توسعه‌دهندگان بازی‌های ویدیویی می‌توانند از این مدل برای اصلاح دارایی‌های از پیش‌ثبت‌شده در عناوین خود برای تطبیق با تغییرات در حین بازی کاربران استفاده کنند. یا می توانند به سرعت دارایی های جدید را از دستورالعمل های متنی و ورودی صوتی اختیاری ایجاد کنند.

سر و صدایی شاد ایجاد کنید

واله با اشاره به تصویری جدید که توسط یک مدل هوش مصنوعی مولد برای عکاسی ایجاد شده است، گفت: «یکی از قابلیت‌های این مدل که ما به آن افتخار می‌کنیم، صندلی آووکادو است.

به عنوان مثال، فوگاتو می تواند یک صدای بوق یا میو ساکسیفون ایجاد کند. هر آنچه که کاربران می توانند توصیف کنند، مدل می تواند ایجاد کند.

بخوانید:   بررسی Fallout: London - در زیر اشکالات Blighty چیز شگفت انگیزی نهفته است

از طریق تنظیم دقیق و مقادیر کمی از داده های آواز، محققان دریافتند که می تواند کارهایی را انجام دهد که قبلاً برای آنها آموزش ندیده بود، مانند تولید صدای آواز با کیفیت بالا از یک پیام متنی.

کاربران کنترل های فنی را دریافت می کنند

چندین قابلیت به تازگی فوگاتو می افزاید.

در طول استنتاج، مدل از تکنیکی به نام ComposableART برای ترکیب دستورالعمل‌هایی استفاده می‌کند که تنها در طول آموزش به طور جداگانه دیده می‌شوند. به عنوان مثال، مجموعه‌ای از اعلان‌ها می‌توانند متن گفتاری با احساس غم‌انگیز با لهجه فرانسوی را درخواست کنند.

توانایی مدل برای درون یابی بین دستورالعمل ها به کاربران کنترل دقیقی بر دستورالعمل های متنی می دهد، در این مورد سنگینی لهجه یا درجه غم و اندوه.

روهان بدلانی، محقق هوش مصنوعی که این جنبه‌های مدل را طراحی کرده است، می‌گوید: «می‌خواستم به کاربران این امکان را بدهم که تم‌ها را به شیوه‌ای ذهنی یا هنری ترکیب کنند و انتخاب کنند که روی هر کدام چقدر تأکید دارند».

بدلانی که دارای مدرک کارشناسی ارشد در علوم کامپیوتر با گرایش هوش مصنوعی از دانشگاه استنفورد است، می‌گوید: «در آزمایش‌های من، نتایج اغلب غافلگیرکننده بود و باعث می‌شد تا حدودی احساس کنم یک هنرمند هستم، حتی اگر یک دانشمند کامپیوتر هستم».

این مدل همچنین صداهایی تولید می کند که در طول زمان تغییر می کنند، ویژگی که آن را درون یابی زمانی می نامد. برای مثال، او می‌تواند صداهای طوفان بارانی را ایجاد کند که در یک منطقه با رعد و برق شدید حرکت می‌کند که به آرامی در دوردست محو می‌شود. همچنین به کاربران کنترل دقیقی بر نحوه ایجاد منظره صوتی می دهد.

علاوه بر این، بر خلاف بسیاری از مدل‌ها، که فقط می‌توانند داده‌های آموزشی را که در معرض آن قرار گرفته‌اند، بازسازی کنند، Fugatto به کاربران اجازه می‌دهد تا کلیپ‌های صوتی بسازند که قبلاً هرگز دیده نشده‌اند، مانند رعد و برق که با سپیده‌دم کنار می‌رود همراه با صدای آواز پرندگان.

بخوانید:   پکن خواستار توجه سئول به نگرانی‌های منطقی پیونگ یانگ شد

به زیر کاپوت نگاه کنید

Fugatto یک مدل ترانسفورماتور مولد اولیه است که بر اساس کار قبلی تیم در زمینه هایی مانند مدل سازی گفتار، کدگذاری واج شناختی و درک صوتی ساخته شده است.

نسخه کامل از 2.5 میلیارد پارامتر استفاده می کند و بر روی یک کلاستر NVIDIA DGX حاوی 32 پردازنده گرافیکی NVIDIA H100 Tensor Core آموزش داده شده است.

فوگاتو توسط گروه متنوعی از مردم از سراسر جهان از جمله هند، برزیل، چین، اردن و کره جنوبی ساخته می شود. همکاری آنها توانایی های چند گویش و چند زبانه فوگاتو را حتی قوی تر کرده است.

یکی از سخت‌ترین بخش‌های این تلاش، ایجاد یک مجموعه داده ترکیبی حاوی میلیون‌ها نمونه صوتی بود که برای آموزش استفاده می‌شد. این تیم از یک استراتژی چند وجهی تولید داده و دستورالعمل استفاده کرد که به طور قابل توجهی دامنه وظایفی را که مدل می‌توانست انجام دهد، افزایش داد، در حالی که به عملکرد دقیق‌تری دست یافت و وظایف جدید را بدون نیاز به داده‌های اضافی فعال کرد.

آنها همچنین مجموعه داده های موجود را برای کشف روابط جدید بین داده ها بررسی کردند. کار کلی بیش از یک سال تمدید شد.

واله دو لحظه را به یاد می آورد که تیم می دانست که در حال انجام چیزی است. او گفت: «اولین باری که موسیقی را از یک موج تولید کردم، ذهن ما را منفجر کرد.

بعداً، تیم در پاسخ به درخواستی مبنی بر ایجاد موسیقی الکترونیک با پارس کردن سگ‌ها به موقع و با ضرب آهنگ، فوگاتو را نمایش داد.

“وقتی گروه با خنده از هم پاشیدند، واقعا قلبم را گرم کرد.”

آنچه فوگاتو می تواند انجام دهد را بشنوید:

منبع: https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/