تیمی از محققان هوش مصنوعی چاقوی صوتی ارتش سوئیس را ساخته اند، چاقویی که به کاربران اجازه می دهد خروجی صدا را به سادگی با استفاده از متن کنترل کنند.
در حالی که برخی از مدلهای هوش مصنوعی میتوانند آهنگ بسازند یا صدا را تغییر دهند، هیچ کدام به خوبی نمایش جدید نیستند.
Fugatto (مخفف Foundational Geneative Audio Transformer Opus 1) نامیده می شود، هر ترکیبی از موسیقی، صداها و صداهای توصیف شده توسط دستورات را با استفاده از هر ترکیبی از متن و فایل های صوتی ایجاد یا تبدیل می کند.
به عنوان مثال، میتواند یک قطعه موسیقی را بر اساس یک پیام متنی ایجاد کند، ابزارهایی را از آهنگ موجود حذف یا اضافه کند، یا لحن یا احساس را در صدا تغییر دهد – حتی به افراد اجازه میدهد صداهایی تولید کنند که قبلاً هرگز نشنیدهاند.
Ido Zmišilanyi، تهیه کننده، ترانه سرا و یکی از بنیانگذاران One Take Audio، یکی از اعضای برنامه NVIDIA Inception برای استارت آپ های پیشرفته، می گوید: «این چیز عجیب است. صدا الهام بخش من است.
درک صحیح از صدا
رافائل واله، مدیر تحقیقات صوتی کاربردی در NVIDIA و یکی از بیش از دهها نفر پشتیبان Fugatto و همچنین یک رهبر ارکستر و آهنگساز، گفت: ما میخواستیم مدلی بسازیم که صدا را مانند انسانها درک و تولید کند.
Fugatto از چندین کار تولید و تبدیل صدا پشتیبانی میکند، و اولین مدل پایه و پایه هوش مصنوعی است که ویژگیهای اضطراری را نشان میدهد – تواناییهایی که از تعامل قابلیتهای آموزشدیده مختلف آن ناشی میشوند – و توانایی ترکیب دستورالعملهای فرم آزاد.
واله گفت: “Fugatto اولین قدم ما به سوی آینده ای است که در آن یادگیری چند وظیفه ای بدون نظارت در سنتز و تبدیل صدا از داده ها و حجم مدل ناشی می شود.”
لیست پخش نمونه برای موارد استفاده
به عنوان مثال، تولیدکنندگان موسیقی میتوانند از Fugatto برای نمونهسازی سریع یا تغییر ایدههای آهنگ، استفاده از سبکها، صداها و سازهای مختلف استفاده کنند. آنها همچنین می توانند افکت ها را اضافه کنند و کیفیت صدای کلی آهنگ فعلی را بهبود بخشند.
زمشلانی میگوید: «تاریخچهی موسیقی، تاریخچهی فناوری است، وقتی سمپلر به دنیا آمد، ما در حال نوشتن فصل بعدی هستیم موسیقی ما یک ساز جدید داریم، یک ابزار جدید برای ساخت موسیقی – و این بسیار هیجان انگیز است.
هر آژانس تبلیغاتی میتواند Fugatto را برای هدف قرار دادن سریع یک کمپین موجود در مناطق یا موقعیتهای مختلف، اعمال لهجهها و احساسات مختلف به صداگذاران، اعمال کند.
ابزارهای یادگیری زبان را می توان برای استفاده از هر صدایی که گوینده انتخاب می کند سفارشی کرد. یک دوره آنلاین را تصور کنید که با صدای یکی از اعضای خانواده یا دوستان صحبت می شود.
توسعهدهندگان بازیهای ویدیویی میتوانند از این مدل برای اصلاح داراییهای از پیشثبتشده در عناوین خود برای تطبیق با تغییرات در حین بازی کاربران استفاده کنند. یا می توانند به سرعت دارایی های جدید را از دستورالعمل های متنی و ورودی صوتی اختیاری ایجاد کنند.
سر و صدایی شاد ایجاد کنید
واله با اشاره به تصویری جدید که توسط یک مدل هوش مصنوعی مولد برای عکاسی ایجاد شده است، گفت: «یکی از قابلیتهای این مدل که ما به آن افتخار میکنیم، صندلی آووکادو است.
به عنوان مثال، فوگاتو می تواند یک صدای بوق یا میو ساکسیفون ایجاد کند. هر آنچه که کاربران می توانند توصیف کنند، مدل می تواند ایجاد کند.
از طریق تنظیم دقیق و مقادیر کمی از داده های آواز، محققان دریافتند که می تواند کارهایی را انجام دهد که قبلاً برای آنها آموزش ندیده بود، مانند تولید صدای آواز با کیفیت بالا از یک پیام متنی.
کاربران کنترل های فنی را دریافت می کنند
چندین قابلیت به تازگی فوگاتو می افزاید.
در طول استنتاج، مدل از تکنیکی به نام ComposableART برای ترکیب دستورالعملهایی استفاده میکند که تنها در طول آموزش به طور جداگانه دیده میشوند. به عنوان مثال، مجموعهای از اعلانها میتوانند متن گفتاری با احساس غمانگیز با لهجه فرانسوی را درخواست کنند.
توانایی مدل برای درون یابی بین دستورالعمل ها به کاربران کنترل دقیقی بر دستورالعمل های متنی می دهد، در این مورد سنگینی لهجه یا درجه غم و اندوه.
روهان بدلانی، محقق هوش مصنوعی که این جنبههای مدل را طراحی کرده است، میگوید: «میخواستم به کاربران این امکان را بدهم که تمها را به شیوهای ذهنی یا هنری ترکیب کنند و انتخاب کنند که روی هر کدام چقدر تأکید دارند».
بدلانی که دارای مدرک کارشناسی ارشد در علوم کامپیوتر با گرایش هوش مصنوعی از دانشگاه استنفورد است، میگوید: «در آزمایشهای من، نتایج اغلب غافلگیرکننده بود و باعث میشد تا حدودی احساس کنم یک هنرمند هستم، حتی اگر یک دانشمند کامپیوتر هستم».
این مدل همچنین صداهایی تولید می کند که در طول زمان تغییر می کنند، ویژگی که آن را درون یابی زمانی می نامد. برای مثال، او میتواند صداهای طوفان بارانی را ایجاد کند که در یک منطقه با رعد و برق شدید حرکت میکند که به آرامی در دوردست محو میشود. همچنین به کاربران کنترل دقیقی بر نحوه ایجاد منظره صوتی می دهد.
علاوه بر این، بر خلاف بسیاری از مدلها، که فقط میتوانند دادههای آموزشی را که در معرض آن قرار گرفتهاند، بازسازی کنند، Fugatto به کاربران اجازه میدهد تا کلیپهای صوتی بسازند که قبلاً هرگز دیده نشدهاند، مانند رعد و برق که با سپیدهدم کنار میرود همراه با صدای آواز پرندگان.
به زیر کاپوت نگاه کنید
Fugatto یک مدل ترانسفورماتور مولد اولیه است که بر اساس کار قبلی تیم در زمینه هایی مانند مدل سازی گفتار، کدگذاری واج شناختی و درک صوتی ساخته شده است.
نسخه کامل از 2.5 میلیارد پارامتر استفاده می کند و بر روی یک کلاستر NVIDIA DGX حاوی 32 پردازنده گرافیکی NVIDIA H100 Tensor Core آموزش داده شده است.
فوگاتو توسط گروه متنوعی از مردم از سراسر جهان از جمله هند، برزیل، چین، اردن و کره جنوبی ساخته می شود. همکاری آنها توانایی های چند گویش و چند زبانه فوگاتو را حتی قوی تر کرده است.
یکی از سختترین بخشهای این تلاش، ایجاد یک مجموعه داده ترکیبی حاوی میلیونها نمونه صوتی بود که برای آموزش استفاده میشد. این تیم از یک استراتژی چند وجهی تولید داده و دستورالعمل استفاده کرد که به طور قابل توجهی دامنه وظایفی را که مدل میتوانست انجام دهد، افزایش داد، در حالی که به عملکرد دقیقتری دست یافت و وظایف جدید را بدون نیاز به دادههای اضافی فعال کرد.
آنها همچنین مجموعه داده های موجود را برای کشف روابط جدید بین داده ها بررسی کردند. کار کلی بیش از یک سال تمدید شد.
واله دو لحظه را به یاد می آورد که تیم می دانست که در حال انجام چیزی است. او گفت: «اولین باری که موسیقی را از یک موج تولید کردم، ذهن ما را منفجر کرد.
بعداً، تیم در پاسخ به درخواستی مبنی بر ایجاد موسیقی الکترونیک با پارس کردن سگها به موقع و با ضرب آهنگ، فوگاتو را نمایش داد.
“وقتی گروه با خنده از هم پاشیدند، واقعا قلبم را گرم کرد.”
آنچه فوگاتو می تواند انجام دهد را بشنوید:
منبع: https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/