این یک دستاورد شگفت انگیز برای مدیر اصلی مهندسی نرم افزار و خدمه اش است.
تنظیم یک سیستم پیچیده
تیم جیوشنگ چن به تازگی شتاب گرفته است.
سرویس تبلیغات بینگ از صدها مدل استفاده می کند که دائما در حال تغییر هستند. هر کدام باید در کمتر از 10 میلی ثانیه به یک درخواست پاسخ دهند، تقریباً 10 برابر سریعتر از یک چشم به هم زدن.
ویژگی GPU چند نمونه ای (MIG) به کاربران امکان می دهد یک GPU را به چند نمونه تقسیم کنند.

تیم چن ویژگی MIG را به حداکثر رساند و یک A100 فیزیکی را به هفت نمونه مستقل تبدیل کرد. این به تیم اجازه می دهد تا 7 برابر توان پردازشی در هر GPU با پاسخ استنتاج در 10 میلی ثانیه بدست آورد.
نرم افزار انعطاف پذیر، آسان، باز
در مرحله بعد، تیم سرویس تبلیغات را ارتقا داد NVIDIA T4 به پردازنده های گرافیکی A100.
در حالی که سناریوها اغلب تغییر می کنند، هدف تیم یکسان است – ایجاد یک برد برای کاربران و تبلیغ کنندگان.
منبع: https://blogs.nvidia.com/blog/2023/06/05/microsoft-bing-triton/
آنها به لطف NVIDIA Triton Inference Server در حال اجرا پردازندههای گرافیکی NVIDIA A100 Tensor Core.
تسریع سیستم تبلیغات بینگ با تریتون در پردازندههای گرافیکی A100 نمونهای از آنچه چن در مورد شغلش دوست دارد است. او شاهد پیشرفت هایی در زمینه هوش مصنوعی است.
آنها با هم، تکنیک های پیچیده ای را برای انجام کارهای بیشتر در زمان کمتر با حافظه کم کامپیوتر به کار می برند. آموزش مدل بر اساس یادگیری ماشینی Azure برای کارایی بود.
پرواز با NVIDIA A100 MIG
تریتون این تغییر را تا حدی فعال کرد، زیرا به کاربران امکان میدهد نرمافزارهای زمان اجرا، چارچوبها و حالتهای هوش مصنوعی مختلف را به طور همزمان روی نمونههای مجزای یک GPU واحد اجرا کنند.
نرمافزار استنتاج در یک محفظه نرمافزار عرضه میشود، بنابراین استقرار آن آسان است. و تریتون منبع باز – همچنین با امنیت و پشتیبانی در سطح سازمانی از طریق در دسترس است NVIDIA AI Enterprise – توسط جامعه ای پشتیبانی می شود که نرم افزار را در طول زمان بهتر می کند.
آخرین افزایش سرعت با دو نوآوری آغاز شد که تیم ارائه کرد تا مدلهای هوش مصنوعی سریعتر کار کنند: انفجار و EL-توجه.