استارت آپی که هوش مصنوعی متنی را از طریق بازیابی و تولید تقویت شده برای شرکت ها افزایش می دهد

استارت آپی که هوش مصنوعی متنی را از طریق بازیابی و تولید تقویت شده برای شرکت ها افزایش می دهد

مدتها قبل از اینکه OpenAI صنعت فناوری را با راه اندازی ChatGPT در پاییز 2022 متحول کند، Douwe Kiela قبلاً درک کرده بود که چرا مدل های زبان بزرگ به تنهایی می توانند راه حل های جزئی را برای موارد استفاده کلیدی سازمانی ارائه دهند.

مدیر عامل جوان هلندی Contextual AI بشدت تحت تأثیر دو مقاله تحقیقاتی پیشگامانه از Google و OpenAI قرار گرفت که با هم دستورالعمل ایجاد مدل‌های هوش مصنوعی و LLM مبتنی بر ترانسفورماتور سریع و کارآمد را تعریف کردند.

مدت کوتاهی پس از انتشار آن مقالات در سال‌های 2017 و 2018، کیلا و تیم او از محققان هوش مصنوعی در فیس‌بوک، جایی که او در آن زمان در آن کار می‌کرد، متوجه شدند که دانشجویان LLM آنها با مشکلات عمیق تازه‌سازی داده‌ها مواجه خواهند شد.

آن‌ها دریافتند که آموزش مدل‌های پایه مانند LLM در مجموعه‌های داده بزرگ، نه تنها یک «مغز» استعاری برای «استدلال» در میان داده‌ها به مدل ارائه می‌کند، بلکه داده‌های آموزشی نیز کل دانشی را که مدل در اختیار دارد و می‌تواند نشان دهد. برای ایجاد پاسخ به سوالات کاربران استفاده کنید.

تیم Kiela متوجه شد که اگر یک دارنده LLM نتواند به داده های مربوطه در زمان واقعی به روشی کارآمد و مقرون به صرفه دسترسی داشته باشد، حتی باهوش ترین دارنده LLM نیز برای نیازهای بسیاری از سازمان ها مفید نخواهد بود.

بنابراین، در بهار سال 2020، Kela و تیم او یک مقاله پیشگامانه از خود منتشر کردند که جهان را با تکنیک تولید بهبود یافته بازیابی آشنا کرد. تولید بازیابی افزوده، همانطور که معمولاً نامیده می شود، راهی برای به روز رسانی مداوم و مقرون به صرفه مدل های پایه با اطلاعات جدید و مرتبط، از جمله از فایل های خود کاربر و از اینترنت است. با فناوری Retrieval Augmented Generation، دانش یک LLM دیگر محدود به داده‌های آموزشی آنها نیست و مدل‌ها را دقیق‌تر، تأثیرگذارتر و مرتبط‌تر به کاربران سازمانی می‌کند.

امروز، Kayla و Amanpreet Singh، همکار سابق فیس‌بوک، مدیر عامل و مدیر عامل شرکت Contextual AI، یک استارت‌آپ مستقر در سیلیکون ولی هستند که اخیراً دور سرمایه‌گذاری 80 میلیون دلاری سری A را بسته است، که شامل بازوی سرمایه‌گذاری NVIDIA، NVentures می‌شود. Contextual AI همچنین یکی از اعضای NVIDIA Inception است، برنامه ای که برای پرورش استارتاپ ها طراحی شده است. این شرکت که حدود 50 کارمند دارد، می گوید که قصد دارد تا پایان سال اندازه خود را دو برابر کند.

بخوانید:   نمودار بازی‌های ویدیویی جعبه‌دار بریتانیا تحت سلطه Zelda، Zelda و Zelda است – WGB، صفحه اصلی بررسی‌های عالی

پلتفرم ارائه شده توسط Contextual AI RAG 2.0 نام دارد. از بسیاری جهات، این یک نسخه پیشرفته و سازنده از ساختار RAG است که Kela و Singh برای اولین بار در مقاله 2020 خود توضیح دادند.

کیلا می گوید RAG 2.0 می تواند به دقت پارامتر و عملکردی حدود 10 برابر بهتر از ارائه های رقیب دست یابد.

به عنوان مثال، این بدان معناست که مدلی با 70 میلیارد پارامتر که معمولاً به منابع محاسباتی قابل توجهی نیاز دارد، می‌تواند در عوض بر روی یک زیرساخت بسیار کوچک‌تر اجرا شود که برای کنترل تنها 7 میلیارد پارامتر بدون کاهش دقت طراحی شده است. این نوع بهینه‌سازی فرصت‌های استفاده حاشیه‌ای را با رایانه‌های کوچک‌تری که می‌توانند در سطوح بسیار بالاتر از حد انتظار عمل کنند، باز می‌کند.

کیلا توضیح داد: “وقتی ChatGPT اتفاق افتاد، ما شاهد این ناامیدی بزرگ بودیم زیرا همه به پتانسیل LLM ها پی بردند، اما آنها همچنین متوجه شدند که این فناوری هنوز وجود ندارد.” ما می‌دانستیم که RAG پاسخی برای بسیاری از مشکلات است، همچنین می‌دانستیم که می‌توانیم خیلی بهتر از آنچه در مقاله اصلی RAG در سال 2020 بیان کردیم، انجام دهیم.

دستگاه‌های بازیابی یکپارچه و مدل‌های زبان دستاوردهای عملکردی قابل توجهی را ارائه می‌کنند

کلید راه حل های Contextual AI یکپارچگی نزدیک بین معماری retriever است که با “R” در RAG نمادین است و معماری LLM که مولد یا “G” در اصطلاح است. روش کار RAG به این صورت است که بازیابی پرس و جوی کاربر را تفسیر می کند، منابع مختلف را برای شناسایی اسناد یا داده های مربوطه بررسی می کند و سپس این اطلاعات را به LLM برمی گرداند، که این اطلاعات جدید را برای ایجاد پاسخ برون یابی می کند.

از حدود سال 2020، RAG به رویکرد اصلی برای شرکت‌هایی تبدیل شده است که از چت‌بات‌های مبتنی بر LLM استفاده می‌کنند. در نتیجه، یک اکوسیستم پر جنب و جوش از استارت آپ های متمرکز بر RAG شکل گرفته است.

بخوانید:   Elden Ring برنده جایزه دیگری شد، این بار بهترین بازی نویسی در The Nebulas

یکی از راه‌هایی که هوش مصنوعی متنی خود را از رقبا متمایز می‌کند، روشی است که بهینه‌سازی و بهبود بازیابی آن از طریق انتشار پس‌انداز، فرآیند تنظیم الگوریتم‌ها – وزن‌ها و سوگیری‌ها – که اساس معماری شبکه عصبی آن را تشکیل می‌دهند، است.

به جای آموزش و تنظیم دو شبکه عصبی متمایز، یعنی بازیابی و زبان، هوش مصنوعی متنی یک پلت فرم یکپارچه و پیچیده را ارائه می دهد که مدل بازیابی و زبان را همسو می کند و سپس آنها را از طریق انتشار برگشتی با هم تنظیم می کند.

کیلا می‌گوید هماهنگ‌سازی و تنظیم وزن‌ها و بایاس‌ها در شبکه‌های عصبی مختلف دشوار است، اما نتیجه، به گفته کیلا، منجر به دستاوردهای بزرگی در دقت، کیفیت پاسخ و بهبود می‌شود. از آنجایی که بازیابی و مولد به طور نزدیک به هم مرتبط هستند، پاسخ هایی که تولید می کنند بر اساس داده های مشترک است، به این معنی که احتمال دارد که پاسخ های آنها نسبت به سایر ساختارهای RAG شامل داده های ساخته شده یا “تخیلی” باشد، که ممکن است مدل زمانی ارائه کند. پاسخی “نمی داند”.

کیلا گفت: «رویکرد ما از نظر فنی بسیار چالش برانگیز است، اما منجر به جفت شدن بسیار قوی‌تر بین رتریور و ژنراتور می‌شود و سیستم ما را دقیق‌تر و کارآمدتر می‌کند.»

موارد استفاده چالش برانگیز را با جدیدترین نوآوری ها برطرف کنید

RAG 2.0 اساساً مبتنی بر LLM نیست، به این معنی که در مدل‌های مختلف زبان منبع باز مانند Mistral یا Llama کار می‌کند و می‌تواند به ترجیحات مشتری در مدل‌ها پاسخ دهد. سخت‌افزار بازیابی این استارت‌آپ با استفاده از Megatron LM NVIDIA بر روی ترکیبی از NVIDIA H100 و A100 Tensor Core GPUهای میزبانی شده در Google Cloud توسعه داده شد.

چالش مهمی که همه راه‌حل‌های RAG با آن روبرو هستند این است که چگونه می‌توان مرتبط‌ترین اطلاعات را برای پاسخ به پرسش کاربر تعیین کرد، زمانی که این اطلاعات ممکن است در قالب‌های مختلفی مانند متن، ویدیو یا PDF ذخیره شوند.

بخوانید:   Friday The 13th قبل از حذف از فروش، همه بازیکنان را به حداکثر سطح می رساند

هوش مصنوعی متنی این چالش را با رویکرد «ترکیبی از رتریورها» غلبه می‌کند، که زیرتخصص‌های مختلف رتریورها را با قالب‌های مختلفی که داده‌ها در آن ذخیره می‌شوند پیوند می‌دهد.

هوش مصنوعی متنی از ترکیبی از انواع RAG و همچنین یک الگوریتم مرتب سازی مجدد عصبی استفاده می کند تا مشخص کند کدام اطلاعات ذخیره شده در قالب های مختلف به طور بهینه به درخواست کاربر پاسخ می دهد.

به عنوان مثال، اگر برخی از اطلاعات مربوط به یک پرس و جو در قالب فایل ویدیویی ذخیره شود، یکی از RAG هایی که برای شناسایی داده های مربوطه استفاده می شود احتمالا یک RAG گرافیکی است که در درک روابط زمانی در داده های بدون ساختار مانند ویدئو بسیار خوب است. اگر سایر داده ها در قالب متن یا PDF ذخیره شوند، یک RAG مبتنی بر برداری همزمان منتشر می شود.

در مرحله بعد، سیستم طبقه بندی مجدد عصبی به سازماندهی داده های بازیابی شده کمک می کند و سپس اطلاعات اولویت بندی شده به LLM داده می شود تا پاسخی به پرس و جو اولیه ایجاد کند.

کیلا گفت: “برای به حداکثر رساندن عملکرد، ما تقریباً هرگز از یک رویکرد بازیابی واحد استفاده نمی کنیم – معمولاً ترکیبی از دو رویکرد است زیرا آنها نقاط قوت متفاوت و مکمل دارند.” “ترکیب صحیح دقیق به مورد استفاده، داده های اساسی و درخواست کاربر بستگی دارد.”

Contextual AI با یکپارچه‌سازی اساسی معماری‌های RAG و LLM و ارائه راه‌های متعدد برای یافتن اطلاعات مرتبط، عملکرد بهبود چشمگیری را به مشتریان ارائه می‌دهد. علاوه بر دقت بیشتر، به لطف تماس‌های API کمتر بین شبکه‌های عصبی RAG و LLM، تأخیر را کاهش می‌دهد.

RAG 2.0 با معماری بسیار بهینه و نیازهای محاسباتی کم خود می تواند در فضای ابری، داخلی یا کاملا آفلاین اجرا شود. این باعث می شود که آن را به طیف گسترده ای از صنایع، از فین تک و تولید گرفته تا دستگاه های پزشکی و روباتیک مرتبط کند.

کایلا گفت: “موارد استفاده ای که ما روی آنها تمرکز می کنیم موارد بسیار سختی هستند.” فراتر از خواندن یک فیلمنامه، پاسخ دادن به سؤالات اساسی یا خلاصه‌نویسی، ما بر نقش‌های با ارزش و دانش فشرده تمرکز می‌کنیم که می‌تواند شرکت‌ها را در هزینه‌های زیادی صرفه‌جویی کند یا آنها را سازنده‌تر کند.»

منبع: https://blogs.nvidia.com/blog/contextual-ai-retrieval-augmented-generation/