مدتها قبل از اینکه OpenAI صنعت فناوری را با راه اندازی ChatGPT در پاییز 2022 متحول کند، Douwe Kiela قبلاً درک کرده بود که چرا مدل های زبان بزرگ به تنهایی می توانند راه حل های جزئی را برای موارد استفاده کلیدی سازمانی ارائه دهند.
مدیر عامل جوان هلندی Contextual AI بشدت تحت تأثیر دو مقاله تحقیقاتی پیشگامانه از Google و OpenAI قرار گرفت که با هم دستورالعمل ایجاد مدلهای هوش مصنوعی و LLM مبتنی بر ترانسفورماتور سریع و کارآمد را تعریف کردند.
مدت کوتاهی پس از انتشار آن مقالات در سالهای 2017 و 2018، کیلا و تیم او از محققان هوش مصنوعی در فیسبوک، جایی که او در آن زمان در آن کار میکرد، متوجه شدند که دانشجویان LLM آنها با مشکلات عمیق تازهسازی دادهها مواجه خواهند شد.
آنها دریافتند که آموزش مدلهای پایه مانند LLM در مجموعههای داده بزرگ، نه تنها یک «مغز» استعاری برای «استدلال» در میان دادهها به مدل ارائه میکند، بلکه دادههای آموزشی نیز کل دانشی را که مدل در اختیار دارد و میتواند نشان دهد. برای ایجاد پاسخ به سوالات کاربران استفاده کنید.
تیم Kiela متوجه شد که اگر یک دارنده LLM نتواند به داده های مربوطه در زمان واقعی به روشی کارآمد و مقرون به صرفه دسترسی داشته باشد، حتی باهوش ترین دارنده LLM نیز برای نیازهای بسیاری از سازمان ها مفید نخواهد بود.
بنابراین، در بهار سال 2020، Kela و تیم او یک مقاله پیشگامانه از خود منتشر کردند که جهان را با تکنیک تولید بهبود یافته بازیابی آشنا کرد. تولید بازیابی افزوده، همانطور که معمولاً نامیده می شود، راهی برای به روز رسانی مداوم و مقرون به صرفه مدل های پایه با اطلاعات جدید و مرتبط، از جمله از فایل های خود کاربر و از اینترنت است. با فناوری Retrieval Augmented Generation، دانش یک LLM دیگر محدود به دادههای آموزشی آنها نیست و مدلها را دقیقتر، تأثیرگذارتر و مرتبطتر به کاربران سازمانی میکند.
امروز، Kayla و Amanpreet Singh، همکار سابق فیسبوک، مدیر عامل و مدیر عامل شرکت Contextual AI، یک استارتآپ مستقر در سیلیکون ولی هستند که اخیراً دور سرمایهگذاری 80 میلیون دلاری سری A را بسته است، که شامل بازوی سرمایهگذاری NVIDIA، NVentures میشود. Contextual AI همچنین یکی از اعضای NVIDIA Inception است، برنامه ای که برای پرورش استارتاپ ها طراحی شده است. این شرکت که حدود 50 کارمند دارد، می گوید که قصد دارد تا پایان سال اندازه خود را دو برابر کند.
پلتفرم ارائه شده توسط Contextual AI RAG 2.0 نام دارد. از بسیاری جهات، این یک نسخه پیشرفته و سازنده از ساختار RAG است که Kela و Singh برای اولین بار در مقاله 2020 خود توضیح دادند.
کیلا می گوید RAG 2.0 می تواند به دقت پارامتر و عملکردی حدود 10 برابر بهتر از ارائه های رقیب دست یابد.
به عنوان مثال، این بدان معناست که مدلی با 70 میلیارد پارامتر که معمولاً به منابع محاسباتی قابل توجهی نیاز دارد، میتواند در عوض بر روی یک زیرساخت بسیار کوچکتر اجرا شود که برای کنترل تنها 7 میلیارد پارامتر بدون کاهش دقت طراحی شده است. این نوع بهینهسازی فرصتهای استفاده حاشیهای را با رایانههای کوچکتری که میتوانند در سطوح بسیار بالاتر از حد انتظار عمل کنند، باز میکند.
کیلا توضیح داد: “وقتی ChatGPT اتفاق افتاد، ما شاهد این ناامیدی بزرگ بودیم زیرا همه به پتانسیل LLM ها پی بردند، اما آنها همچنین متوجه شدند که این فناوری هنوز وجود ندارد.” ما میدانستیم که RAG پاسخی برای بسیاری از مشکلات است، همچنین میدانستیم که میتوانیم خیلی بهتر از آنچه در مقاله اصلی RAG در سال 2020 بیان کردیم، انجام دهیم.
دستگاههای بازیابی یکپارچه و مدلهای زبان دستاوردهای عملکردی قابل توجهی را ارائه میکنند
کلید راه حل های Contextual AI یکپارچگی نزدیک بین معماری retriever است که با “R” در RAG نمادین است و معماری LLM که مولد یا “G” در اصطلاح است. روش کار RAG به این صورت است که بازیابی پرس و جوی کاربر را تفسیر می کند، منابع مختلف را برای شناسایی اسناد یا داده های مربوطه بررسی می کند و سپس این اطلاعات را به LLM برمی گرداند، که این اطلاعات جدید را برای ایجاد پاسخ برون یابی می کند.
از حدود سال 2020، RAG به رویکرد اصلی برای شرکتهایی تبدیل شده است که از چتباتهای مبتنی بر LLM استفاده میکنند. در نتیجه، یک اکوسیستم پر جنب و جوش از استارت آپ های متمرکز بر RAG شکل گرفته است.
یکی از راههایی که هوش مصنوعی متنی خود را از رقبا متمایز میکند، روشی است که بهینهسازی و بهبود بازیابی آن از طریق انتشار پسانداز، فرآیند تنظیم الگوریتمها – وزنها و سوگیریها – که اساس معماری شبکه عصبی آن را تشکیل میدهند، است.
به جای آموزش و تنظیم دو شبکه عصبی متمایز، یعنی بازیابی و زبان، هوش مصنوعی متنی یک پلت فرم یکپارچه و پیچیده را ارائه می دهد که مدل بازیابی و زبان را همسو می کند و سپس آنها را از طریق انتشار برگشتی با هم تنظیم می کند.
کیلا میگوید هماهنگسازی و تنظیم وزنها و بایاسها در شبکههای عصبی مختلف دشوار است، اما نتیجه، به گفته کیلا، منجر به دستاوردهای بزرگی در دقت، کیفیت پاسخ و بهبود میشود. از آنجایی که بازیابی و مولد به طور نزدیک به هم مرتبط هستند، پاسخ هایی که تولید می کنند بر اساس داده های مشترک است، به این معنی که احتمال دارد که پاسخ های آنها نسبت به سایر ساختارهای RAG شامل داده های ساخته شده یا “تخیلی” باشد، که ممکن است مدل زمانی ارائه کند. پاسخی “نمی داند”.
کیلا گفت: «رویکرد ما از نظر فنی بسیار چالش برانگیز است، اما منجر به جفت شدن بسیار قویتر بین رتریور و ژنراتور میشود و سیستم ما را دقیقتر و کارآمدتر میکند.»
موارد استفاده چالش برانگیز را با جدیدترین نوآوری ها برطرف کنید
RAG 2.0 اساساً مبتنی بر LLM نیست، به این معنی که در مدلهای مختلف زبان منبع باز مانند Mistral یا Llama کار میکند و میتواند به ترجیحات مشتری در مدلها پاسخ دهد. سختافزار بازیابی این استارتآپ با استفاده از Megatron LM NVIDIA بر روی ترکیبی از NVIDIA H100 و A100 Tensor Core GPUهای میزبانی شده در Google Cloud توسعه داده شد.
چالش مهمی که همه راهحلهای RAG با آن روبرو هستند این است که چگونه میتوان مرتبطترین اطلاعات را برای پاسخ به پرسش کاربر تعیین کرد، زمانی که این اطلاعات ممکن است در قالبهای مختلفی مانند متن، ویدیو یا PDF ذخیره شوند.
هوش مصنوعی متنی این چالش را با رویکرد «ترکیبی از رتریورها» غلبه میکند، که زیرتخصصهای مختلف رتریورها را با قالبهای مختلفی که دادهها در آن ذخیره میشوند پیوند میدهد.
هوش مصنوعی متنی از ترکیبی از انواع RAG و همچنین یک الگوریتم مرتب سازی مجدد عصبی استفاده می کند تا مشخص کند کدام اطلاعات ذخیره شده در قالب های مختلف به طور بهینه به درخواست کاربر پاسخ می دهد.
به عنوان مثال، اگر برخی از اطلاعات مربوط به یک پرس و جو در قالب فایل ویدیویی ذخیره شود، یکی از RAG هایی که برای شناسایی داده های مربوطه استفاده می شود احتمالا یک RAG گرافیکی است که در درک روابط زمانی در داده های بدون ساختار مانند ویدئو بسیار خوب است. اگر سایر داده ها در قالب متن یا PDF ذخیره شوند، یک RAG مبتنی بر برداری همزمان منتشر می شود.
در مرحله بعد، سیستم طبقه بندی مجدد عصبی به سازماندهی داده های بازیابی شده کمک می کند و سپس اطلاعات اولویت بندی شده به LLM داده می شود تا پاسخی به پرس و جو اولیه ایجاد کند.
کیلا گفت: “برای به حداکثر رساندن عملکرد، ما تقریباً هرگز از یک رویکرد بازیابی واحد استفاده نمی کنیم – معمولاً ترکیبی از دو رویکرد است زیرا آنها نقاط قوت متفاوت و مکمل دارند.” “ترکیب صحیح دقیق به مورد استفاده، داده های اساسی و درخواست کاربر بستگی دارد.”
Contextual AI با یکپارچهسازی اساسی معماریهای RAG و LLM و ارائه راههای متعدد برای یافتن اطلاعات مرتبط، عملکرد بهبود چشمگیری را به مشتریان ارائه میدهد. علاوه بر دقت بیشتر، به لطف تماسهای API کمتر بین شبکههای عصبی RAG و LLM، تأخیر را کاهش میدهد.
RAG 2.0 با معماری بسیار بهینه و نیازهای محاسباتی کم خود می تواند در فضای ابری، داخلی یا کاملا آفلاین اجرا شود. این باعث می شود که آن را به طیف گسترده ای از صنایع، از فین تک و تولید گرفته تا دستگاه های پزشکی و روباتیک مرتبط کند.
کایلا گفت: “موارد استفاده ای که ما روی آنها تمرکز می کنیم موارد بسیار سختی هستند.” فراتر از خواندن یک فیلمنامه، پاسخ دادن به سؤالات اساسی یا خلاصهنویسی، ما بر نقشهای با ارزش و دانش فشرده تمرکز میکنیم که میتواند شرکتها را در هزینههای زیادی صرفهجویی کند یا آنها را سازندهتر کند.»
منبع: https://blogs.nvidia.com/blog/contextual-ai-retrieval-augmented-generation/