تحقیقات بسیار کمی در مورد تشخیص گفتار برای لهجه های آفریقایی در یک محیط بالینی وجود دارد. بنابراین، کار با جوامع فناوری آفریقا مانند DSN، ماساخانه و زندی، اینترون راه اندازی شد AfriSpeech-200، یک چالش توسعه دهنده برای شروع تحقیقات با استفاده از داده های آن است.
توبی اولاتونجی به عنوان یک پزشک در نیجریه، استرس ناشی از تمرین در بیمارستان های شلوغ آفریقا را می داند. او به عنوان یک دانشمند یادگیری ماشینی، نسخه ای برای آن دارد.
این یک سفر بوده است، اما آن نرم افزار امروز از شرکت او در دسترس است، سلامت اینترون، عضوی از NVIDIA Inception برنامه ای که استارت آپ های پیشرفته را پرورش می دهد.
یک سفر جانبی در فناوری
تیم Intron چندین چارچوب تجاری و منبع باز تشخیص گفتار و مدل های زبان بزرگ را قبل از انتخاب ساختن با NVIDIA NeMo، یک چارچوب نرم افزاری برای مبتنی بر متن هوش مصنوعی مولد. علاوه بر این، مدل های به دست آمده بر روی پردازنده های گرافیکی NVIDIA در فضای ابری آموزش داده شدند.
به طور مشابه، با همه پیچیدگیهایش، medtech در تنوع و گنجاندن آن عقبمانده است، بنابراین اولاتونجی اخیراً تلاشی را آغاز کرده است که به این موضوع نیز میپردازد.
یک آزمایش آزمایشی در طول همهگیری با مشکل مواجه شد.
اولاتونجی در اولین سال های تمرین خود برنامه ای را برای شخم زدن در میان تپه های کاغذی تصور کرد و پزشکان را برای کمک به بیماران بیشتر آزاد کرد.
او گفت: «ما تصمیم سختی برای سرمایه گذاری در پردازش زبان طبیعی و تشخیص گفتار گرفتیم. این فناوری است که او قبلاً در کار روزانه خود با آن آشنا بود.
ساخت مدل های هوش مصنوعی
نیاز به نوشتن یادداشت های دقیق بیمار و پر کردن فرم ها کار را سخت تر می کند. سوابق کاغذی سرعت تحقیقات پزشکی را نیز کاهش داد.
در همین حال، اینترون حتی به بیمارستانهای آفریقا کمک میکند تا راههای خلاقانهای برای دستیابی به سختافزار مورد نیاز خود پیدا کنند. این چالش دیگری در راه باز کردن فرصت های بزرگ است.
اولاتونجی گفت: “من در یکی از بزرگترین بیمارستان های آفریقای غربی کار می کردم، جایی که به طور معمول روزانه بیش از 30 بیمار را می دیدم – این کار بسیار سختی است.”
او گفت: «ترکیب اصطلاحات پزشکی و لهجههای غلیظ آفریقایی نتایج وحشتناکی را با اکثر نرمافزارهای گفتار به نوشتار موجود ایجاد کرد، بنابراین میدانستیم هیچ میانبری برای آموزش مدلهای خودمان وجود نخواهد داشت.
او در مورد نرم افزاری که اکنون در چندین بیمارستان در سراسر آفریقا استفاده می شود، گفت: «حتی دکتری که در این مطالعه سریع ترین مهارت تایپ را داشت، 40 درصد سرعت داشت.
گوش دادن به صدای آفریقا
تا به امروز، این برنامه بیش از یک میلیون کلیپ از بیش از 7000 نفر در 24 کشور، از جمله 13 کشور آفریقایی، جمع آوری کرده است. این یکی از بزرگترین مجموعه داده ها در نوع خود است که بخش هایی از آن به عنوان منبع باز برای پشتیبانی از تحقیقات گفتار آفریقایی منتشر شده است.
آزمایشگاه Bio-RAMP یک جامعه جهانی از محققان اقلیت است که بر روی مشکلاتی که در تقاطع هوش مصنوعی و مراقبت های بهداشتی به آنها اهمیت می دهند، کار می کنند. این گروه در حال حاضر نیم دوجین مقاله در حال بررسی در کنفرانس های بزرگ دارد.
اولاتونجی میدانست که مدلهایش به دادههای صوتی با کیفیت بالا نیاز دارند. بنابراین، این شرکت برنامهای ایجاد کرد تا از اصطلاحات پزشکی که با لهجههای مختلف گفته میشود، صدابرداری کند.
امروزه، اینترون مدلهای خود را هر ماه در میان بهروزرسانی میکند، زیرا دادههای بیشتری وارد میشود.
پرورش تنوع در Medtech
تماشا کردن یک استاد کلاس (از ساعت 20:30) با Olatunji، HuggingFace و NVIDIA در هوش مصنوعی برای تشخیص گفتار.