معرفی ابررایانه هوش مصنوعی متاورس
ابررایانه هوش مصنوعی متاورس توسط شرکت متا برای تحقیقات هوش مصنوعی

فهرست مطالب
معرفی ابررایانه هوش مصنوعی متاورس
توسعه نسل بعدی هوش مصنوعی پیشرفته به رایانه های جدیدتر و قدرتمندی نیاز دارد که قادر به انجام میلیون ها عملیات در ثانیه هستند. امروز، متا اعلام میکند که ما SuperCluster تحقیقاتی هوش مصنوعی (RSC) را طراحی و ساختهایم ، که معتقدیم یکی از سریعترین ابر رایانههای هوش مصنوعی متاورس است که امروزه اجرا میشوند و در اواسط سال 2022، سریعترین ابررایانه هوش مصنوعی در جهان خواهد بود و راه را برای ساخت دنیای دیجیتالی متاورس هموار میکند. در این مطلب به معرفی ابررایانه هوش مصنوعی متاورس می پردازیم.
محققان ما قبلاً استفاده از RSC را برای آموزش مدلهای بزرگ در پردازش زبان طبیعی (NLP) و بینایی رایانه برای تحقیق با هدف آموزش مدلهای یک روزه با تریلیونها پارامتر آغاز کردهاند.
RSC به محققان هوش مصنوعی متا کمک می کند تا مدل های هوش مصنوعی جدید و بهتری بسازند که می توانند از تریلیون ها مثال بیاموزند. کار در صدها زبان مختلف؛ یکپارچه متن، تصاویر و ویدئو را با هم تجزیه و تحلیل کنید. توسعه ابزارهای واقعیت افزوده جدید؛ و خیلی بیشتر.
محققان ما قادر خواهند بود بزرگترین مدل های مورد نیاز برای توسعه هوش مصنوعی پیشرفته را آموزش دهند.بینایی کامپیوتری ،NLP،تشخیص گفتار و بیشتر. امیدواریم RSC به ما کمک کند تا سیستمهای هوش مصنوعی کاملاً جدیدی بسازیم که میتواند به عنوان مثال، ترجمههای صوتی بلادرنگ را برای گروههای بزرگی از مردم، که هر کدام به زبان متفاوتی صحبت میکنند، تقویت کند، بنابراین آنها میتوانند به طور یکپارچه در یک پروژه تحقیقاتی همکاری کنند یا یک بازی واقعیت افزوده را با هم بازی کنند.
در نهایت، کار انجام شده با RSC راه را به سوی ساخت فناوریها برای پلتفرم محاسباتی بزرگ بعدی هموار خواهد کرد. متاورس ، که در آن برنامه ها و محصولات مبتنی بر هوش مصنوعی نقش مهمی ایفا خواهند کرد.
چرا ما به ابررایانه هوش مصنوعی در این مقیاس نیاز داریم؟
متا متعهد به سرمایه گذاری بلند مدت در هوش مصنوعی است .از سال 2013، زمانی که آزمایشگاه تحقیقات هوش مصنوعی فیس بوک را ایجاد کردیم. در سال های اخیر، به لطف رهبری خود در تعدادی از زمینه ها، از جمله یادگیری خود نظارتی
، که در آن الگوریتم ها می توانند از تعداد زیادی مثال بدون برچسب یاد بگیرند و مبدل ها که به مدلهای هوش مصنوعی اجازه میدهد تا با تمرکز بر بخشهای خاصی از ورودیهای خود، به طور مؤثرتری استدلال کنند.
برای درک کامل مزایای یادگیری خود نظارتی و مدل های مبتنی بر ترانسفورماتور، حوزه های مختلف، اعم از بینایی، گفتار، زبان، یا برای موارد استفاده حیاتی مانندشناسایی محتوای مضر ، به طور فزاینده ای نیاز به آموزش دارد .جتمع، و سازگار مدل ها. برای مثال، بینایی کامپیوتری نیاز به پردازش ویدیوهای بزرگتر و طولانی تر با نرخ نمونه برداری داده بالاتر دارد.
تشخیص گفتار حتی در سناریوهای چالش برانگیز با صدای پس زمینه زیاد، مانند مهمانی ها یا کنسرت ها، باید به خوبی کار کند.
NLP باید زبان ها، لهجه ها و لهجه های بیشتری را بفهمد. و پیشرفت در زمینه های دیگر از جمله رباتیک ،تجسم هوش مصنوعی، و هوش مصنوعی چندوجهی به افراد کمک می کند تا وظایف مفیدی را در دنیای واقعی انجام دهند.
زیرساخت محاسباتی با کارایی بالا یک جزء حیاتی در آموزش چنین مدلهای بزرگی است و تیم تحقیقاتی هوش مصنوعی متا سالهاست که این سیستمهای پرقدرت را میسازد. نسل اول این زیرساخت که در سال 2017 طراحی شده است دارای 22000 پردازنده گرافیکی NVIDIA V100 Tensor Core در یک کلاستر است که روزانه 35000 کار آموزشی را انجام می دهد.
تاکنون، این زیرساخت از نظر عملکرد، قابلیت اطمینان و بهرهوری، نوار را برای محققان Meta تعیین کرده است.
در اوایل سال 2020، ما تصمیم گرفتیم بهترین راه برای تسریع پیشرفت، طراحی یک زیرساخت محاسباتی جدید از یک لوح تمیز برای استفاده از فناوری جدید GPU و شبکه فابریک باشد. ما میخواستیم این زیرساخت بتواند مدلهایی را با بیش از یک تریلیون پارامتر روی مجموعه دادههایی به بزرگی یک اگزابایت آموزش دهد ، که برای ایجاد حس مقیاس، معادل 36000 سال ویدیوی با کیفیت بالا است.
در حالی که جامعه محاسباتی با کارایی بالا برای دههها در حال مقابله با مقیاس بوده است، ما همچنین باید مطمئن میشدیم که تمام کنترلهای امنیتی و حریم خصوصی مورد نیاز را برای محافظت از دادههای آموزشی که استفاده میکنیم، در اختیار داریم.
برخلاف زیرساختهای تحقیقاتی هوش مصنوعی قبلی ما، که فقط از منبع باز و سایر مجموعههای داده در دسترس عموم استفاده میکرد، RSC همچنین به ما کمک میکند تا اطمینان حاصل کنیم که تحقیقات ما به طور مؤثر به عمل تبدیل میشود و به ما امکان میدهد نمونههای دنیای واقعی از سیستمهای تولید متا را در آموزش مدلها لحاظ کنیم.
با انجام این کار، می توانیم به پیشرفت تحقیقات برای انجام وظایف پایین دستی مانند شناسایی محتوای مضر در پلتفرم هایمان و همچنین تحقیق در مورد کمک کنیم.
تجسم هوش مصنوعی و هوش مصنوعی چندوجهی برای کمک به بهبود تجربیات کاربر در خانواده برنامههای ما. ما معتقدیم که این اولین باری است که عملکرد، قابلیت اطمینان، امنیت و حریم خصوصی در چنین مقیاسی مورد بررسی قرار گرفته است.
RSC
ابررایانههای هوش مصنوعی با ترکیب چندین GPU در گرههای محاسباتی ساخته میشوند، که سپس توسط یک پارچه شبکه با کارایی بالا به هم متصل میشوند تا امکان ارتباط سریع بین آن GPUها را فراهم کنند.
امروزه RSC از مجموع 760 سیستم NVIDIA DGX A100 به عنوان گره های محاسباتی خود تشکیل می دهد که در مجموع 6080 واحد پردازش گرافیکی را شامل می شود – که هر یک از پردازنده های گرافیکی A100 قدرتمندتر از V100 مورد استفاده در سیستم قبلی ما هستند. هر DGX از طریق NVIDIA Quantum 1600 Gb/s InfiniBand پارچه Clos دو سطحی ارتباط برقرار میکند که هیچ اشتراک اضافی ندارد.
سطح ذخیره سازی RSC دارای 175 پتابایت FlashArray ذخیره سازی خالص، 46 پتابایت حافظه کش در سیستم های Penguin Computing Altus و 10 پتابایت حافظه ذخیره سازی خالص FlashBlade است.
معیارهای اولیه در RSC، در مقایسه با زیرساختهای تولید و تحقیقات قدیمی متا، نشان داده است که گردشهای کاری بینایی کامپیوتر را تا 20 برابر سریعتر اجرا میکند، کتابخانه ارتباطات جمعی NVIDIA (NCCL) را بیش از نه برابر سریعتر اجرا میکند و مدلهای NLP در مقیاس بزرگ را آموزش میدهد. سه برابر سریعتر این بدان معناست که مدلی با دهها میلیارد پارامتر میتواند در سه هفته تمرین را به پایان برساند، در مقایسه با ۹ هفته قبل.
طراحی و ساخت چیزی مانند RSC به تنهایی مربوط به عملکرد نیست، بلکه عملکرد در بزرگترین مقیاس ممکن، با پیشرفته ترین فناوری موجود امروزی است. هنگامی که RSC کامل شد، فابریک شبکه InfiniBand 16000 GPU را به عنوان نقطه پایانی به هم متصل میکند، و آن را به یکی از بزرگترین شبکههایی تبدیل میکند که تا به امروز مستقر شده است. علاوه بر این، ما یک سیستم حافظه پنهان و ذخیره سازی طراحی کردیم که می تواند 16 ترابایت بر ثانیه از داده های آموزشی را ارائه دهد و قصد داریم آن را تا 1 اگزابایت مقیاس کنیم.
همه این زیرساختها باید بسیار قابل اعتماد باشند، زیرا ما تخمین میزنیم که برخی آزمایشها میتوانند هفتهها اجرا شوند و به هزاران GPU نیاز دارند. در نهایت، کل تجربه استفاده از RSC باید محقق پسند باشد تا تیمهای ما بتوانند به راحتی طیف وسیعی از مدلهای هوش مصنوعی را بررسی کنند.
بخش بزرگی از دستیابی به این هدف در کار با تعدادی از شرکای قدیمی بود که همه آنها همچنین به طراحی نسل اول زیرساخت هوش مصنوعی ما در سال 2017 کمک کردند.
Penguin Computing، یک شرکت SGH، شریک معماری و خدمات مدیریت شده ما، با تیم عملیات ما در زمینه یکپارچه سازی سخت افزار برای استقرار خوشه و به تنظیم بخش های اصلی صفحه کنترل کمک کرد.
Pure Storage یک راه حل ذخیره سازی قوی و مقیاس پذیر در اختیار ما قرار داد. و NVIDIA فناوریهای محاسباتی هوش مصنوعی خود را در اختیار ما قرار داد که شامل سیستمهای پیشرفته، پردازندههای گرافیکی، و پارچه InfiniBand، و اجزای پشته نرمافزاری مانند NCCL برای خوشه است.
اما چالشهای غیرمنتظره دیگری در توسعه RSC به وجود آمد – یعنی همهگیری کرونا. RSC به عنوان یک پروژه کاملاً از راه دور شروع شد که تیم در حدود یک سال و نیم از یک سند مشترک ساده به یک خوشه فعال تبدیل کرد. کووید-۱۹ و محدودیتهای عرضه ویفر در سراسر صنعت، مشکلات زنجیره تامین را نیز به همراه داشت که دریافت همه چیز از تراشهها گرفته تا قطعاتی مانند اپتیک و پردازندههای گرافیکی و حتی مصالح ساختمانی را دشوار میکرد – که همه آنها باید مطابق با پروتکلهای ایمنی جدید حمل میشدند. برای ساخت موثر این خوشه، باید آن را از ابتدا طراحی میکردیم، بسیاری از قراردادهای متا خاص کاملاً جدید را ایجاد میکردیم و در طول مسیر به موارد قبلی بازنگری میکردیم. ما مجبور شدیم قوانین جدیدی را پیرامون طراحی های مرکز داده خود بنویسیم – از جمله خنک کننده، قدرت، چیدمان قفسه، کابل کشی و شبکه (شامل یک صفحه کنترل کاملاً جدید)، از جمله ملاحظات مهم دیگر. ما باید اطمینان حاصل میکردیم که همه تیمها، از ساختوساز گرفته تا سختافزار گرفته تا نرمافزار و هوش مصنوعی، در قفل و هماهنگ با شرکای ما کار میکنند.
فراتر از خود سیستم اصلی، به یک راه حل ذخیره سازی قدرتمند نیز نیاز بود، راه حلی که بتواند پهنای باند ترابایتی را از یک سیستم ذخیره سازی در مقیاس اگزابایت ارائه دهد. برای تامین نیازهای روزافزون پهنای باند و ظرفیت آموزش هوش مصنوعی، ما یک سرویس ذخیره سازی به نام AI Research Store (AIRStore) را از ابتدا توسعه دادیم. برای بهینهسازی مدلهای هوش مصنوعی، AIRStore از یک مرحله آمادهسازی داده جدید استفاده میکند که مجموعه دادهها را برای استفاده برای آموزش پیش پردازش میکند. هنگامی که آماده سازی یک بار انجام شد، مجموعه داده های آماده شده را می توان برای چندین دوره آموزشی استفاده کرد تا زمانی که منقضی شود. AIRStore همچنین انتقال داده ها را بهینه می کند تا ترافیک بین منطقه ای در ستون فقرات بین مرکز داده Meta به حداقل برسد.
چگونه از داده ها در RSC محافظت می کنیم
برای ساختن مدلهای جدید هوش مصنوعی که به نفع افرادی باشد که از خدمات ما استفاده میکنند – چه شناسایی محتوای مضر یا ایجاد تجربیات جدید واقعیت افزوده – باید مدلهایی را با استفاده از دادههای دنیای واقعی سیستمهای تولیدی خود آموزش دهیم. RSC از ابتدا با حفظ حریم خصوصی و امنیت طراحی شده است، به طوری که محققان Meta می توانند با استفاده از داده های رمزگذاری شده تولید شده توسط کاربر که تا قبل از آموزش رمزگشایی نمی شوند، مدل ها را با خیال راحت آموزش دهند. به عنوان مثال، RSC از اینترنت بزرگتر جدا شده است، بدون اتصال مستقیم ورودی یا خروجی، و ترافیک فقط از مراکز داده تولید متا جریان دارد.
برای برآوردن الزامات حریم خصوصی و امنیتی ما، کل مسیر داده از سیستم های ذخیره سازی ما به GPU ها رمزگذاری شده است و دارای ابزارها و فرآیندهای لازم برای تأیید اینکه این الزامات همیشه برآورده شده است. قبل از اینکه دادهها به RSC وارد شوند، باید فرآیند بررسی حریم خصوصی را طی کنند تا تأیید شود که به درستی ناشناس شدهاند. سپس داده ها قبل از استفاده برای آموزش مدل های هوش مصنوعی رمزگذاری می شوند و کلیدهای رمزگشایی به طور مرتب حذف می شوند تا اطمینان حاصل شود که داده های قدیمی هنوز در دسترس نیستند. و از آنجایی که دادهها فقط در یک نقطه پایانی رمزگشایی میشوند، در حافظه، حتی در صورت غیرمحتمل نقض فیزیکی تسهیلات، محافظت میشوند.
فاز دو به بعد
RSC امروز راه اندازی شده است، اما توسعه آن ادامه دارد. پس از تکمیل فاز دوم ساخت RSC، ما معتقدیم که این ابررایانه با هوش مصنوعی سریعترین ابررایانه در جهان خواهد بود که تقریباً 5 اگزافلاپس محاسبات دقیق ترکیبی را انجام میدهد. تا سال 2022، ما برای افزایش تعداد پردازندههای گرافیکی از 6080 به 16000 کار خواهیم کرد که عملکرد آموزش هوش مصنوعی را بیش از 2.5 برابر افزایش میدهد. فابریک InfiniBand برای پشتیبانی از 16000 پورت در یک توپولوژی دو لایه و بدون اشتراک اضافی گسترش خواهد یافت. این سیستم ذخیره سازی دارای پهنای باند تحویل هدف 16 ترابایت بر ثانیه و ظرفیت در مقیاس اگزابایت برای پاسخگویی به افزایش تقاضا خواهد بود.
ما انتظار داریم که چنین تغییر تابع مرحله ای در قابلیت محاسباتی ما را قادر سازد نه تنها مدل های هوش مصنوعی دقیق تری را برای سرویس های موجود خود ایجاد کنیم، بلکه تجربیات کاربر کاملاً جدیدی را، به ویژه در متاورس، فعال کنیم. سرمایهگذاریهای بلندمدت ما در یادگیری خود نظارتی و ساخت زیرساختهای هوش مصنوعی نسل بعدی با RSC به ما کمک میکند فناوریهای بنیادی ایجاد کنیم که به متاورس نیرو میدهد و جامعه گستردهتر هوش مصنوعی را نیز ارتقا میدهد.