۰
هدف استارتاپ دی‌ماتریکس:

کاهش 90 درصدی قیمت تراشه‌های هوش مصنوعی

تاریخ انتشار
سه شنبه ۲۸ بهمن ۱۴۰۴ ساعت ۰۹:۲۶
کاهش 90 درصدی قیمت تراشه‌های هوش مصنوعی
کاهش 90 درصدی قیمت تراشه‌های هوش مصنوعی
آی‌تی‌من- استارت‌آپ تراشه‌سازی d-Matrix با حمایت مایکروسافت ایده‌ای را برای ساخت تراشه‌هایی مطرح کرده که استنتاج را بسیار سریع‌تر، ارزان‌تر و کارآمدتر ارائه می‌دهند. این کاری است که شرکت‌های هوش مصنوعی هنگام پاسخ دادن به پرسش‌های هوش مصنوعی شما انجام می‌دهند. اگر d-Matrix درست بگوید، آینده هوش مصنوعی ممکن است به این که چه کسی بزرگترین مدل‌ها را آموزش می‌دهد وابسته نباشد، بلکه احتمالا به این بستگی خواهد داشت که چه کسی می‌تواند سریع‌ترین و ارزان‌ترین پاسخ را بدهد.

سید شث، مدیرعامل d-Matrix در «اجلاس وب قطر» گفت: آموزش کاملا عملکرد است و استنتاج کاملا کارآیی. این تمایز برای d-Matrix اساسی است.

آموزش مدل‌های زبانی بزرگ امروزی، بهتر است روی پردازنده‌های گرافیکی رده بالا انجام شود اما شث معتقد است که پردازنده‌های گرافیکی برای اجرای مدل‌های هوش مصنوعی جهت پاسخ دادن به پرسش‌ها ایده‌آل نیستند.

شث گفت: مشکل اساسی این است که شما از یک تراشه آموزشی استفاده می‌کنید و بعد می‌گویید من قرار است روی آن تراشه‌ها استنتاج را اجرا کنم. این واقعاً بهترین راه نیست.

شرکت d-Matrix براساس این باور تأسیس شد که استنتاج در نهایت بر حجم کار هوش مصنوعی تسلط خواهد یافت. این شرکت به جای تغییر کاربری سخت‌افزار آموزشی، ساختار را از پایه بنا کرد. به گفته شث، یک تفاوت ساختاری اساسی بین تراشه‌های ساخته‌شده برای استنتاج و تراشه‌های ساخته‌شده برای آموزش وجود دارد. آموزش، یک مشکل محاسباتی است، اما به عقیده شث، استنتاج فقط یک مشکل محاسباتی نیست، بلکه یک مشکل محاسباتی و حافظه‌ای است. بخش حافظه، تأخیر را افزایش می‌دهد.

در مدل‌های زبانی بزرگ، مرحله اولیه پردازش اغلب «prefill» نامیده می‌شود. مدل زبانی بزرگ، اعلان را دریافت می‌کند، محتوا را می‌سازد و پارامترهای مرتبط را در حافظه بارگذاری می‌کند. پس از آن، تولید توکن‌ها را در مرحله رمزگشایی آغاز می‌کند تا پاسخ مورد نظر کاربر را ارائه دهد. این تمایز مهم است، زیرا عملکرد استنتاج نه تنها توسط محاسبات خام، بلکه توسط سرعت انتقال داده‌ها بین حافظه و واحدهای پردازش محدود می‌شود. اگر محاسبات سریع باشند، اما دسترسی به حافظه کند باشد، توکن‌ها متوقف می‌شوند. اگر حافظه سریع باشد، اما محاسبات نتوانند همگام شوند، توان عملیاتی کاهش می‌یابد. در هر صورت، کاربران با تأخیر روبه‌رو می‌شوند.

بخش عمده‌ای از زیرساخت‌های امروزی برای حجم کاری آموزشی تنظیم شده‌اند که عملکرد در اوج را بر پاسخگویی متوسط ​​اولویت می‌دهند، اما در استنتاج به ویژه هنگام استفاده از هوش مصنوعی تعاملی با پرسش و پاسخ‌های متعدد، تأخیر به معیار تعیین‌کننده تبدیل می‌شود. شث اضافه کرد: کاربر انتظار دارد وقتی مدل شروع به پاسخ دادن کرد، با سرعت مشخصی پاسخ بدهد. در غیر این صورت، احتمالاً به آن گوش نخواهد داد.

گزارشگر فوربس از شث درباره سرعت موتورهای هوش مصنوعی برای ارائه پاسخ‌های خود در اپلیکیشن‌ها و مرورگرها پرسید که اغلب کند به نظر می‌رسد. پرسش این بود: آیا این سرعتی است که آنها فکر می‌کنند ما می‌توانیم تحمل کنیم یا حداکثر سرعتی است که می‌توانند داشته باشند؟» پاسخ شث این بود: «حداکثر سرعتی است که می‌توانند داشته باشند.»

از نظر عملی، این به معنای به حداقل رساندن زمان لازم برای بازیابی و فعال‌سازی‌ مدل‌ها و تغذیه آنها با واحدهای محاسباتی برای هر توکن تولیدشده است. ساختارهای سنتیGPU، محاسبات و حافظه با پهنای باند بالا را به عنوان زیرسیستم‌های مجزا از هم ارائه می‌دهند و این می‌تواند به ناکارآمدی در بار کاری استنتاج منجر شود که به شدت به حافظه نیاز دارد.

راه حل d-Matrix، ترکیب دقیق محاسبات و حافظه در معماری آن است. این شرکت با نزدیک‌تر کردن فیزیکی حافظه به محاسبات و تنظیم جریان داده‌ها به طور ویژه برای الگوهای استنتاج قصد دارد تأخیر توکن را کاهش دهد و تعداد توکن‌ها در ثانیه به ازای هر وات را بالا ببرد. به علاوه، این استارت‌آپ به جای ساخت یک پردازنده یکپارچه بزرگ، سیلیکون خود را به عناصر سازنده کوچک‌تر و ماژولار به نام چیپلت‌ (Chiplet) برش می‌دهد. چیپلت‌ها بسته به نیازهای حجم کار، در مقادیر گوناگون با یکدیگر ترکیب می‌شوند.

از نظر مفهومی، این به طراحی حافظه یکپارچه اپل نزدیک‌تر است تا ساختارهای سنتی پردازنده‌های گرافیکی که کاهش فاصله بین محاسبات و حافظه و تنظیم حول محور بهره‌وری به جای عملکرد معیار در اوج را شامل می‌شود.

استارت‌آپd-Matrix، سیلیکون را با این فرض طراحی کرد که استنتاج غالب خواهد بود. شث ادعا می‌کند که نتیجه این کار، تأخیر کمتر و عملکرد بسیار بالاتر به ازای توان مصرفی به ویژه برای بارهای کاری تعاملی و بلادرنگ است. شث خاطرنشان کرد که هزینه اجرای عملیات استنتاج با d-Matrix در حال حاضر تقریباً ۹۰ درصد کمتر از انواع GPU است و موارد بیشتری هم در راه هستند.

این وعده شاید درست به موقع یا شاید کمی‌دیرتر از راه برسد. شرکت اوپن‌ای‌آی اکنون از تراشه‌های بزرگ شرکت الکترونیک آمریکایی سریبراس برای اجرای استنتاج در مدل GPT-5.3-Codex-Spark  خود استفاده می‌کند و در مقایسه با سایر ساختارها به سرعت ۱۵ تا ۲۰ برابر دست می‌یابد.

 
مرجع : ايسنا
کد مطلب : ۲۸۵۸۸۰
ارسال نظر
نام شما

آدرس ايميل شما