هدف استارتاپ دیماتریکس:
کاهش 90 درصدی قیمت تراشههای هوش مصنوعی
تاریخ انتشار
سه شنبه ۲۸ بهمن ۱۴۰۴ ساعت ۰۹:۲۶
آیتیمن- استارتآپ تراشهسازی d-Matrix با حمایت مایکروسافت ایدهای را برای ساخت تراشههایی مطرح کرده که استنتاج را بسیار سریعتر، ارزانتر و کارآمدتر ارائه میدهند. این کاری است که شرکتهای هوش مصنوعی هنگام پاسخ دادن به پرسشهای هوش مصنوعی شما انجام میدهند. اگر d-Matrix درست بگوید، آینده هوش مصنوعی ممکن است به این که چه کسی بزرگترین مدلها را آموزش میدهد وابسته نباشد، بلکه احتمالا به این بستگی خواهد داشت که چه کسی میتواند سریعترین و ارزانترین پاسخ را بدهد.
سید شث، مدیرعامل d-Matrix در «اجلاس وب قطر» گفت: آموزش کاملا عملکرد است و استنتاج کاملا کارآیی. این تمایز برای d-Matrix اساسی است.
آموزش مدلهای زبانی بزرگ امروزی، بهتر است روی پردازندههای گرافیکی رده بالا انجام شود اما شث معتقد است که پردازندههای گرافیکی برای اجرای مدلهای هوش مصنوعی جهت پاسخ دادن به پرسشها ایدهآل نیستند.
شث گفت: مشکل اساسی این است که شما از یک تراشه آموزشی استفاده میکنید و بعد میگویید من قرار است روی آن تراشهها استنتاج را اجرا کنم. این واقعاً بهترین راه نیست.
شرکت d-Matrix براساس این باور تأسیس شد که استنتاج در نهایت بر حجم کار هوش مصنوعی تسلط خواهد یافت. این شرکت به جای تغییر کاربری سختافزار آموزشی، ساختار را از پایه بنا کرد. به گفته شث، یک تفاوت ساختاری اساسی بین تراشههای ساختهشده برای استنتاج و تراشههای ساختهشده برای آموزش وجود دارد. آموزش، یک مشکل محاسباتی است، اما به عقیده شث، استنتاج فقط یک مشکل محاسباتی نیست، بلکه یک مشکل محاسباتی و حافظهای است. بخش حافظه، تأخیر را افزایش میدهد.
در مدلهای زبانی بزرگ، مرحله اولیه پردازش اغلب «prefill» نامیده میشود. مدل زبانی بزرگ، اعلان را دریافت میکند، محتوا را میسازد و پارامترهای مرتبط را در حافظه بارگذاری میکند. پس از آن، تولید توکنها را در مرحله رمزگشایی آغاز میکند تا پاسخ مورد نظر کاربر را ارائه دهد. این تمایز مهم است، زیرا عملکرد استنتاج نه تنها توسط محاسبات خام، بلکه توسط سرعت انتقال دادهها بین حافظه و واحدهای پردازش محدود میشود. اگر محاسبات سریع باشند، اما دسترسی به حافظه کند باشد، توکنها متوقف میشوند. اگر حافظه سریع باشد، اما محاسبات نتوانند همگام شوند، توان عملیاتی کاهش مییابد. در هر صورت، کاربران با تأخیر روبهرو میشوند.
بخش عمدهای از زیرساختهای امروزی برای حجم کاری آموزشی تنظیم شدهاند که عملکرد در اوج را بر پاسخگویی متوسط اولویت میدهند، اما در استنتاج به ویژه هنگام استفاده از هوش مصنوعی تعاملی با پرسش و پاسخهای متعدد، تأخیر به معیار تعیینکننده تبدیل میشود. شث اضافه کرد: کاربر انتظار دارد وقتی مدل شروع به پاسخ دادن کرد، با سرعت مشخصی پاسخ بدهد. در غیر این صورت، احتمالاً به آن گوش نخواهد داد.
گزارشگر فوربس از شث درباره سرعت موتورهای هوش مصنوعی برای ارائه پاسخهای خود در اپلیکیشنها و مرورگرها پرسید که اغلب کند به نظر میرسد. پرسش این بود: آیا این سرعتی است که آنها فکر میکنند ما میتوانیم تحمل کنیم یا حداکثر سرعتی است که میتوانند داشته باشند؟» پاسخ شث این بود: «حداکثر سرعتی است که میتوانند داشته باشند.»
از نظر عملی، این به معنای به حداقل رساندن زمان لازم برای بازیابی و فعالسازی مدلها و تغذیه آنها با واحدهای محاسباتی برای هر توکن تولیدشده است. ساختارهای سنتیGPU، محاسبات و حافظه با پهنای باند بالا را به عنوان زیرسیستمهای مجزا از هم ارائه میدهند و این میتواند به ناکارآمدی در بار کاری استنتاج منجر شود که به شدت به حافظه نیاز دارد.
راه حل d-Matrix، ترکیب دقیق محاسبات و حافظه در معماری آن است. این شرکت با نزدیکتر کردن فیزیکی حافظه به محاسبات و تنظیم جریان دادهها به طور ویژه برای الگوهای استنتاج قصد دارد تأخیر توکن را کاهش دهد و تعداد توکنها در ثانیه به ازای هر وات را بالا ببرد. به علاوه، این استارتآپ به جای ساخت یک پردازنده یکپارچه بزرگ، سیلیکون خود را به عناصر سازنده کوچکتر و ماژولار به نام چیپلت (Chiplet) برش میدهد. چیپلتها بسته به نیازهای حجم کار، در مقادیر گوناگون با یکدیگر ترکیب میشوند.
از نظر مفهومی، این به طراحی حافظه یکپارچه اپل نزدیکتر است تا ساختارهای سنتی پردازندههای گرافیکی که کاهش فاصله بین محاسبات و حافظه و تنظیم حول محور بهرهوری به جای عملکرد معیار در اوج را شامل میشود.
استارتآپd-Matrix، سیلیکون را با این فرض طراحی کرد که استنتاج غالب خواهد بود. شث ادعا میکند که نتیجه این کار، تأخیر کمتر و عملکرد بسیار بالاتر به ازای توان مصرفی به ویژه برای بارهای کاری تعاملی و بلادرنگ است. شث خاطرنشان کرد که هزینه اجرای عملیات استنتاج با d-Matrix در حال حاضر تقریباً ۹۰ درصد کمتر از انواع GPU است و موارد بیشتری هم در راه هستند.
این وعده شاید درست به موقع یا شاید کمیدیرتر از راه برسد. شرکت اوپنایآی اکنون از تراشههای بزرگ شرکت الکترونیک آمریکایی سریبراس برای اجرای استنتاج در مدل GPT-5.3-Codex-Spark خود استفاده میکند و در مقایسه با سایر ساختارها به سرعت ۱۵ تا ۲۰ برابر دست مییابد.
سید شث، مدیرعامل d-Matrix در «اجلاس وب قطر» گفت: آموزش کاملا عملکرد است و استنتاج کاملا کارآیی. این تمایز برای d-Matrix اساسی است.
آموزش مدلهای زبانی بزرگ امروزی، بهتر است روی پردازندههای گرافیکی رده بالا انجام شود اما شث معتقد است که پردازندههای گرافیکی برای اجرای مدلهای هوش مصنوعی جهت پاسخ دادن به پرسشها ایدهآل نیستند.
شث گفت: مشکل اساسی این است که شما از یک تراشه آموزشی استفاده میکنید و بعد میگویید من قرار است روی آن تراشهها استنتاج را اجرا کنم. این واقعاً بهترین راه نیست.
شرکت d-Matrix براساس این باور تأسیس شد که استنتاج در نهایت بر حجم کار هوش مصنوعی تسلط خواهد یافت. این شرکت به جای تغییر کاربری سختافزار آموزشی، ساختار را از پایه بنا کرد. به گفته شث، یک تفاوت ساختاری اساسی بین تراشههای ساختهشده برای استنتاج و تراشههای ساختهشده برای آموزش وجود دارد. آموزش، یک مشکل محاسباتی است، اما به عقیده شث، استنتاج فقط یک مشکل محاسباتی نیست، بلکه یک مشکل محاسباتی و حافظهای است. بخش حافظه، تأخیر را افزایش میدهد.
در مدلهای زبانی بزرگ، مرحله اولیه پردازش اغلب «prefill» نامیده میشود. مدل زبانی بزرگ، اعلان را دریافت میکند، محتوا را میسازد و پارامترهای مرتبط را در حافظه بارگذاری میکند. پس از آن، تولید توکنها را در مرحله رمزگشایی آغاز میکند تا پاسخ مورد نظر کاربر را ارائه دهد. این تمایز مهم است، زیرا عملکرد استنتاج نه تنها توسط محاسبات خام، بلکه توسط سرعت انتقال دادهها بین حافظه و واحدهای پردازش محدود میشود. اگر محاسبات سریع باشند، اما دسترسی به حافظه کند باشد، توکنها متوقف میشوند. اگر حافظه سریع باشد، اما محاسبات نتوانند همگام شوند، توان عملیاتی کاهش مییابد. در هر صورت، کاربران با تأخیر روبهرو میشوند.
بخش عمدهای از زیرساختهای امروزی برای حجم کاری آموزشی تنظیم شدهاند که عملکرد در اوج را بر پاسخگویی متوسط اولویت میدهند، اما در استنتاج به ویژه هنگام استفاده از هوش مصنوعی تعاملی با پرسش و پاسخهای متعدد، تأخیر به معیار تعیینکننده تبدیل میشود. شث اضافه کرد: کاربر انتظار دارد وقتی مدل شروع به پاسخ دادن کرد، با سرعت مشخصی پاسخ بدهد. در غیر این صورت، احتمالاً به آن گوش نخواهد داد.
گزارشگر فوربس از شث درباره سرعت موتورهای هوش مصنوعی برای ارائه پاسخهای خود در اپلیکیشنها و مرورگرها پرسید که اغلب کند به نظر میرسد. پرسش این بود: آیا این سرعتی است که آنها فکر میکنند ما میتوانیم تحمل کنیم یا حداکثر سرعتی است که میتوانند داشته باشند؟» پاسخ شث این بود: «حداکثر سرعتی است که میتوانند داشته باشند.»
از نظر عملی، این به معنای به حداقل رساندن زمان لازم برای بازیابی و فعالسازی مدلها و تغذیه آنها با واحدهای محاسباتی برای هر توکن تولیدشده است. ساختارهای سنتیGPU، محاسبات و حافظه با پهنای باند بالا را به عنوان زیرسیستمهای مجزا از هم ارائه میدهند و این میتواند به ناکارآمدی در بار کاری استنتاج منجر شود که به شدت به حافظه نیاز دارد.
راه حل d-Matrix، ترکیب دقیق محاسبات و حافظه در معماری آن است. این شرکت با نزدیکتر کردن فیزیکی حافظه به محاسبات و تنظیم جریان دادهها به طور ویژه برای الگوهای استنتاج قصد دارد تأخیر توکن را کاهش دهد و تعداد توکنها در ثانیه به ازای هر وات را بالا ببرد. به علاوه، این استارتآپ به جای ساخت یک پردازنده یکپارچه بزرگ، سیلیکون خود را به عناصر سازنده کوچکتر و ماژولار به نام چیپلت (Chiplet) برش میدهد. چیپلتها بسته به نیازهای حجم کار، در مقادیر گوناگون با یکدیگر ترکیب میشوند.
از نظر مفهومی، این به طراحی حافظه یکپارچه اپل نزدیکتر است تا ساختارهای سنتی پردازندههای گرافیکی که کاهش فاصله بین محاسبات و حافظه و تنظیم حول محور بهرهوری به جای عملکرد معیار در اوج را شامل میشود.
استارتآپd-Matrix، سیلیکون را با این فرض طراحی کرد که استنتاج غالب خواهد بود. شث ادعا میکند که نتیجه این کار، تأخیر کمتر و عملکرد بسیار بالاتر به ازای توان مصرفی به ویژه برای بارهای کاری تعاملی و بلادرنگ است. شث خاطرنشان کرد که هزینه اجرای عملیات استنتاج با d-Matrix در حال حاضر تقریباً ۹۰ درصد کمتر از انواع GPU است و موارد بیشتری هم در راه هستند.
این وعده شاید درست به موقع یا شاید کمیدیرتر از راه برسد. شرکت اوپنایآی اکنون از تراشههای بزرگ شرکت الکترونیک آمریکایی سریبراس برای اجرای استنتاج در مدل GPT-5.3-Codex-Spark خود استفاده میکند و در مقایسه با سایر ساختارها به سرعت ۱۵ تا ۲۰ برابر دست مییابد.
مرجع : ايسنا






























