Shanghai Neardi Technology Co., Ltd. sales@neardi.com 86-021-20952021
تخيل أنك تعمل على مشروع ذكاء اصطناعي حافة مع RK3588: تحتاج دفق الفيديو من الكاميرا إلى إجراء التعرف على الوجه واكتشاف المركبات في الوقت الفعلي، مع دعم عرض واجهة المستخدم وتحميل البيانات ومعالجة منطق العمل. تلاحظ: تحدث عمليات إسقاط الإطارات عندما يكون هناك العديد من الكائنات في الإطار، وتفشل النماذج الكبيرة في التشغيل بسلاسة، وترتفع درجة الحرارة بشكل حاد.
في هذه المرحلة، يقول الناس عادةً: "نموذجك كبير جدًا - 6TOPS من RK3588 غير كافٍ."
ولكن هل هو حقًا نقص في قوة الحوسبة؟ هل تساءلت يومًا: لماذا لا يزال NPU بقوة 6TOPS يعاني من إسقاط الإطارات والتأخير عند تشغيل نموذج 4TOPS؟ تكمن الإجابة في ثلاثة أبعاد لقوة حوسبة NPU:الأداء الأقصى (TOPS)، و الدقة (INT8/FP16)، و الكفاءة (عرض النطاق الترددي).سترى أن الرقائق المختلفة تؤكد على مواصفات NPU الخاصة بها، مع عرض معلمة أساسية بشكل بارز: قوة حوسبة NPU: X TOPS. تشمل الأمثلة RK3588-6TOPS و RK3576-6TOPS و RK1820-20TOPS و Hi3403V100-10TOPS و Hi3519DV500-2.5TOPS و Jetson Orin Nano-20/40TOPS و Jetson Orin NX-70/100TOPS وما إلى ذلك...ما هو TOPS؟ لماذا يتحدث الجميع عنه؟تيرا: تمثل 10¹².العمليات في الثانية: تشير إلى إجمالي عدد عمليات الذكاء الاصطناعي التي يمكن لـ NPU تنفيذها في ثانية واحدة. بعبارات بسيطة، 1 TOPS يعني أن NPU يمكنه تنفيذ 1 تريليون (10¹²) عملية في الثانية.كيف يتم حساب TOPS؟
العدد الإجمالي لوحدات MAC هو جوهر حوسبة الشبكة العصبية. في الطبقات التلافيفية والطبقات المتصلة بالكامل، تتضمن الحسابات الرئيسية ضرب بيانات الإدخال بالأوزان ثم جمع النتائج.
كلما زاد عدد وحدات MAC، زادت كمية الحساب التي يمكن لـ NPU إكمالها في دورة ساعة واحدة.تردد الساعة: يحدد عدد الدورات التي تعمل بها شريحة NPU ووحدات MAC الخاصة بها في الثانية (مقاسة بالهرتز، هرتز). يسمح التردد الأعلى لمصفوفة MAC بإجراء المزيد من عمليات الضرب والتراكم لكل وحدة زمنية. عندما يعلن المصنعون عن TOPS، فإنهم يستخدمون تردد التشغيل الأقصى لـ NPU (أي التردد الأقصى الذي يمكن تحقيقه).
العمليات لكل MAC: تتضمن عملية MAC كاملة في الواقع عملية ضرب واحدة وإضافة واحدة. للتوافق مع طريقة حساب FLOPS (عمليات النقطة العائمة في الثانية) التقليدية، تحسب العديد من معايير الحوسبة عملية MAC واحدة على أنها عمليتان أساسيتان (1 للضرب و 1 للإضافة).عامل الدقة: يتم تحسين وحدات MAC الخاصة بـ NPU لمعالجة البيانات منخفضة الدقة (مثل INT8).
![]()
يقيس TOPS قوة الحوسبة النظرية القصوى. في التطبيقات العملية، بسبب عوامل مثل نقل البيانات وقيود الذاكرة وهيكل النموذج، غالبًا ما تكون قوة الحوسبة الفعلية الفعالة لـ NPU أقل من هذه القيمة القصوى.
تتعلق قوة الحوسبة بالسرعة؛ تتعلق الدقة بـ "النعومة."
تخبرنا قوة الحوسبة بمدى سرعة تشغيل NPU، بينما تخبرنا الدقة الحسابية بمدى دقة تشغيلها. الدقة هي بُعد رئيسي آخر لأداء NPU، يحدد عدد البتات المستخدمة ونطاق تمثيل البيانات أثناء الحساب.
عند نفس مستوى TOPS، تكون سرعة الحوسبة الفعلية لـ INT8 أسرع بكثير من سرعة FP32. وذلك لأن وحدات MAC الخاصة بـ NPU يمكنها معالجة المزيد من البيانات ذات 8 بتات في وقت واحد وإجراء المزيد من العمليات.عادةً ما تعتمد TOPS الخاصة بـ NPU التي تدعيها الشركات المصنعة على دقة INT8. عند إجراء المقارنات، تأكد من أنك تقارن TOPS بنفس الدقة.
دقة عالية (تستخدم عادةً للتدريب)FP32 (نقطة عائمة أحادية الدقة، 32 بت): توفر أكبر نطاق عددي ودقة. تستخدم بشكل شائع في حوسبة GPU وأجهزة الكمبيوتر التقليدية. تتبنى النماذج عادةً FP32 أثناء مرحلة التدريب لضمان الدقة.
FP16/BF16 (نقطة عائمة نصف دقة، 16 بت): تقلل حجم البيانات إلى النصف مع الحفاظ على مستوى معين من الدقة، مما يتيح حسابًا أسرع وتوفير الذاكرة.دقة منخفضة (تستخدم عادةً للاستدلال)
INT8 (عدد صحيح 8 بت): حاليًا هو المعيار الصناعي لتقييم أداء الاستدلال لوحدات NPU الطرفية. تسمى عملية تحويل أوزان النموذج وقيم التنشيط من الدقة العالية (مثل FP32) إلى أعداد صحيحة 8 بتات بالتحويل الكمي.
INT4 (عرض بت أقل): يتميز بمزيد من الضغط، وهو مناسب للسيناريوهات ذات المتطلبات العالية للغاية لاستهلاك الطاقة وزمن الوصول، ولكنه يفرض متطلبات أعلى على التحكم في فقدان دقة النموذج.
![]()
عندما ترى NPU تدعي 20 TOPS (INT8)، يجب أن تفهم:
قوة الحوسبة القصوى هي 20 تريليون عملية في الثانية.
يتم قياس قوة الحوسبة هذه بدقة عدد صحيح 8 بت (INT8). هذا يعني أنه يستخدم بشكل أساسي للاستدلال بالذكاء الاصطناعي (مثل التعرف على الصور ومعالجة الكلام وما إلى ذلك)، وليس التدريب.
![]()