ఎన్విడియా

ఈ రోజు, ఎన్విడియా తన కొత్త ఆంపియర్ నిర్మాణాన్ని ప్రకటించింది, దానితో పాటు కొత్త A100 నడుస్తుంది. ట్యూరింగ్‌పై ఇది గణనీయమైన మెరుగుదల, ఇది ఇప్పటికే AI- సెంట్రిక్ ఆర్కిటెక్చర్, ఇది వినియోగదారుల గ్రాఫిక్స్ ప్రదేశంలో హై-ఎండ్, ML- ఆధారిత రేట్రాసింగ్‌పై డేటా సెంటర్లకు శక్తినిస్తుంది.

మీరు అన్ని సాంకేతిక వివరాల పూర్తి సారాంశాన్ని కోరుకుంటే, మీరు ఎన్విడియా యొక్క లోతైన నిర్మాణ అవలోకనాన్ని చదవవచ్చు. మేము చాలా ముఖ్యమైన విషయాలను విశ్లేషిస్తాము.

కొత్త డై ఖచ్చితంగా ఆకట్టుకుంటుంది

గేట్ నుండి, వారంతా ఈ కొత్త చిప్‌తో బయటకు వెళ్తున్నారు. 21.1 బిలియన్ ట్రాన్సిస్టర్‌లతో టిఎస్‌ఎంసి ఇప్పటికే పరిపక్వమైన 14 ఎన్ఎమ్ ప్రాసెస్ నోడ్‌లో తాజా తరం టెస్లా వి 100 డై 815 మిమీ. ఇప్పటికే తగినంత పెద్దది, కానీ A100 TSNC యొక్క 726m కంటే 826mm, చాలా దట్టమైన ప్రక్రియ మరియు 54.2 బిలియన్ ట్రాన్సిస్టర్‌లతో సిగ్గుపడేలా చేస్తుంది. ఈ కొత్త ముడి కోసం ఆకట్టుకుంటుంది.

ఈ కొత్త GPU 19.5 టెరాఫ్లోప్‌ల FP32 పనితీరు, 6,912 CUDA కోర్లు, 40 GB మెమరీ మరియు 1.6 TB / s మెమరీ బ్యాండ్‌విడ్త్‌ను అందిస్తుంది. చాలా నిర్దిష్ట పనిభారం (పేలవమైన INT8) లో, A100 వాస్తవానికి 1 ను విచ్ఛిన్నం చేస్తుంది పెటాఫ్లోప్స్ ముడి కంప్యూటింగ్ శక్తి. సహజంగానే ఇది INT8 లో ఉంది, కానీ ఇప్పటికీ కార్డు చాలా శక్తివంతమైనది.

కాబట్టి V100 మాదిరిగానే, వారు ఈ GPU లలో ఎనిమిదింటిని తీసుకున్నారు మరియు వారు super 200,000 కు విక్రయిస్తున్న ఒక చిన్న సూపర్ కంప్యూటర్‌ను సృష్టించారు. AWS మరియు Google క్లౌడ్ ప్లాట్‌ఫాం వంటి క్లౌడ్ ప్రొవైడర్‌లకు వారు త్వరలో రావడం మీరు చూస్తారు.

అయినప్పటికీ, V100 మాదిరిగా కాకుండా, ఇది భారీ GPU కాదు – ఇది వాస్తవానికి 8 వేర్వేరు GPU లు, వీటిని వర్చువలైజ్ చేయవచ్చు మరియు వేర్వేరు పనుల కోసం సొంతంగా అద్దెకు తీసుకోవచ్చు, బూట్ చేయడానికి 7x మెమరీ నిర్గమాంశతో పాటు.

ఆ ట్రాన్సిస్టర్‌లన్నింటినీ ఉపయోగించడం కోసం, కొత్త చిప్ V100 కన్నా చాలా వేగంగా పనిచేస్తుంది. AI శిక్షణ మరియు అనుమితి కోసం, A100 FP32 కోసం 6x వేగం, FP16 కోసం 3x మరియు ఈ GPU లన్నింటినీ కలిపి ఉపయోగించినప్పుడు 7x అనుమితిని అందిస్తుంది.

ఎన్విడియా

రెండవ గ్రాఫ్‌లో గుర్తించబడిన V100 8 GPU V100 సర్వర్, ఒక్క V100 కూడా కాదని గమనించండి.

అనేక హెచ్‌పిసి పనిభారాలలో వేగాన్ని రెట్టింపు చేస్తామని ఎన్విడియా వాగ్దానం చేసింది:

ఎన్విడియా

ముడి TFLOP సంఖ్యల విషయానికొస్తే, A100 FP64 యొక్క డబుల్ ప్రెసిషన్ పనితీరు 20 TFLOP, V100 FP64 కోసం 8 వర్సెస్. మొత్తం మీద, ఈ వేగం పెరుగుదల ట్యూరింగ్ కంటే నిజమైన తరాల మెరుగుదల మరియు AI మరియు యంత్ర అభ్యాస స్థలానికి గొప్ప వార్తలు.

టెన్సార్ ఫ్లోట్ -32: టెన్సర్ న్యూక్లియీల కోసం ఆప్టిమైజ్ చేయబడిన కొత్త సంఖ్య ఫార్మాట్

ఆంపియర్తో, ఎన్విడియా కొన్ని పనిభారాలలో ఎఫ్‌పి 32 ని భర్తీ చేయడానికి రూపొందించిన కొత్త నంబర్ ఫార్మాట్‌ను ఉపయోగిస్తుంది. సాధారణంగా, FP32 సంఖ్య యొక్క పరిధికి 8 బిట్‌లను ఉపయోగిస్తుంది (ఇది ఎంత పెద్దది లేదా చిన్నది కావచ్చు) మరియు ఖచ్చితత్వం కోసం 23 బిట్‌లను ఉపయోగిస్తుంది.

ఎన్విడియా యొక్క వాదన ఏమిటంటే, ఈ 23 బిట్స్ ఖచ్చితత్వం చాలా AI పనిభారం కోసం పూర్తిగా అవసరం లేదు, మరియు మీరు వాటిలో కేవలం 10 ఫలితాలపై ఇలాంటి ఫలితాలను మరియు మెరుగైన పనితీరును పొందవచ్చు. ఈ కొత్త ఫార్మాట్‌ను టెన్సర్ ఫ్లోట్ 32 అని పిలుస్తారు మరియు A100 యొక్క టెన్సర్ కోర్లు దీన్ని నిర్వహించడానికి ఆప్టిమైజ్ చేయబడ్డాయి. ఇది, పాచికల తగ్గింపు మరియు కోర్ కౌంట్ పెరుగుదలతో పాటు, AI శిక్షణలో భారీ 6x వేగాన్ని వారు ఎలా పొందుతున్నారు.

ఎన్విడియా

వారు దానిని ధృవీకరిస్తారు “యూజర్లు ఎటువంటి కోడ్ మార్పులు చేయనవసరం లేదు, ఎందుకంటే TF32 A100 GPU లోపల మాత్రమే పనిచేస్తుంది. TF32 FP32 ఇన్‌పుట్‌లపై పనిచేస్తుంది మరియు FP32 లో ఫలితాలను ఇస్తుంది. టెన్సర్-తక్కువ ఆపరేషన్లు FP32 ని ఉపయోగించడం కొనసాగిస్తున్నాయి.”. అదనపు ఖచ్చితత్వం అవసరం లేని పనిభారాన్ని భర్తీ చేయడంలో డ్రాప్ ఉండాలి.

V100 లోని FP పనితీరును A100 పై TF పనితీరుతో పోల్చడం ద్వారా, ఈ భారీ వేగం పెరుగుదల ఎక్కడ నుండి వస్తుందో మీరు చూస్తారు. టిఎఫ్ 32 పది రెట్లు వేగంగా ఉంటుంది. వాస్తవానికి, ఆంపియర్ యొక్క ఇతర మెరుగుదలలు మొత్తంమీద రెండింతలు వేగంగా ఉండటం మరియు ఇది ప్రత్యక్ష పోలిక కాదు.

ఎన్విడియా

వారు లోతైన న్యూరల్ నెట్‌వర్క్‌ల ప్రాసెసింగ్ పనితీరుకు దోహదం చేసే చక్కటి-కణిత నిర్మాణాత్మక కొరత అనే కొత్త భావనను కూడా ప్రవేశపెట్టారు. సాధారణంగా, కొన్ని బరువులు ఇతరులకన్నా తక్కువ ప్రాముఖ్యత కలిగివుంటాయి మరియు ఉత్పాదకతను మెరుగుపరచడానికి మాతృక గణితాన్ని కుదించవచ్చు. డేటాను విసిరేయడం గొప్ప ఆలోచనగా అనిపించకపోయినా, ఇది అనుమితి కోసం శిక్షణ పొందిన నెట్‌వర్క్ యొక్క ఖచ్చితత్వాన్ని ప్రభావితం చేయదని వారు పేర్కొన్నారు మరియు వేగవంతం చేస్తారు.

ఎన్విడియా

స్పార్స్ INT8 లెక్కల కోసం, ఒకే A100 యొక్క గరిష్ట పనితీరు 1250 TFLOPS, ఇది చాలా ఎక్కువ సంఖ్య. సహజంగానే, INT8 ను ప్రారంభించే నిజమైన పనిభారాన్ని కనుగొనడానికి మీరు కష్టపడతారు, కాని వేగం పెరుగుతుంది వేగం పెరుగుతుంది.

Source link