CPU (Central Processing Unit)
┌─────────────────────┐
│ Control Unit │
│ ┌─────┐ ┌─────┐ │
│ │Core1│ │Core2│ │
│ │ ALU │ │ ALU │ │
│ │Cache│ │Cache│ │
│ └─────┘ └─────┘ │
│ ┌─────┐ ┌─────┐ │
│ │Core3│ │Core4│ │
│ │ ALU │ │ ALU │ │
│ │Cache│ │Cache│ │
│ └─────┘ └─────┘ │
│ [ L3 Cache ] │
│ [ DRAM ] │
└─────────────────────┘
4-16 cores, Complex Logic
High Clock Speed, Branch
Prediction, Out-of-Order
GPU (Graphics Processing Unit)
┌─────────────────────┐
│ SM SM SM SM SM │
│ ││ ││ ││ ││ ││ │
│ ┌┐ ┌┐ ┌┐ ┌┐ ┌┐ │
│ ██ ██ ██ ██ ██ │
│ ██ ██ ██ ██ ██ │
│ ██ ██ ██ ██ ██ │
│ ██ ██ ██ ██ ██ │
│ ██ ██ ██ ██ ██ │
│ ██ ██ ██ ██ ██ │
│ ██ ██ ██ ██ ██ │
│ ██ ██ ██ ██ ██ │
│ [ HBM / GDDR6 ] │
└─────────────────────┘
1000s CUDA/Tensor cores
SIMT Architecture
Massive Parallelism
TPU (Tensor Processing Unit)
┌─────────────────────┐
│ Systolic Array │
│ ┌──┬──┬──┬──┬──┐ │
│ │PE│PE│PE│PE│PE│ │
│ ├──┼──┼──┼──┼──┤ │
│ │PE│PE│PE│PE│PE│ │
│ ├──┼──┼──┼──┼──┤ │
│ │PE│PE│PE│PE│PE│ │
│ ├──┼──┼──┼──┼──┤ │
│ │PE│PE│PE│PE│PE│ │
│ ├──┼──┼──┼──┼──┤ │
│ │PE│PE│PE│PE│PE│ │
│ └──┴──┴──┴──┴──┘ │
│ [ HBM Memory ] │
└─────────────────────┘
128x128 Systolic Array
Matrix Multiply Unit
Optimized for Tensor Ops