Comment by qeternity

2 months ago

Yes, absolutely in deep learning. Custom fused CUDA kernels everywhere.

1 comment

qeternity

Reply

Scene_Cast2 2 months ago

Yep. MoE, FlashAttention, or sparse retrieval architectures for example.