$ python cupy_blas.py ================================================== In place in (Python CuPy - GPU cuBLAS) ================================================== 6246.805 µs 24.557 µs 17.881 µs 17.643 µs 17.643 µs 17.643 µs 17.643 µs 17.405 µs 17.405 µs 17.405 µs $ python numba_cuda.py ================================================== In place in (Python Numba - GPU CUDA) ================================================== 182.629 µs 40.054 µs 30.279 µs 28.133 µs 27.895 µs 27.657 µs 27.418 µs 26.941 µs 26.941 µs 26.703 µs $ python taichi_cuda.py [Taichi] version 1.8.0, llvm 15.0.4, commit 37a05638, linux, python 3.10.13 ================================================== In place in (Python Taichi - GPU CUDA) ================================================== [Taichi] Starting on arch=cuda 15263.557 µs 51.975 µs 28.133 µs 25.034 µs 24.080 µs 26.464 µs 26.226 µs 24.557 µs 24.080 µs 28.133 µs