AymenQ:armv9-a-sme - Branch - OpenMathLib/OpenBLAS

[WIP] Arm®v9-A architecture SME2 SGEMM kernels

#5011

Comparing

AymenQ:armv9-a-sme

(

3d282c9

) with

develop

(

89f02ed

)

Improvements: 0

Regressions: 0

Untouched: 62

New: 0

Dropped: 0

Ignored: 0

Benchmarks

Passed

test_dgemv[100-d]

benchmark/pybench/benchmarks/bench_blas.py::test_dgemv[100-d]

+1%

146.7 µs

145.8 µs

test_daxpy[1000-z]

benchmark/pybench/benchmarks/bench_blas.py::test_daxpy[1000-z]

39.7 µs

39.5 µs

test_daxpy[100-d]

benchmark/pybench/benchmarks/bench_blas.py::test_daxpy[100-d]

23.2 µs

23.1 µs

test_daxpy[1000-d]

benchmark/pybench/benchmarks/bench_blas.py::test_daxpy[1000-d]

31.3 µs

31.2 µs

test_gesdd[mn0-s]

benchmark/pybench/benchmarks/bench_blas.py::test_gesdd[mn0-s]

105 µs

104.8 µs

test_nrm2[1000-dz]

benchmark/pybench/benchmarks/bench_blas.py::test_nrm2[1000-dz]

34.7 µs

34.6 µs

test_daxpy[1000-s]

benchmark/pybench/benchmarks/bench_blas.py::test_daxpy[1000-s]

26.8 µs

test_dgemv[100-s]

benchmark/pybench/benchmarks/bench_blas.py::test_dgemv[100-s]

108.6 µs

108.5 µs

test_dgemv[100-z]

benchmark/pybench/benchmarks/bench_blas.py::test_dgemv[100-z]

229.8 µs

229.6 µs

test_gesv[100-c]

benchmark/pybench/benchmarks/bench_blas.py::test_gesv[100-c]

693 µs

692.7 µs

test_dgemv[1000-s]

benchmark/pybench/benchmarks/bench_blas.py::test_dgemv[1000-s]

7.7 ms

test_gemm[100-c]

benchmark/pybench/benchmarks/bench_blas.py::test_gemm[100-c]

658.8 µs

658.6 µs

test_dgbmv[1-1000-z]

benchmark/pybench/benchmarks/bench_blas.py::test_dgbmv[1-1000-z]

117.7 µs

test_gemm[100-s]

benchmark/pybench/benchmarks/bench_blas.py::test_gemm[100-s]

271.5 µs

test_dgbmv[1-1000-c]

benchmark/pybench/benchmarks/bench_blas.py::test_dgbmv[1-1000-c]

98.4 µs

test_dgemv[1000-c]

benchmark/pybench/benchmarks/bench_blas.py::test_dgemv[1000-c]

14.8 ms

test_syrk[100-c]

benchmark/pybench/benchmarks/bench_blas.py::test_syrk[100-c]

471.4 µs

test_gemm[1000-d]

benchmark/pybench/benchmarks/bench_blas.py::test_gemm[1000-d]

239.4 ms

test_gesv[1000-z]

benchmark/pybench/benchmarks/bench_blas.py::test_gesv[1000-z]

353.4 ms

test_syev[200-s]

benchmark/pybench/benchmarks/bench_blas.py::test_syev[200-s]

48.5 ms

test_gemm[1000-s]

benchmark/pybench/benchmarks/bench_blas.py::test_gemm[1000-s]

117.4 ms

test_syrk[1000-s]

benchmark/pybench/benchmarks/bench_blas.py::test_syrk[1000-s]

65.4 ms

test_syrk[1000-z]

benchmark/pybench/benchmarks/bench_blas.py::test_syrk[1000-z]

476.4 ms

test_syrk[100-d]

benchmark/pybench/benchmarks/bench_blas.py::test_syrk[100-d]

338.8 µs

test_syrk[1000-d]

benchmark/pybench/benchmarks/bench_blas.py::test_syrk[1000-d]

130.3 ms

130.4 ms

test_gesdd[mn1-s]

benchmark/pybench/benchmarks/bench_blas.py::test_gesdd[mn1-s]

63.8 ms

test_gemm[100-z]

benchmark/pybench/benchmarks/bench_blas.py::test_gemm[100-z]

1.2 ms

test_syrk[1000-c]

benchmark/pybench/benchmarks/bench_blas.py::test_syrk[1000-c]

227.5 ms

test_dgemv[1000-z]

benchmark/pybench/benchmarks/bench_blas.py::test_dgemv[1000-z]

26.3 ms

test_gesv[1000-s]

benchmark/pybench/benchmarks/bench_blas.py::test_gesv[1000-s]

52.6 ms

test_gesv[1000-c]

benchmark/pybench/benchmarks/bench_blas.py::test_gesv[1000-c]

188.6 ms

test_daxpy[100-z]

benchmark/pybench/benchmarks/bench_blas.py::test_daxpy[100-z]

24.9 µs

test_gemm[1000-c]

benchmark/pybench/benchmarks/bench_blas.py::test_gemm[1000-c]

426 ms

test_gesv[1000-d]

benchmark/pybench/benchmarks/bench_blas.py::test_gesv[1000-d]

93.3 ms

test_gesdd[mn0-d]

benchmark/pybench/benchmarks/bench_blas.py::test_gesdd[mn0-d]

116.1 µs

test_dgemv[1000-d]

benchmark/pybench/benchmarks/bench_blas.py::test_dgemv[1000-d]

14.7 ms

test_syev[50-s]

benchmark/pybench/benchmarks/bench_blas.py::test_syev[50-s]

1.3 ms

test_gesdd[mn1-d]

benchmark/pybench/benchmarks/bench_blas.py::test_gesdd[mn1-d]

92.8 ms

test_syrk[100-s]

benchmark/pybench/benchmarks/bench_blas.py::test_syrk[100-s]

212.6 µs

test_dgbmv[1-100-d]

benchmark/pybench/benchmarks/bench_blas.py::test_dgbmv[1-100-d]

36.7 µs

test_gemm[100-d]

benchmark/pybench/benchmarks/bench_blas.py::test_gemm[100-d]

470.2 µs

470.3 µs

test_dgbmv[1-1000-d]

benchmark/pybench/benchmarks/bench_blas.py::test_dgbmv[1-1000-d]

82.5 µs

test_syev[50-d]

benchmark/pybench/benchmarks/bench_blas.py::test_syev[50-d]

1.4 ms

test_syev[200-d]

benchmark/pybench/benchmarks/bench_blas.py::test_syev[200-d]

58.4 ms

test_gemm[1000-z]

benchmark/pybench/benchmarks/bench_blas.py::test_gemm[1000-z]

875.2 ms

875.6 ms

test_gesv[100-z]

benchmark/pybench/benchmarks/bench_blas.py::test_gesv[100-z]

933.9 µs

934.6 µs

test_dgbmv[1-100-s]

benchmark/pybench/benchmarks/bench_blas.py::test_dgbmv[1-100-s]

36 µs

test_nrm2[1000-d]

benchmark/pybench/benchmarks/bench_blas.py::test_nrm2[1000-d]

29.6 µs

test_dot[100]

benchmark/pybench/benchmarks/bench_blas.py::test_dot[100]

21.3 µs

test_dgbmv[1-1000-s]

benchmark/pybench/benchmarks/bench_blas.py::test_dgbmv[1-1000-s]

73.6 µs

73.7 µs

test_dgbmv[1-100-z]

benchmark/pybench/benchmarks/bench_blas.py::test_dgbmv[1-100-z]

40.9 µs

41 µs

test_syrk[100-z]

benchmark/pybench/benchmarks/bench_blas.py::test_syrk[100-z]

853.7 µs

855 µs

test_dot[1000]

benchmark/pybench/benchmarks/bench_blas.py::test_dot[1000]

27.5 µs

test_gesv[100-d]

benchmark/pybench/benchmarks/bench_blas.py::test_gesv[100-d]

393.9 µs

394.6 µs

test_dgbmv[1-100-c]

benchmark/pybench/benchmarks/bench_blas.py::test_dgbmv[1-100-c]

39.2 µs

39.3 µs

test_daxpy[100-s]

benchmark/pybench/benchmarks/bench_blas.py::test_daxpy[100-s]

23.2 µs

23.3 µs

test_nrm2[100-d]

benchmark/pybench/benchmarks/bench_blas.py::test_nrm2[100-d]

35.1 µs

35.2 µs

test_gesv[100-s]

benchmark/pybench/benchmarks/bench_blas.py::test_gesv[100-s]

255.6 µs

256.3 µs

test_dgemv[100-c]

benchmark/pybench/benchmarks/bench_blas.py::test_dgemv[100-c]

148 µs

148.4 µs

test_daxpy[1000-c]

benchmark/pybench/benchmarks/bench_blas.py::test_daxpy[1000-c]

31.7 µs

31.8 µs

test_nrm2[100-dz]

benchmark/pybench/benchmarks/bench_blas.py::test_nrm2[100-dz]

27.4 µs

27.5 µs

test_daxpy[100-c]

benchmark/pybench/benchmarks/bench_blas.py::test_daxpy[100-c]

24.1 µs

24.2 µs

Commits

Click on a commit to change the comparison range

Base

develop

89f02ed

Add Arm®v9-A architecture SME SGEMM kernels Add implementation of SGEMM based on the Arm®v9-A architecture Scalable Matrix Extension (SME) [1], using the Arm C Language Extensions (ACLE) [2]. Add SME2 compute & packing kernels for SGEMM and enable them under the ARMV9SME target. The compute kernel performs outer products on panels of A and B, accumulating into 2x2 inner blocks of C via the SME two-dimensional architectural register, ZA. The non-transpose packing kernel performs a copy into a contiguous buffer using SVE loads & stores in Streaming SVE mode. Streaming SVE is an execution mode introduced by SME that supports execution of SVE code with the SME defined vector length, known as the Streaming SVE vector length (SVL). The transpose packing kernel performs on-the-fly transposition by utilizing horizontal & vertical tile slice access to the SME ZA register. Includes an update to the driver to account for expanded inner block. Note: this places the ARMV9SME target in WIP state. It is functional for SGEMM, and all GEMM tests are passing. Other BLAS3 routines have not been updated to match the larger kernel size, so SYMM/TRMM tests are currently expected to fail in this WIP state. [1] https://developer.arm.com/documentation/109246/0100/SME-Overview/SME-and-SME2 [2] https://arm-software.github.io/acle/main/acle.html

3d282c9

7 months ago

by AymenQ

Home Terms Privacy Docs