ChipKerchner:addRVVVectorizedPacking - Branch - OpenMathLib/OpenBLAS

Add and use vectorized packing in ZVL128B and ZVL256B for RISCV

#5422Merged

Comparing

ChipKerchner:addRVVVectorizedPacking

(

64401b4

) with

develop

(

5e43ba9

)

Untouched: 62

Benchmarks

62 total

test_dot[1000]

benchmark/pybench/benchmarks/bench_blas.py

-1%

28.2 µs28.4 µs

test_daxpy[100-s]

benchmark/pybench/benchmarks/bench_blas.py

-1%

23.8 µs23.9 µs

test_dgbmv[1-100-d]

benchmark/pybench/benchmarks/bench_blas.py

37.7 µs37.9 µs

test_dgbmv[1-100-c]

benchmark/pybench/benchmarks/bench_blas.py

40.1 µs40.2 µs

test_dgbmv[1-100-z]

benchmark/pybench/benchmarks/bench_blas.py

41.9 µs42.1 µs

test_dot[100]

benchmark/pybench/benchmarks/bench_blas.py

22.2 µs22.3 µs

test_nrm2[100-dz]

benchmark/pybench/benchmarks/bench_blas.py

28.8 µs28.7 µs

test_daxpy[1000-c]

benchmark/pybench/benchmarks/bench_blas.py

32.4 µs32.5 µs

test_dgbmv[1-100-s]

benchmark/pybench/benchmarks/bench_blas.py

37 µs37.1 µs

test_dgbmv[1-1000-s]

benchmark/pybench/benchmarks/bench_blas.py

74.8 µs75 µs

test_gesdd[mn0-s]

benchmark/pybench/benchmarks/bench_blas.py

109 µs109.2 µs

test_gesv[100-d]

benchmark/pybench/benchmarks/bench_blas.py

395.5 µs394.7 µs

test_dgbmv[1-1000-d]

benchmark/pybench/benchmarks/bench_blas.py

83.4 µs83.5 µs

test_dgbmv[1-1000-z]

benchmark/pybench/benchmarks/bench_blas.py

118.8 µs119 µs

test_gesdd[mn0-d]

benchmark/pybench/benchmarks/bench_blas.py

119.7 µs119.9 µs

test_gesv[100-z]

benchmark/pybench/benchmarks/bench_blas.py

938.4 µs937.1 µs

test_daxpy[100-z]

benchmark/pybench/benchmarks/bench_blas.py

25.6 µs25.7 µs

test_dgbmv[1-1000-c]

benchmark/pybench/benchmarks/bench_blas.py

99.4 µs99.5 µs

test_nrm2[100-d]

benchmark/pybench/benchmarks/bench_blas.py

36.7 µs36.6 µs

test_daxpy[1000-d]

benchmark/pybench/benchmarks/bench_blas.py

32.2 µs32.2 µs

test_gesv[100-c]

benchmark/pybench/benchmarks/bench_blas.py

695.3 µs695.9 µs

test_syrk[100-s]

benchmark/pybench/benchmarks/bench_blas.py

213.2 µs213.3 µs

test_syrk[100-d]

benchmark/pybench/benchmarks/bench_blas.py

339.4 µs339.6 µs

test_syev[50-d]

benchmark/pybench/benchmarks/bench_blas.py

1.4 ms1.4 ms

test_syrk[100-c]

benchmark/pybench/benchmarks/bench_blas.py

472.2 µs472.4 µs

Commits

Click on a commit to change the comparison range

Base

develop

5e43ba9

+0.04%

Add and use vectorized packing to ZVL128B and ZVL256B. Up to 3x+ faster than generic scalar functions.

c00afc8

11 months ago

by ChipKerchner

-0.11%

Disable vectorized packing for DGEMM - since it is slower than scalar.

64401b4

11 months ago

by ChipKerchner

Home Terms Privacy Docs