x86/crypto/aesni-intel_avx-x86_64.S

571 .macro CALC_AAD_HASH GHASH_MUL AAD AADLEN T1 T2 T3 T4 T5 T6 T7 T8
587 	\GHASH_MUL       \T8, \T2, \T1, \T3, \T4, \T5, \T6
635 	\GHASH_MUL       \T7, \T2, \T1, \T3, \T4, \T5, \T6
863 .macro  GHASH_MUL_AVX GH HK T1 T2 T3 T4 T5
865         vpshufd         $0b01001110, \GH, \T2
867         vpxor           \GH     , \T2, \T2      # T2 = (a1+a0)
872         vpclmulqdq      $0x00, \T3, \T2, \T2    # T2 = (a1+a0)*(b1+b0)
873         vpxor           \GH, \T2,\T2
874         vpxor           \T1, \T2,\T2            # T2 = a0*b1+a1*b0
876         vpslldq         $8, \T2,\T3             # shift-L T3 2 DWs
877         vpsrldq         $8, \T2,\T2             # shift-R T2 2 DWs
879         vpxor           \T2, \T1, \T1           # <T1:GH> = GH x HK
882         vpslld  $31, \GH, \T2                   # packed right shifting << 31
886         vpxor   \T3, \T2, \T2                   # xor the shifted versions
887         vpxor   \T4, \T2, \T2
889         vpsrldq $4, \T2, \T5                    # shift-R T5 1 DW
891         vpslldq $12, \T2, \T2                   # shift-L T2 3 DWs
892         vpxor   \T2, \GH, \GH                   # first phase of the reduction complete
896         vpsrld  $1,\GH, \T2                     # packed left shifting >> 1
899         vpxor   \T3, \T2, \T2                   # xor the shifted versions
900         vpxor   \T4, \T2, \T2
902         vpxor   \T5, \T2, \T2
903         vpxor   \T2, \GH, \GH
909 .macro PRECOMPUTE_AVX HK T1 T2 T3 T4 T5 T6
918         GHASH_MUL_AVX \T5, \HK, \T1, \T3, \T4, \T6, \T2  #  T5 = HashKey^2<<1 mod poly
924         GHASH_MUL_AVX \T5, \HK, \T1, \T3, \T4, \T6, \T2  #  T5 = HashKey^3<<1 mod poly
930         GHASH_MUL_AVX \T5, \HK, \T1, \T3, \T4, \T6, \T2  #  T5 = HashKey^4<<1 mod poly
936         GHASH_MUL_AVX \T5, \HK, \T1, \T3, \T4, \T6, \T2  #  T5 = HashKey^5<<1 mod poly
942         GHASH_MUL_AVX \T5, \HK, \T1, \T3, \T4, \T6, \T2  #  T5 = HashKey^6<<1 mod poly
948         GHASH_MUL_AVX \T5, \HK, \T1, \T3, \T4, \T6, \T2  #  T5 = HashKey^7<<1 mod poly
954         GHASH_MUL_AVX \T5, \HK, \T1, \T3, \T4, \T6, \T2  #  T5 = HashKey^8<<1 mod poly
969 .macro INITIAL_BLOCKS_AVX REP num_initial_blocks T1 T2 T3 T4 T5 CTR XMM1 XMM2 XMM3 XMM4 XMM5 XMM6 X…
1043 … GHASH_MUL_AVX       reg_j, \T2, \T1, \T3, \T4, \T5, \T6 # apply GHASH on num_initial_blocks blocks
1204 .macro GHASH_8_ENCRYPT_8_PARALLEL_AVX REP T1 T2 T3 T4 T5 T6 CTR XMM1 XMM2 XMM3 XMM4 XMM5 XMM6 XMM7 …
1206         vmovdqa \XMM1, \T2
1289         vpclmulqdq      $0x11, \T5, \T2, \T4             # T4 = a1*b1
1290         vpclmulqdq      $0x00, \T5, \T2, \T7             # T7 = a0*b0
1292         vpshufd         $0b01001110, \T2, \T6
1293         vpxor           \T2, \T6, \T6
1492 		vpxor	16*i(arg4, %r11), \T5, \T2
1494                 vaesenclast     \T2, reg_j, reg_j
1496                 vaesenclast     \T2, reg_j, \T3
1508 	vpsrldq	$8, \T6, \T6				# shift-R T2 2 DWs
1517         vpslld  $31, \T7, \T2                           # packed right shifting << 31
1521         vpxor   \T3, \T2, \T2                           # xor the shifted versions
1522         vpxor   \T4, \T2, \T2
1524         vpsrldq $4, \T2, \T1                            # shift-R T1 1 DW
1526         vpslldq $12, \T2, \T2                           # shift-L T2 3 DWs
1527         vpxor   \T2, \T7, \T7                           # first phase of the reduction complete
1542         vpsrld  $1, \T7, \T2                            # packed left shifting >> 1
1545         vpxor   \T3, \T2, \T2                           # xor the shifted versions
1546         vpxor   \T4, \T2, \T2
1548         vpxor   \T1, \T2, \T2
1549         vpxor   \T2, \T7, \T7
1571 .macro  GHASH_LAST_8_AVX T1 T2 T3 T4 T5 T6 T7 XMM1 XMM2 XMM3 XMM4 XMM5 XMM6 XMM7 XMM8
1576         vpshufd         $0b01001110, \XMM1, \T2
1577         vpxor           \XMM1, \T2, \T2
1583         vpclmulqdq      $0x00, \T3, \T2, \XMM1
1587         vpshufd         $0b01001110, \XMM2, \T2
1588         vpxor           \XMM2, \T2, \T2
1597         vpclmulqdq      $0x00, \T3, \T2, \T2
1598         vpxor           \T2, \XMM1, \XMM1
1602         vpshufd         $0b01001110, \XMM3, \T2
1603         vpxor           \XMM3, \T2, \T2
1612         vpclmulqdq      $0x00, \T3, \T2, \T2
1613         vpxor           \T2, \XMM1, \XMM1
1617         vpshufd         $0b01001110, \XMM4, \T2
1618         vpxor           \XMM4, \T2, \T2
1627         vpclmulqdq      $0x00, \T3, \T2, \T2
1628         vpxor           \T2, \XMM1, \XMM1
1632         vpshufd         $0b01001110, \XMM5, \T2
1633         vpxor           \XMM5, \T2, \T2
1642         vpclmulqdq      $0x00, \T3, \T2, \T2
1643         vpxor           \T2, \XMM1, \XMM1
1647         vpshufd         $0b01001110, \XMM6, \T2
1648         vpxor           \XMM6, \T2, \T2
1657         vpclmulqdq      $0x00, \T3, \T2, \T2
1658         vpxor           \T2, \XMM1, \XMM1
1662         vpshufd         $0b01001110, \XMM7, \T2
1663         vpxor           \XMM7, \T2, \T2
1672         vpclmulqdq      $0x00, \T3, \T2, \T2
1673         vpxor           \T2, \XMM1, \XMM1
1677         vpshufd         $0b01001110, \XMM8, \T2
1678         vpxor           \XMM8, \T2, \T2
1687         vpclmulqdq      $0x00, \T3, \T2, \T2
1689         vpxor           \T2, \XMM1, \XMM1
1691         vpxor           \T7, \XMM1, \T2
1696         vpslldq $8, \T2, \T4
1697         vpsrldq $8, \T2, \T2
1700         vpxor   \T2, \T6, \T6   # <T6:T7> holds the result of
1705         vpslld  $31, \T7, \T2   # packed right shifting << 31
1709         vpxor   \T3, \T2, \T2   # xor the shifted versions
1710         vpxor   \T4, \T2, \T2
1712         vpsrldq $4, \T2, \T1    # shift-R T1 1 DW
1714         vpslldq $12, \T2, \T2   # shift-L T2 3 DWs
1715         vpxor   \T2, \T7, \T7   # first phase of the reduction complete
1720         vpsrld  $1, \T7, \T2    # packed left shifting >> 1
1723         vpxor   \T3, \T2, \T2   # xor the shifted versions
1724         vpxor   \T4, \T2, \T2
1726         vpxor   \T1, \T2, \T2
1727         vpxor   \T2, \T7, \T7
1845 .macro  GHASH_MUL_AVX2 GH HK T1 T2 T3 T4 T5
1848         vpclmulqdq      $0x00,\HK,\GH,\T2      # T2 = a0*b0
1858         vpxor           \T2, \GH, \GH
1864         vpclmulqdq      $0x01, \GH, \T3, \T2
1865         vpslldq         $8, \T2, \T2           # shift-L T2 2 DWs
1867         vpxor           \T2, \GH, \GH          # first phase of the reduction complete
1870         vpclmulqdq      $0x00, \GH, \T3, \T2
1871 …vpsrldq         $4, \T2, \T2           # shift-R T2 1 DW (Shift-R only 1-DW to obtain 2-DWs shift-…
1876         vpxor           \T2, \GH, \GH          # second phase of the reduction complete
1883 .macro PRECOMPUTE_AVX2 HK T1 T2 T3 T4 T5 T6
1887         GHASH_MUL_AVX2 \T5, \HK, \T1, \T3, \T4, \T6, \T2    #  T5 = HashKey^2<<1 mod poly
1890         GHASH_MUL_AVX2 \T5, \HK, \T1, \T3, \T4, \T6, \T2    #  T5 = HashKey^3<<1 mod poly
1893         GHASH_MUL_AVX2 \T5, \HK, \T1, \T3, \T4, \T6, \T2    #  T5 = HashKey^4<<1 mod poly
1896         GHASH_MUL_AVX2 \T5, \HK, \T1, \T3, \T4, \T6, \T2    #  T5 = HashKey^5<<1 mod poly
1899         GHASH_MUL_AVX2 \T5, \HK, \T1, \T3, \T4, \T6, \T2    #  T5 = HashKey^6<<1 mod poly
1902         GHASH_MUL_AVX2 \T5, \HK, \T1, \T3, \T4, \T6, \T2    #  T5 = HashKey^7<<1 mod poly
1905         GHASH_MUL_AVX2 \T5, \HK, \T1, \T3, \T4, \T6, \T2    #  T5 = HashKey^8<<1 mod poly
1917 .macro INITIAL_BLOCKS_AVX2 REP num_initial_blocks T1 T2 T3 T4 T5 CTR XMM1 XMM2 XMM3 XMM4 XMM5 XMM6 …
1993 …GHASH_MUL_AVX2       reg_j, \T2, \T1, \T3, \T4, \T5, \T6  # apply GHASH on num_initial_blocks bloc…
2159 .macro GHASH_8_ENCRYPT_8_PARALLEL_AVX2 REP T1 T2 T3 T4 T5 T6 CTR XMM1 XMM2 XMM3 XMM4 XMM5 XMM6 XMM7…
2161         vmovdqa \XMM1, \T2
2244         vpclmulqdq      $0x11, \T5, \T2, \T4              # T4 = a1*b1
2245         vpclmulqdq      $0x00, \T5, \T2, \T7              # T7 = a0*b0
2246         vpclmulqdq      $0x01, \T5, \T2, \T6              # T6 = a1*b0
2247         vpclmulqdq      $0x10, \T5, \T2, \T5              # T5 = a0*b1
2449 		vpxor	16*i(arg4, %r11), \T5, \T2
2451                 vaesenclast     \T2, reg_j, reg_j
2453                 vaesenclast     \T2, reg_j, \T3
2465 	vpsrldq	$8, \T6, \T6				# shift-R T2 2 DWs
2475 	vpclmulqdq	$0x01, \T7, \T3, \T2
2476 	vpslldq		$8, \T2, \T2			# shift-L xmm2 2 DWs
2478 	vpxor		\T2, \T7, \T7			# first phase of the reduction complete
2493 	vpclmulqdq	$0x00, \T7, \T3, \T2
2494 	vpsrldq		$4, \T2, \T2			# shift-R xmm2 1 DW (Shift-R only 1-DW to obtain 2-DWs shift-R)
2499 	vpxor		\T2, \T4, \T4			# second phase of the reduction complete
2521 .macro  GHASH_LAST_8_AVX2 T1 T2 T3 T4 T5 T6 T7 XMM1 XMM2 XMM3 XMM4 XMM5 XMM6 XMM7 XMM8
2527         vpshufd         $0b01001110, \XMM1, \T2
2529         vpxor           \XMM1, \T2, \T2
2535         vpclmulqdq      $0x00, \T3, \T2, \XMM1
2540         vpshufd         $0b01001110, \XMM2, \T2
2542         vpxor           \XMM2, \T2, \T2
2551         vpclmulqdq      $0x00, \T3, \T2, \T2
2553         vpxor           \T2, \XMM1, \XMM1
2558         vpshufd         $0b01001110, \XMM3, \T2
2560         vpxor           \XMM3, \T2, \T2
2569         vpclmulqdq      $0x00, \T3, \T2, \T2
2571         vpxor           \T2, \XMM1, \XMM1
2576         vpshufd         $0b01001110, \XMM4, \T2
2578         vpxor           \XMM4, \T2, \T2
2587         vpclmulqdq      $0x00, \T3, \T2, \T2
2589         vpxor           \T2, \XMM1, \XMM1
2594         vpshufd         $0b01001110, \XMM5, \T2
2596         vpxor           \XMM5, \T2, \T2
2605         vpclmulqdq      $0x00, \T3, \T2, \T2
2607         vpxor           \T2, \XMM1, \XMM1
2612         vpshufd         $0b01001110, \XMM6, \T2
2614         vpxor           \XMM6, \T2, \T2
2623         vpclmulqdq      $0x00, \T3, \T2, \T2
2625         vpxor           \T2, \XMM1, \XMM1
2630         vpshufd         $0b01001110, \XMM7, \T2
2632         vpxor           \XMM7, \T2, \T2
2641         vpclmulqdq      $0x00, \T3, \T2, \T2
2643         vpxor           \T2, \XMM1, \XMM1
2648         vpshufd         $0b01001110, \XMM8, \T2
2650         vpxor           \XMM8, \T2, \T2
2659         vpclmulqdq      $0x00, \T3, \T2, \T2
2661         vpxor           \T2, \XMM1, \XMM1
2663         vpxor           \T7, \XMM1, \T2
2668         vpslldq $8, \T2, \T4
2669         vpsrldq $8, \T2, \T2
2672         vpxor   \T2, \T6, \T6                      # <T6:T7> holds the result of the
2679         vpclmulqdq      $0x01, \T7, \T3, \T2
2680         vpslldq         $8, \T2, \T2               # shift-L xmm2 2 DWs
2682         vpxor           \T2, \T7, \T7              # first phase of the reduction complete
2687         vpclmulqdq      $0x00, \T7, \T3, \T2
2688 …vpsrldq         $4, \T2, \T2               # shift-R T2 1 DW (Shift-R only 1-DW to obtain 2-DWs sh…
2693         vpxor           \T2, \T4, \T4              # second phase of the reduction complete