x86/crypto/sha512-avx2-asm.S

5663535bSTim Chen########################################################################
5663535bSTim Chen# Implement fast SHA-512 with AVX2 instructions. (x86_64)
5663535bSTim Chen#
5663535bSTim Chen# Copyright (C) 2013 Intel Corporation.
5663535bSTim Chen#
5663535bSTim Chen# Authors:
5663535bSTim Chen#     James Guilford <james.guilford@intel.com>
5663535bSTim Chen#     Kirk Yap <kirk.s.yap@intel.com>
5663535bSTim Chen#     David Cote <david.m.cote@intel.com>
5663535bSTim Chen#     Tim Chen <tim.c.chen@linux.intel.com>
5663535bSTim Chen#
5663535bSTim Chen# This software is available to you under a choice of one of two
5663535bSTim Chen# licenses.  You may choose to be licensed under the terms of the GNU
5663535bSTim Chen# General Public License (GPL) Version 2, available from the file
5663535bSTim Chen# COPYING in the main directory of this source tree, or the
5663535bSTim Chen# OpenIB.org BSD license below:
5663535bSTim Chen#
5663535bSTim Chen#     Redistribution and use in source and binary forms, with or
5663535bSTim Chen#     without modification, are permitted provided that the following
5663535bSTim Chen#     conditions are met:
5663535bSTim Chen#
5663535bSTim Chen#      - Redistributions of source code must retain the above
5663535bSTim Chen#        copyright notice, this list of conditions and the following
5663535bSTim Chen#        disclaimer.
5663535bSTim Chen#
5663535bSTim Chen#      - Redistributions in binary form must reproduce the above
5663535bSTim Chen#        copyright notice, this list of conditions and the following
5663535bSTim Chen#        disclaimer in the documentation and/or other materials
5663535bSTim Chen#        provided with the distribution.
5663535bSTim Chen#
5663535bSTim Chen# THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND,
5663535bSTim Chen# EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF
5663535bSTim Chen# MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND
5663535bSTim Chen# NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS
5663535bSTim Chen# BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN
5663535bSTim Chen# ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN
5663535bSTim Chen# CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
5663535bSTim Chen# SOFTWARE.
5663535bSTim Chen#
5663535bSTim Chen########################################################################
5663535bSTim Chen#
5663535bSTim Chen# This code is described in an Intel White-Paper:
5663535bSTim Chen# "Fast SHA-512 Implementations on Intel Architecture Processors"
5663535bSTim Chen#
5663535bSTim Chen# To find it, surf to http://www.intel.com/p/en_US/embedded
5663535bSTim Chen# and search for that title.
5663535bSTim Chen#
5663535bSTim Chen########################################################################
5663535bSTim Chen# This code schedules 1 blocks at a time, with 4 lanes per block
5663535bSTim Chen########################################################################
5663535bSTim Chen
5663535bSTim Chen#include <linux/linkage.h>
5663535bSTim Chen
5663535bSTim Chen.text
5663535bSTim Chen
5663535bSTim Chen# Virtual Registers
5663535bSTim ChenY_0 = %ymm4
5663535bSTim ChenY_1 = %ymm5
5663535bSTim ChenY_2 = %ymm6
5663535bSTim ChenY_3 = %ymm7
5663535bSTim Chen
5663535bSTim ChenYTMP0 = %ymm0
5663535bSTim ChenYTMP1 = %ymm1
5663535bSTim ChenYTMP2 = %ymm2
5663535bSTim ChenYTMP3 = %ymm3
5663535bSTim ChenYTMP4 = %ymm8
5663535bSTim ChenXFER  = YTMP0
5663535bSTim Chen
5663535bSTim ChenBYTE_FLIP_MASK  = %ymm9
5663535bSTim Chen
ca04c823SJosh Poimboeuf# 1st arg is %rdi, which is saved to the stack and accessed later via %r12
ca04c823SJosh PoimboeufCTX1        = %rdi
ca04c823SJosh PoimboeufCTX2        = %r12
5663535bSTim Chen# 2nd arg
e68410ebSArd BiesheuvelINP         = %rsi
5663535bSTim Chen# 3rd arg
5663535bSTim ChenNUM_BLKS    = %rdx
5663535bSTim Chen
5663535bSTim Chenc           = %rcx
5663535bSTim Chend           = %r8
5663535bSTim Chene           = %rdx
00425bb1SArd Biesheuvely3          = %rsi
5663535bSTim Chen
ca04c823SJosh PoimboeufTBL   = %rdi # clobbers CTX1
5663535bSTim Chen
5663535bSTim Chena     = %rax
5663535bSTim Chenb     = %rbx
5663535bSTim Chen
5663535bSTim Chenf     = %r9
5663535bSTim Cheng     = %r10
5663535bSTim Chenh     = %r11
5663535bSTim Chenold_h = %r11
5663535bSTim Chen
ca04c823SJosh PoimboeufT1    = %r12 # clobbers CTX2
5663535bSTim Cheny0    = %r13
5663535bSTim Cheny1    = %r14
5663535bSTim Cheny2    = %r15
5663535bSTim Chen
5663535bSTim Chen# Local variables (stack frame)
5663535bSTim ChenXFER_SIZE = 4*8
5663535bSTim ChenSRND_SIZE = 1*8
5663535bSTim ChenINP_SIZE = 1*8
5663535bSTim ChenINPEND_SIZE = 1*8
ca04c823SJosh PoimboeufCTX_SIZE = 1*8
5663535bSTim Chen
5663535bSTim Chenframe_XFER = 0
5663535bSTim Chenframe_SRND = frame_XFER + XFER_SIZE
5663535bSTim Chenframe_INP = frame_SRND + SRND_SIZE
5663535bSTim Chenframe_INPEND = frame_INP + INP_SIZE
ca04c823SJosh Poimboeufframe_CTX = frame_INPEND + INPEND_SIZE
*ec063e09SJosh Poimboeufframe_size = frame_CTX + CTX_SIZE
5663535bSTim Chen
5663535bSTim Chen## assume buffers not aligned
5663535bSTim Chen#define	VMOVDQ vmovdqu
5663535bSTim Chen
5663535bSTim Chen# addm [mem], reg
5663535bSTim Chen# Add reg to mem using reg-mem add and store
5663535bSTim Chen.macro addm p1 p2
5663535bSTim Chen	add	\p1, \p2
5663535bSTim Chen	mov	\p2, \p1
5663535bSTim Chen.endm
5663535bSTim Chen
5663535bSTim Chen
5663535bSTim Chen# COPY_YMM_AND_BSWAP ymm, [mem], byte_flip_mask
5663535bSTim Chen# Load ymm with mem and byte swap each dword
5663535bSTim Chen.macro COPY_YMM_AND_BSWAP p1 p2 p3
5663535bSTim Chen	VMOVDQ \p2, \p1
5663535bSTim Chen	vpshufb \p3, \p1, \p1
5663535bSTim Chen.endm
5663535bSTim Chen# rotate_Ys
5663535bSTim Chen# Rotate values of symbols Y0...Y3
5663535bSTim Chen.macro rotate_Ys
5663535bSTim Chen	Y_ = Y_0
5663535bSTim Chen	Y_0 = Y_1
5663535bSTim Chen	Y_1 = Y_2
5663535bSTim Chen	Y_2 = Y_3
5663535bSTim Chen	Y_3 = Y_
5663535bSTim Chen.endm
5663535bSTim Chen
5663535bSTim Chen# RotateState
5663535bSTim Chen.macro RotateState
5663535bSTim Chen	# Rotate symbols a..h right
5663535bSTim Chen	old_h  = h
5663535bSTim Chen	TMP_   = h
5663535bSTim Chen	h      = g
5663535bSTim Chen	g      = f
5663535bSTim Chen	f      = e
5663535bSTim Chen	e      = d
5663535bSTim Chen	d      = c
5663535bSTim Chen	c      = b
5663535bSTim Chen	b      = a
5663535bSTim Chen	a      = TMP_
5663535bSTim Chen.endm
5663535bSTim Chen
5663535bSTim Chen# macro MY_VPALIGNR	YDST, YSRC1, YSRC2, RVAL
5663535bSTim Chen# YDST = {YSRC1, YSRC2} >> RVAL*8
5663535bSTim Chen.macro MY_VPALIGNR YDST YSRC1 YSRC2 RVAL
5663535bSTim Chen	vperm2f128      $0x3, \YSRC2, \YSRC1, \YDST     # YDST = {YS1_LO, YS2_HI}
5663535bSTim Chen	vpalignr        $\RVAL, \YSRC2, \YDST, \YDST    # YDST = {YDS1, YS2} >> RVAL*8
5663535bSTim Chen.endm
5663535bSTim Chen
5663535bSTim Chen.macro FOUR_ROUNDS_AND_SCHED
5663535bSTim Chen################################### RND N + 0 #########################################
5663535bSTim Chen
5663535bSTim Chen	# Extract w[t-7]
5663535bSTim Chen	MY_VPALIGNR	YTMP0, Y_3, Y_2, 8		# YTMP0 = W[-7]
5663535bSTim Chen	# Calculate w[t-16] + w[t-7]
5663535bSTim Chen	vpaddq		Y_0, YTMP0, YTMP0		# YTMP0 = W[-7] + W[-16]
5663535bSTim Chen	# Extract w[t-15]
5663535bSTim Chen	MY_VPALIGNR	YTMP1, Y_1, Y_0, 8		# YTMP1 = W[-15]
5663535bSTim Chen
5663535bSTim Chen	# Calculate sigma0
5663535bSTim Chen
5663535bSTim Chen	# Calculate w[t-15] ror 1
5663535bSTim Chen	vpsrlq		$1, YTMP1, YTMP2
5663535bSTim Chen	vpsllq		$(64-1), YTMP1, YTMP3
5663535bSTim Chen	vpor		YTMP2, YTMP3, YTMP3		# YTMP3 = W[-15] ror 1
5663535bSTim Chen	# Calculate w[t-15] shr 7
5663535bSTim Chen	vpsrlq		$7, YTMP1, YTMP4		# YTMP4 = W[-15] >> 7
5663535bSTim Chen
5663535bSTim Chen	mov	a, y3		# y3 = a                                # MAJA
5663535bSTim Chen	rorx	$41, e, y0	# y0 = e >> 41				# S1A
5663535bSTim Chen	rorx	$18, e, y1	# y1 = e >> 18				# S1B
5663535bSTim Chen	add	frame_XFER(%rsp),h		# h = k + w + h         # --
5663535bSTim Chen	or	c, y3		# y3 = a|c                              # MAJA
5663535bSTim Chen	mov	f, y2		# y2 = f                                # CH
5663535bSTim Chen	rorx	$34, a, T1	# T1 = a >> 34				# S0B
5663535bSTim Chen
5663535bSTim Chen	xor	y1, y0		# y0 = (e>>41) ^ (e>>18)		# S1
5663535bSTim Chen	xor	g, y2		# y2 = f^g                              # CH
5663535bSTim Chen	rorx	$14, e, y1	# y1 = (e >> 14)			# S1
5663535bSTim Chen
5663535bSTim Chen	and	e, y2		# y2 = (f^g)&e                          # CH
5663535bSTim Chen	xor	y1, y0		# y0 = (e>>41) ^ (e>>18) ^ (e>>14)	# S1
5663535bSTim Chen	rorx	$39, a, y1	# y1 = a >> 39				# S0A
5663535bSTim Chen	add	h, d		# d = k + w + h + d                     # --
5663535bSTim Chen
5663535bSTim Chen	and	b, y3		# y3 = (a|c)&b                          # MAJA
5663535bSTim Chen	xor	T1, y1		# y1 = (a>>39) ^ (a>>34)		# S0
5663535bSTim Chen	rorx	$28, a, T1	# T1 = (a >> 28)			# S0
5663535bSTim Chen
5663535bSTim Chen	xor	g, y2		# y2 = CH = ((f^g)&e)^g                 # CH
5663535bSTim Chen	xor	T1, y1		# y1 = (a>>39) ^ (a>>34) ^ (a>>28)	# S0
5663535bSTim Chen	mov	a, T1		# T1 = a                                # MAJB
5663535bSTim Chen	and	c, T1		# T1 = a&c                              # MAJB
5663535bSTim Chen
5663535bSTim Chen	add	y0, y2		# y2 = S1 + CH                          # --
5663535bSTim Chen	or	T1, y3		# y3 = MAJ = (a|c)&b)|(a&c)             # MAJ
5663535bSTim Chen	add	y1, h		# h = k + w + h + S0                    # --
5663535bSTim Chen
5663535bSTim Chen	add	y2, d		# d = k + w + h + d + S1 + CH = d + t1  # --
5663535bSTim Chen
5663535bSTim Chen	add	y2, h		# h = k + w + h + S0 + S1 + CH = t1 + S0# --
5663535bSTim Chen	add	y3, h		# h = t1 + S0 + MAJ                     # --
5663535bSTim Chen
5663535bSTim Chen	RotateState
5663535bSTim Chen
5663535bSTim Chen################################### RND N + 1 #########################################
5663535bSTim Chen
5663535bSTim Chen	# Calculate w[t-15] ror 8
5663535bSTim Chen	vpsrlq		$8, YTMP1, YTMP2
5663535bSTim Chen	vpsllq		$(64-8), YTMP1, YTMP1
5663535bSTim Chen	vpor		YTMP2, YTMP1, YTMP1		# YTMP1 = W[-15] ror 8
5663535bSTim Chen	# XOR the three components
5663535bSTim Chen	vpxor		YTMP4, YTMP3, YTMP3		# YTMP3 = W[-15] ror 1 ^ W[-15] >> 7
5663535bSTim Chen	vpxor		YTMP1, YTMP3, YTMP1		# YTMP1 = s0
5663535bSTim Chen
5663535bSTim Chen
5663535bSTim Chen	# Add three components, w[t-16], w[t-7] and sigma0
5663535bSTim Chen	vpaddq		YTMP1, YTMP0, YTMP0		# YTMP0 = W[-16] + W[-7] + s0
5663535bSTim Chen	# Move to appropriate lanes for calculating w[16] and w[17]
5663535bSTim Chen	vperm2f128	$0x0, YTMP0, YTMP0, Y_0		# Y_0 = W[-16] + W[-7] + s0 {BABA}
5663535bSTim Chen	# Move to appropriate lanes for calculating w[18] and w[19]
5663535bSTim Chen	vpand		MASK_YMM_LO(%rip), YTMP0, YTMP0	# YTMP0 = W[-16] + W[-7] + s0 {DC00}
5663535bSTim Chen
5663535bSTim Chen	# Calculate w[16] and w[17] in both 128 bit lanes
5663535bSTim Chen
5663535bSTim Chen	# Calculate sigma1 for w[16] and w[17] on both 128 bit lanes
5663535bSTim Chen	vperm2f128	$0x11, Y_3, Y_3, YTMP2		# YTMP2 = W[-2] {BABA}
5663535bSTim Chen	vpsrlq		$6, YTMP2, YTMP4		# YTMP4 = W[-2] >> 6 {BABA}
5663535bSTim Chen
5663535bSTim Chen
5663535bSTim Chen	mov	a, y3		# y3 = a                                # MAJA
5663535bSTim Chen	rorx	$41, e, y0	# y0 = e >> 41				# S1A
5663535bSTim Chen	rorx	$18, e, y1	# y1 = e >> 18				# S1B
5663535bSTim Chen	add	1*8+frame_XFER(%rsp), h		# h = k + w + h         # --
5663535bSTim Chen	or	c, y3		# y3 = a|c                              # MAJA
5663535bSTim Chen
5663535bSTim Chen
5663535bSTim Chen	mov	f, y2		# y2 = f                                # CH
5663535bSTim Chen	rorx	$34, a, T1	# T1 = a >> 34				# S0B
5663535bSTim Chen	xor	y1, y0		# y0 = (e>>41) ^ (e>>18)		# S1
5663535bSTim Chen	xor	g, y2		# y2 = f^g                              # CH
5663535bSTim Chen
5663535bSTim Chen
5663535bSTim Chen	rorx	$14, e, y1	# y1 = (e >> 14)			# S1
5663535bSTim Chen	xor	y1, y0		# y0 = (e>>41) ^ (e>>18) ^ (e>>14)	# S1
5663535bSTim Chen	rorx	$39, a, y1	# y1 = a >> 39				# S0A
5663535bSTim Chen	and	e, y2		# y2 = (f^g)&e                          # CH
5663535bSTim Chen	add	h, d		# d = k + w + h + d                     # --
5663535bSTim Chen
5663535bSTim Chen	and	b, y3		# y3 = (a|c)&b                          # MAJA
5663535bSTim Chen	xor	T1, y1		# y1 = (a>>39) ^ (a>>34)		# S0
5663535bSTim Chen
5663535bSTim Chen	rorx	$28, a, T1	# T1 = (a >> 28)			# S0
5663535bSTim Chen	xor	g, y2		# y2 = CH = ((f^g)&e)^g                 # CH
5663535bSTim Chen
5663535bSTim Chen	xor	T1, y1		# y1 = (a>>39) ^ (a>>34) ^ (a>>28)	# S0
5663535bSTim Chen	mov	a, T1		# T1 = a                                # MAJB
5663535bSTim Chen	and	c, T1		# T1 = a&c                              # MAJB
5663535bSTim Chen	add	y0, y2		# y2 = S1 + CH                          # --
5663535bSTim Chen
5663535bSTim Chen	or	T1, y3		# y3 = MAJ = (a|c)&b)|(a&c)             # MAJ
5663535bSTim Chen	add	y1, h		# h = k + w + h + S0                    # --
5663535bSTim Chen
5663535bSTim Chen	add	y2, d		# d = k + w + h + d + S1 + CH = d + t1  # --
5663535bSTim Chen	add	y2, h		# h = k + w + h + S0 + S1 + CH = t1 + S0# --
5663535bSTim Chen	add	y3, h		# h = t1 + S0 + MAJ                     # --
5663535bSTim Chen
5663535bSTim Chen	RotateState
5663535bSTim Chen
5663535bSTim Chen
5663535bSTim Chen################################### RND N + 2 #########################################
5663535bSTim Chen
5663535bSTim Chen	vpsrlq		$19, YTMP2, YTMP3		# YTMP3 = W[-2] >> 19 {BABA}
5663535bSTim Chen	vpsllq		$(64-19), YTMP2, YTMP1		# YTMP1 = W[-2] << 19 {BABA}
5663535bSTim Chen	vpor		YTMP1, YTMP3, YTMP3		# YTMP3 = W[-2] ror 19 {BABA}
5663535bSTim Chen	vpxor		YTMP3, YTMP4, YTMP4		# YTMP4 = W[-2] ror 19 ^ W[-2] >> 6 {BABA}
5663535bSTim Chen	vpsrlq		$61, YTMP2, YTMP3		# YTMP3 = W[-2] >> 61 {BABA}
5663535bSTim Chen	vpsllq		$(64-61), YTMP2, YTMP1		# YTMP1 = W[-2] << 61 {BABA}
5663535bSTim Chen	vpor		YTMP1, YTMP3, YTMP3		# YTMP3 = W[-2] ror 61 {BABA}
5663535bSTim Chen	vpxor		YTMP3, YTMP4, YTMP4		# YTMP4 = s1 = (W[-2] ror 19) ^
5663535bSTim Chen							#  (W[-2] ror 61) ^ (W[-2] >> 6) {BABA}
5663535bSTim Chen
5663535bSTim Chen	# Add sigma1 to the other compunents to get w[16] and w[17]
5663535bSTim Chen	vpaddq		YTMP4, Y_0, Y_0			# Y_0 = {W[1], W[0], W[1], W[0]}
5663535bSTim Chen
5663535bSTim Chen	# Calculate sigma1 for w[18] and w[19] for upper 128 bit lane
5663535bSTim Chen	vpsrlq		$6, Y_0, YTMP4			# YTMP4 = W[-2] >> 6 {DC--}
5663535bSTim Chen
5663535bSTim Chen	mov	a, y3		# y3 = a                                # MAJA
5663535bSTim Chen	rorx	$41, e, y0	# y0 = e >> 41				# S1A
5663535bSTim Chen	add	2*8+frame_XFER(%rsp), h		# h = k + w + h         # --
5663535bSTim Chen
5663535bSTim Chen	rorx	$18, e, y1	# y1 = e >> 18				# S1B
5663535bSTim Chen	or	c, y3		# y3 = a|c                              # MAJA
5663535bSTim Chen	mov	f, y2		# y2 = f                                # CH
5663535bSTim Chen	xor	g, y2		# y2 = f^g                              # CH
5663535bSTim Chen
5663535bSTim Chen	rorx	$34, a, T1	# T1 = a >> 34				# S0B
5663535bSTim Chen	xor	y1, y0		# y0 = (e>>41) ^ (e>>18)		# S1
5663535bSTim Chen	and	e, y2		# y2 = (f^g)&e                          # CH
5663535bSTim Chen
5663535bSTim Chen	rorx	$14, e, y1	# y1 = (e >> 14)			# S1
5663535bSTim Chen	add	h, d		# d = k + w + h + d                     # --
5663535bSTim Chen	and	b, y3		# y3 = (a|c)&b                          # MAJA
5663535bSTim Chen
5663535bSTim Chen	xor	y1, y0		# y0 = (e>>41) ^ (e>>18) ^ (e>>14)	# S1
5663535bSTim Chen	rorx	$39, a, y1	# y1 = a >> 39				# S0A
5663535bSTim Chen	xor	g, y2		# y2 = CH = ((f^g)&e)^g                 # CH
5663535bSTim Chen
5663535bSTim Chen	xor	T1, y1		# y1 = (a>>39) ^ (a>>34)		# S0
5663535bSTim Chen	rorx	$28, a, T1	# T1 = (a >> 28)			# S0
5663535bSTim Chen
5663535bSTim Chen	xor	T1, y1		# y1 = (a>>39) ^ (a>>34) ^ (a>>28)	# S0
5663535bSTim Chen	mov	a, T1		# T1 = a                                # MAJB
5663535bSTim Chen	and	c, T1		# T1 = a&c                              # MAJB
5663535bSTim Chen	add	y0, y2		# y2 = S1 + CH                          # --
5663535bSTim Chen
5663535bSTim Chen	or	T1, y3		# y3 = MAJ = (a|c)&b)|(a&c)             # MAJ
5663535bSTim Chen	add	y1, h		# h = k + w + h + S0                    # --
5663535bSTim Chen	add	y2, d		# d = k + w + h + d + S1 + CH = d + t1  # --
5663535bSTim Chen	add	y2, h		# h = k + w + h + S0 + S1 + CH = t1 + S0# --
5663535bSTim Chen
5663535bSTim Chen	add	y3, h		# h = t1 + S0 + MAJ                     # --
5663535bSTim Chen
5663535bSTim Chen	RotateState
5663535bSTim Chen
5663535bSTim Chen################################### RND N + 3 #########################################
5663535bSTim Chen
5663535bSTim Chen	vpsrlq		$19, Y_0, YTMP3			# YTMP3 = W[-2] >> 19 {DC--}
5663535bSTim Chen	vpsllq		$(64-19), Y_0, YTMP1		# YTMP1 = W[-2] << 19 {DC--}
5663535bSTim Chen	vpor		YTMP1, YTMP3, YTMP3		# YTMP3 = W[-2] ror 19 {DC--}
5663535bSTim Chen	vpxor		YTMP3, YTMP4, YTMP4		# YTMP4 = W[-2] ror 19 ^ W[-2] >> 6 {DC--}
5663535bSTim Chen	vpsrlq		$61, Y_0, YTMP3			# YTMP3 = W[-2] >> 61 {DC--}
5663535bSTim Chen	vpsllq		$(64-61), Y_0, YTMP1		# YTMP1 = W[-2] << 61 {DC--}
5663535bSTim Chen	vpor		YTMP1, YTMP3, YTMP3		# YTMP3 = W[-2] ror 61 {DC--}
5663535bSTim Chen	vpxor		YTMP3, YTMP4, YTMP4		# YTMP4 = s1 = (W[-2] ror 19) ^
5663535bSTim Chen							#  (W[-2] ror 61) ^ (W[-2] >> 6) {DC--}
5663535bSTim Chen
5663535bSTim Chen	# Add the sigma0 + w[t-7] + w[t-16] for w[18] and w[19]
5663535bSTim Chen	# to newly calculated sigma1 to get w[18] and w[19]
5663535bSTim Chen	vpaddq		YTMP4, YTMP0, YTMP2		# YTMP2 = {W[3], W[2], --, --}
5663535bSTim Chen
5663535bSTim Chen	# Form w[19, w[18], w17], w[16]
5663535bSTim Chen	vpblendd		$0xF0, YTMP2, Y_0, Y_0		# Y_0 = {W[3], W[2], W[1], W[0]}
5663535bSTim Chen
5663535bSTim Chen	mov	a, y3		# y3 = a                                # MAJA
5663535bSTim Chen	rorx	$41, e, y0	# y0 = e >> 41				# S1A
5663535bSTim Chen	rorx	$18, e, y1	# y1 = e >> 18				# S1B
5663535bSTim Chen	add	3*8+frame_XFER(%rsp), h		# h = k + w + h         # --
5663535bSTim Chen	or	c, y3		# y3 = a|c                              # MAJA
5663535bSTim Chen
5663535bSTim Chen
5663535bSTim Chen	mov	f, y2		# y2 = f                                # CH
5663535bSTim Chen	rorx	$34, a, T1	# T1 = a >> 34				# S0B
5663535bSTim Chen	xor	y1, y0		# y0 = (e>>41) ^ (e>>18)		# S1
5663535bSTim Chen	xor	g, y2		# y2 = f^g                              # CH
5663535bSTim Chen
5663535bSTim Chen
5663535bSTim Chen	rorx	$14, e, y1	# y1 = (e >> 14)			# S1
5663535bSTim Chen	and	e, y2		# y2 = (f^g)&e                          # CH
5663535bSTim Chen	add	h, d		# d = k + w + h + d                     # --
5663535bSTim Chen	and	b, y3		# y3 = (a|c)&b                          # MAJA
5663535bSTim Chen
5663535bSTim Chen	xor	y1, y0		# y0 = (e>>41) ^ (e>>18) ^ (e>>14)	# S1
5663535bSTim Chen	xor	g, y2		# y2 = CH = ((f^g)&e)^g                 # CH
5663535bSTim Chen
5663535bSTim Chen	rorx	$39, a, y1	# y1 = a >> 39				# S0A
5663535bSTim Chen	add	y0, y2		# y2 = S1 + CH                          # --
5663535bSTim Chen
5663535bSTim Chen	xor	T1, y1		# y1 = (a>>39) ^ (a>>34)		# S0
5663535bSTim Chen	add	y2, d		# d = k + w + h + d + S1 + CH = d + t1  # --
5663535bSTim Chen
5663535bSTim Chen	rorx	$28, a, T1	# T1 = (a >> 28)			# S0
5663535bSTim Chen
5663535bSTim Chen	xor	T1, y1		# y1 = (a>>39) ^ (a>>34) ^ (a>>28)	# S0
5663535bSTim Chen	mov	a, T1		# T1 = a                                # MAJB
5663535bSTim Chen	and	c, T1		# T1 = a&c                              # MAJB
5663535bSTim Chen	or	T1, y3		# y3 = MAJ = (a|c)&b)|(a&c)             # MAJ
5663535bSTim Chen
5663535bSTim Chen	add	y1, h		# h = k + w + h + S0                    # --
5663535bSTim Chen	add	y2, h		# h = k + w + h + S0 + S1 + CH = t1 + S0# --
5663535bSTim Chen	add	y3, h		# h = t1 + S0 + MAJ                     # --
5663535bSTim Chen
5663535bSTim Chen	RotateState
5663535bSTim Chen
5663535bSTim Chen	rotate_Ys
5663535bSTim Chen.endm
5663535bSTim Chen
5663535bSTim Chen.macro DO_4ROUNDS
5663535bSTim Chen
5663535bSTim Chen################################### RND N + 0 #########################################
5663535bSTim Chen
5663535bSTim Chen	mov	f, y2		# y2 = f                                # CH
5663535bSTim Chen	rorx	$41, e, y0	# y0 = e >> 41				# S1A
5663535bSTim Chen	rorx	$18, e, y1	# y1 = e >> 18				# S1B
5663535bSTim Chen	xor	g, y2		# y2 = f^g                              # CH
5663535bSTim Chen
5663535bSTim Chen	xor	y1, y0		# y0 = (e>>41) ^ (e>>18)		# S1
5663535bSTim Chen	rorx	$14, e, y1	# y1 = (e >> 14)			# S1
5663535bSTim Chen	and	e, y2		# y2 = (f^g)&e                          # CH
5663535bSTim Chen
5663535bSTim Chen	xor	y1, y0		# y0 = (e>>41) ^ (e>>18) ^ (e>>14)	# S1
5663535bSTim Chen	rorx	$34, a, T1	# T1 = a >> 34				# S0B
5663535bSTim Chen	xor	g, y2		# y2 = CH = ((f^g)&e)^g                 # CH
5663535bSTim Chen	rorx	$39, a, y1	# y1 = a >> 39				# S0A
5663535bSTim Chen	mov	a, y3		# y3 = a                                # MAJA
5663535bSTim Chen
5663535bSTim Chen	xor	T1, y1		# y1 = (a>>39) ^ (a>>34)		# S0
5663535bSTim Chen	rorx	$28, a, T1	# T1 = (a >> 28)			# S0
5663535bSTim Chen	add	frame_XFER(%rsp), h		# h = k + w + h         # --
5663535bSTim Chen	or	c, y3		# y3 = a|c                              # MAJA
5663535bSTim Chen
5663535bSTim Chen	xor	T1, y1		# y1 = (a>>39) ^ (a>>34) ^ (a>>28)	# S0
5663535bSTim Chen	mov	a, T1		# T1 = a                                # MAJB
5663535bSTim Chen	and	b, y3		# y3 = (a|c)&b                          # MAJA
5663535bSTim Chen	and	c, T1		# T1 = a&c                              # MAJB
5663535bSTim Chen	add	y0, y2		# y2 = S1 + CH                          # --
5663535bSTim Chen
5663535bSTim Chen	add	h, d		# d = k + w + h + d                     # --
5663535bSTim Chen	or	T1, y3		# y3 = MAJ = (a|c)&b)|(a&c)             # MAJ
5663535bSTim Chen	add	y1, h		# h = k + w + h + S0                    # --
5663535bSTim Chen
5663535bSTim Chen	add	y2, d		# d = k + w + h + d + S1 + CH = d + t1  # --
5663535bSTim Chen
5663535bSTim Chen	RotateState
5663535bSTim Chen
5663535bSTim Chen################################### RND N + 1 #########################################
5663535bSTim Chen
5663535bSTim Chen	add	y2, old_h	# h = k + w + h + S0 + S1 + CH = t1 + S0# --
5663535bSTim Chen	mov	f, y2		# y2 = f                                # CH
5663535bSTim Chen	rorx	$41, e, y0	# y0 = e >> 41				# S1A
5663535bSTim Chen	rorx	$18, e, y1	# y1 = e >> 18				# S1B
5663535bSTim Chen	xor	g, y2		# y2 = f^g                              # CH
5663535bSTim Chen
5663535bSTim Chen	xor	y1, y0		# y0 = (e>>41) ^ (e>>18)		# S1
5663535bSTim Chen	rorx	$14, e, y1	# y1 = (e >> 14)			# S1
5663535bSTim Chen	and	e, y2		# y2 = (f^g)&e                          # CH
5663535bSTim Chen	add	y3, old_h	# h = t1 + S0 + MAJ                     # --
5663535bSTim Chen
5663535bSTim Chen	xor	y1, y0		# y0 = (e>>41) ^ (e>>18) ^ (e>>14)	# S1
5663535bSTim Chen	rorx	$34, a, T1	# T1 = a >> 34				# S0B
5663535bSTim Chen	xor	g, y2		# y2 = CH = ((f^g)&e)^g                 # CH
5663535bSTim Chen	rorx	$39, a, y1	# y1 = a >> 39				# S0A
5663535bSTim Chen	mov	a, y3		# y3 = a                                # MAJA
5663535bSTim Chen
5663535bSTim Chen	xor	T1, y1		# y1 = (a>>39) ^ (a>>34)		# S0
5663535bSTim Chen	rorx	$28, a, T1	# T1 = (a >> 28)			# S0
5663535bSTim Chen	add	8*1+frame_XFER(%rsp), h		# h = k + w + h         # --
5663535bSTim Chen	or	c, y3		# y3 = a|c                              # MAJA
5663535bSTim Chen
5663535bSTim Chen	xor	T1, y1		# y1 = (a>>39) ^ (a>>34) ^ (a>>28)	# S0
5663535bSTim Chen	mov	a, T1		# T1 = a                                # MAJB
5663535bSTim Chen	and	b, y3		# y3 = (a|c)&b                          # MAJA
5663535bSTim Chen	and	c, T1		# T1 = a&c                              # MAJB
5663535bSTim Chen	add	y0, y2		# y2 = S1 + CH                          # --
5663535bSTim Chen
5663535bSTim Chen	add	h, d		# d = k + w + h + d                     # --
5663535bSTim Chen	or	T1, y3		# y3 = MAJ = (a|c)&b)|(a&c)             # MAJ
5663535bSTim Chen	add	y1, h		# h = k + w + h + S0                    # --
5663535bSTim Chen
5663535bSTim Chen	add	y2, d		# d = k + w + h + d + S1 + CH = d + t1  # --
5663535bSTim Chen
5663535bSTim Chen	RotateState
5663535bSTim Chen
5663535bSTim Chen################################### RND N + 2 #########################################
5663535bSTim Chen
5663535bSTim Chen	add	y2, old_h	# h = k + w + h + S0 + S1 + CH = t1 + S0# --
5663535bSTim Chen	mov	f, y2		# y2 = f                                # CH
5663535bSTim Chen	rorx	$41, e, y0	# y0 = e >> 41				# S1A
5663535bSTim Chen	rorx	$18, e, y1	# y1 = e >> 18				# S1B
5663535bSTim Chen	xor	g, y2		# y2 = f^g                              # CH
5663535bSTim Chen
5663535bSTim Chen	xor	y1, y0		# y0 = (e>>41) ^ (e>>18)		# S1
5663535bSTim Chen	rorx	$14, e, y1	# y1 = (e >> 14)			# S1
5663535bSTim Chen	and	e, y2		# y2 = (f^g)&e                          # CH
5663535bSTim Chen	add	y3, old_h	# h = t1 + S0 + MAJ                     # --
5663535bSTim Chen
5663535bSTim Chen	xor	y1, y0		# y0 = (e>>41) ^ (e>>18) ^ (e>>14)	# S1
5663535bSTim Chen	rorx	$34, a, T1	# T1 = a >> 34				# S0B
5663535bSTim Chen	xor	g, y2		# y2 = CH = ((f^g)&e)^g                 # CH
5663535bSTim Chen	rorx	$39, a, y1	# y1 = a >> 39				# S0A
5663535bSTim Chen	mov	a, y3		# y3 = a                                # MAJA
5663535bSTim Chen
5663535bSTim Chen	xor	T1, y1		# y1 = (a>>39) ^ (a>>34)		# S0
5663535bSTim Chen	rorx	$28, a, T1	# T1 = (a >> 28)			# S0
5663535bSTim Chen	add	8*2+frame_XFER(%rsp), h		# h = k + w + h         # --
5663535bSTim Chen	or	c, y3		# y3 = a|c                              # MAJA
5663535bSTim Chen
5663535bSTim Chen	xor	T1, y1		# y1 = (a>>39) ^ (a>>34) ^ (a>>28)	# S0
5663535bSTim Chen	mov	a, T1		# T1 = a                                # MAJB
5663535bSTim Chen	and	b, y3		# y3 = (a|c)&b                          # MAJA
5663535bSTim Chen	and	c, T1		# T1 = a&c                              # MAJB
5663535bSTim Chen	add	y0, y2		# y2 = S1 + CH                          # --
5663535bSTim Chen
5663535bSTim Chen	add	h, d		# d = k + w + h + d                     # --
5663535bSTim Chen	or	T1, y3		# y3 = MAJ = (a|c)&b)|(a&c)             # MAJ
5663535bSTim Chen	add	y1, h		# h = k + w + h + S0                    # --
5663535bSTim Chen
5663535bSTim Chen	add	y2, d		# d = k + w + h + d + S1 + CH = d + t1  # --
5663535bSTim Chen
5663535bSTim Chen	RotateState
5663535bSTim Chen
5663535bSTim Chen################################### RND N + 3 #########################################
5663535bSTim Chen
5663535bSTim Chen	add	y2, old_h	# h = k + w + h + S0 + S1 + CH = t1 + S0# --
5663535bSTim Chen	mov	f, y2		# y2 = f                                # CH
5663535bSTim Chen	rorx	$41, e, y0	# y0 = e >> 41				# S1A
5663535bSTim Chen	rorx	$18, e, y1	# y1 = e >> 18				# S1B
5663535bSTim Chen	xor	g, y2		# y2 = f^g                              # CH
5663535bSTim Chen
5663535bSTim Chen	xor	y1, y0		# y0 = (e>>41) ^ (e>>18)		# S1
5663535bSTim Chen	rorx	$14, e, y1	# y1 = (e >> 14)			# S1
5663535bSTim Chen	and	e, y2		# y2 = (f^g)&e                          # CH
5663535bSTim Chen	add	y3, old_h	# h = t1 + S0 + MAJ                     # --
5663535bSTim Chen
5663535bSTim Chen	xor	y1, y0		# y0 = (e>>41) ^ (e>>18) ^ (e>>14)	# S1
5663535bSTim Chen	rorx	$34, a, T1	# T1 = a >> 34				# S0B
5663535bSTim Chen	xor	g, y2		# y2 = CH = ((f^g)&e)^g                 # CH
5663535bSTim Chen	rorx	$39, a, y1	# y1 = a >> 39				# S0A
5663535bSTim Chen	mov	a, y3		# y3 = a                                # MAJA
5663535bSTim Chen
5663535bSTim Chen	xor	T1, y1		# y1 = (a>>39) ^ (a>>34)		# S0
5663535bSTim Chen	rorx	$28, a, T1	# T1 = (a >> 28)			# S0
5663535bSTim Chen	add	8*3+frame_XFER(%rsp), h		# h = k + w + h         # --
5663535bSTim Chen	or	c, y3		# y3 = a|c                              # MAJA
5663535bSTim Chen
5663535bSTim Chen	xor	T1, y1		# y1 = (a>>39) ^ (a>>34) ^ (a>>28)	# S0
5663535bSTim Chen	mov	a, T1		# T1 = a                                # MAJB
5663535bSTim Chen	and	b, y3		# y3 = (a|c)&b                          # MAJA
5663535bSTim Chen	and	c, T1		# T1 = a&c                              # MAJB
5663535bSTim Chen	add	y0, y2		# y2 = S1 + CH                          # --
5663535bSTim Chen
5663535bSTim Chen
5663535bSTim Chen	add	h, d		# d = k + w + h + d                     # --
5663535bSTim Chen	or	T1, y3		# y3 = MAJ = (a|c)&b)|(a&c)             # MAJ
5663535bSTim Chen	add	y1, h		# h = k + w + h + S0                    # --
5663535bSTim Chen
5663535bSTim Chen	add	y2, d		# d = k + w + h + d + S1 + CH = d + t1  # --
5663535bSTim Chen
5663535bSTim Chen	add	y2, h		# h = k + w + h + S0 + S1 + CH = t1 + S0# --
5663535bSTim Chen
5663535bSTim Chen	add	y3, h		# h = t1 + S0 + MAJ                     # --
5663535bSTim Chen
5663535bSTim Chen	RotateState
5663535bSTim Chen
5663535bSTim Chen.endm
5663535bSTim Chen
5663535bSTim Chen########################################################################
41419a28SKees Cook# void sha512_transform_rorx(sha512_state *state, const u8 *data, int blocks)
41419a28SKees Cook# Purpose: Updates the SHA512 digest stored at "state" with the message
41419a28SKees Cook# stored in "data".
41419a28SKees Cook# The size of the message pointed to by "data" must be an integer multiple
41419a28SKees Cook# of SHA512 message blocks.
41419a28SKees Cook# "blocks" is the message length in SHA512 blocks
5663535bSTim Chen########################################################################
6dcc5627SJiri SlabySYM_FUNC_START(sha512_transform_rorx)
*ec063e09SJosh Poimboeuf	# Save GPRs
*ec063e09SJosh Poimboeuf	push	%rbx
*ec063e09SJosh Poimboeuf	push	%r12
*ec063e09SJosh Poimboeuf	push	%r13
*ec063e09SJosh Poimboeuf	push	%r14
*ec063e09SJosh Poimboeuf	push	%r15
*ec063e09SJosh Poimboeuf
5663535bSTim Chen	# Allocate Stack Space
*ec063e09SJosh Poimboeuf	push	%rbp
*ec063e09SJosh Poimboeuf	mov	%rsp, %rbp
5663535bSTim Chen	sub	$frame_size, %rsp
5663535bSTim Chen	and	$~(0x20 - 1), %rsp
5663535bSTim Chen
5663535bSTim Chen	shl	$7, NUM_BLKS	# convert to bytes
5663535bSTim Chen	jz	done_hash
5663535bSTim Chen	add	INP, NUM_BLKS	# pointer to end of data
5663535bSTim Chen	mov	NUM_BLKS, frame_INPEND(%rsp)
5663535bSTim Chen
5663535bSTim Chen	## load initial digest
ca04c823SJosh Poimboeuf	mov	8*0(CTX1), a
ca04c823SJosh Poimboeuf	mov	8*1(CTX1), b
ca04c823SJosh Poimboeuf	mov	8*2(CTX1), c
ca04c823SJosh Poimboeuf	mov	8*3(CTX1), d
ca04c823SJosh Poimboeuf	mov	8*4(CTX1), e
ca04c823SJosh Poimboeuf	mov	8*5(CTX1), f
ca04c823SJosh Poimboeuf	mov	8*6(CTX1), g
ca04c823SJosh Poimboeuf	mov	8*7(CTX1), h
ca04c823SJosh Poimboeuf
ca04c823SJosh Poimboeuf	# save %rdi (CTX) before it gets clobbered
ca04c823SJosh Poimboeuf	mov	%rdi, frame_CTX(%rsp)
5663535bSTim Chen
5663535bSTim Chen	vmovdqa	PSHUFFLE_BYTE_FLIP_MASK(%rip), BYTE_FLIP_MASK
5663535bSTim Chen
5663535bSTim Chenloop0:
5663535bSTim Chen	lea	K512(%rip), TBL
5663535bSTim Chen
5663535bSTim Chen	## byte swap first 16 dwords
5663535bSTim Chen	COPY_YMM_AND_BSWAP	Y_0, (INP), BYTE_FLIP_MASK
5663535bSTim Chen	COPY_YMM_AND_BSWAP	Y_1, 1*32(INP), BYTE_FLIP_MASK
5663535bSTim Chen	COPY_YMM_AND_BSWAP	Y_2, 2*32(INP), BYTE_FLIP_MASK
5663535bSTim Chen	COPY_YMM_AND_BSWAP	Y_3, 3*32(INP), BYTE_FLIP_MASK
5663535bSTim Chen
5663535bSTim Chen	mov	INP, frame_INP(%rsp)
5663535bSTim Chen
5663535bSTim Chen	## schedule 64 input dwords, by doing 12 rounds of 4 each
5663535bSTim Chen	movq	$4, frame_SRND(%rsp)
5663535bSTim Chen
5663535bSTim Chen.align 16
5663535bSTim Chenloop1:
5663535bSTim Chen	vpaddq	(TBL), Y_0, XFER
5663535bSTim Chen	vmovdqa XFER, frame_XFER(%rsp)
5663535bSTim Chen	FOUR_ROUNDS_AND_SCHED
5663535bSTim Chen
5663535bSTim Chen	vpaddq	1*32(TBL), Y_0, XFER
5663535bSTim Chen	vmovdqa XFER, frame_XFER(%rsp)
5663535bSTim Chen	FOUR_ROUNDS_AND_SCHED
5663535bSTim Chen
5663535bSTim Chen	vpaddq	2*32(TBL), Y_0, XFER
5663535bSTim Chen	vmovdqa XFER, frame_XFER(%rsp)
5663535bSTim Chen	FOUR_ROUNDS_AND_SCHED
5663535bSTim Chen
5663535bSTim Chen	vpaddq	3*32(TBL), Y_0, XFER
5663535bSTim Chen	vmovdqa XFER, frame_XFER(%rsp)
5663535bSTim Chen	add	$(4*32), TBL
5663535bSTim Chen	FOUR_ROUNDS_AND_SCHED
5663535bSTim Chen
5663535bSTim Chen	subq	$1, frame_SRND(%rsp)
5663535bSTim Chen	jne	loop1
5663535bSTim Chen
5663535bSTim Chen	movq	$2, frame_SRND(%rsp)
5663535bSTim Chenloop2:
5663535bSTim Chen	vpaddq	(TBL), Y_0, XFER
5663535bSTim Chen	vmovdqa XFER, frame_XFER(%rsp)
5663535bSTim Chen	DO_4ROUNDS
5663535bSTim Chen	vpaddq	1*32(TBL), Y_1, XFER
5663535bSTim Chen	vmovdqa XFER, frame_XFER(%rsp)
5663535bSTim Chen	add	$(2*32), TBL
5663535bSTim Chen	DO_4ROUNDS
5663535bSTim Chen
5663535bSTim Chen	vmovdqa	Y_2, Y_0
5663535bSTim Chen	vmovdqa	Y_3, Y_1
5663535bSTim Chen
5663535bSTim Chen	subq	$1, frame_SRND(%rsp)
5663535bSTim Chen	jne	loop2
5663535bSTim Chen
ca04c823SJosh Poimboeuf	mov	frame_CTX(%rsp), CTX2
ca04c823SJosh Poimboeuf	addm	8*0(CTX2), a
ca04c823SJosh Poimboeuf	addm	8*1(CTX2), b
ca04c823SJosh Poimboeuf	addm	8*2(CTX2), c
ca04c823SJosh Poimboeuf	addm	8*3(CTX2), d
ca04c823SJosh Poimboeuf	addm	8*4(CTX2), e
ca04c823SJosh Poimboeuf	addm	8*5(CTX2), f
ca04c823SJosh Poimboeuf	addm	8*6(CTX2), g
ca04c823SJosh Poimboeuf	addm	8*7(CTX2), h
5663535bSTim Chen
5663535bSTim Chen	mov	frame_INP(%rsp), INP
5663535bSTim Chen	add	$128, INP
5663535bSTim Chen	cmp	frame_INPEND(%rsp), INP
5663535bSTim Chen	jne	loop0
5663535bSTim Chen
5663535bSTim Chendone_hash:
5663535bSTim Chen
5663535bSTim Chen	# Restore Stack Pointer
*ec063e09SJosh Poimboeuf	mov	%rbp, %rsp
*ec063e09SJosh Poimboeuf	pop	%rbp
*ec063e09SJosh Poimboeuf
*ec063e09SJosh Poimboeuf	# Restore GPRs
*ec063e09SJosh Poimboeuf	pop	%r15
*ec063e09SJosh Poimboeuf	pop	%r14
*ec063e09SJosh Poimboeuf	pop	%r13
*ec063e09SJosh Poimboeuf	pop	%r12
*ec063e09SJosh Poimboeuf	pop	%rbx
*ec063e09SJosh Poimboeuf
5663535bSTim Chen	ret
6dcc5627SJiri SlabySYM_FUNC_END(sha512_transform_rorx)
5663535bSTim Chen
5663535bSTim Chen########################################################################
5663535bSTim Chen### Binary Data
5663535bSTim Chen
5663535bSTim Chen
e183914aSDenys Vlasenko# Mergeable 640-byte rodata section. This allows linker to merge the table
e183914aSDenys Vlasenko# with other, exactly the same 640-byte fragment of another rodata section
e183914aSDenys Vlasenko# (if such section exists).
e183914aSDenys Vlasenko.section	.rodata.cst640.K512, "aM", @progbits, 640
5663535bSTim Chen.align 64
5663535bSTim Chen# K[t] used in SHA512 hashing
5663535bSTim ChenK512:
5663535bSTim Chen	.quad	0x428a2f98d728ae22,0x7137449123ef65cd
5663535bSTim Chen	.quad	0xb5c0fbcfec4d3b2f,0xe9b5dba58189dbbc
5663535bSTim Chen	.quad	0x3956c25bf348b538,0x59f111f1b605d019
5663535bSTim Chen	.quad	0x923f82a4af194f9b,0xab1c5ed5da6d8118
5663535bSTim Chen	.quad	0xd807aa98a3030242,0x12835b0145706fbe
5663535bSTim Chen	.quad	0x243185be4ee4b28c,0x550c7dc3d5ffb4e2
5663535bSTim Chen	.quad	0x72be5d74f27b896f,0x80deb1fe3b1696b1
5663535bSTim Chen	.quad	0x9bdc06a725c71235,0xc19bf174cf692694
5663535bSTim Chen	.quad	0xe49b69c19ef14ad2,0xefbe4786384f25e3
5663535bSTim Chen	.quad	0x0fc19dc68b8cd5b5,0x240ca1cc77ac9c65
5663535bSTim Chen	.quad	0x2de92c6f592b0275,0x4a7484aa6ea6e483
5663535bSTim Chen	.quad	0x5cb0a9dcbd41fbd4,0x76f988da831153b5
5663535bSTim Chen	.quad	0x983e5152ee66dfab,0xa831c66d2db43210
5663535bSTim Chen	.quad	0xb00327c898fb213f,0xbf597fc7beef0ee4
5663535bSTim Chen	.quad	0xc6e00bf33da88fc2,0xd5a79147930aa725
5663535bSTim Chen	.quad	0x06ca6351e003826f,0x142929670a0e6e70
5663535bSTim Chen	.quad	0x27b70a8546d22ffc,0x2e1b21385c26c926
5663535bSTim Chen	.quad	0x4d2c6dfc5ac42aed,0x53380d139d95b3df
5663535bSTim Chen	.quad	0x650a73548baf63de,0x766a0abb3c77b2a8
5663535bSTim Chen	.quad	0x81c2c92e47edaee6,0x92722c851482353b
5663535bSTim Chen	.quad	0xa2bfe8a14cf10364,0xa81a664bbc423001
5663535bSTim Chen	.quad	0xc24b8b70d0f89791,0xc76c51a30654be30
5663535bSTim Chen	.quad	0xd192e819d6ef5218,0xd69906245565a910
5663535bSTim Chen	.quad	0xf40e35855771202a,0x106aa07032bbd1b8
5663535bSTim Chen	.quad	0x19a4c116b8d2d0c8,0x1e376c085141ab53
5663535bSTim Chen	.quad	0x2748774cdf8eeb99,0x34b0bcb5e19b48a8
5663535bSTim Chen	.quad	0x391c0cb3c5c95a63,0x4ed8aa4ae3418acb
5663535bSTim Chen	.quad	0x5b9cca4f7763e373,0x682e6ff3d6b2b8a3
5663535bSTim Chen	.quad	0x748f82ee5defb2fc,0x78a5636f43172f60
5663535bSTim Chen	.quad	0x84c87814a1f0ab72,0x8cc702081a6439ec
5663535bSTim Chen	.quad	0x90befffa23631e28,0xa4506cebde82bde9
5663535bSTim Chen	.quad	0xbef9a3f7b2c67915,0xc67178f2e372532b
5663535bSTim Chen	.quad	0xca273eceea26619c,0xd186b8c721c0c207
5663535bSTim Chen	.quad	0xeada7dd6cde0eb1e,0xf57d4f7fee6ed178
5663535bSTim Chen	.quad	0x06f067aa72176fba,0x0a637dc5a2c898a6
5663535bSTim Chen	.quad	0x113f9804bef90dae,0x1b710b35131c471b
5663535bSTim Chen	.quad	0x28db77f523047d84,0x32caab7b40c72493
5663535bSTim Chen	.quad	0x3c9ebe0a15c9bebc,0x431d67c49c100d4c
5663535bSTim Chen	.quad	0x4cc5d4becb3e42b6,0x597f299cfc657e2a
5663535bSTim Chen	.quad	0x5fcb6fab3ad6faec,0x6c44198c4a475817
5663535bSTim Chen
e183914aSDenys Vlasenko.section	.rodata.cst32.PSHUFFLE_BYTE_FLIP_MASK, "aM", @progbits, 32
5663535bSTim Chen.align 32
5663535bSTim Chen# Mask for byte-swapping a couple of qwords in an XMM register using (v)pshufb.
5663535bSTim ChenPSHUFFLE_BYTE_FLIP_MASK:
5663535bSTim Chen	.octa 0x08090a0b0c0d0e0f0001020304050607
5663535bSTim Chen	.octa 0x18191a1b1c1d1e1f1011121314151617
5663535bSTim Chen
e183914aSDenys Vlasenko.section	.rodata.cst32.MASK_YMM_LO, "aM", @progbits, 32
e183914aSDenys Vlasenko.align 32
5663535bSTim ChenMASK_YMM_LO:
5663535bSTim Chen	.octa 0x00000000000000000000000000000000
5663535bSTim Chen	.octa 0xFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF