arm/crypto/chacha-scalar-core.S

29621d09SArd Biesheuvel/* SPDX-License-Identifier: GPL-2.0 */
29621d09SArd Biesheuvel/*
29621d09SArd Biesheuvel * Copyright (C) 2018 Google, Inc.
29621d09SArd Biesheuvel */
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel#include <linux/linkage.h>
29621d09SArd Biesheuvel#include <asm/assembler.h>
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel/*
29621d09SArd Biesheuvel * Design notes:
29621d09SArd Biesheuvel *
29621d09SArd Biesheuvel * 16 registers would be needed to hold the state matrix, but only 14 are
29621d09SArd Biesheuvel * available because 'sp' and 'pc' cannot be used.  So we spill the elements
29621d09SArd Biesheuvel * (x8, x9) to the stack and swap them out with (x10, x11).  This adds one
29621d09SArd Biesheuvel * 'ldrd' and one 'strd' instruction per round.
29621d09SArd Biesheuvel *
29621d09SArd Biesheuvel * All rotates are performed using the implicit rotate operand accepted by the
29621d09SArd Biesheuvel * 'add' and 'eor' instructions.  This is faster than using explicit rotate
29621d09SArd Biesheuvel * instructions.  To make this work, we allow the values in the second and last
29621d09SArd Biesheuvel * rows of the ChaCha state matrix (rows 'b' and 'd') to temporarily have the
29621d09SArd Biesheuvel * wrong rotation amount.  The rotation amount is then fixed up just in time
29621d09SArd Biesheuvel * when the values are used.  'brot' is the number of bits the values in row 'b'
29621d09SArd Biesheuvel * need to be rotated right to arrive at the correct values, and 'drot'
29621d09SArd Biesheuvel * similarly for row 'd'.  (brot, drot) start out as (0, 0) but we make it such
29621d09SArd Biesheuvel * that they end up as (25, 24) after every round.
29621d09SArd Biesheuvel */
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	// ChaCha state registers
29621d09SArd Biesheuvel	X0	.req	r0
29621d09SArd Biesheuvel	X1	.req	r1
29621d09SArd Biesheuvel	X2	.req	r2
29621d09SArd Biesheuvel	X3	.req	r3
29621d09SArd Biesheuvel	X4	.req	r4
29621d09SArd Biesheuvel	X5	.req	r5
29621d09SArd Biesheuvel	X6	.req	r6
29621d09SArd Biesheuvel	X7	.req	r7
29621d09SArd Biesheuvel	X8_X10	.req	r8	// shared by x8 and x10
29621d09SArd Biesheuvel	X9_X11	.req	r9	// shared by x9 and x11
29621d09SArd Biesheuvel	X12	.req	r10
29621d09SArd Biesheuvel	X13	.req	r11
29621d09SArd Biesheuvel	X14	.req	r12
29621d09SArd Biesheuvel	X15	.req	r14
29621d09SArd Biesheuvel
*e0ba808dSArd Biesheuvel.macro _le32_bswap_4x	a, b, c, d,  tmp
29621d09SArd Biesheuvel#ifdef __ARMEB__
*e0ba808dSArd Biesheuvel	rev_l		\a,  \tmp
*e0ba808dSArd Biesheuvel	rev_l		\b,  \tmp
*e0ba808dSArd Biesheuvel	rev_l		\c,  \tmp
*e0ba808dSArd Biesheuvel	rev_l		\d,  \tmp
29621d09SArd Biesheuvel#endif
29621d09SArd Biesheuvel.endm
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel.macro __ldrd		a, b, src, offset
29621d09SArd Biesheuvel#if __LINUX_ARM_ARCH__ >= 6
29621d09SArd Biesheuvel	ldrd		\a, \b, [\src, #\offset]
29621d09SArd Biesheuvel#else
29621d09SArd Biesheuvel	ldr		\a, [\src, #\offset]
29621d09SArd Biesheuvel	ldr		\b, [\src, #\offset + 4]
29621d09SArd Biesheuvel#endif
29621d09SArd Biesheuvel.endm
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel.macro __strd		a, b, dst, offset
29621d09SArd Biesheuvel#if __LINUX_ARM_ARCH__ >= 6
29621d09SArd Biesheuvel	strd		\a, \b, [\dst, #\offset]
29621d09SArd Biesheuvel#else
29621d09SArd Biesheuvel	str		\a, [\dst, #\offset]
29621d09SArd Biesheuvel	str		\b, [\dst, #\offset + 4]
29621d09SArd Biesheuvel#endif
29621d09SArd Biesheuvel.endm
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel.macro _halfround	a1, b1, c1, d1,  a2, b2, c2, d2
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	// a += b; d ^= a; d = rol(d, 16);
29621d09SArd Biesheuvel	add		\a1, \a1, \b1, ror #brot
29621d09SArd Biesheuvel	add		\a2, \a2, \b2, ror #brot
29621d09SArd Biesheuvel	eor		\d1, \a1, \d1, ror #drot
29621d09SArd Biesheuvel	eor		\d2, \a2, \d2, ror #drot
29621d09SArd Biesheuvel	// drot == 32 - 16 == 16
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	// c += d; b ^= c; b = rol(b, 12);
29621d09SArd Biesheuvel	add		\c1, \c1, \d1, ror #16
29621d09SArd Biesheuvel	add		\c2, \c2, \d2, ror #16
29621d09SArd Biesheuvel	eor		\b1, \c1, \b1, ror #brot
29621d09SArd Biesheuvel	eor		\b2, \c2, \b2, ror #brot
29621d09SArd Biesheuvel	// brot == 32 - 12 == 20
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	// a += b; d ^= a; d = rol(d, 8);
29621d09SArd Biesheuvel	add		\a1, \a1, \b1, ror #20
29621d09SArd Biesheuvel	add		\a2, \a2, \b2, ror #20
29621d09SArd Biesheuvel	eor		\d1, \a1, \d1, ror #16
29621d09SArd Biesheuvel	eor		\d2, \a2, \d2, ror #16
29621d09SArd Biesheuvel	// drot == 32 - 8 == 24
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	// c += d; b ^= c; b = rol(b, 7);
29621d09SArd Biesheuvel	add		\c1, \c1, \d1, ror #24
29621d09SArd Biesheuvel	add		\c2, \c2, \d2, ror #24
29621d09SArd Biesheuvel	eor		\b1, \c1, \b1, ror #20
29621d09SArd Biesheuvel	eor		\b2, \c2, \b2, ror #20
29621d09SArd Biesheuvel	// brot == 32 - 7 == 25
29621d09SArd Biesheuvel.endm
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel.macro _doubleround
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	// column round
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	// quarterrounds: (x0, x4, x8, x12) and (x1, x5, x9, x13)
29621d09SArd Biesheuvel	_halfround	X0, X4, X8_X10, X12,  X1, X5, X9_X11, X13
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	// save (x8, x9); restore (x10, x11)
29621d09SArd Biesheuvel	__strd		X8_X10, X9_X11, sp, 0
29621d09SArd Biesheuvel	__ldrd		X8_X10, X9_X11, sp, 8
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	// quarterrounds: (x2, x6, x10, x14) and (x3, x7, x11, x15)
29621d09SArd Biesheuvel	_halfround	X2, X6, X8_X10, X14,  X3, X7, X9_X11, X15
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	.set brot, 25
29621d09SArd Biesheuvel	.set drot, 24
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	// diagonal round
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	// quarterrounds: (x0, x5, x10, x15) and (x1, x6, x11, x12)
29621d09SArd Biesheuvel	_halfround	X0, X5, X8_X10, X15,  X1, X6, X9_X11, X12
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	// save (x10, x11); restore (x8, x9)
29621d09SArd Biesheuvel	__strd		X8_X10, X9_X11, sp, 8
29621d09SArd Biesheuvel	__ldrd		X8_X10, X9_X11, sp, 0
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	// quarterrounds: (x2, x7, x8, x13) and (x3, x4, x9, x14)
29621d09SArd Biesheuvel	_halfround	X2, X7, X8_X10, X13,  X3, X4, X9_X11, X14
29621d09SArd Biesheuvel.endm
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel.macro _chacha_permute	nrounds
29621d09SArd Biesheuvel	.set brot, 0
29621d09SArd Biesheuvel	.set drot, 0
29621d09SArd Biesheuvel	.rept \nrounds / 2
29621d09SArd Biesheuvel	 _doubleround
29621d09SArd Biesheuvel	.endr
29621d09SArd Biesheuvel.endm
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel.macro _chacha		nrounds
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel.Lnext_block\@:
29621d09SArd Biesheuvel	// Stack: unused0-unused1 x10-x11 x0-x15 OUT IN LEN
29621d09SArd Biesheuvel	// Registers contain x0-x9,x12-x15.
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	// Do the core ChaCha permutation to update x0-x15.
29621d09SArd Biesheuvel	_chacha_permute	\nrounds
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	add		sp, #8
29621d09SArd Biesheuvel	// Stack: x10-x11 orig_x0-orig_x15 OUT IN LEN
29621d09SArd Biesheuvel	// Registers contain x0-x9,x12-x15.
29621d09SArd Biesheuvel	// x4-x7 are rotated by 'brot'; x12-x15 are rotated by 'drot'.
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	// Free up some registers (r8-r12,r14) by pushing (x8-x9,x12-x15).
29621d09SArd Biesheuvel	push		{X8_X10, X9_X11, X12, X13, X14, X15}
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	// Load (OUT, IN, LEN).
29621d09SArd Biesheuvel	ldr		r14, [sp, #96]
29621d09SArd Biesheuvel	ldr		r12, [sp, #100]
29621d09SArd Biesheuvel	ldr		r11, [sp, #104]
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	orr		r10, r14, r12
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	// Use slow path if fewer than 64 bytes remain.
29621d09SArd Biesheuvel	cmp		r11, #64
29621d09SArd Biesheuvel	blt		.Lxor_slowpath\@
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	// Use slow path if IN and/or OUT isn't 4-byte aligned.  Needed even on
29621d09SArd Biesheuvel	// ARMv6+, since ldmia and stmia (used below) still require alignment.
29621d09SArd Biesheuvel	tst		r10, #3
29621d09SArd Biesheuvel	bne		.Lxor_slowpath\@
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	// Fast path: XOR 64 bytes of aligned data.
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	// Stack: x8-x9 x12-x15 x10-x11 orig_x0-orig_x15 OUT IN LEN
29621d09SArd Biesheuvel	// Registers: r0-r7 are x0-x7; r8-r11 are free; r12 is IN; r14 is OUT.
29621d09SArd Biesheuvel	// x4-x7 are rotated by 'brot'; x12-x15 are rotated by 'drot'.
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	// x0-x3
29621d09SArd Biesheuvel	__ldrd		r8, r9, sp, 32
29621d09SArd Biesheuvel	__ldrd		r10, r11, sp, 40
29621d09SArd Biesheuvel	add		X0, X0, r8
29621d09SArd Biesheuvel	add		X1, X1, r9
29621d09SArd Biesheuvel	add		X2, X2, r10
29621d09SArd Biesheuvel	add		X3, X3, r11
*e0ba808dSArd Biesheuvel	_le32_bswap_4x	X0, X1, X2, X3,  r8
29621d09SArd Biesheuvel	ldmia		r12!, {r8-r11}
29621d09SArd Biesheuvel	eor		X0, X0, r8
29621d09SArd Biesheuvel	eor		X1, X1, r9
29621d09SArd Biesheuvel	eor		X2, X2, r10
29621d09SArd Biesheuvel	eor		X3, X3, r11
29621d09SArd Biesheuvel	stmia		r14!, {X0-X3}
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	// x4-x7
29621d09SArd Biesheuvel	__ldrd		r8, r9, sp, 48
29621d09SArd Biesheuvel	__ldrd		r10, r11, sp, 56
29621d09SArd Biesheuvel	add		X4, r8, X4, ror #brot
29621d09SArd Biesheuvel	add		X5, r9, X5, ror #brot
29621d09SArd Biesheuvel	ldmia		r12!, {X0-X3}
29621d09SArd Biesheuvel	add		X6, r10, X6, ror #brot
29621d09SArd Biesheuvel	add		X7, r11, X7, ror #brot
*e0ba808dSArd Biesheuvel	_le32_bswap_4x	X4, X5, X6, X7,  r8
29621d09SArd Biesheuvel	eor		X4, X4, X0
29621d09SArd Biesheuvel	eor		X5, X5, X1
29621d09SArd Biesheuvel	eor		X6, X6, X2
29621d09SArd Biesheuvel	eor		X7, X7, X3
29621d09SArd Biesheuvel	stmia		r14!, {X4-X7}
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	// x8-x15
29621d09SArd Biesheuvel	pop		{r0-r7}			// (x8-x9,x12-x15,x10-x11)
29621d09SArd Biesheuvel	__ldrd		r8, r9, sp, 32
29621d09SArd Biesheuvel	__ldrd		r10, r11, sp, 40
29621d09SArd Biesheuvel	add		r0, r0, r8		// x8
29621d09SArd Biesheuvel	add		r1, r1, r9		// x9
29621d09SArd Biesheuvel	add		r6, r6, r10		// x10
29621d09SArd Biesheuvel	add		r7, r7, r11		// x11
*e0ba808dSArd Biesheuvel	_le32_bswap_4x	r0, r1, r6, r7,  r8
29621d09SArd Biesheuvel	ldmia		r12!, {r8-r11}
29621d09SArd Biesheuvel	eor		r0, r0, r8		// x8
29621d09SArd Biesheuvel	eor		r1, r1, r9		// x9
29621d09SArd Biesheuvel	eor		r6, r6, r10		// x10
29621d09SArd Biesheuvel	eor		r7, r7, r11		// x11
29621d09SArd Biesheuvel	stmia		r14!, {r0,r1,r6,r7}
29621d09SArd Biesheuvel	ldmia		r12!, {r0,r1,r6,r7}
29621d09SArd Biesheuvel	__ldrd		r8, r9, sp, 48
29621d09SArd Biesheuvel	__ldrd		r10, r11, sp, 56
29621d09SArd Biesheuvel	add		r2, r8, r2, ror #drot	// x12
29621d09SArd Biesheuvel	add		r3, r9, r3, ror #drot	// x13
29621d09SArd Biesheuvel	add		r4, r10, r4, ror #drot	// x14
29621d09SArd Biesheuvel	add		r5, r11, r5, ror #drot	// x15
*e0ba808dSArd Biesheuvel	_le32_bswap_4x	r2, r3, r4, r5,  r9
29621d09SArd Biesheuvel	  ldr		r9, [sp, #72]		// load LEN
29621d09SArd Biesheuvel	eor		r2, r2, r0		// x12
29621d09SArd Biesheuvel	eor		r3, r3, r1		// x13
29621d09SArd Biesheuvel	eor		r4, r4, r6		// x14
29621d09SArd Biesheuvel	eor		r5, r5, r7		// x15
29621d09SArd Biesheuvel	  subs		r9, #64			// decrement and check LEN
29621d09SArd Biesheuvel	stmia		r14!, {r2-r5}
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	beq		.Ldone\@
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel.Lprepare_for_next_block\@:
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	// Stack: x0-x15 OUT IN LEN
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	// Increment block counter (x12)
29621d09SArd Biesheuvel	add		r8, #1
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	// Store updated (OUT, IN, LEN)
29621d09SArd Biesheuvel	str		r14, [sp, #64]
29621d09SArd Biesheuvel	str		r12, [sp, #68]
29621d09SArd Biesheuvel	str		r9, [sp, #72]
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	  mov		r14, sp
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	// Store updated block counter (x12)
29621d09SArd Biesheuvel	str		r8, [sp, #48]
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	  sub		sp, #16
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	// Reload state and do next block
29621d09SArd Biesheuvel	ldmia		r14!, {r0-r11}		// load x0-x11
29621d09SArd Biesheuvel	__strd		r10, r11, sp, 8		// store x10-x11 before state
29621d09SArd Biesheuvel	ldmia		r14, {r10-r12,r14}	// load x12-x15
29621d09SArd Biesheuvel	b		.Lnext_block\@
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel.Lxor_slowpath\@:
29621d09SArd Biesheuvel	// Slow path: < 64 bytes remaining, or unaligned input or output buffer.
29621d09SArd Biesheuvel	// We handle it by storing the 64 bytes of keystream to the stack, then
29621d09SArd Biesheuvel	// XOR-ing the needed portion with the data.
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	// Allocate keystream buffer
29621d09SArd Biesheuvel	sub		sp, #64
29621d09SArd Biesheuvel	mov		r14, sp
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	// Stack: ks0-ks15 x8-x9 x12-x15 x10-x11 orig_x0-orig_x15 OUT IN LEN
29621d09SArd Biesheuvel	// Registers: r0-r7 are x0-x7; r8-r11 are free; r12 is IN; r14 is &ks0.
29621d09SArd Biesheuvel	// x4-x7 are rotated by 'brot'; x12-x15 are rotated by 'drot'.
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	// Save keystream for x0-x3
29621d09SArd Biesheuvel	__ldrd		r8, r9, sp, 96
29621d09SArd Biesheuvel	__ldrd		r10, r11, sp, 104
29621d09SArd Biesheuvel	add		X0, X0, r8
29621d09SArd Biesheuvel	add		X1, X1, r9
29621d09SArd Biesheuvel	add		X2, X2, r10
29621d09SArd Biesheuvel	add		X3, X3, r11
*e0ba808dSArd Biesheuvel	_le32_bswap_4x	X0, X1, X2, X3,  r8
29621d09SArd Biesheuvel	stmia		r14!, {X0-X3}
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	// Save keystream for x4-x7
29621d09SArd Biesheuvel	__ldrd		r8, r9, sp, 112
29621d09SArd Biesheuvel	__ldrd		r10, r11, sp, 120
29621d09SArd Biesheuvel	add		X4, r8, X4, ror #brot
29621d09SArd Biesheuvel	add		X5, r9, X5, ror #brot
29621d09SArd Biesheuvel	add		X6, r10, X6, ror #brot
29621d09SArd Biesheuvel	add		X7, r11, X7, ror #brot
*e0ba808dSArd Biesheuvel	_le32_bswap_4x	X4, X5, X6, X7,  r8
29621d09SArd Biesheuvel	  add		r8, sp, #64
29621d09SArd Biesheuvel	stmia		r14!, {X4-X7}
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	// Save keystream for x8-x15
29621d09SArd Biesheuvel	ldm		r8, {r0-r7}		// (x8-x9,x12-x15,x10-x11)
29621d09SArd Biesheuvel	__ldrd		r8, r9, sp, 128
29621d09SArd Biesheuvel	__ldrd		r10, r11, sp, 136
29621d09SArd Biesheuvel	add		r0, r0, r8		// x8
29621d09SArd Biesheuvel	add		r1, r1, r9		// x9
29621d09SArd Biesheuvel	add		r6, r6, r10		// x10
29621d09SArd Biesheuvel	add		r7, r7, r11		// x11
*e0ba808dSArd Biesheuvel	_le32_bswap_4x	r0, r1, r6, r7,  r8
29621d09SArd Biesheuvel	stmia		r14!, {r0,r1,r6,r7}
29621d09SArd Biesheuvel	__ldrd		r8, r9, sp, 144
29621d09SArd Biesheuvel	__ldrd		r10, r11, sp, 152
29621d09SArd Biesheuvel	add		r2, r8, r2, ror #drot	// x12
29621d09SArd Biesheuvel	add		r3, r9, r3, ror #drot	// x13
29621d09SArd Biesheuvel	add		r4, r10, r4, ror #drot	// x14
29621d09SArd Biesheuvel	add		r5, r11, r5, ror #drot	// x15
*e0ba808dSArd Biesheuvel	_le32_bswap_4x	r2, r3, r4, r5,  r9
29621d09SArd Biesheuvel	stmia		r14, {r2-r5}
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	// Stack: ks0-ks15 unused0-unused7 x0-x15 OUT IN LEN
29621d09SArd Biesheuvel	// Registers: r8 is block counter, r12 is IN.
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	ldr		r9, [sp, #168]		// LEN
29621d09SArd Biesheuvel	ldr		r14, [sp, #160]		// OUT
29621d09SArd Biesheuvel	cmp		r9, #64
29621d09SArd Biesheuvel	  mov		r0, sp
29621d09SArd Biesheuvel	movle		r1, r9
29621d09SArd Biesheuvel	movgt		r1, #64
29621d09SArd Biesheuvel	// r1 is number of bytes to XOR, in range [1, 64]
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel.if __LINUX_ARM_ARCH__ < 6
29621d09SArd Biesheuvel	orr		r2, r12, r14
29621d09SArd Biesheuvel	tst		r2, #3			// IN or OUT misaligned?
29621d09SArd Biesheuvel	bne		.Lxor_next_byte\@
29621d09SArd Biesheuvel.endif
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	// XOR a word at a time
29621d09SArd Biesheuvel.rept 16
29621d09SArd Biesheuvel	subs		r1, #4
29621d09SArd Biesheuvel	blt		.Lxor_words_done\@
29621d09SArd Biesheuvel	ldr		r2, [r12], #4
29621d09SArd Biesheuvel	ldr		r3, [r0], #4
29621d09SArd Biesheuvel	eor		r2, r2, r3
29621d09SArd Biesheuvel	str		r2, [r14], #4
29621d09SArd Biesheuvel.endr
29621d09SArd Biesheuvel	b		.Lxor_slowpath_done\@
29621d09SArd Biesheuvel.Lxor_words_done\@:
29621d09SArd Biesheuvel	ands		r1, r1, #3
29621d09SArd Biesheuvel	beq		.Lxor_slowpath_done\@
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	// XOR a byte at a time
29621d09SArd Biesheuvel.Lxor_next_byte\@:
29621d09SArd Biesheuvel	ldrb		r2, [r12], #1
29621d09SArd Biesheuvel	ldrb		r3, [r0], #1
29621d09SArd Biesheuvel	eor		r2, r2, r3
29621d09SArd Biesheuvel	strb		r2, [r14], #1
29621d09SArd Biesheuvel	subs		r1, #1
29621d09SArd Biesheuvel	bne		.Lxor_next_byte\@
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel.Lxor_slowpath_done\@:
29621d09SArd Biesheuvel	subs		r9, #64
29621d09SArd Biesheuvel	add		sp, #96
29621d09SArd Biesheuvel	bgt		.Lprepare_for_next_block\@
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel.Ldone\@:
29621d09SArd Biesheuvel.endm	// _chacha
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel/*
b36d8c09SArd Biesheuvel * void chacha_doarm(u8 *dst, const u8 *src, unsigned int bytes,
b36d8c09SArd Biesheuvel *		     const u32 *state, int nrounds);
29621d09SArd Biesheuvel */
b36d8c09SArd BiesheuvelENTRY(chacha_doarm)
29621d09SArd Biesheuvel	cmp		r2, #0			// len == 0?
29621d09SArd Biesheuvel	reteq		lr
29621d09SArd Biesheuvel
b36d8c09SArd Biesheuvel	ldr		ip, [sp]
b36d8c09SArd Biesheuvel	cmp		ip, #12
b36d8c09SArd Biesheuvel
29621d09SArd Biesheuvel	push		{r0-r2,r4-r11,lr}
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	// Push state x0-x15 onto stack.
29621d09SArd Biesheuvel	// Also store an extra copy of x10-x11 just before the state.
29621d09SArd Biesheuvel
b36d8c09SArd Biesheuvel	add		X12, r3, #48
b36d8c09SArd Biesheuvel	ldm		X12, {X12,X13,X14,X15}
b36d8c09SArd Biesheuvel	push		{X12,X13,X14,X15}
b36d8c09SArd Biesheuvel	sub		sp, sp, #64
29621d09SArd Biesheuvel
b36d8c09SArd Biesheuvel	__ldrd		X8_X10, X9_X11, r3, 40
29621d09SArd Biesheuvel	__strd		X8_X10, X9_X11, sp, 8
b36d8c09SArd Biesheuvel	__strd		X8_X10, X9_X11, sp, 56
b36d8c09SArd Biesheuvel	ldm		r3, {X0-X9_X11}
29621d09SArd Biesheuvel	__strd		X0, X1, sp, 16
29621d09SArd Biesheuvel	__strd		X2, X3, sp, 24
b36d8c09SArd Biesheuvel	__strd		X4, X5, sp, 32
b36d8c09SArd Biesheuvel	__strd		X6, X7, sp, 40
b36d8c09SArd Biesheuvel	__strd		X8_X10, X9_X11, sp, 48
29621d09SArd Biesheuvel
b36d8c09SArd Biesheuvel	beq		1f
29621d09SArd Biesheuvel	_chacha		20
29621d09SArd Biesheuvel
b36d8c09SArd Biesheuvel0:	add		sp, #76
29621d09SArd Biesheuvel	pop		{r4-r11, pc}
b36d8c09SArd Biesheuvel
b36d8c09SArd Biesheuvel1:	_chacha		12
b36d8c09SArd Biesheuvel	b		0b
b36d8c09SArd BiesheuvelENDPROC(chacha_doarm)
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel/*
b36d8c09SArd Biesheuvel * void hchacha_block_arm(const u32 state[16], u32 out[8], int nrounds);
29621d09SArd Biesheuvel */
b36d8c09SArd BiesheuvelENTRY(hchacha_block_arm)
29621d09SArd Biesheuvel	push		{r1,r4-r11,lr}
29621d09SArd Biesheuvel
b36d8c09SArd Biesheuvel	cmp		r2, #12			// ChaCha12 ?
b36d8c09SArd Biesheuvel
29621d09SArd Biesheuvel	mov		r14, r0
29621d09SArd Biesheuvel	ldmia		r14!, {r0-r11}		// load x0-x11
29621d09SArd Biesheuvel	push		{r10-r11}		// store x10-x11 to stack
29621d09SArd Biesheuvel	ldm		r14, {r10-r12,r14}	// load x12-x15
29621d09SArd Biesheuvel	sub		sp, #8
29621d09SArd Biesheuvel
b36d8c09SArd Biesheuvel	beq		1f
29621d09SArd Biesheuvel	_chacha_permute	20
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	// Skip over (unused0-unused1, x10-x11)
b36d8c09SArd Biesheuvel0:	add		sp, #16
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	// Fix up rotations of x12-x15
29621d09SArd Biesheuvel	ror		X12, X12, #drot
29621d09SArd Biesheuvel	ror		X13, X13, #drot
29621d09SArd Biesheuvel	  pop		{r4}			// load 'out'
29621d09SArd Biesheuvel	ror		X14, X14, #drot
29621d09SArd Biesheuvel	ror		X15, X15, #drot
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	// Store (x0-x3,x12-x15) to 'out'
29621d09SArd Biesheuvel	stm		r4, {X0,X1,X2,X3,X12,X13,X14,X15}
29621d09SArd Biesheuvel
29621d09SArd Biesheuvel	pop		{r4-r11,pc}
b36d8c09SArd Biesheuvel
b36d8c09SArd Biesheuvel1:	_chacha_permute	12
b36d8c09SArd Biesheuvel	b		0b
b36d8c09SArd BiesheuvelENDPROC(hchacha_block_arm)