crypto/arm/chacha-neon-core.S

*4a32e5dcSEric Biggers/*
*4a32e5dcSEric Biggers * ChaCha/HChaCha NEON helper functions
*4a32e5dcSEric Biggers *
*4a32e5dcSEric Biggers * Copyright (C) 2016 Linaro, Ltd. <ard.biesheuvel@linaro.org>
*4a32e5dcSEric Biggers *
*4a32e5dcSEric Biggers * This program is free software; you can redistribute it and/or modify
*4a32e5dcSEric Biggers * it under the terms of the GNU General Public License version 2 as
*4a32e5dcSEric Biggers * published by the Free Software Foundation.
*4a32e5dcSEric Biggers *
*4a32e5dcSEric Biggers * Based on:
*4a32e5dcSEric Biggers * ChaCha20 256-bit cipher algorithm, RFC7539, x64 SSE3 functions
*4a32e5dcSEric Biggers *
*4a32e5dcSEric Biggers * Copyright (C) 2015 Martin Willi
*4a32e5dcSEric Biggers *
*4a32e5dcSEric Biggers * This program is free software; you can redistribute it and/or modify
*4a32e5dcSEric Biggers * it under the terms of the GNU General Public License as published by
*4a32e5dcSEric Biggers * the Free Software Foundation; either version 2 of the License, or
*4a32e5dcSEric Biggers * (at your option) any later version.
*4a32e5dcSEric Biggers */
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers /*
*4a32e5dcSEric Biggers  * NEON doesn't have a rotate instruction.  The alternatives are, more or less:
*4a32e5dcSEric Biggers  *
*4a32e5dcSEric Biggers  * (a)  vshl.u32 + vsri.u32		(needs temporary register)
*4a32e5dcSEric Biggers  * (b)  vshl.u32 + vshr.u32 + vorr	(needs temporary register)
*4a32e5dcSEric Biggers  * (c)  vrev32.16			(16-bit rotations only)
*4a32e5dcSEric Biggers  * (d)  vtbl.8 + vtbl.8		(multiple of 8 bits rotations only,
*4a32e5dcSEric Biggers  *					 needs index vector)
*4a32e5dcSEric Biggers  *
*4a32e5dcSEric Biggers  * ChaCha has 16, 12, 8, and 7-bit rotations.  For the 12 and 7-bit rotations,
*4a32e5dcSEric Biggers  * the only choices are (a) and (b).  We use (a) since it takes two-thirds the
*4a32e5dcSEric Biggers  * cycles of (b) on both Cortex-A7 and Cortex-A53.
*4a32e5dcSEric Biggers  *
*4a32e5dcSEric Biggers  * For the 16-bit rotation, we use vrev32.16 since it's consistently fastest
*4a32e5dcSEric Biggers  * and doesn't need a temporary register.
*4a32e5dcSEric Biggers  *
*4a32e5dcSEric Biggers  * For the 8-bit rotation, we use vtbl.8 + vtbl.8.  On Cortex-A7, this sequence
*4a32e5dcSEric Biggers  * is twice as fast as (a), even when doing (a) on multiple registers
*4a32e5dcSEric Biggers  * simultaneously to eliminate the stall between vshl and vsri.  Also, it
*4a32e5dcSEric Biggers  * parallelizes better when temporary registers are scarce.
*4a32e5dcSEric Biggers  *
*4a32e5dcSEric Biggers  * A disadvantage is that on Cortex-A53, the vtbl sequence is the same speed as
*4a32e5dcSEric Biggers  * (a), so the need to load the rotation table actually makes the vtbl method
*4a32e5dcSEric Biggers  * slightly slower overall on that CPU (~1.3% slower ChaCha20).  Still, it
*4a32e5dcSEric Biggers  * seems to be a good compromise to get a more significant speed boost on some
*4a32e5dcSEric Biggers  * CPUs, e.g. ~4.8% faster ChaCha20 on Cortex-A7.
*4a32e5dcSEric Biggers  */
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers#include <linux/linkage.h>
*4a32e5dcSEric Biggers#include <asm/cache.h>
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	.text
*4a32e5dcSEric Biggers	.fpu		neon
*4a32e5dcSEric Biggers	.align		5
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers/*
*4a32e5dcSEric Biggers * chacha_permute - permute one block
*4a32e5dcSEric Biggers *
*4a32e5dcSEric Biggers * Permute one 64-byte block where the state matrix is stored in the four NEON
*4a32e5dcSEric Biggers * registers q0-q3.  It performs matrix operations on four words in parallel,
*4a32e5dcSEric Biggers * but requires shuffling to rearrange the words after each round.
*4a32e5dcSEric Biggers *
*4a32e5dcSEric Biggers * The round count is given in r3.
*4a32e5dcSEric Biggers *
*4a32e5dcSEric Biggers * Clobbers: r3, ip, q4-q5
*4a32e5dcSEric Biggers */
*4a32e5dcSEric Biggerschacha_permute:
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	adr		ip, .Lrol8_table
*4a32e5dcSEric Biggers	vld1.8		{d10}, [ip, :64]
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers.Ldoubleround:
*4a32e5dcSEric Biggers	// x0 += x1, x3 = rotl32(x3 ^ x0, 16)
*4a32e5dcSEric Biggers	vadd.i32	q0, q0, q1
*4a32e5dcSEric Biggers	veor		q3, q3, q0
*4a32e5dcSEric Biggers	vrev32.16	q3, q3
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	// x2 += x3, x1 = rotl32(x1 ^ x2, 12)
*4a32e5dcSEric Biggers	vadd.i32	q2, q2, q3
*4a32e5dcSEric Biggers	veor		q4, q1, q2
*4a32e5dcSEric Biggers	vshl.u32	q1, q4, #12
*4a32e5dcSEric Biggers	vsri.u32	q1, q4, #20
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	// x0 += x1, x3 = rotl32(x3 ^ x0, 8)
*4a32e5dcSEric Biggers	vadd.i32	q0, q0, q1
*4a32e5dcSEric Biggers	veor		q3, q3, q0
*4a32e5dcSEric Biggers	vtbl.8		d6, {d6}, d10
*4a32e5dcSEric Biggers	vtbl.8		d7, {d7}, d10
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	// x2 += x3, x1 = rotl32(x1 ^ x2, 7)
*4a32e5dcSEric Biggers	vadd.i32	q2, q2, q3
*4a32e5dcSEric Biggers	veor		q4, q1, q2
*4a32e5dcSEric Biggers	vshl.u32	q1, q4, #7
*4a32e5dcSEric Biggers	vsri.u32	q1, q4, #25
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	// x1 = shuffle32(x1, MASK(0, 3, 2, 1))
*4a32e5dcSEric Biggers	vext.8		q1, q1, q1, #4
*4a32e5dcSEric Biggers	// x2 = shuffle32(x2, MASK(1, 0, 3, 2))
*4a32e5dcSEric Biggers	vext.8		q2, q2, q2, #8
*4a32e5dcSEric Biggers	// x3 = shuffle32(x3, MASK(2, 1, 0, 3))
*4a32e5dcSEric Biggers	vext.8		q3, q3, q3, #12
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	// x0 += x1, x3 = rotl32(x3 ^ x0, 16)
*4a32e5dcSEric Biggers	vadd.i32	q0, q0, q1
*4a32e5dcSEric Biggers	veor		q3, q3, q0
*4a32e5dcSEric Biggers	vrev32.16	q3, q3
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	// x2 += x3, x1 = rotl32(x1 ^ x2, 12)
*4a32e5dcSEric Biggers	vadd.i32	q2, q2, q3
*4a32e5dcSEric Biggers	veor		q4, q1, q2
*4a32e5dcSEric Biggers	vshl.u32	q1, q4, #12
*4a32e5dcSEric Biggers	vsri.u32	q1, q4, #20
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	// x0 += x1, x3 = rotl32(x3 ^ x0, 8)
*4a32e5dcSEric Biggers	vadd.i32	q0, q0, q1
*4a32e5dcSEric Biggers	veor		q3, q3, q0
*4a32e5dcSEric Biggers	vtbl.8		d6, {d6}, d10
*4a32e5dcSEric Biggers	vtbl.8		d7, {d7}, d10
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	// x2 += x3, x1 = rotl32(x1 ^ x2, 7)
*4a32e5dcSEric Biggers	vadd.i32	q2, q2, q3
*4a32e5dcSEric Biggers	veor		q4, q1, q2
*4a32e5dcSEric Biggers	vshl.u32	q1, q4, #7
*4a32e5dcSEric Biggers	vsri.u32	q1, q4, #25
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	// x1 = shuffle32(x1, MASK(2, 1, 0, 3))
*4a32e5dcSEric Biggers	vext.8		q1, q1, q1, #12
*4a32e5dcSEric Biggers	// x2 = shuffle32(x2, MASK(1, 0, 3, 2))
*4a32e5dcSEric Biggers	vext.8		q2, q2, q2, #8
*4a32e5dcSEric Biggers	// x3 = shuffle32(x3, MASK(0, 3, 2, 1))
*4a32e5dcSEric Biggers	vext.8		q3, q3, q3, #4
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	subs		r3, r3, #2
*4a32e5dcSEric Biggers	bne		.Ldoubleround
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	bx		lr
*4a32e5dcSEric BiggersENDPROC(chacha_permute)
*4a32e5dcSEric Biggers
*4a32e5dcSEric BiggersENTRY(chacha_block_xor_neon)
*4a32e5dcSEric Biggers	// r0: Input state matrix, s
*4a32e5dcSEric Biggers	// r1: 1 data block output, o
*4a32e5dcSEric Biggers	// r2: 1 data block input, i
*4a32e5dcSEric Biggers	// r3: nrounds
*4a32e5dcSEric Biggers	push		{lr}
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	// x0..3 = s0..3
*4a32e5dcSEric Biggers	add		ip, r0, #0x20
*4a32e5dcSEric Biggers	vld1.32		{q0-q1}, [r0]
*4a32e5dcSEric Biggers	vld1.32		{q2-q3}, [ip]
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	vmov		q8, q0
*4a32e5dcSEric Biggers	vmov		q9, q1
*4a32e5dcSEric Biggers	vmov		q10, q2
*4a32e5dcSEric Biggers	vmov		q11, q3
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	bl		chacha_permute
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	add		ip, r2, #0x20
*4a32e5dcSEric Biggers	vld1.8		{q4-q5}, [r2]
*4a32e5dcSEric Biggers	vld1.8		{q6-q7}, [ip]
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	// o0 = i0 ^ (x0 + s0)
*4a32e5dcSEric Biggers	vadd.i32	q0, q0, q8
*4a32e5dcSEric Biggers	veor		q0, q0, q4
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	// o1 = i1 ^ (x1 + s1)
*4a32e5dcSEric Biggers	vadd.i32	q1, q1, q9
*4a32e5dcSEric Biggers	veor		q1, q1, q5
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	// o2 = i2 ^ (x2 + s2)
*4a32e5dcSEric Biggers	vadd.i32	q2, q2, q10
*4a32e5dcSEric Biggers	veor		q2, q2, q6
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	// o3 = i3 ^ (x3 + s3)
*4a32e5dcSEric Biggers	vadd.i32	q3, q3, q11
*4a32e5dcSEric Biggers	veor		q3, q3, q7
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	add		ip, r1, #0x20
*4a32e5dcSEric Biggers	vst1.8		{q0-q1}, [r1]
*4a32e5dcSEric Biggers	vst1.8		{q2-q3}, [ip]
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	pop		{pc}
*4a32e5dcSEric BiggersENDPROC(chacha_block_xor_neon)
*4a32e5dcSEric Biggers
*4a32e5dcSEric BiggersENTRY(hchacha_block_neon)
*4a32e5dcSEric Biggers	// r0: Input state matrix, s
*4a32e5dcSEric Biggers	// r1: output (8 32-bit words)
*4a32e5dcSEric Biggers	// r2: nrounds
*4a32e5dcSEric Biggers	push		{lr}
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	vld1.32		{q0-q1}, [r0]!
*4a32e5dcSEric Biggers	vld1.32		{q2-q3}, [r0]
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	mov		r3, r2
*4a32e5dcSEric Biggers	bl		chacha_permute
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	vst1.32		{q0}, [r1]!
*4a32e5dcSEric Biggers	vst1.32		{q3}, [r1]
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	pop		{pc}
*4a32e5dcSEric BiggersENDPROC(hchacha_block_neon)
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	.align		4
*4a32e5dcSEric Biggers.Lctrinc:	.word	0, 1, 2, 3
*4a32e5dcSEric Biggers.Lrol8_table:	.byte	3, 0, 1, 2, 7, 4, 5, 6
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	.align		5
*4a32e5dcSEric BiggersENTRY(chacha_4block_xor_neon)
*4a32e5dcSEric Biggers	push		{r4, lr}
*4a32e5dcSEric Biggers	mov		r4, sp			// preserve the stack pointer
*4a32e5dcSEric Biggers	sub		ip, sp, #0x20		// allocate a 32 byte buffer
*4a32e5dcSEric Biggers	bic		ip, ip, #0x1f		// aligned to 32 bytes
*4a32e5dcSEric Biggers	mov		sp, ip
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	// r0: Input state matrix, s
*4a32e5dcSEric Biggers	// r1: 4 data blocks output, o
*4a32e5dcSEric Biggers	// r2: 4 data blocks input, i
*4a32e5dcSEric Biggers	// r3: nrounds
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	//
*4a32e5dcSEric Biggers	// This function encrypts four consecutive ChaCha blocks by loading
*4a32e5dcSEric Biggers	// the state matrix in NEON registers four times. The algorithm performs
*4a32e5dcSEric Biggers	// each operation on the corresponding word of each state matrix, hence
*4a32e5dcSEric Biggers	// requires no word shuffling. The words are re-interleaved before the
*4a32e5dcSEric Biggers	// final addition of the original state and the XORing step.
*4a32e5dcSEric Biggers	//
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	// x0..15[0-3] = s0..15[0-3]
*4a32e5dcSEric Biggers	add		ip, r0, #0x20
*4a32e5dcSEric Biggers	vld1.32		{q0-q1}, [r0]
*4a32e5dcSEric Biggers	vld1.32		{q2-q3}, [ip]
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	adr		lr, .Lctrinc
*4a32e5dcSEric Biggers	vdup.32		q15, d7[1]
*4a32e5dcSEric Biggers	vdup.32		q14, d7[0]
*4a32e5dcSEric Biggers	vld1.32		{q4}, [lr, :128]
*4a32e5dcSEric Biggers	vdup.32		q13, d6[1]
*4a32e5dcSEric Biggers	vdup.32		q12, d6[0]
*4a32e5dcSEric Biggers	vdup.32		q11, d5[1]
*4a32e5dcSEric Biggers	vdup.32		q10, d5[0]
*4a32e5dcSEric Biggers	vadd.u32	q12, q12, q4		// x12 += counter values 0-3
*4a32e5dcSEric Biggers	vdup.32		q9, d4[1]
*4a32e5dcSEric Biggers	vdup.32		q8, d4[0]
*4a32e5dcSEric Biggers	vdup.32		q7, d3[1]
*4a32e5dcSEric Biggers	vdup.32		q6, d3[0]
*4a32e5dcSEric Biggers	vdup.32		q5, d2[1]
*4a32e5dcSEric Biggers	vdup.32		q4, d2[0]
*4a32e5dcSEric Biggers	vdup.32		q3, d1[1]
*4a32e5dcSEric Biggers	vdup.32		q2, d1[0]
*4a32e5dcSEric Biggers	vdup.32		q1, d0[1]
*4a32e5dcSEric Biggers	vdup.32		q0, d0[0]
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	adr		ip, .Lrol8_table
*4a32e5dcSEric Biggers	b		1f
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers.Ldoubleround4:
*4a32e5dcSEric Biggers	vld1.32		{q8-q9}, [sp, :256]
*4a32e5dcSEric Biggers1:
*4a32e5dcSEric Biggers	// x0 += x4, x12 = rotl32(x12 ^ x0, 16)
*4a32e5dcSEric Biggers	// x1 += x5, x13 = rotl32(x13 ^ x1, 16)
*4a32e5dcSEric Biggers	// x2 += x6, x14 = rotl32(x14 ^ x2, 16)
*4a32e5dcSEric Biggers	// x3 += x7, x15 = rotl32(x15 ^ x3, 16)
*4a32e5dcSEric Biggers	vadd.i32	q0, q0, q4
*4a32e5dcSEric Biggers	vadd.i32	q1, q1, q5
*4a32e5dcSEric Biggers	vadd.i32	q2, q2, q6
*4a32e5dcSEric Biggers	vadd.i32	q3, q3, q7
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	veor		q12, q12, q0
*4a32e5dcSEric Biggers	veor		q13, q13, q1
*4a32e5dcSEric Biggers	veor		q14, q14, q2
*4a32e5dcSEric Biggers	veor		q15, q15, q3
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	vrev32.16	q12, q12
*4a32e5dcSEric Biggers	vrev32.16	q13, q13
*4a32e5dcSEric Biggers	vrev32.16	q14, q14
*4a32e5dcSEric Biggers	vrev32.16	q15, q15
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	// x8 += x12, x4 = rotl32(x4 ^ x8, 12)
*4a32e5dcSEric Biggers	// x9 += x13, x5 = rotl32(x5 ^ x9, 12)
*4a32e5dcSEric Biggers	// x10 += x14, x6 = rotl32(x6 ^ x10, 12)
*4a32e5dcSEric Biggers	// x11 += x15, x7 = rotl32(x7 ^ x11, 12)
*4a32e5dcSEric Biggers	vadd.i32	q8, q8, q12
*4a32e5dcSEric Biggers	vadd.i32	q9, q9, q13
*4a32e5dcSEric Biggers	vadd.i32	q10, q10, q14
*4a32e5dcSEric Biggers	vadd.i32	q11, q11, q15
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	vst1.32		{q8-q9}, [sp, :256]
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	veor		q8, q4, q8
*4a32e5dcSEric Biggers	veor		q9, q5, q9
*4a32e5dcSEric Biggers	vshl.u32	q4, q8, #12
*4a32e5dcSEric Biggers	vshl.u32	q5, q9, #12
*4a32e5dcSEric Biggers	vsri.u32	q4, q8, #20
*4a32e5dcSEric Biggers	vsri.u32	q5, q9, #20
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	veor		q8, q6, q10
*4a32e5dcSEric Biggers	veor		q9, q7, q11
*4a32e5dcSEric Biggers	vshl.u32	q6, q8, #12
*4a32e5dcSEric Biggers	vshl.u32	q7, q9, #12
*4a32e5dcSEric Biggers	vsri.u32	q6, q8, #20
*4a32e5dcSEric Biggers	vsri.u32	q7, q9, #20
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	// x0 += x4, x12 = rotl32(x12 ^ x0, 8)
*4a32e5dcSEric Biggers	// x1 += x5, x13 = rotl32(x13 ^ x1, 8)
*4a32e5dcSEric Biggers	// x2 += x6, x14 = rotl32(x14 ^ x2, 8)
*4a32e5dcSEric Biggers	// x3 += x7, x15 = rotl32(x15 ^ x3, 8)
*4a32e5dcSEric Biggers	vld1.8		{d16}, [ip, :64]
*4a32e5dcSEric Biggers	vadd.i32	q0, q0, q4
*4a32e5dcSEric Biggers	vadd.i32	q1, q1, q5
*4a32e5dcSEric Biggers	vadd.i32	q2, q2, q6
*4a32e5dcSEric Biggers	vadd.i32	q3, q3, q7
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	veor		q12, q12, q0
*4a32e5dcSEric Biggers	veor		q13, q13, q1
*4a32e5dcSEric Biggers	veor		q14, q14, q2
*4a32e5dcSEric Biggers	veor		q15, q15, q3
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	vtbl.8		d24, {d24}, d16
*4a32e5dcSEric Biggers	vtbl.8		d25, {d25}, d16
*4a32e5dcSEric Biggers	vtbl.8		d26, {d26}, d16
*4a32e5dcSEric Biggers	vtbl.8		d27, {d27}, d16
*4a32e5dcSEric Biggers	vtbl.8		d28, {d28}, d16
*4a32e5dcSEric Biggers	vtbl.8		d29, {d29}, d16
*4a32e5dcSEric Biggers	vtbl.8		d30, {d30}, d16
*4a32e5dcSEric Biggers	vtbl.8		d31, {d31}, d16
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	vld1.32		{q8-q9}, [sp, :256]
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	// x8 += x12, x4 = rotl32(x4 ^ x8, 7)
*4a32e5dcSEric Biggers	// x9 += x13, x5 = rotl32(x5 ^ x9, 7)
*4a32e5dcSEric Biggers	// x10 += x14, x6 = rotl32(x6 ^ x10, 7)
*4a32e5dcSEric Biggers	// x11 += x15, x7 = rotl32(x7 ^ x11, 7)
*4a32e5dcSEric Biggers	vadd.i32	q8, q8, q12
*4a32e5dcSEric Biggers	vadd.i32	q9, q9, q13
*4a32e5dcSEric Biggers	vadd.i32	q10, q10, q14
*4a32e5dcSEric Biggers	vadd.i32	q11, q11, q15
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	vst1.32		{q8-q9}, [sp, :256]
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	veor		q8, q4, q8
*4a32e5dcSEric Biggers	veor		q9, q5, q9
*4a32e5dcSEric Biggers	vshl.u32	q4, q8, #7
*4a32e5dcSEric Biggers	vshl.u32	q5, q9, #7
*4a32e5dcSEric Biggers	vsri.u32	q4, q8, #25
*4a32e5dcSEric Biggers	vsri.u32	q5, q9, #25
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	veor		q8, q6, q10
*4a32e5dcSEric Biggers	veor		q9, q7, q11
*4a32e5dcSEric Biggers	vshl.u32	q6, q8, #7
*4a32e5dcSEric Biggers	vshl.u32	q7, q9, #7
*4a32e5dcSEric Biggers	vsri.u32	q6, q8, #25
*4a32e5dcSEric Biggers	vsri.u32	q7, q9, #25
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	vld1.32		{q8-q9}, [sp, :256]
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	// x0 += x5, x15 = rotl32(x15 ^ x0, 16)
*4a32e5dcSEric Biggers	// x1 += x6, x12 = rotl32(x12 ^ x1, 16)
*4a32e5dcSEric Biggers	// x2 += x7, x13 = rotl32(x13 ^ x2, 16)
*4a32e5dcSEric Biggers	// x3 += x4, x14 = rotl32(x14 ^ x3, 16)
*4a32e5dcSEric Biggers	vadd.i32	q0, q0, q5
*4a32e5dcSEric Biggers	vadd.i32	q1, q1, q6
*4a32e5dcSEric Biggers	vadd.i32	q2, q2, q7
*4a32e5dcSEric Biggers	vadd.i32	q3, q3, q4
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	veor		q15, q15, q0
*4a32e5dcSEric Biggers	veor		q12, q12, q1
*4a32e5dcSEric Biggers	veor		q13, q13, q2
*4a32e5dcSEric Biggers	veor		q14, q14, q3
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	vrev32.16	q15, q15
*4a32e5dcSEric Biggers	vrev32.16	q12, q12
*4a32e5dcSEric Biggers	vrev32.16	q13, q13
*4a32e5dcSEric Biggers	vrev32.16	q14, q14
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	// x10 += x15, x5 = rotl32(x5 ^ x10, 12)
*4a32e5dcSEric Biggers	// x11 += x12, x6 = rotl32(x6 ^ x11, 12)
*4a32e5dcSEric Biggers	// x8 += x13, x7 = rotl32(x7 ^ x8, 12)
*4a32e5dcSEric Biggers	// x9 += x14, x4 = rotl32(x4 ^ x9, 12)
*4a32e5dcSEric Biggers	vadd.i32	q10, q10, q15
*4a32e5dcSEric Biggers	vadd.i32	q11, q11, q12
*4a32e5dcSEric Biggers	vadd.i32	q8, q8, q13
*4a32e5dcSEric Biggers	vadd.i32	q9, q9, q14
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	vst1.32		{q8-q9}, [sp, :256]
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	veor		q8, q7, q8
*4a32e5dcSEric Biggers	veor		q9, q4, q9
*4a32e5dcSEric Biggers	vshl.u32	q7, q8, #12
*4a32e5dcSEric Biggers	vshl.u32	q4, q9, #12
*4a32e5dcSEric Biggers	vsri.u32	q7, q8, #20
*4a32e5dcSEric Biggers	vsri.u32	q4, q9, #20
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	veor		q8, q5, q10
*4a32e5dcSEric Biggers	veor		q9, q6, q11
*4a32e5dcSEric Biggers	vshl.u32	q5, q8, #12
*4a32e5dcSEric Biggers	vshl.u32	q6, q9, #12
*4a32e5dcSEric Biggers	vsri.u32	q5, q8, #20
*4a32e5dcSEric Biggers	vsri.u32	q6, q9, #20
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	// x0 += x5, x15 = rotl32(x15 ^ x0, 8)
*4a32e5dcSEric Biggers	// x1 += x6, x12 = rotl32(x12 ^ x1, 8)
*4a32e5dcSEric Biggers	// x2 += x7, x13 = rotl32(x13 ^ x2, 8)
*4a32e5dcSEric Biggers	// x3 += x4, x14 = rotl32(x14 ^ x3, 8)
*4a32e5dcSEric Biggers	vld1.8		{d16}, [ip, :64]
*4a32e5dcSEric Biggers	vadd.i32	q0, q0, q5
*4a32e5dcSEric Biggers	vadd.i32	q1, q1, q6
*4a32e5dcSEric Biggers	vadd.i32	q2, q2, q7
*4a32e5dcSEric Biggers	vadd.i32	q3, q3, q4
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	veor		q15, q15, q0
*4a32e5dcSEric Biggers	veor		q12, q12, q1
*4a32e5dcSEric Biggers	veor		q13, q13, q2
*4a32e5dcSEric Biggers	veor		q14, q14, q3
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	vtbl.8		d30, {d30}, d16
*4a32e5dcSEric Biggers	vtbl.8		d31, {d31}, d16
*4a32e5dcSEric Biggers	vtbl.8		d24, {d24}, d16
*4a32e5dcSEric Biggers	vtbl.8		d25, {d25}, d16
*4a32e5dcSEric Biggers	vtbl.8		d26, {d26}, d16
*4a32e5dcSEric Biggers	vtbl.8		d27, {d27}, d16
*4a32e5dcSEric Biggers	vtbl.8		d28, {d28}, d16
*4a32e5dcSEric Biggers	vtbl.8		d29, {d29}, d16
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	vld1.32		{q8-q9}, [sp, :256]
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	// x10 += x15, x5 = rotl32(x5 ^ x10, 7)
*4a32e5dcSEric Biggers	// x11 += x12, x6 = rotl32(x6 ^ x11, 7)
*4a32e5dcSEric Biggers	// x8 += x13, x7 = rotl32(x7 ^ x8, 7)
*4a32e5dcSEric Biggers	// x9 += x14, x4 = rotl32(x4 ^ x9, 7)
*4a32e5dcSEric Biggers	vadd.i32	q10, q10, q15
*4a32e5dcSEric Biggers	vadd.i32	q11, q11, q12
*4a32e5dcSEric Biggers	vadd.i32	q8, q8, q13
*4a32e5dcSEric Biggers	vadd.i32	q9, q9, q14
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	vst1.32		{q8-q9}, [sp, :256]
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	veor		q8, q7, q8
*4a32e5dcSEric Biggers	veor		q9, q4, q9
*4a32e5dcSEric Biggers	vshl.u32	q7, q8, #7
*4a32e5dcSEric Biggers	vshl.u32	q4, q9, #7
*4a32e5dcSEric Biggers	vsri.u32	q7, q8, #25
*4a32e5dcSEric Biggers	vsri.u32	q4, q9, #25
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	veor		q8, q5, q10
*4a32e5dcSEric Biggers	veor		q9, q6, q11
*4a32e5dcSEric Biggers	vshl.u32	q5, q8, #7
*4a32e5dcSEric Biggers	vshl.u32	q6, q9, #7
*4a32e5dcSEric Biggers	vsri.u32	q5, q8, #25
*4a32e5dcSEric Biggers	vsri.u32	q6, q9, #25
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	subs		r3, r3, #2
*4a32e5dcSEric Biggers	bne		.Ldoubleround4
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	// x0..7[0-3] are in q0-q7, x10..15[0-3] are in q10-q15.
*4a32e5dcSEric Biggers	// x8..9[0-3] are on the stack.
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	// Re-interleave the words in the first two rows of each block (x0..7).
*4a32e5dcSEric Biggers	// Also add the counter values 0-3 to x12[0-3].
*4a32e5dcSEric Biggers	  vld1.32	{q8}, [lr, :128]	// load counter values 0-3
*4a32e5dcSEric Biggers	vzip.32		q0, q1			// => (0 1 0 1) (0 1 0 1)
*4a32e5dcSEric Biggers	vzip.32		q2, q3			// => (2 3 2 3) (2 3 2 3)
*4a32e5dcSEric Biggers	vzip.32		q4, q5			// => (4 5 4 5) (4 5 4 5)
*4a32e5dcSEric Biggers	vzip.32		q6, q7			// => (6 7 6 7) (6 7 6 7)
*4a32e5dcSEric Biggers	  vadd.u32	q12, q8			// x12 += counter values 0-3
*4a32e5dcSEric Biggers	vswp		d1, d4
*4a32e5dcSEric Biggers	vswp		d3, d6
*4a32e5dcSEric Biggers	  vld1.32	{q8-q9}, [r0]!		// load s0..7
*4a32e5dcSEric Biggers	vswp		d9, d12
*4a32e5dcSEric Biggers	vswp		d11, d14
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	// Swap q1 and q4 so that we'll free up consecutive registers (q0-q1)
*4a32e5dcSEric Biggers	// after XORing the first 32 bytes.
*4a32e5dcSEric Biggers	vswp		q1, q4
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	// First two rows of each block are (q0 q1) (q2 q6) (q4 q5) (q3 q7)
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	// x0..3[0-3] += s0..3[0-3]	(add orig state to 1st row of each block)
*4a32e5dcSEric Biggers	vadd.u32	q0, q0, q8
*4a32e5dcSEric Biggers	vadd.u32	q2, q2, q8
*4a32e5dcSEric Biggers	vadd.u32	q4, q4, q8
*4a32e5dcSEric Biggers	vadd.u32	q3, q3, q8
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	// x4..7[0-3] += s4..7[0-3]	(add orig state to 2nd row of each block)
*4a32e5dcSEric Biggers	vadd.u32	q1, q1, q9
*4a32e5dcSEric Biggers	vadd.u32	q6, q6, q9
*4a32e5dcSEric Biggers	vadd.u32	q5, q5, q9
*4a32e5dcSEric Biggers	vadd.u32	q7, q7, q9
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	// XOR first 32 bytes using keystream from first two rows of first block
*4a32e5dcSEric Biggers	vld1.8		{q8-q9}, [r2]!
*4a32e5dcSEric Biggers	veor		q8, q8, q0
*4a32e5dcSEric Biggers	veor		q9, q9, q1
*4a32e5dcSEric Biggers	vst1.8		{q8-q9}, [r1]!
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	// Re-interleave the words in the last two rows of each block (x8..15).
*4a32e5dcSEric Biggers	vld1.32		{q8-q9}, [sp, :256]
*4a32e5dcSEric Biggers	  mov		sp, r4		// restore original stack pointer
*4a32e5dcSEric Biggers	  ldr		r4, [r4, #8]	// load number of bytes
*4a32e5dcSEric Biggers	vzip.32		q12, q13	// => (12 13 12 13) (12 13 12 13)
*4a32e5dcSEric Biggers	vzip.32		q14, q15	// => (14 15 14 15) (14 15 14 15)
*4a32e5dcSEric Biggers	vzip.32		q8, q9		// => (8 9 8 9) (8 9 8 9)
*4a32e5dcSEric Biggers	vzip.32		q10, q11	// => (10 11 10 11) (10 11 10 11)
*4a32e5dcSEric Biggers	  vld1.32	{q0-q1}, [r0]	// load s8..15
*4a32e5dcSEric Biggers	vswp		d25, d28
*4a32e5dcSEric Biggers	vswp		d27, d30
*4a32e5dcSEric Biggers	vswp		d17, d20
*4a32e5dcSEric Biggers	vswp		d19, d22
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	// Last two rows of each block are (q8 q12) (q10 q14) (q9 q13) (q11 q15)
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	// x8..11[0-3] += s8..11[0-3]	(add orig state to 3rd row of each block)
*4a32e5dcSEric Biggers	vadd.u32	q8,  q8,  q0
*4a32e5dcSEric Biggers	vadd.u32	q10, q10, q0
*4a32e5dcSEric Biggers	vadd.u32	q9,  q9,  q0
*4a32e5dcSEric Biggers	vadd.u32	q11, q11, q0
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	// x12..15[0-3] += s12..15[0-3] (add orig state to 4th row of each block)
*4a32e5dcSEric Biggers	vadd.u32	q12, q12, q1
*4a32e5dcSEric Biggers	vadd.u32	q14, q14, q1
*4a32e5dcSEric Biggers	vadd.u32	q13, q13, q1
*4a32e5dcSEric Biggers	vadd.u32	q15, q15, q1
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	// XOR the rest of the data with the keystream
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	vld1.8		{q0-q1}, [r2]!
*4a32e5dcSEric Biggers	subs		r4, r4, #96
*4a32e5dcSEric Biggers	veor		q0, q0, q8
*4a32e5dcSEric Biggers	veor		q1, q1, q12
*4a32e5dcSEric Biggers	ble		.Lle96
*4a32e5dcSEric Biggers	vst1.8		{q0-q1}, [r1]!
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	vld1.8		{q0-q1}, [r2]!
*4a32e5dcSEric Biggers	subs		r4, r4, #32
*4a32e5dcSEric Biggers	veor		q0, q0, q2
*4a32e5dcSEric Biggers	veor		q1, q1, q6
*4a32e5dcSEric Biggers	ble		.Lle128
*4a32e5dcSEric Biggers	vst1.8		{q0-q1}, [r1]!
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	vld1.8		{q0-q1}, [r2]!
*4a32e5dcSEric Biggers	subs		r4, r4, #32
*4a32e5dcSEric Biggers	veor		q0, q0, q10
*4a32e5dcSEric Biggers	veor		q1, q1, q14
*4a32e5dcSEric Biggers	ble		.Lle160
*4a32e5dcSEric Biggers	vst1.8		{q0-q1}, [r1]!
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	vld1.8		{q0-q1}, [r2]!
*4a32e5dcSEric Biggers	subs		r4, r4, #32
*4a32e5dcSEric Biggers	veor		q0, q0, q4
*4a32e5dcSEric Biggers	veor		q1, q1, q5
*4a32e5dcSEric Biggers	ble		.Lle192
*4a32e5dcSEric Biggers	vst1.8		{q0-q1}, [r1]!
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	vld1.8		{q0-q1}, [r2]!
*4a32e5dcSEric Biggers	subs		r4, r4, #32
*4a32e5dcSEric Biggers	veor		q0, q0, q9
*4a32e5dcSEric Biggers	veor		q1, q1, q13
*4a32e5dcSEric Biggers	ble		.Lle224
*4a32e5dcSEric Biggers	vst1.8		{q0-q1}, [r1]!
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	vld1.8		{q0-q1}, [r2]!
*4a32e5dcSEric Biggers	subs		r4, r4, #32
*4a32e5dcSEric Biggers	veor		q0, q0, q3
*4a32e5dcSEric Biggers	veor		q1, q1, q7
*4a32e5dcSEric Biggers	blt		.Llt256
*4a32e5dcSEric Biggers.Lout:
*4a32e5dcSEric Biggers	vst1.8		{q0-q1}, [r1]!
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	vld1.8		{q0-q1}, [r2]
*4a32e5dcSEric Biggers	veor		q0, q0, q11
*4a32e5dcSEric Biggers	veor		q1, q1, q15
*4a32e5dcSEric Biggers	vst1.8		{q0-q1}, [r1]
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	pop		{r4, pc}
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers.Lle192:
*4a32e5dcSEric Biggers	vmov		q4, q9
*4a32e5dcSEric Biggers	vmov		q5, q13
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers.Lle160:
*4a32e5dcSEric Biggers	// nothing to do
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers.Lfinalblock:
*4a32e5dcSEric Biggers	// Process the final block if processing less than 4 full blocks.
*4a32e5dcSEric Biggers	// Entered with 32 bytes of ChaCha cipher stream in q4-q5, and the
*4a32e5dcSEric Biggers	// previous 32 byte output block that still needs to be written at
*4a32e5dcSEric Biggers	// [r1] in q0-q1.
*4a32e5dcSEric Biggers	beq		.Lfullblock
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers.Lpartialblock:
*4a32e5dcSEric Biggers	adr		lr, .Lpermute + 32
*4a32e5dcSEric Biggers	add		r2, r2, r4
*4a32e5dcSEric Biggers	add		lr, lr, r4
*4a32e5dcSEric Biggers	add		r4, r4, r1
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	vld1.8		{q2-q3}, [lr]
*4a32e5dcSEric Biggers	vld1.8		{q6-q7}, [r2]
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	add		r4, r4, #32
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	vtbl.8		d4, {q4-q5}, d4
*4a32e5dcSEric Biggers	vtbl.8		d5, {q4-q5}, d5
*4a32e5dcSEric Biggers	vtbl.8		d6, {q4-q5}, d6
*4a32e5dcSEric Biggers	vtbl.8		d7, {q4-q5}, d7
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	veor		q6, q6, q2
*4a32e5dcSEric Biggers	veor		q7, q7, q3
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	vst1.8		{q6-q7}, [r4]	// overlapping stores
*4a32e5dcSEric Biggers	vst1.8		{q0-q1}, [r1]
*4a32e5dcSEric Biggers	pop		{r4, pc}
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers.Lfullblock:
*4a32e5dcSEric Biggers	vmov		q11, q4
*4a32e5dcSEric Biggers	vmov		q15, q5
*4a32e5dcSEric Biggers	b		.Lout
*4a32e5dcSEric Biggers.Lle96:
*4a32e5dcSEric Biggers	vmov		q4, q2
*4a32e5dcSEric Biggers	vmov		q5, q6
*4a32e5dcSEric Biggers	b		.Lfinalblock
*4a32e5dcSEric Biggers.Lle128:
*4a32e5dcSEric Biggers	vmov		q4, q10
*4a32e5dcSEric Biggers	vmov		q5, q14
*4a32e5dcSEric Biggers	b		.Lfinalblock
*4a32e5dcSEric Biggers.Lle224:
*4a32e5dcSEric Biggers	vmov		q4, q3
*4a32e5dcSEric Biggers	vmov		q5, q7
*4a32e5dcSEric Biggers	b		.Lfinalblock
*4a32e5dcSEric Biggers.Llt256:
*4a32e5dcSEric Biggers	vmov		q4, q11
*4a32e5dcSEric Biggers	vmov		q5, q15
*4a32e5dcSEric Biggers	b		.Lpartialblock
*4a32e5dcSEric BiggersENDPROC(chacha_4block_xor_neon)
*4a32e5dcSEric Biggers
*4a32e5dcSEric Biggers	.align		L1_CACHE_SHIFT
*4a32e5dcSEric Biggers.Lpermute:
*4a32e5dcSEric Biggers	.byte		0x00, 0x01, 0x02, 0x03, 0x04, 0x05, 0x06, 0x07
*4a32e5dcSEric Biggers	.byte		0x08, 0x09, 0x0a, 0x0b, 0x0c, 0x0d, 0x0e, 0x0f
*4a32e5dcSEric Biggers	.byte		0x10, 0x11, 0x12, 0x13, 0x14, 0x15, 0x16, 0x17
*4a32e5dcSEric Biggers	.byte		0x18, 0x19, 0x1a, 0x1b, 0x1c, 0x1d, 0x1e, 0x1f
*4a32e5dcSEric Biggers	.byte		0x00, 0x01, 0x02, 0x03, 0x04, 0x05, 0x06, 0x07
*4a32e5dcSEric Biggers	.byte		0x08, 0x09, 0x0a, 0x0b, 0x0c, 0x0d, 0x0e, 0x0f
*4a32e5dcSEric Biggers	.byte		0x10, 0x11, 0x12, 0x13, 0x14, 0x15, 0x16, 0x17
*4a32e5dcSEric Biggers	.byte		0x18, 0x19, 0x1a, 0x1b, 0x1c, 0x1d, 0x1e, 0x1f