x86/crypto/sha1_ssse3_asm.S

2874c5fdSThomas Gleixner/* SPDX-License-Identifier: GPL-2.0-or-later */
66be8951SMathias Krause/*
66be8951SMathias Krause * This is a SIMD SHA-1 implementation. It requires the Intel(R) Supplemental
66be8951SMathias Krause * SSE3 instruction set extensions introduced in Intel Core Microarchitecture
66be8951SMathias Krause * processors. CPUs supporting Intel(R) AVX extensions will get an additional
66be8951SMathias Krause * boost.
66be8951SMathias Krause *
66be8951SMathias Krause * This work was inspired by the vectorized implementation of Dean Gaudet.
66be8951SMathias Krause * Additional information on it can be found at:
66be8951SMathias Krause *    http://www.arctic.org/~dean/crypto/sha1.html
66be8951SMathias Krause *
66be8951SMathias Krause * It was improved upon with more efficient vectorization of the message
66be8951SMathias Krause * scheduling. This implementation has also been optimized for all current and
66be8951SMathias Krause * several future generations of Intel CPUs.
66be8951SMathias Krause *
66be8951SMathias Krause * See this article for more information about the implementation details:
66be8951SMathias Krause *   http://software.intel.com/en-us/articles/improving-the-performance-of-the-secure-hash-algorithm-1/
66be8951SMathias Krause *
66be8951SMathias Krause * Copyright (C) 2010, Intel Corp.
66be8951SMathias Krause *   Authors: Maxim Locktyukhin <maxim.locktyukhin@intel.com>
66be8951SMathias Krause *            Ronen Zohar <ronen.zohar@intel.com>
66be8951SMathias Krause *
66be8951SMathias Krause * Converted to AT&T syntax and adapted for inclusion in the Linux kernel:
66be8951SMathias Krause *   Author: Mathias Krause <minipli@googlemail.com>
66be8951SMathias Krause */
66be8951SMathias Krause
ac9d55ddSJussi Kivilinna#include <linux/linkage.h>
*32f34bf7SEric Biggers#include <linux/cfi_types.h>
ac9d55ddSJussi Kivilinna
66be8951SMathias Krause#define CTX	%rdi	// arg1
66be8951SMathias Krause#define BUF	%rsi	// arg2
66be8951SMathias Krause#define CNT	%rdx	// arg3
66be8951SMathias Krause
66be8951SMathias Krause#define REG_A	%ecx
66be8951SMathias Krause#define REG_B	%esi
66be8951SMathias Krause#define REG_C	%edi
6488bce7SJosh Poimboeuf#define REG_D	%r12d
66be8951SMathias Krause#define REG_E	%edx
66be8951SMathias Krause
66be8951SMathias Krause#define REG_T1	%eax
66be8951SMathias Krause#define REG_T2	%ebx
66be8951SMathias Krause
66be8951SMathias Krause#define K_BASE		%r8
66be8951SMathias Krause#define HASH_PTR	%r9
66be8951SMathias Krause#define BUFFER_PTR	%r10
66be8951SMathias Krause#define BUFFER_END	%r11
66be8951SMathias Krause
66be8951SMathias Krause#define W_TMP1	%xmm0
66be8951SMathias Krause#define W_TMP2	%xmm9
66be8951SMathias Krause
66be8951SMathias Krause#define W0	%xmm1
66be8951SMathias Krause#define W4	%xmm2
66be8951SMathias Krause#define W8	%xmm3
66be8951SMathias Krause#define W12	%xmm4
66be8951SMathias Krause#define W16	%xmm5
66be8951SMathias Krause#define W20	%xmm6
66be8951SMathias Krause#define W24	%xmm7
66be8951SMathias Krause#define W28	%xmm8
66be8951SMathias Krause
66be8951SMathias Krause#define XMM_SHUFB_BSWAP	%xmm10
66be8951SMathias Krause
66be8951SMathias Krause/* we keep window of 64 w[i]+K pre-calculated values in a circular buffer */
66be8951SMathias Krause#define WK(t)	(((t) & 15) * 4)(%rsp)
66be8951SMathias Krause#define W_PRECALC_AHEAD	16
66be8951SMathias Krause
66be8951SMathias Krause/*
66be8951SMathias Krause * This macro implements the SHA-1 function's body for single 64-byte block
66be8951SMathias Krause * param: function's name
66be8951SMathias Krause */
66be8951SMathias Krause.macro SHA1_VECTOR_ASM  name
*32f34bf7SEric Biggers	SYM_TYPED_FUNC_START(\name)
ac9d55ddSJussi Kivilinna
66be8951SMathias Krause	push	%rbx
66be8951SMathias Krause	push	%r12
6488bce7SJosh Poimboeuf	push	%rbp
6488bce7SJosh Poimboeuf	mov	%rsp, %rbp
66be8951SMathias Krause
66be8951SMathias Krause	sub	$64, %rsp		# allocate workspace
66be8951SMathias Krause	and	$~15, %rsp		# align stack
66be8951SMathias Krause
66be8951SMathias Krause	mov	CTX, HASH_PTR
66be8951SMathias Krause	mov	BUF, BUFFER_PTR
66be8951SMathias Krause
66be8951SMathias Krause	shl	$6, CNT			# multiply by 64
66be8951SMathias Krause	add	BUF, CNT
66be8951SMathias Krause	mov	CNT, BUFFER_END
66be8951SMathias Krause
66be8951SMathias Krause	lea	K_XMM_AR(%rip), K_BASE
66be8951SMathias Krause	xmm_mov	BSWAP_SHUFB_CTL(%rip), XMM_SHUFB_BSWAP
66be8951SMathias Krause
66be8951SMathias Krause	SHA1_PIPELINED_MAIN_BODY
66be8951SMathias Krause
66be8951SMathias Krause	# cleanup workspace
66be8951SMathias Krause	mov	$8, %ecx
66be8951SMathias Krause	mov	%rsp, %rdi
a7bea830SJan Beulich	xor	%eax, %eax
66be8951SMathias Krause	rep stosq
66be8951SMathias Krause
6488bce7SJosh Poimboeuf	mov	%rbp, %rsp		# deallocate workspace
66be8951SMathias Krause	pop	%rbp
6488bce7SJosh Poimboeuf	pop	%r12
66be8951SMathias Krause	pop	%rbx
f94909ceSPeter Zijlstra	RET
66be8951SMathias Krause
6dcc5627SJiri Slaby	SYM_FUNC_END(\name)
66be8951SMathias Krause.endm
66be8951SMathias Krause
66be8951SMathias Krause/*
66be8951SMathias Krause * This macro implements 80 rounds of SHA-1 for one 64-byte block
66be8951SMathias Krause */
66be8951SMathias Krause.macro SHA1_PIPELINED_MAIN_BODY
66be8951SMathias Krause	INIT_REGALLOC
66be8951SMathias Krause
66be8951SMathias Krause	mov	  (HASH_PTR), A
66be8951SMathias Krause	mov	 4(HASH_PTR), B
66be8951SMathias Krause	mov	 8(HASH_PTR), C
66be8951SMathias Krause	mov	12(HASH_PTR), D
66be8951SMathias Krause	mov	16(HASH_PTR), E
66be8951SMathias Krause
66be8951SMathias Krause  .set i, 0
66be8951SMathias Krause  .rept W_PRECALC_AHEAD
66be8951SMathias Krause	W_PRECALC i
66be8951SMathias Krause    .set i, (i+1)
66be8951SMathias Krause  .endr
66be8951SMathias Krause
66be8951SMathias Krause.align 4
66be8951SMathias Krause1:
66be8951SMathias Krause	RR F1,A,B,C,D,E,0
66be8951SMathias Krause	RR F1,D,E,A,B,C,2
66be8951SMathias Krause	RR F1,B,C,D,E,A,4
66be8951SMathias Krause	RR F1,E,A,B,C,D,6
66be8951SMathias Krause	RR F1,C,D,E,A,B,8
66be8951SMathias Krause
66be8951SMathias Krause	RR F1,A,B,C,D,E,10
66be8951SMathias Krause	RR F1,D,E,A,B,C,12
66be8951SMathias Krause	RR F1,B,C,D,E,A,14
66be8951SMathias Krause	RR F1,E,A,B,C,D,16
66be8951SMathias Krause	RR F1,C,D,E,A,B,18
66be8951SMathias Krause
66be8951SMathias Krause	RR F2,A,B,C,D,E,20
66be8951SMathias Krause	RR F2,D,E,A,B,C,22
66be8951SMathias Krause	RR F2,B,C,D,E,A,24
66be8951SMathias Krause	RR F2,E,A,B,C,D,26
66be8951SMathias Krause	RR F2,C,D,E,A,B,28
66be8951SMathias Krause
66be8951SMathias Krause	RR F2,A,B,C,D,E,30
66be8951SMathias Krause	RR F2,D,E,A,B,C,32
66be8951SMathias Krause	RR F2,B,C,D,E,A,34
66be8951SMathias Krause	RR F2,E,A,B,C,D,36
66be8951SMathias Krause	RR F2,C,D,E,A,B,38
66be8951SMathias Krause
66be8951SMathias Krause	RR F3,A,B,C,D,E,40
66be8951SMathias Krause	RR F3,D,E,A,B,C,42
66be8951SMathias Krause	RR F3,B,C,D,E,A,44
66be8951SMathias Krause	RR F3,E,A,B,C,D,46
66be8951SMathias Krause	RR F3,C,D,E,A,B,48
66be8951SMathias Krause
66be8951SMathias Krause	RR F3,A,B,C,D,E,50
66be8951SMathias Krause	RR F3,D,E,A,B,C,52
66be8951SMathias Krause	RR F3,B,C,D,E,A,54
66be8951SMathias Krause	RR F3,E,A,B,C,D,56
66be8951SMathias Krause	RR F3,C,D,E,A,B,58
66be8951SMathias Krause
66be8951SMathias Krause	add	$64, BUFFER_PTR		# move to the next 64-byte block
66be8951SMathias Krause	cmp	BUFFER_END, BUFFER_PTR	# if the current is the last one use
66be8951SMathias Krause	cmovae	K_BASE, BUFFER_PTR	# dummy source to avoid buffer overrun
66be8951SMathias Krause
66be8951SMathias Krause	RR F4,A,B,C,D,E,60
66be8951SMathias Krause	RR F4,D,E,A,B,C,62
66be8951SMathias Krause	RR F4,B,C,D,E,A,64
66be8951SMathias Krause	RR F4,E,A,B,C,D,66
66be8951SMathias Krause	RR F4,C,D,E,A,B,68
66be8951SMathias Krause
66be8951SMathias Krause	RR F4,A,B,C,D,E,70
66be8951SMathias Krause	RR F4,D,E,A,B,C,72
66be8951SMathias Krause	RR F4,B,C,D,E,A,74
66be8951SMathias Krause	RR F4,E,A,B,C,D,76
66be8951SMathias Krause	RR F4,C,D,E,A,B,78
66be8951SMathias Krause
66be8951SMathias Krause	UPDATE_HASH   (HASH_PTR), A
66be8951SMathias Krause	UPDATE_HASH  4(HASH_PTR), B
66be8951SMathias Krause	UPDATE_HASH  8(HASH_PTR), C
66be8951SMathias Krause	UPDATE_HASH 12(HASH_PTR), D
66be8951SMathias Krause	UPDATE_HASH 16(HASH_PTR), E
66be8951SMathias Krause
66be8951SMathias Krause	RESTORE_RENAMED_REGS
66be8951SMathias Krause	cmp	K_BASE, BUFFER_PTR	# K_BASE means, we reached the end
66be8951SMathias Krause	jne	1b
66be8951SMathias Krause.endm
66be8951SMathias Krause
66be8951SMathias Krause.macro INIT_REGALLOC
66be8951SMathias Krause  .set A, REG_A
66be8951SMathias Krause  .set B, REG_B
66be8951SMathias Krause  .set C, REG_C
66be8951SMathias Krause  .set D, REG_D
66be8951SMathias Krause  .set E, REG_E
66be8951SMathias Krause  .set T1, REG_T1
66be8951SMathias Krause  .set T2, REG_T2
66be8951SMathias Krause.endm
66be8951SMathias Krause
66be8951SMathias Krause.macro RESTORE_RENAMED_REGS
66be8951SMathias Krause	# order is important (REG_C is where it should be)
66be8951SMathias Krause	mov	B, REG_B
66be8951SMathias Krause	mov	D, REG_D
66be8951SMathias Krause	mov	A, REG_A
66be8951SMathias Krause	mov	E, REG_E
66be8951SMathias Krause.endm
66be8951SMathias Krause
66be8951SMathias Krause.macro SWAP_REG_NAMES  a, b
66be8951SMathias Krause  .set _T, \a
66be8951SMathias Krause  .set \a, \b
66be8951SMathias Krause  .set \b, _T
66be8951SMathias Krause.endm
66be8951SMathias Krause
66be8951SMathias Krause.macro F1  b, c, d
66be8951SMathias Krause	mov	\c, T1
66be8951SMathias Krause	SWAP_REG_NAMES \c, T1
66be8951SMathias Krause	xor	\d, T1
66be8951SMathias Krause	and	\b, T1
66be8951SMathias Krause	xor	\d, T1
66be8951SMathias Krause.endm
66be8951SMathias Krause
66be8951SMathias Krause.macro F2  b, c, d
66be8951SMathias Krause	mov	\d, T1
66be8951SMathias Krause	SWAP_REG_NAMES \d, T1
66be8951SMathias Krause	xor	\c, T1
66be8951SMathias Krause	xor	\b, T1
66be8951SMathias Krause.endm
66be8951SMathias Krause
66be8951SMathias Krause.macro F3  b, c ,d
66be8951SMathias Krause	mov	\c, T1
66be8951SMathias Krause	SWAP_REG_NAMES \c, T1
66be8951SMathias Krause	mov	\b, T2
66be8951SMathias Krause	or	\b, T1
66be8951SMathias Krause	and	\c, T2
66be8951SMathias Krause	and	\d, T1
66be8951SMathias Krause	or	T2, T1
66be8951SMathias Krause.endm
66be8951SMathias Krause
66be8951SMathias Krause.macro F4  b, c, d
66be8951SMathias Krause	F2 \b, \c, \d
66be8951SMathias Krause.endm
66be8951SMathias Krause
66be8951SMathias Krause.macro UPDATE_HASH  hash, val
66be8951SMathias Krause	add	\hash, \val
66be8951SMathias Krause	mov	\val, \hash
66be8951SMathias Krause.endm
66be8951SMathias Krause
66be8951SMathias Krause/*
66be8951SMathias Krause * RR does two rounds of SHA-1 back to back with W[] pre-calc
66be8951SMathias Krause *   t1 = F(b, c, d);   e += w(i)
66be8951SMathias Krause *   e += t1;           b <<= 30;   d  += w(i+1);
66be8951SMathias Krause *   t1 = F(a, b, c);
66be8951SMathias Krause *   d += t1;           a <<= 5;
66be8951SMathias Krause *   e += a;
66be8951SMathias Krause *   t1 = e;            a >>= 7;
66be8951SMathias Krause *   t1 <<= 5;
66be8951SMathias Krause *   d += t1;
66be8951SMathias Krause */
66be8951SMathias Krause.macro RR  F, a, b, c, d, e, round
66be8951SMathias Krause	add	WK(\round), \e
66be8951SMathias Krause	\F   \b, \c, \d		# t1 = F(b, c, d);
66be8951SMathias Krause	W_PRECALC (\round + W_PRECALC_AHEAD)
66be8951SMathias Krause	rol	$30, \b
66be8951SMathias Krause	add	T1, \e
66be8951SMathias Krause	add	WK(\round + 1), \d
66be8951SMathias Krause
66be8951SMathias Krause	\F   \a, \b, \c
66be8951SMathias Krause	W_PRECALC (\round + W_PRECALC_AHEAD + 1)
66be8951SMathias Krause	rol	$5, \a
66be8951SMathias Krause	add	\a, \e
66be8951SMathias Krause	add	T1, \d
66be8951SMathias Krause	ror	$7, \a		# (a <<r 5) >>r 7) => a <<r 30)
66be8951SMathias Krause
66be8951SMathias Krause	mov	\e, T1
66be8951SMathias Krause	SWAP_REG_NAMES \e, T1
66be8951SMathias Krause
66be8951SMathias Krause	rol	$5, T1
66be8951SMathias Krause	add	T1, \d
66be8951SMathias Krause
66be8951SMathias Krause	# write:  \a, \b
66be8951SMathias Krause	# rotate: \a<=\d, \b<=\e, \c<=\a, \d<=\b, \e<=\c
66be8951SMathias Krause.endm
66be8951SMathias Krause
66be8951SMathias Krause.macro W_PRECALC  r
66be8951SMathias Krause  .set i, \r
66be8951SMathias Krause
66be8951SMathias Krause  .if (i < 20)
66be8951SMathias Krause    .set K_XMM, 0
66be8951SMathias Krause  .elseif (i < 40)
66be8951SMathias Krause    .set K_XMM, 16
66be8951SMathias Krause  .elseif (i < 60)
66be8951SMathias Krause    .set K_XMM, 32
66be8951SMathias Krause  .elseif (i < 80)
66be8951SMathias Krause    .set K_XMM, 48
66be8951SMathias Krause  .endif
66be8951SMathias Krause
66be8951SMathias Krause  .if ((i < 16) || ((i >= 80) && (i < (80 + W_PRECALC_AHEAD))))
66be8951SMathias Krause    .set i, ((\r) % 80)	    # pre-compute for the next iteration
66be8951SMathias Krause    .if (i == 0)
66be8951SMathias Krause	W_PRECALC_RESET
66be8951SMathias Krause    .endif
66be8951SMathias Krause	W_PRECALC_00_15
66be8951SMathias Krause  .elseif (i<32)
66be8951SMathias Krause	W_PRECALC_16_31
66be8951SMathias Krause  .elseif (i < 80)   // rounds 32-79
66be8951SMathias Krause	W_PRECALC_32_79
66be8951SMathias Krause  .endif
66be8951SMathias Krause.endm
66be8951SMathias Krause
66be8951SMathias Krause.macro W_PRECALC_RESET
66be8951SMathias Krause  .set W,          W0
66be8951SMathias Krause  .set W_minus_04, W4
66be8951SMathias Krause  .set W_minus_08, W8
66be8951SMathias Krause  .set W_minus_12, W12
66be8951SMathias Krause  .set W_minus_16, W16
66be8951SMathias Krause  .set W_minus_20, W20
66be8951SMathias Krause  .set W_minus_24, W24
66be8951SMathias Krause  .set W_minus_28, W28
66be8951SMathias Krause  .set W_minus_32, W
66be8951SMathias Krause.endm
66be8951SMathias Krause
66be8951SMathias Krause.macro W_PRECALC_ROTATE
66be8951SMathias Krause  .set W_minus_32, W_minus_28
66be8951SMathias Krause  .set W_minus_28, W_minus_24
66be8951SMathias Krause  .set W_minus_24, W_minus_20
66be8951SMathias Krause  .set W_minus_20, W_minus_16
66be8951SMathias Krause  .set W_minus_16, W_minus_12
66be8951SMathias Krause  .set W_minus_12, W_minus_08
66be8951SMathias Krause  .set W_minus_08, W_minus_04
66be8951SMathias Krause  .set W_minus_04, W
66be8951SMathias Krause  .set W,          W_minus_32
66be8951SMathias Krause.endm
66be8951SMathias Krause
66be8951SMathias Krause.macro W_PRECALC_SSSE3
66be8951SMathias Krause
66be8951SMathias Krause.macro W_PRECALC_00_15
66be8951SMathias Krause	W_PRECALC_00_15_SSSE3
66be8951SMathias Krause.endm
66be8951SMathias Krause.macro W_PRECALC_16_31
66be8951SMathias Krause	W_PRECALC_16_31_SSSE3
66be8951SMathias Krause.endm
66be8951SMathias Krause.macro W_PRECALC_32_79
66be8951SMathias Krause	W_PRECALC_32_79_SSSE3
66be8951SMathias Krause.endm
66be8951SMathias Krause
66be8951SMathias Krause/* message scheduling pre-compute for rounds 0-15 */
66be8951SMathias Krause.macro W_PRECALC_00_15_SSSE3
66be8951SMathias Krause  .if ((i & 3) == 0)
66be8951SMathias Krause	movdqu	(i*4)(BUFFER_PTR), W_TMP1
66be8951SMathias Krause  .elseif ((i & 3) == 1)
66be8951SMathias Krause	pshufb	XMM_SHUFB_BSWAP, W_TMP1
66be8951SMathias Krause	movdqa	W_TMP1, W
66be8951SMathias Krause  .elseif ((i & 3) == 2)
66be8951SMathias Krause	paddd	(K_BASE), W_TMP1
66be8951SMathias Krause  .elseif ((i & 3) == 3)
66be8951SMathias Krause	movdqa  W_TMP1, WK(i&~3)
66be8951SMathias Krause	W_PRECALC_ROTATE
66be8951SMathias Krause  .endif
66be8951SMathias Krause.endm
66be8951SMathias Krause
66be8951SMathias Krause/* message scheduling pre-compute for rounds 16-31
66be8951SMathias Krause *
66be8951SMathias Krause * - calculating last 32 w[i] values in 8 XMM registers
66be8951SMathias Krause * - pre-calculate K+w[i] values and store to mem, for later load by ALU add
66be8951SMathias Krause *   instruction
66be8951SMathias Krause *
66be8951SMathias Krause * some "heavy-lifting" vectorization for rounds 16-31 due to w[i]->w[i-3]
66be8951SMathias Krause * dependency, but improves for 32-79
66be8951SMathias Krause */
66be8951SMathias Krause.macro W_PRECALC_16_31_SSSE3
66be8951SMathias Krause  # blended scheduling of vector and scalar instruction streams, one 4-wide
66be8951SMathias Krause  # vector iteration / 4 scalar rounds
66be8951SMathias Krause  .if ((i & 3) == 0)
66be8951SMathias Krause	movdqa	W_minus_12, W
66be8951SMathias Krause	palignr	$8, W_minus_16, W	# w[i-14]
66be8951SMathias Krause	movdqa	W_minus_04, W_TMP1
66be8951SMathias Krause	psrldq	$4, W_TMP1		# w[i-3]
66be8951SMathias Krause	pxor	W_minus_08, W
66be8951SMathias Krause  .elseif ((i & 3) == 1)
66be8951SMathias Krause	pxor	W_minus_16, W_TMP1
66be8951SMathias Krause	pxor	W_TMP1, W
66be8951SMathias Krause	movdqa	W, W_TMP2
66be8951SMathias Krause	movdqa	W, W_TMP1
66be8951SMathias Krause	pslldq	$12, W_TMP2
66be8951SMathias Krause  .elseif ((i & 3) == 2)
66be8951SMathias Krause	psrld	$31, W
66be8951SMathias Krause	pslld	$1, W_TMP1
66be8951SMathias Krause	por	W, W_TMP1
66be8951SMathias Krause	movdqa	W_TMP2, W
66be8951SMathias Krause	psrld	$30, W_TMP2
66be8951SMathias Krause	pslld	$2, W
66be8951SMathias Krause  .elseif ((i & 3) == 3)
66be8951SMathias Krause	pxor	W, W_TMP1
66be8951SMathias Krause	pxor	W_TMP2, W_TMP1
66be8951SMathias Krause	movdqa	W_TMP1, W
66be8951SMathias Krause	paddd	K_XMM(K_BASE), W_TMP1
66be8951SMathias Krause	movdqa	W_TMP1, WK(i&~3)
66be8951SMathias Krause	W_PRECALC_ROTATE
66be8951SMathias Krause  .endif
66be8951SMathias Krause.endm
66be8951SMathias Krause
66be8951SMathias Krause/* message scheduling pre-compute for rounds 32-79
66be8951SMathias Krause *
66be8951SMathias Krause * in SHA-1 specification: w[i] = (w[i-3] ^ w[i-8]  ^ w[i-14] ^ w[i-16]) rol 1
66be8951SMathias Krause * instead we do equal:    w[i] = (w[i-6] ^ w[i-16] ^ w[i-28] ^ w[i-32]) rol 2
66be8951SMathias Krause * allows more efficient vectorization since w[i]=>w[i-3] dependency is broken
66be8951SMathias Krause */
66be8951SMathias Krause.macro W_PRECALC_32_79_SSSE3
66be8951SMathias Krause  .if ((i & 3) == 0)
66be8951SMathias Krause	movdqa	W_minus_04, W_TMP1
66be8951SMathias Krause	pxor	W_minus_28, W		# W is W_minus_32 before xor
66be8951SMathias Krause	palignr	$8, W_minus_08, W_TMP1
66be8951SMathias Krause  .elseif ((i & 3) == 1)
66be8951SMathias Krause	pxor	W_minus_16, W
66be8951SMathias Krause	pxor	W_TMP1, W
66be8951SMathias Krause	movdqa	W, W_TMP1
66be8951SMathias Krause  .elseif ((i & 3) == 2)
66be8951SMathias Krause	psrld	$30, W
66be8951SMathias Krause	pslld	$2, W_TMP1
66be8951SMathias Krause	por	W, W_TMP1
66be8951SMathias Krause  .elseif ((i & 3) == 3)
66be8951SMathias Krause	movdqa	W_TMP1, W
66be8951SMathias Krause	paddd	K_XMM(K_BASE), W_TMP1
66be8951SMathias Krause	movdqa	W_TMP1, WK(i&~3)
66be8951SMathias Krause	W_PRECALC_ROTATE
66be8951SMathias Krause  .endif
66be8951SMathias Krause.endm
66be8951SMathias Krause
66be8951SMathias Krause.endm		// W_PRECALC_SSSE3
66be8951SMathias Krause
66be8951SMathias Krause
66be8951SMathias Krause#define K1	0x5a827999
66be8951SMathias Krause#define K2	0x6ed9eba1
66be8951SMathias Krause#define K3	0x8f1bbcdc
66be8951SMathias Krause#define K4	0xca62c1d6
66be8951SMathias Krause
66be8951SMathias Krause.section .rodata
66be8951SMathias Krause.align 16
66be8951SMathias Krause
66be8951SMathias KrauseK_XMM_AR:
66be8951SMathias Krause	.long K1, K1, K1, K1
66be8951SMathias Krause	.long K2, K2, K2, K2
66be8951SMathias Krause	.long K3, K3, K3, K3
66be8951SMathias Krause	.long K4, K4, K4, K4
66be8951SMathias Krause
66be8951SMathias KrauseBSWAP_SHUFB_CTL:
66be8951SMathias Krause	.long 0x00010203
66be8951SMathias Krause	.long 0x04050607
66be8951SMathias Krause	.long 0x08090a0b
66be8951SMathias Krause	.long 0x0c0d0e0f
66be8951SMathias Krause
66be8951SMathias Krause
66be8951SMathias Krause.section .text
66be8951SMathias Krause
66be8951SMathias KrauseW_PRECALC_SSSE3
66be8951SMathias Krause.macro xmm_mov a, b
66be8951SMathias Krause	movdqu	\a,\b
66be8951SMathias Krause.endm
66be8951SMathias Krause
41419a28SKees Cook/*
41419a28SKees Cook * SSSE3 optimized implementation:
41419a28SKees Cook *
41419a28SKees Cook * extern "C" void sha1_transform_ssse3(struct sha1_state *state,
41419a28SKees Cook *					const u8 *data, int blocks);
41419a28SKees Cook *
41419a28SKees Cook * Note that struct sha1_state is assumed to begin with u32 state[5].
66be8951SMathias Krause */
66be8951SMathias KrauseSHA1_VECTOR_ASM     sha1_transform_ssse3
66be8951SMathias Krause
66be8951SMathias Krause.macro W_PRECALC_AVX
66be8951SMathias Krause
66be8951SMathias Krause.purgem W_PRECALC_00_15
66be8951SMathias Krause.macro  W_PRECALC_00_15
66be8951SMathias Krause    W_PRECALC_00_15_AVX
66be8951SMathias Krause.endm
66be8951SMathias Krause.purgem W_PRECALC_16_31
66be8951SMathias Krause.macro  W_PRECALC_16_31
66be8951SMathias Krause    W_PRECALC_16_31_AVX
66be8951SMathias Krause.endm
66be8951SMathias Krause.purgem W_PRECALC_32_79
66be8951SMathias Krause.macro  W_PRECALC_32_79
66be8951SMathias Krause    W_PRECALC_32_79_AVX
66be8951SMathias Krause.endm
66be8951SMathias Krause
66be8951SMathias Krause.macro W_PRECALC_00_15_AVX
66be8951SMathias Krause  .if ((i & 3) == 0)
66be8951SMathias Krause	vmovdqu	(i*4)(BUFFER_PTR), W_TMP1
66be8951SMathias Krause  .elseif ((i & 3) == 1)
66be8951SMathias Krause	vpshufb	XMM_SHUFB_BSWAP, W_TMP1, W
66be8951SMathias Krause  .elseif ((i & 3) == 2)
66be8951SMathias Krause	vpaddd	(K_BASE), W, W_TMP1
66be8951SMathias Krause  .elseif ((i & 3) == 3)
66be8951SMathias Krause	vmovdqa	W_TMP1, WK(i&~3)
66be8951SMathias Krause	W_PRECALC_ROTATE
66be8951SMathias Krause  .endif
66be8951SMathias Krause.endm
66be8951SMathias Krause
66be8951SMathias Krause.macro W_PRECALC_16_31_AVX
66be8951SMathias Krause  .if ((i & 3) == 0)
66be8951SMathias Krause	vpalignr $8, W_minus_16, W_minus_12, W	# w[i-14]
66be8951SMathias Krause	vpsrldq	$4, W_minus_04, W_TMP1		# w[i-3]
66be8951SMathias Krause	vpxor	W_minus_08, W, W
66be8951SMathias Krause	vpxor	W_minus_16, W_TMP1, W_TMP1
66be8951SMathias Krause  .elseif ((i & 3) == 1)
66be8951SMathias Krause	vpxor	W_TMP1, W, W
66be8951SMathias Krause	vpslldq	$12, W, W_TMP2
66be8951SMathias Krause	vpslld	$1, W, W_TMP1
66be8951SMathias Krause  .elseif ((i & 3) == 2)
66be8951SMathias Krause	vpsrld	$31, W, W
66be8951SMathias Krause	vpor	W, W_TMP1, W_TMP1
66be8951SMathias Krause	vpslld	$2, W_TMP2, W
66be8951SMathias Krause	vpsrld	$30, W_TMP2, W_TMP2
66be8951SMathias Krause  .elseif ((i & 3) == 3)
66be8951SMathias Krause	vpxor	W, W_TMP1, W_TMP1
66be8951SMathias Krause	vpxor	W_TMP2, W_TMP1, W
66be8951SMathias Krause	vpaddd	K_XMM(K_BASE), W, W_TMP1
66be8951SMathias Krause	vmovdqu	W_TMP1, WK(i&~3)
66be8951SMathias Krause	W_PRECALC_ROTATE
66be8951SMathias Krause  .endif
66be8951SMathias Krause.endm
66be8951SMathias Krause
66be8951SMathias Krause.macro W_PRECALC_32_79_AVX
66be8951SMathias Krause  .if ((i & 3) == 0)
66be8951SMathias Krause	vpalignr $8, W_minus_08, W_minus_04, W_TMP1
66be8951SMathias Krause	vpxor	W_minus_28, W, W		# W is W_minus_32 before xor
66be8951SMathias Krause  .elseif ((i & 3) == 1)
66be8951SMathias Krause	vpxor	W_minus_16, W_TMP1, W_TMP1
66be8951SMathias Krause	vpxor	W_TMP1, W, W
66be8951SMathias Krause  .elseif ((i & 3) == 2)
66be8951SMathias Krause	vpslld	$2, W, W_TMP1
66be8951SMathias Krause	vpsrld	$30, W, W
66be8951SMathias Krause	vpor	W, W_TMP1, W
66be8951SMathias Krause  .elseif ((i & 3) == 3)
66be8951SMathias Krause	vpaddd	K_XMM(K_BASE), W, W_TMP1
66be8951SMathias Krause	vmovdqu	W_TMP1, WK(i&~3)
66be8951SMathias Krause	W_PRECALC_ROTATE
66be8951SMathias Krause  .endif
66be8951SMathias Krause.endm
66be8951SMathias Krause
66be8951SMathias Krause.endm    // W_PRECALC_AVX
66be8951SMathias Krause
66be8951SMathias KrauseW_PRECALC_AVX
66be8951SMathias Krause.purgem xmm_mov
66be8951SMathias Krause.macro xmm_mov a, b
66be8951SMathias Krause	vmovdqu	\a,\b
66be8951SMathias Krause.endm
66be8951SMathias Krause
66be8951SMathias Krause
66be8951SMathias Krause/* AVX optimized implementation:
41419a28SKees Cook *  extern "C" void sha1_transform_avx(struct sha1_state *state,
41419a28SKees Cook *				       const u8 *data, int blocks);
66be8951SMathias Krause */
66be8951SMathias KrauseSHA1_VECTOR_ASM     sha1_transform_avx