src/ec/ec_p256_m31.c

0957b409SSimon J. Gerraty/*
0957b409SSimon J. Gerraty * Copyright (c) 2017 Thomas Pornin <pornin@bolet.org>
0957b409SSimon J. Gerraty *
0957b409SSimon J. Gerraty * Permission is hereby granted, free of charge, to any person obtaining
0957b409SSimon J. Gerraty * a copy of this software and associated documentation files (the
0957b409SSimon J. Gerraty * "Software"), to deal in the Software without restriction, including
0957b409SSimon J. Gerraty * without limitation the rights to use, copy, modify, merge, publish,
0957b409SSimon J. Gerraty * distribute, sublicense, and/or sell copies of the Software, and to
0957b409SSimon J. Gerraty * permit persons to whom the Software is furnished to do so, subject to
0957b409SSimon J. Gerraty * the following conditions:
0957b409SSimon J. Gerraty *
0957b409SSimon J. Gerraty * The above copyright notice and this permission notice shall be
0957b409SSimon J. Gerraty * included in all copies or substantial portions of the Software.
0957b409SSimon J. Gerraty *
0957b409SSimon J. Gerraty * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND,
0957b409SSimon J. Gerraty * EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF
0957b409SSimon J. Gerraty * MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND
0957b409SSimon J. Gerraty * NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS
0957b409SSimon J. Gerraty * BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN
0957b409SSimon J. Gerraty * ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN
0957b409SSimon J. Gerraty * CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
0957b409SSimon J. Gerraty * SOFTWARE.
0957b409SSimon J. Gerraty */
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty#include "inner.h"
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty/*
0957b409SSimon J. Gerraty * If BR_NO_ARITH_SHIFT is undefined, or defined to 0, then we _assume_
0957b409SSimon J. Gerraty * that right-shifting a signed negative integer copies the sign bit
0957b409SSimon J. Gerraty * (arithmetic right-shift). This is "implementation-defined behaviour",
0957b409SSimon J. Gerraty * i.e. it is not undefined, but it may differ between compilers. Each
0957b409SSimon J. Gerraty * compiler is supposed to document its behaviour in that respect. GCC
0957b409SSimon J. Gerraty * explicitly defines that an arithmetic right shift is used. We expect
0957b409SSimon J. Gerraty * all other compilers to do the same, because underlying CPU offer an
0957b409SSimon J. Gerraty * arithmetic right shift opcode that could not be used otherwise.
0957b409SSimon J. Gerraty */
0957b409SSimon J. Gerraty#if BR_NO_ARITH_SHIFT
0957b409SSimon J. Gerraty#define ARSH(x, n)    (((uint32_t)(x) >> (n)) \
0957b409SSimon J. Gerraty                      | ((-((uint32_t)(x) >> 31)) << (32 - (n))))
0957b409SSimon J. Gerraty#define ARSHW(x, n)   (((uint64_t)(x) >> (n)) \
0957b409SSimon J. Gerraty                      | ((-((uint64_t)(x) >> 63)) << (64 - (n))))
0957b409SSimon J. Gerraty#else
0957b409SSimon J. Gerraty#define ARSH(x, n)    ((*(int32_t *)&(x)) >> (n))
0957b409SSimon J. Gerraty#define ARSHW(x, n)   ((*(int64_t *)&(x)) >> (n))
0957b409SSimon J. Gerraty#endif
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty/*
0957b409SSimon J. Gerraty * Convert an integer from unsigned big-endian encoding to a sequence of
0957b409SSimon J. Gerraty * 30-bit words in little-endian order. The final "partial" word is
0957b409SSimon J. Gerraty * returned.
0957b409SSimon J. Gerraty */
0957b409SSimon J. Gerratystatic uint32_t
0957b409SSimon J. Gerratybe8_to_le30(uint32_t *dst, const unsigned char *src, size_t len)
0957b409SSimon J. Gerraty{
0957b409SSimon J. Gerraty	uint32_t acc;
0957b409SSimon J. Gerraty	int acc_len;
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	acc = 0;
0957b409SSimon J. Gerraty	acc_len = 0;
0957b409SSimon J. Gerraty	while (len -- > 0) {
0957b409SSimon J. Gerraty		uint32_t b;
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty		b = src[len];
0957b409SSimon J. Gerraty		if (acc_len < 22) {
0957b409SSimon J. Gerraty			acc |= b << acc_len;
0957b409SSimon J. Gerraty			acc_len += 8;
0957b409SSimon J. Gerraty		} else {
0957b409SSimon J. Gerraty			*dst ++ = (acc | (b << acc_len)) & 0x3FFFFFFF;
0957b409SSimon J. Gerraty			acc = b >> (30 - acc_len);
0957b409SSimon J. Gerraty			acc_len -= 22;
0957b409SSimon J. Gerraty		}
0957b409SSimon J. Gerraty	}
0957b409SSimon J. Gerraty	return acc;
0957b409SSimon J. Gerraty}
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty/*
0957b409SSimon J. Gerraty * Convert an integer (30-bit words, little-endian) to unsigned
0957b409SSimon J. Gerraty * big-endian encoding. The total encoding length is provided; all
0957b409SSimon J. Gerraty * the destination bytes will be filled.
0957b409SSimon J. Gerraty */
0957b409SSimon J. Gerratystatic void
0957b409SSimon J. Gerratyle30_to_be8(unsigned char *dst, size_t len, const uint32_t *src)
0957b409SSimon J. Gerraty{
0957b409SSimon J. Gerraty	uint32_t acc;
0957b409SSimon J. Gerraty	int acc_len;
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	acc = 0;
0957b409SSimon J. Gerraty	acc_len = 0;
0957b409SSimon J. Gerraty	while (len -- > 0) {
0957b409SSimon J. Gerraty		if (acc_len < 8) {
0957b409SSimon J. Gerraty			uint32_t w;
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty			w = *src ++;
0957b409SSimon J. Gerraty			dst[len] = (unsigned char)(acc | (w << acc_len));
0957b409SSimon J. Gerraty			acc = w >> (8 - acc_len);
0957b409SSimon J. Gerraty			acc_len += 22;
0957b409SSimon J. Gerraty		} else {
0957b409SSimon J. Gerraty			dst[len] = (unsigned char)acc;
0957b409SSimon J. Gerraty			acc >>= 8;
0957b409SSimon J. Gerraty			acc_len -= 8;
0957b409SSimon J. Gerraty		}
0957b409SSimon J. Gerraty	}
0957b409SSimon J. Gerraty}
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty/*
0957b409SSimon J. Gerraty * Multiply two integers. Source integers are represented as arrays of
0957b409SSimon J. Gerraty * nine 30-bit words, for values up to 2^270-1. Result is encoded over
0957b409SSimon J. Gerraty * 18 words of 30 bits each.
0957b409SSimon J. Gerraty */
0957b409SSimon J. Gerratystatic void
0957b409SSimon J. Gerratymul9(uint32_t *d, const uint32_t *a, const uint32_t *b)
0957b409SSimon J. Gerraty{
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * Maximum intermediate result is no more than
0957b409SSimon J. Gerraty	 * 10376293531797946367, which fits in 64 bits. Reason:
0957b409SSimon J. Gerraty	 *
0957b409SSimon J. Gerraty	 *   10376293531797946367 = 9 * (2^30-1)^2 + 9663676406
0957b409SSimon J. Gerraty	 *   10376293531797946367 < 9663676407 * 2^30
0957b409SSimon J. Gerraty	 *
0957b409SSimon J. Gerraty	 * Thus, adding together 9 products of 30-bit integers, with
0957b409SSimon J. Gerraty	 * a carry of at most 9663676406, yields an integer that fits
0957b409SSimon J. Gerraty	 * on 64 bits and generates a carry of at most 9663676406.
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	uint64_t t[17];
0957b409SSimon J. Gerraty	uint64_t cc;
0957b409SSimon J. Gerraty	int i;
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	t[ 0] = MUL31(a[0], b[0]);
0957b409SSimon J. Gerraty	t[ 1] = MUL31(a[0], b[1])
0957b409SSimon J. Gerraty		+ MUL31(a[1], b[0]);
0957b409SSimon J. Gerraty	t[ 2] = MUL31(a[0], b[2])
0957b409SSimon J. Gerraty		+ MUL31(a[1], b[1])
0957b409SSimon J. Gerraty		+ MUL31(a[2], b[0]);
0957b409SSimon J. Gerraty	t[ 3] = MUL31(a[0], b[3])
0957b409SSimon J. Gerraty		+ MUL31(a[1], b[2])
0957b409SSimon J. Gerraty		+ MUL31(a[2], b[1])
0957b409SSimon J. Gerraty		+ MUL31(a[3], b[0]);
0957b409SSimon J. Gerraty	t[ 4] = MUL31(a[0], b[4])
0957b409SSimon J. Gerraty		+ MUL31(a[1], b[3])
0957b409SSimon J. Gerraty		+ MUL31(a[2], b[2])
0957b409SSimon J. Gerraty		+ MUL31(a[3], b[1])
0957b409SSimon J. Gerraty		+ MUL31(a[4], b[0]);
0957b409SSimon J. Gerraty	t[ 5] = MUL31(a[0], b[5])
0957b409SSimon J. Gerraty		+ MUL31(a[1], b[4])
0957b409SSimon J. Gerraty		+ MUL31(a[2], b[3])
0957b409SSimon J. Gerraty		+ MUL31(a[3], b[2])
0957b409SSimon J. Gerraty		+ MUL31(a[4], b[1])
0957b409SSimon J. Gerraty		+ MUL31(a[5], b[0]);
0957b409SSimon J. Gerraty	t[ 6] = MUL31(a[0], b[6])
0957b409SSimon J. Gerraty		+ MUL31(a[1], b[5])
0957b409SSimon J. Gerraty		+ MUL31(a[2], b[4])
0957b409SSimon J. Gerraty		+ MUL31(a[3], b[3])
0957b409SSimon J. Gerraty		+ MUL31(a[4], b[2])
0957b409SSimon J. Gerraty		+ MUL31(a[5], b[1])
0957b409SSimon J. Gerraty		+ MUL31(a[6], b[0]);
0957b409SSimon J. Gerraty	t[ 7] = MUL31(a[0], b[7])
0957b409SSimon J. Gerraty		+ MUL31(a[1], b[6])
0957b409SSimon J. Gerraty		+ MUL31(a[2], b[5])
0957b409SSimon J. Gerraty		+ MUL31(a[3], b[4])
0957b409SSimon J. Gerraty		+ MUL31(a[4], b[3])
0957b409SSimon J. Gerraty		+ MUL31(a[5], b[2])
0957b409SSimon J. Gerraty		+ MUL31(a[6], b[1])
0957b409SSimon J. Gerraty		+ MUL31(a[7], b[0]);
0957b409SSimon J. Gerraty	t[ 8] = MUL31(a[0], b[8])
0957b409SSimon J. Gerraty		+ MUL31(a[1], b[7])
0957b409SSimon J. Gerraty		+ MUL31(a[2], b[6])
0957b409SSimon J. Gerraty		+ MUL31(a[3], b[5])
0957b409SSimon J. Gerraty		+ MUL31(a[4], b[4])
0957b409SSimon J. Gerraty		+ MUL31(a[5], b[3])
0957b409SSimon J. Gerraty		+ MUL31(a[6], b[2])
0957b409SSimon J. Gerraty		+ MUL31(a[7], b[1])
0957b409SSimon J. Gerraty		+ MUL31(a[8], b[0]);
0957b409SSimon J. Gerraty	t[ 9] = MUL31(a[1], b[8])
0957b409SSimon J. Gerraty		+ MUL31(a[2], b[7])
0957b409SSimon J. Gerraty		+ MUL31(a[3], b[6])
0957b409SSimon J. Gerraty		+ MUL31(a[4], b[5])
0957b409SSimon J. Gerraty		+ MUL31(a[5], b[4])
0957b409SSimon J. Gerraty		+ MUL31(a[6], b[3])
0957b409SSimon J. Gerraty		+ MUL31(a[7], b[2])
0957b409SSimon J. Gerraty		+ MUL31(a[8], b[1]);
0957b409SSimon J. Gerraty	t[10] = MUL31(a[2], b[8])
0957b409SSimon J. Gerraty		+ MUL31(a[3], b[7])
0957b409SSimon J. Gerraty		+ MUL31(a[4], b[6])
0957b409SSimon J. Gerraty		+ MUL31(a[5], b[5])
0957b409SSimon J. Gerraty		+ MUL31(a[6], b[4])
0957b409SSimon J. Gerraty		+ MUL31(a[7], b[3])
0957b409SSimon J. Gerraty		+ MUL31(a[8], b[2]);
0957b409SSimon J. Gerraty	t[11] = MUL31(a[3], b[8])
0957b409SSimon J. Gerraty		+ MUL31(a[4], b[7])
0957b409SSimon J. Gerraty		+ MUL31(a[5], b[6])
0957b409SSimon J. Gerraty		+ MUL31(a[6], b[5])
0957b409SSimon J. Gerraty		+ MUL31(a[7], b[4])
0957b409SSimon J. Gerraty		+ MUL31(a[8], b[3]);
0957b409SSimon J. Gerraty	t[12] = MUL31(a[4], b[8])
0957b409SSimon J. Gerraty		+ MUL31(a[5], b[7])
0957b409SSimon J. Gerraty		+ MUL31(a[6], b[6])
0957b409SSimon J. Gerraty		+ MUL31(a[7], b[5])
0957b409SSimon J. Gerraty		+ MUL31(a[8], b[4]);
0957b409SSimon J. Gerraty	t[13] = MUL31(a[5], b[8])
0957b409SSimon J. Gerraty		+ MUL31(a[6], b[7])
0957b409SSimon J. Gerraty		+ MUL31(a[7], b[6])
0957b409SSimon J. Gerraty		+ MUL31(a[8], b[5]);
0957b409SSimon J. Gerraty	t[14] = MUL31(a[6], b[8])
0957b409SSimon J. Gerraty		+ MUL31(a[7], b[7])
0957b409SSimon J. Gerraty		+ MUL31(a[8], b[6]);
0957b409SSimon J. Gerraty	t[15] = MUL31(a[7], b[8])
0957b409SSimon J. Gerraty		+ MUL31(a[8], b[7]);
0957b409SSimon J. Gerraty	t[16] = MUL31(a[8], b[8]);
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * Propagate carries.
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	cc = 0;
0957b409SSimon J. Gerraty	for (i = 0; i < 17; i ++) {
0957b409SSimon J. Gerraty		uint64_t w;
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty		w = t[i] + cc;
0957b409SSimon J. Gerraty		d[i] = (uint32_t)w & 0x3FFFFFFF;
0957b409SSimon J. Gerraty		cc = w >> 30;
0957b409SSimon J. Gerraty	}
0957b409SSimon J. Gerraty	d[17] = (uint32_t)cc;
0957b409SSimon J. Gerraty}
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty/*
0957b409SSimon J. Gerraty * Square a 270-bit integer, represented as an array of nine 30-bit words.
0957b409SSimon J. Gerraty * Result uses 18 words of 30 bits each.
0957b409SSimon J. Gerraty */
0957b409SSimon J. Gerratystatic void
0957b409SSimon J. Gerratysquare9(uint32_t *d, const uint32_t *a)
0957b409SSimon J. Gerraty{
0957b409SSimon J. Gerraty	uint64_t t[17];
0957b409SSimon J. Gerraty	uint64_t cc;
0957b409SSimon J. Gerraty	int i;
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	t[ 0] = MUL31(a[0], a[0]);
0957b409SSimon J. Gerraty	t[ 1] = ((MUL31(a[0], a[1])) << 1);
0957b409SSimon J. Gerraty	t[ 2] = MUL31(a[1], a[1])
0957b409SSimon J. Gerraty		+ ((MUL31(a[0], a[2])) << 1);
0957b409SSimon J. Gerraty	t[ 3] = ((MUL31(a[0], a[3])
0957b409SSimon J. Gerraty		+ MUL31(a[1], a[2])) << 1);
0957b409SSimon J. Gerraty	t[ 4] = MUL31(a[2], a[2])
0957b409SSimon J. Gerraty		+ ((MUL31(a[0], a[4])
0957b409SSimon J. Gerraty		+ MUL31(a[1], a[3])) << 1);
0957b409SSimon J. Gerraty	t[ 5] = ((MUL31(a[0], a[5])
0957b409SSimon J. Gerraty		+ MUL31(a[1], a[4])
0957b409SSimon J. Gerraty		+ MUL31(a[2], a[3])) << 1);
0957b409SSimon J. Gerraty	t[ 6] = MUL31(a[3], a[3])
0957b409SSimon J. Gerraty		+ ((MUL31(a[0], a[6])
0957b409SSimon J. Gerraty		+ MUL31(a[1], a[5])
0957b409SSimon J. Gerraty		+ MUL31(a[2], a[4])) << 1);
0957b409SSimon J. Gerraty	t[ 7] = ((MUL31(a[0], a[7])
0957b409SSimon J. Gerraty		+ MUL31(a[1], a[6])
0957b409SSimon J. Gerraty		+ MUL31(a[2], a[5])
0957b409SSimon J. Gerraty		+ MUL31(a[3], a[4])) << 1);
0957b409SSimon J. Gerraty	t[ 8] = MUL31(a[4], a[4])
0957b409SSimon J. Gerraty		+ ((MUL31(a[0], a[8])
0957b409SSimon J. Gerraty		+ MUL31(a[1], a[7])
0957b409SSimon J. Gerraty		+ MUL31(a[2], a[6])
0957b409SSimon J. Gerraty		+ MUL31(a[3], a[5])) << 1);
0957b409SSimon J. Gerraty	t[ 9] = ((MUL31(a[1], a[8])
0957b409SSimon J. Gerraty		+ MUL31(a[2], a[7])
0957b409SSimon J. Gerraty		+ MUL31(a[3], a[6])
0957b409SSimon J. Gerraty		+ MUL31(a[4], a[5])) << 1);
0957b409SSimon J. Gerraty	t[10] = MUL31(a[5], a[5])
0957b409SSimon J. Gerraty		+ ((MUL31(a[2], a[8])
0957b409SSimon J. Gerraty		+ MUL31(a[3], a[7])
0957b409SSimon J. Gerraty		+ MUL31(a[4], a[6])) << 1);
0957b409SSimon J. Gerraty	t[11] = ((MUL31(a[3], a[8])
0957b409SSimon J. Gerraty		+ MUL31(a[4], a[7])
0957b409SSimon J. Gerraty		+ MUL31(a[5], a[6])) << 1);
0957b409SSimon J. Gerraty	t[12] = MUL31(a[6], a[6])
0957b409SSimon J. Gerraty		+ ((MUL31(a[4], a[8])
0957b409SSimon J. Gerraty		+ MUL31(a[5], a[7])) << 1);
0957b409SSimon J. Gerraty	t[13] = ((MUL31(a[5], a[8])
0957b409SSimon J. Gerraty		+ MUL31(a[6], a[7])) << 1);
0957b409SSimon J. Gerraty	t[14] = MUL31(a[7], a[7])
0957b409SSimon J. Gerraty		+ ((MUL31(a[6], a[8])) << 1);
0957b409SSimon J. Gerraty	t[15] = ((MUL31(a[7], a[8])) << 1);
0957b409SSimon J. Gerraty	t[16] = MUL31(a[8], a[8]);
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * Propagate carries.
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	cc = 0;
0957b409SSimon J. Gerraty	for (i = 0; i < 17; i ++) {
0957b409SSimon J. Gerraty		uint64_t w;
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty		w = t[i] + cc;
0957b409SSimon J. Gerraty		d[i] = (uint32_t)w & 0x3FFFFFFF;
0957b409SSimon J. Gerraty		cc = w >> 30;
0957b409SSimon J. Gerraty	}
0957b409SSimon J. Gerraty	d[17] = (uint32_t)cc;
0957b409SSimon J. Gerraty}
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty/*
0957b409SSimon J. Gerraty * Base field modulus for P-256.
0957b409SSimon J. Gerraty */
0957b409SSimon J. Gerratystatic const uint32_t F256[] = {
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	0x3FFFFFFF, 0x3FFFFFFF, 0x3FFFFFFF, 0x0000003F, 0x00000000,
0957b409SSimon J. Gerraty	0x00000000, 0x00001000, 0x3FFFC000, 0x0000FFFF
0957b409SSimon J. Gerraty};
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty/*
0957b409SSimon J. Gerraty * The 'b' curve equation coefficient for P-256.
0957b409SSimon J. Gerraty */
0957b409SSimon J. Gerratystatic const uint32_t P256_B[] = {
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	0x27D2604B, 0x2F38F0F8, 0x053B0F63, 0x0741AC33, 0x1886BC65,
0957b409SSimon J. Gerraty	0x2EF555DA, 0x293E7B3E, 0x0D762A8E, 0x00005AC6
0957b409SSimon J. Gerraty};
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty/*
0957b409SSimon J. Gerraty * Addition in the field. Source operands shall fit on 257 bits; output
0957b409SSimon J. Gerraty * will be lower than twice the modulus.
0957b409SSimon J. Gerraty */
0957b409SSimon J. Gerratystatic void
0957b409SSimon J. Gerratyadd_f256(uint32_t *d, const uint32_t *a, const uint32_t *b)
0957b409SSimon J. Gerraty{
0957b409SSimon J. Gerraty	uint32_t w, cc;
0957b409SSimon J. Gerraty	int i;
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	cc = 0;
0957b409SSimon J. Gerraty	for (i = 0; i < 9; i ++) {
0957b409SSimon J. Gerraty		w = a[i] + b[i] + cc;
0957b409SSimon J. Gerraty		d[i] = w & 0x3FFFFFFF;
0957b409SSimon J. Gerraty		cc = w >> 30;
0957b409SSimon J. Gerraty	}
0957b409SSimon J. Gerraty	w >>= 16;
0957b409SSimon J. Gerraty	d[8] &= 0xFFFF;
0957b409SSimon J. Gerraty	d[3] -= w << 6;
0957b409SSimon J. Gerraty	d[6] -= w << 12;
0957b409SSimon J. Gerraty	d[7] += w << 14;
0957b409SSimon J. Gerraty	cc = w;
0957b409SSimon J. Gerraty	for (i = 0; i < 9; i ++) {
0957b409SSimon J. Gerraty		w = d[i] + cc;
0957b409SSimon J. Gerraty		d[i] = w & 0x3FFFFFFF;
0957b409SSimon J. Gerraty		cc = ARSH(w, 30);
0957b409SSimon J. Gerraty	}
0957b409SSimon J. Gerraty}
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty/*
0957b409SSimon J. Gerraty * Subtraction in the field. Source operands shall be smaller than twice
0957b409SSimon J. Gerraty * the modulus; the result will fulfil the same property.
0957b409SSimon J. Gerraty */
0957b409SSimon J. Gerratystatic void
0957b409SSimon J. Gerratysub_f256(uint32_t *d, const uint32_t *a, const uint32_t *b)
0957b409SSimon J. Gerraty{
0957b409SSimon J. Gerraty	uint32_t w, cc;
0957b409SSimon J. Gerraty	int i;
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * We really compute a - b + 2*p to make sure that the result is
0957b409SSimon J. Gerraty	 * positive.
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	w = a[0] - b[0] - 0x00002;
0957b409SSimon J. Gerraty	d[0] = w & 0x3FFFFFFF;
0957b409SSimon J. Gerraty	w = a[1] - b[1] + ARSH(w, 30);
0957b409SSimon J. Gerraty	d[1] = w & 0x3FFFFFFF;
0957b409SSimon J. Gerraty	w = a[2] - b[2] + ARSH(w, 30);
0957b409SSimon J. Gerraty	d[2] = w & 0x3FFFFFFF;
0957b409SSimon J. Gerraty	w = a[3] - b[3] + ARSH(w, 30) + 0x00080;
0957b409SSimon J. Gerraty	d[3] = w & 0x3FFFFFFF;
0957b409SSimon J. Gerraty	w = a[4] - b[4] + ARSH(w, 30);
0957b409SSimon J. Gerraty	d[4] = w & 0x3FFFFFFF;
0957b409SSimon J. Gerraty	w = a[5] - b[5] + ARSH(w, 30);
0957b409SSimon J. Gerraty	d[5] = w & 0x3FFFFFFF;
0957b409SSimon J. Gerraty	w = a[6] - b[6] + ARSH(w, 30) + 0x02000;
0957b409SSimon J. Gerraty	d[6] = w & 0x3FFFFFFF;
0957b409SSimon J. Gerraty	w = a[7] - b[7] + ARSH(w, 30) - 0x08000;
0957b409SSimon J. Gerraty	d[7] = w & 0x3FFFFFFF;
0957b409SSimon J. Gerraty	w = a[8] - b[8] + ARSH(w, 30) + 0x20000;
0957b409SSimon J. Gerraty	d[8] = w & 0xFFFF;
0957b409SSimon J. Gerraty	w >>= 16;
0957b409SSimon J. Gerraty	d[8] &= 0xFFFF;
0957b409SSimon J. Gerraty	d[3] -= w << 6;
0957b409SSimon J. Gerraty	d[6] -= w << 12;
0957b409SSimon J. Gerraty	d[7] += w << 14;
0957b409SSimon J. Gerraty	cc = w;
0957b409SSimon J. Gerraty	for (i = 0; i < 9; i ++) {
0957b409SSimon J. Gerraty		w = d[i] + cc;
0957b409SSimon J. Gerraty		d[i] = w & 0x3FFFFFFF;
0957b409SSimon J. Gerraty		cc = ARSH(w, 30);
0957b409SSimon J. Gerraty	}
0957b409SSimon J. Gerraty}
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty/*
0957b409SSimon J. Gerraty * Compute a multiplication in F256. Source operands shall be less than
0957b409SSimon J. Gerraty * twice the modulus.
0957b409SSimon J. Gerraty */
0957b409SSimon J. Gerratystatic void
0957b409SSimon J. Gerratymul_f256(uint32_t *d, const uint32_t *a, const uint32_t *b)
0957b409SSimon J. Gerraty{
0957b409SSimon J. Gerraty	uint32_t t[18];
0957b409SSimon J. Gerraty	uint64_t s[18];
0957b409SSimon J. Gerraty	uint64_t cc, x;
0957b409SSimon J. Gerraty	uint32_t z, c;
0957b409SSimon J. Gerraty	int i;
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	mul9(t, a, b);
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * Modular reduction: each high word in added/subtracted where
0957b409SSimon J. Gerraty	 * necessary.
0957b409SSimon J. Gerraty	 *
0957b409SSimon J. Gerraty	 * The modulus is:
0957b409SSimon J. Gerraty	 *    p = 2^256 - 2^224 + 2^192 + 2^96 - 1
0957b409SSimon J. Gerraty	 * Therefore:
0957b409SSimon J. Gerraty	 *    2^256 = 2^224 - 2^192 - 2^96 + 1 mod p
0957b409SSimon J. Gerraty	 *
0957b409SSimon J. Gerraty	 * For a word x at bit offset n (n >= 256), we have:
0957b409SSimon J. Gerraty	 *    x*2^n = x*2^(n-32) - x*2^(n-64)
0957b409SSimon J. Gerraty	 *            - x*2^(n - 160) + x*2^(n-256) mod p
0957b409SSimon J. Gerraty	 *
0957b409SSimon J. Gerraty	 * Thus, we can nullify the high word if we reinject it at some
0957b409SSimon J. Gerraty	 * proper emplacements.
0957b409SSimon J. Gerraty	 *
0957b409SSimon J. Gerraty	 * We use 64-bit intermediate words to allow for carries to
0957b409SSimon J. Gerraty	 * accumulate easily, before performing the final propagation.
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	for (i = 0; i < 18; i ++) {
0957b409SSimon J. Gerraty		s[i] = t[i];
0957b409SSimon J. Gerraty	}
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	for (i = 17; i >= 9; i --) {
0957b409SSimon J. Gerraty		uint64_t y;
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty		y = s[i];
0957b409SSimon J. Gerraty		s[i - 1] += ARSHW(y, 2);
0957b409SSimon J. Gerraty		s[i - 2] += (y << 28) & 0x3FFFFFFF;
0957b409SSimon J. Gerraty		s[i - 2] -= ARSHW(y, 4);
0957b409SSimon J. Gerraty		s[i - 3] -= (y << 26) & 0x3FFFFFFF;
0957b409SSimon J. Gerraty		s[i - 5] -= ARSHW(y, 10);
0957b409SSimon J. Gerraty		s[i - 6] -= (y << 20) & 0x3FFFFFFF;
0957b409SSimon J. Gerraty		s[i - 8] += ARSHW(y, 16);
0957b409SSimon J. Gerraty		s[i - 9] += (y << 14) & 0x3FFFFFFF;
0957b409SSimon J. Gerraty	}
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * Carry propagation must be signed. Moreover, we may have overdone
0957b409SSimon J. Gerraty	 * it a bit, and obtain a negative result.
0957b409SSimon J. Gerraty	 *
0957b409SSimon J. Gerraty	 * The loop above ran 9 times; each time, each word was augmented
0957b409SSimon J. Gerraty	 * by at most one extra word (in absolute value). Thus, the top
0957b409SSimon J. Gerraty	 * word must in fine fit in 39 bits, so the carry below will fit
0957b409SSimon J. Gerraty	 * on 9 bits.
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	cc = 0;
0957b409SSimon J. Gerraty	for (i = 0; i < 9; i ++) {
0957b409SSimon J. Gerraty		x = s[i] + cc;
0957b409SSimon J. Gerraty		d[i] = (uint32_t)x & 0x3FFFFFFF;
0957b409SSimon J. Gerraty		cc = ARSHW(x, 30);
0957b409SSimon J. Gerraty	}
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * All nine words fit on 30 bits, but there may be an extra
0957b409SSimon J. Gerraty	 * carry for a few bits (at most 9), and that carry may be
0957b409SSimon J. Gerraty	 * negative. Moreover, we want the result to fit on 257 bits.
0957b409SSimon J. Gerraty	 * The two lines below ensure that the word in d[] has length
0957b409SSimon J. Gerraty	 * 256 bits, and the (signed) carry (beyond 2^256) is in cc. The
0957b409SSimon J. Gerraty	 * significant length of cc is less than 24 bits, so we will be
0957b409SSimon J. Gerraty	 * able to switch to 32-bit operations.
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	cc = ARSHW(x, 16);
0957b409SSimon J. Gerraty	d[8] &= 0xFFFF;
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * One extra round of reduction, for cc*2^256, which means
0957b409SSimon J. Gerraty	 * adding cc*(2^224-2^192-2^96+1) to a 256-bit (nonnegative)
0957b409SSimon J. Gerraty	 * value. If cc is negative, then it may happen (rarely, but
0957b409SSimon J. Gerraty	 * not neglectibly so) that the result would be negative. In
0957b409SSimon J. Gerraty	 * order to avoid that, if cc is negative, then we add the
0957b409SSimon J. Gerraty	 * modulus once. Note that if cc is negative, then propagating
0957b409SSimon J. Gerraty	 * that carry must yield a value lower than the modulus, so
0957b409SSimon J. Gerraty	 * adding the modulus once will keep the final result under
0957b409SSimon J. Gerraty	 * twice the modulus.
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	z = (uint32_t)cc;
0957b409SSimon J. Gerraty	d[3] -= z << 6;
0957b409SSimon J. Gerraty	d[6] -= (z << 12) & 0x3FFFFFFF;
0957b409SSimon J. Gerraty	d[7] -= ARSH(z, 18);
0957b409SSimon J. Gerraty	d[7] += (z << 14) & 0x3FFFFFFF;
0957b409SSimon J. Gerraty	d[8] += ARSH(z, 16);
0957b409SSimon J. Gerraty	c = z >> 31;
0957b409SSimon J. Gerraty	d[0] -= c;
0957b409SSimon J. Gerraty	d[3] += c << 6;
0957b409SSimon J. Gerraty	d[6] += c << 12;
0957b409SSimon J. Gerraty	d[7] -= c << 14;
0957b409SSimon J. Gerraty	d[8] += c << 16;
0957b409SSimon J. Gerraty	for (i = 0; i < 9; i ++) {
0957b409SSimon J. Gerraty		uint32_t w;
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty		w = d[i] + z;
0957b409SSimon J. Gerraty		d[i] = w & 0x3FFFFFFF;
0957b409SSimon J. Gerraty		z = ARSH(w, 30);
0957b409SSimon J. Gerraty	}
0957b409SSimon J. Gerraty}
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty/*
0957b409SSimon J. Gerraty * Compute a square in F256. Source operand shall be less than
0957b409SSimon J. Gerraty * twice the modulus.
0957b409SSimon J. Gerraty */
0957b409SSimon J. Gerratystatic void
0957b409SSimon J. Gerratysquare_f256(uint32_t *d, const uint32_t *a)
0957b409SSimon J. Gerraty{
0957b409SSimon J. Gerraty	uint32_t t[18];
0957b409SSimon J. Gerraty	uint64_t s[18];
0957b409SSimon J. Gerraty	uint64_t cc, x;
0957b409SSimon J. Gerraty	uint32_t z, c;
0957b409SSimon J. Gerraty	int i;
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	square9(t, a);
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * Modular reduction: each high word in added/subtracted where
0957b409SSimon J. Gerraty	 * necessary.
0957b409SSimon J. Gerraty	 *
0957b409SSimon J. Gerraty	 * The modulus is:
0957b409SSimon J. Gerraty	 *    p = 2^256 - 2^224 + 2^192 + 2^96 - 1
0957b409SSimon J. Gerraty	 * Therefore:
0957b409SSimon J. Gerraty	 *    2^256 = 2^224 - 2^192 - 2^96 + 1 mod p
0957b409SSimon J. Gerraty	 *
0957b409SSimon J. Gerraty	 * For a word x at bit offset n (n >= 256), we have:
0957b409SSimon J. Gerraty	 *    x*2^n = x*2^(n-32) - x*2^(n-64)
0957b409SSimon J. Gerraty	 *            - x*2^(n - 160) + x*2^(n-256) mod p
0957b409SSimon J. Gerraty	 *
0957b409SSimon J. Gerraty	 * Thus, we can nullify the high word if we reinject it at some
0957b409SSimon J. Gerraty	 * proper emplacements.
0957b409SSimon J. Gerraty	 *
0957b409SSimon J. Gerraty	 * We use 64-bit intermediate words to allow for carries to
0957b409SSimon J. Gerraty	 * accumulate easily, before performing the final propagation.
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	for (i = 0; i < 18; i ++) {
0957b409SSimon J. Gerraty		s[i] = t[i];
0957b409SSimon J. Gerraty	}
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	for (i = 17; i >= 9; i --) {
0957b409SSimon J. Gerraty		uint64_t y;
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty		y = s[i];
0957b409SSimon J. Gerraty		s[i - 1] += ARSHW(y, 2);
0957b409SSimon J. Gerraty		s[i - 2] += (y << 28) & 0x3FFFFFFF;
0957b409SSimon J. Gerraty		s[i - 2] -= ARSHW(y, 4);
0957b409SSimon J. Gerraty		s[i - 3] -= (y << 26) & 0x3FFFFFFF;
0957b409SSimon J. Gerraty		s[i - 5] -= ARSHW(y, 10);
0957b409SSimon J. Gerraty		s[i - 6] -= (y << 20) & 0x3FFFFFFF;
0957b409SSimon J. Gerraty		s[i - 8] += ARSHW(y, 16);
0957b409SSimon J. Gerraty		s[i - 9] += (y << 14) & 0x3FFFFFFF;
0957b409SSimon J. Gerraty	}
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * Carry propagation must be signed. Moreover, we may have overdone
0957b409SSimon J. Gerraty	 * it a bit, and obtain a negative result.
0957b409SSimon J. Gerraty	 *
0957b409SSimon J. Gerraty	 * The loop above ran 9 times; each time, each word was augmented
0957b409SSimon J. Gerraty	 * by at most one extra word (in absolute value). Thus, the top
0957b409SSimon J. Gerraty	 * word must in fine fit in 39 bits, so the carry below will fit
0957b409SSimon J. Gerraty	 * on 9 bits.
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	cc = 0;
0957b409SSimon J. Gerraty	for (i = 0; i < 9; i ++) {
0957b409SSimon J. Gerraty		x = s[i] + cc;
0957b409SSimon J. Gerraty		d[i] = (uint32_t)x & 0x3FFFFFFF;
0957b409SSimon J. Gerraty		cc = ARSHW(x, 30);
0957b409SSimon J. Gerraty	}
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * All nine words fit on 30 bits, but there may be an extra
0957b409SSimon J. Gerraty	 * carry for a few bits (at most 9), and that carry may be
0957b409SSimon J. Gerraty	 * negative. Moreover, we want the result to fit on 257 bits.
0957b409SSimon J. Gerraty	 * The two lines below ensure that the word in d[] has length
0957b409SSimon J. Gerraty	 * 256 bits, and the (signed) carry (beyond 2^256) is in cc. The
0957b409SSimon J. Gerraty	 * significant length of cc is less than 24 bits, so we will be
0957b409SSimon J. Gerraty	 * able to switch to 32-bit operations.
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	cc = ARSHW(x, 16);
0957b409SSimon J. Gerraty	d[8] &= 0xFFFF;
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * One extra round of reduction, for cc*2^256, which means
0957b409SSimon J. Gerraty	 * adding cc*(2^224-2^192-2^96+1) to a 256-bit (nonnegative)
0957b409SSimon J. Gerraty	 * value. If cc is negative, then it may happen (rarely, but
0957b409SSimon J. Gerraty	 * not neglectibly so) that the result would be negative. In
0957b409SSimon J. Gerraty	 * order to avoid that, if cc is negative, then we add the
0957b409SSimon J. Gerraty	 * modulus once. Note that if cc is negative, then propagating
0957b409SSimon J. Gerraty	 * that carry must yield a value lower than the modulus, so
0957b409SSimon J. Gerraty	 * adding the modulus once will keep the final result under
0957b409SSimon J. Gerraty	 * twice the modulus.
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	z = (uint32_t)cc;
0957b409SSimon J. Gerraty	d[3] -= z << 6;
0957b409SSimon J. Gerraty	d[6] -= (z << 12) & 0x3FFFFFFF;
0957b409SSimon J. Gerraty	d[7] -= ARSH(z, 18);
0957b409SSimon J. Gerraty	d[7] += (z << 14) & 0x3FFFFFFF;
0957b409SSimon J. Gerraty	d[8] += ARSH(z, 16);
0957b409SSimon J. Gerraty	c = z >> 31;
0957b409SSimon J. Gerraty	d[0] -= c;
0957b409SSimon J. Gerraty	d[3] += c << 6;
0957b409SSimon J. Gerraty	d[6] += c << 12;
0957b409SSimon J. Gerraty	d[7] -= c << 14;
0957b409SSimon J. Gerraty	d[8] += c << 16;
0957b409SSimon J. Gerraty	for (i = 0; i < 9; i ++) {
0957b409SSimon J. Gerraty		uint32_t w;
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty		w = d[i] + z;
0957b409SSimon J. Gerraty		d[i] = w & 0x3FFFFFFF;
0957b409SSimon J. Gerraty		z = ARSH(w, 30);
0957b409SSimon J. Gerraty	}
0957b409SSimon J. Gerraty}
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty/*
0957b409SSimon J. Gerraty * Perform a "final reduction" in field F256 (field for curve P-256).
0957b409SSimon J. Gerraty * The source value must be less than twice the modulus. If the value
0957b409SSimon J. Gerraty * is not lower than the modulus, then the modulus is subtracted and
0957b409SSimon J. Gerraty * this function returns 1; otherwise, it leaves it untouched and it
0957b409SSimon J. Gerraty * returns 0.
0957b409SSimon J. Gerraty */
0957b409SSimon J. Gerratystatic uint32_t
0957b409SSimon J. Gerratyreduce_final_f256(uint32_t *d)
0957b409SSimon J. Gerraty{
0957b409SSimon J. Gerraty	uint32_t t[9];
0957b409SSimon J. Gerraty	uint32_t cc;
0957b409SSimon J. Gerraty	int i;
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	cc = 0;
0957b409SSimon J. Gerraty	for (i = 0; i < 9; i ++) {
0957b409SSimon J. Gerraty		uint32_t w;
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty		w = d[i] - F256[i] - cc;
0957b409SSimon J. Gerraty		cc = w >> 31;
0957b409SSimon J. Gerraty		t[i] = w & 0x3FFFFFFF;
0957b409SSimon J. Gerraty	}
0957b409SSimon J. Gerraty	cc ^= 1;
0957b409SSimon J. Gerraty	CCOPY(cc, d, t, sizeof t);
0957b409SSimon J. Gerraty	return cc;
0957b409SSimon J. Gerraty}
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty/*
0957b409SSimon J. Gerraty * Jacobian coordinates for a point in P-256: affine coordinates (X,Y)
0957b409SSimon J. Gerraty * are such that:
0957b409SSimon J. Gerraty *   X = x / z^2
0957b409SSimon J. Gerraty *   Y = y / z^3
0957b409SSimon J. Gerraty * For the point at infinity, z = 0.
0957b409SSimon J. Gerraty * Each point thus admits many possible representations.
0957b409SSimon J. Gerraty *
0957b409SSimon J. Gerraty * Coordinates are represented in arrays of 32-bit integers, each holding
0957b409SSimon J. Gerraty * 30 bits of data. Values may also be slightly greater than the modulus,
0957b409SSimon J. Gerraty * but they will always be lower than twice the modulus.
0957b409SSimon J. Gerraty */
0957b409SSimon J. Gerratytypedef struct {
0957b409SSimon J. Gerraty	uint32_t x[9];
0957b409SSimon J. Gerraty	uint32_t y[9];
0957b409SSimon J. Gerraty	uint32_t z[9];
0957b409SSimon J. Gerraty} p256_jacobian;
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty/*
0957b409SSimon J. Gerraty * Convert a point to affine coordinates:
0957b409SSimon J. Gerraty *  - If the point is the point at infinity, then all three coordinates
0957b409SSimon J. Gerraty *    are set to 0.
0957b409SSimon J. Gerraty *  - Otherwise, the 'z' coordinate is set to 1, and the 'x' and 'y'
0957b409SSimon J. Gerraty *    coordinates are the 'X' and 'Y' affine coordinates.
0957b409SSimon J. Gerraty * The coordinates are guaranteed to be lower than the modulus.
0957b409SSimon J. Gerraty */
0957b409SSimon J. Gerratystatic void
0957b409SSimon J. Gerratyp256_to_affine(p256_jacobian *P)
0957b409SSimon J. Gerraty{
0957b409SSimon J. Gerraty	uint32_t t1[9], t2[9];
0957b409SSimon J. Gerraty	int i;
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * Invert z with a modular exponentiation: the modulus is
0957b409SSimon J. Gerraty	 * p = 2^256 - 2^224 + 2^192 + 2^96 - 1, and the exponent is
0957b409SSimon J. Gerraty	 * p-2. Exponent bit pattern (from high to low) is:
0957b409SSimon J. Gerraty	 *  - 32 bits of value 1
0957b409SSimon J. Gerraty	 *  - 31 bits of value 0
0957b409SSimon J. Gerraty	 *  - 1 bit of value 1
0957b409SSimon J. Gerraty	 *  - 96 bits of value 0
0957b409SSimon J. Gerraty	 *  - 94 bits of value 1
0957b409SSimon J. Gerraty	 *  - 1 bit of value 0
0957b409SSimon J. Gerraty	 *  - 1 bit of value 1
0957b409SSimon J. Gerraty	 * Thus, we precompute z^(2^31-1) to speed things up.
0957b409SSimon J. Gerraty	 *
0957b409SSimon J. Gerraty	 * If z = 0 (point at infinity) then the modular exponentiation
0957b409SSimon J. Gerraty	 * will yield 0, which leads to the expected result (all three
0957b409SSimon J. Gerraty	 * coordinates set to 0).
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * A simple square-and-multiply for z^(2^31-1). We could save about
0957b409SSimon J. Gerraty	 * two dozen multiplications here with an addition chain, but
0957b409SSimon J. Gerraty	 * this would require a bit more code, and extra stack buffers.
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	memcpy(t1, P->z, sizeof P->z);
0957b409SSimon J. Gerraty	for (i = 0; i < 30; i ++) {
0957b409SSimon J. Gerraty		square_f256(t1, t1);
0957b409SSimon J. Gerraty		mul_f256(t1, t1, P->z);
0957b409SSimon J. Gerraty	}
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * Square-and-multiply. Apart from the squarings, we have a few
0957b409SSimon J. Gerraty	 * multiplications to set bits to 1; we multiply by the original z
0957b409SSimon J. Gerraty	 * for setting 1 bit, and by t1 for setting 31 bits.
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	memcpy(t2, P->z, sizeof P->z);
0957b409SSimon J. Gerraty	for (i = 1; i < 256; i ++) {
0957b409SSimon J. Gerraty		square_f256(t2, t2);
0957b409SSimon J. Gerraty		switch (i) {
0957b409SSimon J. Gerraty		case 31:
0957b409SSimon J. Gerraty		case 190:
0957b409SSimon J. Gerraty		case 221:
0957b409SSimon J. Gerraty		case 252:
0957b409SSimon J. Gerraty			mul_f256(t2, t2, t1);
0957b409SSimon J. Gerraty			break;
0957b409SSimon J. Gerraty		case 63:
0957b409SSimon J. Gerraty		case 253:
0957b409SSimon J. Gerraty		case 255:
0957b409SSimon J. Gerraty			mul_f256(t2, t2, P->z);
0957b409SSimon J. Gerraty			break;
0957b409SSimon J. Gerraty		}
0957b409SSimon J. Gerraty	}
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * Now that we have 1/z, multiply x by 1/z^2 and y by 1/z^3.
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	mul_f256(t1, t2, t2);
0957b409SSimon J. Gerraty	mul_f256(P->x, t1, P->x);
0957b409SSimon J. Gerraty	mul_f256(t1, t1, t2);
0957b409SSimon J. Gerraty	mul_f256(P->y, t1, P->y);
0957b409SSimon J. Gerraty	reduce_final_f256(P->x);
0957b409SSimon J. Gerraty	reduce_final_f256(P->y);
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * Multiply z by 1/z. If z = 0, then this will yield 0, otherwise
0957b409SSimon J. Gerraty	 * this will set z to 1.
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	mul_f256(P->z, P->z, t2);
0957b409SSimon J. Gerraty	reduce_final_f256(P->z);
0957b409SSimon J. Gerraty}
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty/*
0957b409SSimon J. Gerraty * Double a point in P-256. This function works for all valid points,
0957b409SSimon J. Gerraty * including the point at infinity.
0957b409SSimon J. Gerraty */
0957b409SSimon J. Gerratystatic void
0957b409SSimon J. Gerratyp256_double(p256_jacobian *Q)
0957b409SSimon J. Gerraty{
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * Doubling formulas are:
0957b409SSimon J. Gerraty	 *
0957b409SSimon J. Gerraty	 *   s = 4*x*y^2
0957b409SSimon J. Gerraty	 *   m = 3*(x + z^2)*(x - z^2)
0957b409SSimon J. Gerraty	 *   x' = m^2 - 2*s
0957b409SSimon J. Gerraty	 *   y' = m*(s - x') - 8*y^4
0957b409SSimon J. Gerraty	 *   z' = 2*y*z
0957b409SSimon J. Gerraty	 *
0957b409SSimon J. Gerraty	 * These formulas work for all points, including points of order 2
0957b409SSimon J. Gerraty	 * and points at infinity:
0957b409SSimon J. Gerraty	 *   - If y = 0 then z' = 0. But there is no such point in P-256
0957b409SSimon J. Gerraty	 *     anyway.
0957b409SSimon J. Gerraty	 *   - If z = 0 then z' = 0.
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	uint32_t t1[9], t2[9], t3[9], t4[9];
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * Compute z^2 in t1.
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	square_f256(t1, Q->z);
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * Compute x-z^2 in t2 and x+z^2 in t1.
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	add_f256(t2, Q->x, t1);
0957b409SSimon J. Gerraty	sub_f256(t1, Q->x, t1);
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * Compute 3*(x+z^2)*(x-z^2) in t1.
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	mul_f256(t3, t1, t2);
0957b409SSimon J. Gerraty	add_f256(t1, t3, t3);
0957b409SSimon J. Gerraty	add_f256(t1, t3, t1);
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * Compute 4*x*y^2 (in t2) and 2*y^2 (in t3).
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	square_f256(t3, Q->y);
0957b409SSimon J. Gerraty	add_f256(t3, t3, t3);
0957b409SSimon J. Gerraty	mul_f256(t2, Q->x, t3);
0957b409SSimon J. Gerraty	add_f256(t2, t2, t2);
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * Compute x' = m^2 - 2*s.
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	square_f256(Q->x, t1);
0957b409SSimon J. Gerraty	sub_f256(Q->x, Q->x, t2);
0957b409SSimon J. Gerraty	sub_f256(Q->x, Q->x, t2);
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * Compute z' = 2*y*z.
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	mul_f256(t4, Q->y, Q->z);
0957b409SSimon J. Gerraty	add_f256(Q->z, t4, t4);
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * Compute y' = m*(s - x') - 8*y^4. Note that we already have
0957b409SSimon J. Gerraty	 * 2*y^2 in t3.
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	sub_f256(t2, t2, Q->x);
0957b409SSimon J. Gerraty	mul_f256(Q->y, t1, t2);
0957b409SSimon J. Gerraty	square_f256(t4, t3);
0957b409SSimon J. Gerraty	add_f256(t4, t4, t4);
0957b409SSimon J. Gerraty	sub_f256(Q->y, Q->y, t4);
0957b409SSimon J. Gerraty}
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty/*
0957b409SSimon J. Gerraty * Add point P2 to point P1.
0957b409SSimon J. Gerraty *
0957b409SSimon J. Gerraty * This function computes the wrong result in the following cases:
0957b409SSimon J. Gerraty *
0957b409SSimon J. Gerraty *   - If P1 == 0 but P2 != 0
0957b409SSimon J. Gerraty *   - If P1 != 0 but P2 == 0
0957b409SSimon J. Gerraty *   - If P1 == P2
0957b409SSimon J. Gerraty *
0957b409SSimon J. Gerraty * In all three cases, P1 is set to the point at infinity.
0957b409SSimon J. Gerraty *
0957b409SSimon J. Gerraty * Returned value is 0 if one of the following occurs:
0957b409SSimon J. Gerraty *
0957b409SSimon J. Gerraty *   - P1 and P2 have the same Y coordinate
0957b409SSimon J. Gerraty *   - P1 == 0 and P2 == 0
0957b409SSimon J. Gerraty *   - The Y coordinate of one of the points is 0 and the other point is
0957b409SSimon J. Gerraty *     the point at infinity.
0957b409SSimon J. Gerraty *
0957b409SSimon J. Gerraty * The third case cannot actually happen with valid points, since a point
0957b409SSimon J. Gerraty * with Y == 0 is a point of order 2, and there is no point of order 2 on
0957b409SSimon J. Gerraty * curve P-256.
0957b409SSimon J. Gerraty *
0957b409SSimon J. Gerraty * Therefore, assuming that P1 != 0 and P2 != 0 on input, then the caller
0957b409SSimon J. Gerraty * can apply the following:
0957b409SSimon J. Gerraty *
0957b409SSimon J. Gerraty *   - If the result is not the point at infinity, then it is correct.
0957b409SSimon J. Gerraty *   - Otherwise, if the returned value is 1, then this is a case of
0957b409SSimon J. Gerraty *     P1+P2 == 0, so the result is indeed the point at infinity.
0957b409SSimon J. Gerraty *   - Otherwise, P1 == P2, so a "double" operation should have been
0957b409SSimon J. Gerraty *     performed.
0957b409SSimon J. Gerraty */
0957b409SSimon J. Gerratystatic uint32_t
0957b409SSimon J. Gerratyp256_add(p256_jacobian *P1, const p256_jacobian *P2)
0957b409SSimon J. Gerraty{
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * Addtions formulas are:
0957b409SSimon J. Gerraty	 *
0957b409SSimon J. Gerraty	 *   u1 = x1 * z2^2
0957b409SSimon J. Gerraty	 *   u2 = x2 * z1^2
0957b409SSimon J. Gerraty	 *   s1 = y1 * z2^3
0957b409SSimon J. Gerraty	 *   s2 = y2 * z1^3
0957b409SSimon J. Gerraty	 *   h = u2 - u1
0957b409SSimon J. Gerraty	 *   r = s2 - s1
0957b409SSimon J. Gerraty	 *   x3 = r^2 - h^3 - 2 * u1 * h^2
0957b409SSimon J. Gerraty	 *   y3 = r * (u1 * h^2 - x3) - s1 * h^3
0957b409SSimon J. Gerraty	 *   z3 = h * z1 * z2
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	uint32_t t1[9], t2[9], t3[9], t4[9], t5[9], t6[9], t7[9];
0957b409SSimon J. Gerraty	uint32_t ret;
0957b409SSimon J. Gerraty	int i;
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * Compute u1 = x1*z2^2 (in t1) and s1 = y1*z2^3 (in t3).
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	square_f256(t3, P2->z);
0957b409SSimon J. Gerraty	mul_f256(t1, P1->x, t3);
0957b409SSimon J. Gerraty	mul_f256(t4, P2->z, t3);
0957b409SSimon J. Gerraty	mul_f256(t3, P1->y, t4);
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * Compute u2 = x2*z1^2 (in t2) and s2 = y2*z1^3 (in t4).
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	square_f256(t4, P1->z);
0957b409SSimon J. Gerraty	mul_f256(t2, P2->x, t4);
0957b409SSimon J. Gerraty	mul_f256(t5, P1->z, t4);
0957b409SSimon J. Gerraty	mul_f256(t4, P2->y, t5);
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * Compute h = h2 - u1 (in t2) and r = s2 - s1 (in t4).
0957b409SSimon J. Gerraty	 * We need to test whether r is zero, so we will do some extra
0957b409SSimon J. Gerraty	 * reduce.
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	sub_f256(t2, t2, t1);
0957b409SSimon J. Gerraty	sub_f256(t4, t4, t3);
0957b409SSimon J. Gerraty	reduce_final_f256(t4);
0957b409SSimon J. Gerraty	ret = 0;
0957b409SSimon J. Gerraty	for (i = 0; i < 9; i ++) {
0957b409SSimon J. Gerraty		ret |= t4[i];
0957b409SSimon J. Gerraty	}
0957b409SSimon J. Gerraty	ret = (ret | -ret) >> 31;
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * Compute u1*h^2 (in t6) and h^3 (in t5);
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	square_f256(t7, t2);
0957b409SSimon J. Gerraty	mul_f256(t6, t1, t7);
0957b409SSimon J. Gerraty	mul_f256(t5, t7, t2);
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * Compute x3 = r^2 - h^3 - 2*u1*h^2.
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	square_f256(P1->x, t4);
0957b409SSimon J. Gerraty	sub_f256(P1->x, P1->x, t5);
0957b409SSimon J. Gerraty	sub_f256(P1->x, P1->x, t6);
0957b409SSimon J. Gerraty	sub_f256(P1->x, P1->x, t6);
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * Compute y3 = r*(u1*h^2 - x3) - s1*h^3.
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	sub_f256(t6, t6, P1->x);
0957b409SSimon J. Gerraty	mul_f256(P1->y, t4, t6);
0957b409SSimon J. Gerraty	mul_f256(t1, t5, t3);
0957b409SSimon J. Gerraty	sub_f256(P1->y, P1->y, t1);
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * Compute z3 = h*z1*z2.
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	mul_f256(t1, P1->z, P2->z);
0957b409SSimon J. Gerraty	mul_f256(P1->z, t1, t2);
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	return ret;
0957b409SSimon J. Gerraty}
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty/*
0957b409SSimon J. Gerraty * Add point P2 to point P1. This is a specialised function for the
0957b409SSimon J. Gerraty * case when P2 is a non-zero point in affine coordinate.
0957b409SSimon J. Gerraty *
0957b409SSimon J. Gerraty * This function computes the wrong result in the following cases:
0957b409SSimon J. Gerraty *
0957b409SSimon J. Gerraty *   - If P1 == 0
0957b409SSimon J. Gerraty *   - If P1 == P2
0957b409SSimon J. Gerraty *
0957b409SSimon J. Gerraty * In both cases, P1 is set to the point at infinity.
0957b409SSimon J. Gerraty *
0957b409SSimon J. Gerraty * Returned value is 0 if one of the following occurs:
0957b409SSimon J. Gerraty *
0957b409SSimon J. Gerraty *   - P1 and P2 have the same Y coordinate
0957b409SSimon J. Gerraty *   - The Y coordinate of P2 is 0 and P1 is the point at infinity.
0957b409SSimon J. Gerraty *
0957b409SSimon J. Gerraty * The second case cannot actually happen with valid points, since a point
0957b409SSimon J. Gerraty * with Y == 0 is a point of order 2, and there is no point of order 2 on
0957b409SSimon J. Gerraty * curve P-256.
0957b409SSimon J. Gerraty *
0957b409SSimon J. Gerraty * Therefore, assuming that P1 != 0 on input, then the caller
0957b409SSimon J. Gerraty * can apply the following:
0957b409SSimon J. Gerraty *
0957b409SSimon J. Gerraty *   - If the result is not the point at infinity, then it is correct.
0957b409SSimon J. Gerraty *   - Otherwise, if the returned value is 1, then this is a case of
0957b409SSimon J. Gerraty *     P1+P2 == 0, so the result is indeed the point at infinity.
0957b409SSimon J. Gerraty *   - Otherwise, P1 == P2, so a "double" operation should have been
0957b409SSimon J. Gerraty *     performed.
0957b409SSimon J. Gerraty */
0957b409SSimon J. Gerratystatic uint32_t
0957b409SSimon J. Gerratyp256_add_mixed(p256_jacobian *P1, const p256_jacobian *P2)
0957b409SSimon J. Gerraty{
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * Addtions formulas are:
0957b409SSimon J. Gerraty	 *
0957b409SSimon J. Gerraty	 *   u1 = x1
0957b409SSimon J. Gerraty	 *   u2 = x2 * z1^2
0957b409SSimon J. Gerraty	 *   s1 = y1
0957b409SSimon J. Gerraty	 *   s2 = y2 * z1^3
0957b409SSimon J. Gerraty	 *   h = u2 - u1
0957b409SSimon J. Gerraty	 *   r = s2 - s1
0957b409SSimon J. Gerraty	 *   x3 = r^2 - h^3 - 2 * u1 * h^2
0957b409SSimon J. Gerraty	 *   y3 = r * (u1 * h^2 - x3) - s1 * h^3
0957b409SSimon J. Gerraty	 *   z3 = h * z1
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	uint32_t t1[9], t2[9], t3[9], t4[9], t5[9], t6[9], t7[9];
0957b409SSimon J. Gerraty	uint32_t ret;
0957b409SSimon J. Gerraty	int i;
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * Compute u1 = x1 (in t1) and s1 = y1 (in t3).
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	memcpy(t1, P1->x, sizeof t1);
0957b409SSimon J. Gerraty	memcpy(t3, P1->y, sizeof t3);
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * Compute u2 = x2*z1^2 (in t2) and s2 = y2*z1^3 (in t4).
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	square_f256(t4, P1->z);
0957b409SSimon J. Gerraty	mul_f256(t2, P2->x, t4);
0957b409SSimon J. Gerraty	mul_f256(t5, P1->z, t4);
0957b409SSimon J. Gerraty	mul_f256(t4, P2->y, t5);
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * Compute h = h2 - u1 (in t2) and r = s2 - s1 (in t4).
0957b409SSimon J. Gerraty	 * We need to test whether r is zero, so we will do some extra
0957b409SSimon J. Gerraty	 * reduce.
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	sub_f256(t2, t2, t1);
0957b409SSimon J. Gerraty	sub_f256(t4, t4, t3);
0957b409SSimon J. Gerraty	reduce_final_f256(t4);
0957b409SSimon J. Gerraty	ret = 0;
0957b409SSimon J. Gerraty	for (i = 0; i < 9; i ++) {
0957b409SSimon J. Gerraty		ret |= t4[i];
0957b409SSimon J. Gerraty	}
0957b409SSimon J. Gerraty	ret = (ret | -ret) >> 31;
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * Compute u1*h^2 (in t6) and h^3 (in t5);
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	square_f256(t7, t2);
0957b409SSimon J. Gerraty	mul_f256(t6, t1, t7);
0957b409SSimon J. Gerraty	mul_f256(t5, t7, t2);
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * Compute x3 = r^2 - h^3 - 2*u1*h^2.
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	square_f256(P1->x, t4);
0957b409SSimon J. Gerraty	sub_f256(P1->x, P1->x, t5);
0957b409SSimon J. Gerraty	sub_f256(P1->x, P1->x, t6);
0957b409SSimon J. Gerraty	sub_f256(P1->x, P1->x, t6);
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * Compute y3 = r*(u1*h^2 - x3) - s1*h^3.
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	sub_f256(t6, t6, P1->x);
0957b409SSimon J. Gerraty	mul_f256(P1->y, t4, t6);
0957b409SSimon J. Gerraty	mul_f256(t1, t5, t3);
0957b409SSimon J. Gerraty	sub_f256(P1->y, P1->y, t1);
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * Compute z3 = h*z1*z2.
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	mul_f256(P1->z, P1->z, t2);
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	return ret;
0957b409SSimon J. Gerraty}
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty/*
0957b409SSimon J. Gerraty * Decode a P-256 point. This function does not support the point at
0957b409SSimon J. Gerraty * infinity. Returned value is 0 if the point is invalid, 1 otherwise.
0957b409SSimon J. Gerraty */
0957b409SSimon J. Gerratystatic uint32_t
0957b409SSimon J. Gerratyp256_decode(p256_jacobian *P, const void *src, size_t len)
0957b409SSimon J. Gerraty{
0957b409SSimon J. Gerraty	const unsigned char *buf;
0957b409SSimon J. Gerraty	uint32_t tx[9], ty[9], t1[9], t2[9];
0957b409SSimon J. Gerraty	uint32_t bad;
0957b409SSimon J. Gerraty	int i;
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	if (len != 65) {
0957b409SSimon J. Gerraty		return 0;
0957b409SSimon J. Gerraty	}
0957b409SSimon J. Gerraty	buf = src;
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * First byte must be 0x04 (uncompressed format). We could support
0957b409SSimon J. Gerraty	 * "hybrid format" (first byte is 0x06 or 0x07, and encodes the
0957b409SSimon J. Gerraty	 * least significant bit of the Y coordinate), but it is explicitly
0957b409SSimon J. Gerraty	 * forbidden by RFC 5480 (section 2.2).
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	bad = NEQ(buf[0], 0x04);
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * Decode the coordinates, and check that they are both lower
0957b409SSimon J. Gerraty	 * than the modulus.
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	tx[8] = be8_to_le30(tx, buf + 1, 32);
0957b409SSimon J. Gerraty	ty[8] = be8_to_le30(ty, buf + 33, 32);
0957b409SSimon J. Gerraty	bad |= reduce_final_f256(tx);
0957b409SSimon J. Gerraty	bad |= reduce_final_f256(ty);
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * Check curve equation.
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	square_f256(t1, tx);
0957b409SSimon J. Gerraty	mul_f256(t1, tx, t1);
0957b409SSimon J. Gerraty	square_f256(t2, ty);
0957b409SSimon J. Gerraty	sub_f256(t1, t1, tx);
0957b409SSimon J. Gerraty	sub_f256(t1, t1, tx);
0957b409SSimon J. Gerraty	sub_f256(t1, t1, tx);
0957b409SSimon J. Gerraty	add_f256(t1, t1, P256_B);
0957b409SSimon J. Gerraty	sub_f256(t1, t1, t2);
0957b409SSimon J. Gerraty	reduce_final_f256(t1);
0957b409SSimon J. Gerraty	for (i = 0; i < 9; i ++) {
0957b409SSimon J. Gerraty		bad |= t1[i];
0957b409SSimon J. Gerraty	}
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * Copy coordinates to the point structure.
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	memcpy(P->x, tx, sizeof tx);
0957b409SSimon J. Gerraty	memcpy(P->y, ty, sizeof ty);
0957b409SSimon J. Gerraty	memset(P->z, 0, sizeof P->z);
0957b409SSimon J. Gerraty	P->z[0] = 1;
0957b409SSimon J. Gerraty	return EQ(bad, 0);
0957b409SSimon J. Gerraty}
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty/*
0957b409SSimon J. Gerraty * Encode a point into a buffer. This function assumes that the point is
0957b409SSimon J. Gerraty * valid, in affine coordinates, and not the point at infinity.
0957b409SSimon J. Gerraty */
0957b409SSimon J. Gerratystatic void
0957b409SSimon J. Gerratyp256_encode(void *dst, const p256_jacobian *P)
0957b409SSimon J. Gerraty{
0957b409SSimon J. Gerraty	unsigned char *buf;
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	buf = dst;
0957b409SSimon J. Gerraty	buf[0] = 0x04;
0957b409SSimon J. Gerraty	le30_to_be8(buf + 1, 32, P->x);
0957b409SSimon J. Gerraty	le30_to_be8(buf + 33, 32, P->y);
0957b409SSimon J. Gerraty}
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty/*
0957b409SSimon J. Gerraty * Multiply a curve point by an integer. The integer is assumed to be
0957b409SSimon J. Gerraty * lower than the curve order, and the base point must not be the point
0957b409SSimon J. Gerraty * at infinity.
0957b409SSimon J. Gerraty */
0957b409SSimon J. Gerratystatic void
0957b409SSimon J. Gerratyp256_mul(p256_jacobian *P, const unsigned char *x, size_t xlen)
0957b409SSimon J. Gerraty{
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * qz is a flag that is initially 1, and remains equal to 1
0957b409SSimon J. Gerraty	 * as long as the point is the point at infinity.
0957b409SSimon J. Gerraty	 *
0957b409SSimon J. Gerraty	 * We use a 2-bit window to handle multiplier bits by pairs.
0957b409SSimon J. Gerraty	 * The precomputed window really is the points P2 and P3.
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	uint32_t qz;
0957b409SSimon J. Gerraty	p256_jacobian P2, P3, Q, T, U;
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * Compute window values.
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	P2 = *P;
0957b409SSimon J. Gerraty	p256_double(&P2);
0957b409SSimon J. Gerraty	P3 = *P;
0957b409SSimon J. Gerraty	p256_add(&P3, &P2);
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * We start with Q = 0. We process multiplier bits 2 by 2.
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	memset(&Q, 0, sizeof Q);
0957b409SSimon J. Gerraty	qz = 1;
0957b409SSimon J. Gerraty	while (xlen -- > 0) {
0957b409SSimon J. Gerraty		int k;
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty		for (k = 6; k >= 0; k -= 2) {
0957b409SSimon J. Gerraty			uint32_t bits;
0957b409SSimon J. Gerraty			uint32_t bnz;
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty			p256_double(&Q);
0957b409SSimon J. Gerraty			p256_double(&Q);
0957b409SSimon J. Gerraty			T = *P;
0957b409SSimon J. Gerraty			U = Q;
0957b409SSimon J. Gerraty			bits = (*x >> k) & (uint32_t)3;
0957b409SSimon J. Gerraty			bnz = NEQ(bits, 0);
0957b409SSimon J. Gerraty			CCOPY(EQ(bits, 2), &T, &P2, sizeof T);
0957b409SSimon J. Gerraty			CCOPY(EQ(bits, 3), &T, &P3, sizeof T);
0957b409SSimon J. Gerraty			p256_add(&U, &T);
0957b409SSimon J. Gerraty			CCOPY(bnz & qz, &Q, &T, sizeof Q);
0957b409SSimon J. Gerraty			CCOPY(bnz & ~qz, &Q, &U, sizeof Q);
0957b409SSimon J. Gerraty			qz &= ~bnz;
0957b409SSimon J. Gerraty		}
0957b409SSimon J. Gerraty		x ++;
0957b409SSimon J. Gerraty	}
0957b409SSimon J. Gerraty	*P = Q;
0957b409SSimon J. Gerraty}
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty/*
0957b409SSimon J. Gerraty * Precomputed window: k*G points, where G is the curve generator, and k
0957b409SSimon J. Gerraty * is an integer from 1 to 15 (inclusive). The X and Y coordinates of
0957b409SSimon J. Gerraty * the point are encoded as 9 words of 30 bits each (little-endian
0957b409SSimon J. Gerraty * order).
0957b409SSimon J. Gerraty */
0957b409SSimon J. Gerratystatic const uint32_t Gwin[15][18] = {
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	{ 0x1898C296, 0x1284E517, 0x1EB33A0F, 0x00DF604B,
0957b409SSimon J. Gerraty	  0x2440F277, 0x339B958E, 0x04247F8B, 0x347CB84B,
0957b409SSimon J. Gerraty	  0x00006B17, 0x37BF51F5, 0x2ED901A0, 0x3315ECEC,
0957b409SSimon J. Gerraty	  0x338CD5DA, 0x0F9E162B, 0x1FAD29F0, 0x27F9B8EE,
0957b409SSimon J. Gerraty	  0x10B8BF86, 0x00004FE3 },
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	{ 0x07669978, 0x182D23F1, 0x3F21B35A, 0x225A789D,
0957b409SSimon J. Gerraty	  0x351AC3C0, 0x08E00C12, 0x34F7E8A5, 0x1EC62340,
0957b409SSimon J. Gerraty	  0x00007CF2, 0x227873D1, 0x3812DE74, 0x0E982299,
0957b409SSimon J. Gerraty	  0x1F6B798F, 0x3430DBBA, 0x366B1A7D, 0x2D040293,
0957b409SSimon J. Gerraty	  0x154436E3, 0x00000777 },
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	{ 0x06E7FD6C, 0x2D05986F, 0x3ADA985F, 0x31ADC87B,
0957b409SSimon J. Gerraty	  0x0BF165E6, 0x1FBE5475, 0x30A44C8F, 0x3934698C,
0957b409SSimon J. Gerraty	  0x00005ECB, 0x227D5032, 0x29E6C49E, 0x04FB83D9,
0957b409SSimon J. Gerraty	  0x0AAC0D8E, 0x24A2ECD8, 0x2C1B3869, 0x0FF7E374,
0957b409SSimon J. Gerraty	  0x19031266, 0x00008734 },
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	{ 0x2B030852, 0x024C0911, 0x05596EF5, 0x07F8B6DE,
0957b409SSimon J. Gerraty	  0x262BD003, 0x3779967B, 0x08FBBA02, 0x128D4CB4,
0957b409SSimon J. Gerraty	  0x0000E253, 0x184ED8C6, 0x310B08FC, 0x30EE0055,
0957b409SSimon J. Gerraty	  0x3F25B0FC, 0x062D764E, 0x3FB97F6A, 0x33CC719D,
0957b409SSimon J. Gerraty	  0x15D69318, 0x0000E0F1 },
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	{ 0x03D033ED, 0x05552837, 0x35BE5242, 0x2320BF47,
0957b409SSimon J. Gerraty	  0x268FDFEF, 0x13215821, 0x140D2D78, 0x02DE9454,
0957b409SSimon J. Gerraty	  0x00005159, 0x3DA16DA4, 0x0742ED13, 0x0D80888D,
0957b409SSimon J. Gerraty	  0x004BC035, 0x0A79260D, 0x06FCDAFE, 0x2727D8AE,
0957b409SSimon J. Gerraty	  0x1F6A2412, 0x0000E0C1 },
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	{ 0x3C2291A9, 0x1AC2ABA4, 0x3B215B4C, 0x131D037A,
0957b409SSimon J. Gerraty	  0x17DDE302, 0x0C90B2E2, 0x0602C92D, 0x05CA9DA9,
0957b409SSimon J. Gerraty	  0x0000B01A, 0x0FC77FE2, 0x35F1214E, 0x07E16BDF,
0957b409SSimon J. Gerraty	  0x003DDC07, 0x2703791C, 0x3038B7EE, 0x3DAD56FE,
0957b409SSimon J. Gerraty	  0x041D0C8D, 0x0000E85C },
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	{ 0x3187B2A3, 0x0018A1C0, 0x00FEF5B3, 0x3E7E2E2A,
0957b409SSimon J. Gerraty	  0x01FB607E, 0x2CC199F0, 0x37B4625B, 0x0EDBE82F,
0957b409SSimon J. Gerraty	  0x00008E53, 0x01F400B4, 0x15786A1B, 0x3041B21C,
0957b409SSimon J. Gerraty	  0x31CD8CF2, 0x35900053, 0x1A7E0E9B, 0x318366D0,
0957b409SSimon J. Gerraty	  0x076F780C, 0x000073EB },
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	{ 0x1B6FB393, 0x13767707, 0x3CE97DBB, 0x348E2603,
0957b409SSimon J. Gerraty	  0x354CADC1, 0x09D0B4EA, 0x1B053404, 0x1DE76FBA,
0957b409SSimon J. Gerraty	  0x000062D9, 0x0F09957E, 0x295029A8, 0x3E76A78D,
0957b409SSimon J. Gerraty	  0x3B547DAE, 0x27CEE0A2, 0x0575DC45, 0x1D8244FF,
0957b409SSimon J. Gerraty	  0x332F647A, 0x0000AD5A },
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	{ 0x10949EE0, 0x1E7A292E, 0x06DF8B3D, 0x02B2E30B,
0957b409SSimon J. Gerraty	  0x31F8729E, 0x24E35475, 0x30B71878, 0x35EDBFB7,
0957b409SSimon J. Gerraty	  0x0000EA68, 0x0DD048FA, 0x21688929, 0x0DE823FE,
0957b409SSimon J. Gerraty	  0x1C53FAA9, 0x0EA0C84D, 0x052A592A, 0x1FCE7870,
0957b409SSimon J. Gerraty	  0x11325CB2, 0x00002A27 },
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	{ 0x04C5723F, 0x30D81A50, 0x048306E4, 0x329B11C7,
0957b409SSimon J. Gerraty	  0x223FB545, 0x085347A8, 0x2993E591, 0x1B5ACA8E,
0957b409SSimon J. Gerraty	  0x0000CEF6, 0x04AF0773, 0x28D2EEA9, 0x2751EEEC,
0957b409SSimon J. Gerraty	  0x037B4A7F, 0x3B4C1059, 0x08F37674, 0x2AE906E1,
0957b409SSimon J. Gerraty	  0x18A88A6A, 0x00008786 },
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	{ 0x34BC21D1, 0x0CCE474D, 0x15048BF4, 0x1D0BB409,
0957b409SSimon J. Gerraty	  0x021CDA16, 0x20DE76C3, 0x34C59063, 0x04EDE20E,
0957b409SSimon J. Gerraty	  0x00003ED1, 0x282A3740, 0x0BE3BBF3, 0x29889DAE,
0957b409SSimon J. Gerraty	  0x03413697, 0x34C68A09, 0x210EBE93, 0x0C8A224C,
0957b409SSimon J. Gerraty	  0x0826B331, 0x00009099 },
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	{ 0x0624E3C4, 0x140317BA, 0x2F82C99D, 0x260C0A2C,
0957b409SSimon J. Gerraty	  0x25D55179, 0x194DCC83, 0x3D95E462, 0x356F6A05,
0957b409SSimon J. Gerraty	  0x0000741D, 0x0D4481D3, 0x2657FC8B, 0x1BA5CA71,
0957b409SSimon J. Gerraty	  0x3AE44B0D, 0x07B1548E, 0x0E0D5522, 0x05FDC567,
0957b409SSimon J. Gerraty	  0x2D1AA70E, 0x00000770 },
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	{ 0x06072C01, 0x23857675, 0x1EAD58A9, 0x0B8A12D9,
0957b409SSimon J. Gerraty	  0x1EE2FC79, 0x0177CB61, 0x0495A618, 0x20DEB82B,
0957b409SSimon J. Gerraty	  0x0000177C, 0x2FC7BFD8, 0x310EEF8B, 0x1FB4DF39,
0957b409SSimon J. Gerraty	  0x3B8530E8, 0x0F4E7226, 0x0246B6D0, 0x2A558A24,
0957b409SSimon J. Gerraty	  0x163353AF, 0x000063BB },
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	{ 0x24D2920B, 0x1C249DCC, 0x2069C5E5, 0x09AB2F9E,
0957b409SSimon J. Gerraty	  0x36DF3CF1, 0x1991FD0C, 0x062B97A7, 0x1E80070E,
0957b409SSimon J. Gerraty	  0x000054E7, 0x20D0B375, 0x2E9F20BD, 0x35090081,
0957b409SSimon J. Gerraty	  0x1C7A9DDC, 0x22E7C371, 0x087E3016, 0x03175421,
0957b409SSimon J. Gerraty	  0x3C6ECA7D, 0x0000F599 },
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	{ 0x259B9D5F, 0x0D9A318F, 0x23A0EF16, 0x00EBE4B7,
0957b409SSimon J. Gerraty	  0x088265AE, 0x2CDE2666, 0x2BAE7ADF, 0x1371A5C6,
0957b409SSimon J. Gerraty	  0x0000F045, 0x0D034F36, 0x1F967378, 0x1B5FA3F4,
0957b409SSimon J. Gerraty	  0x0EC8739D, 0x1643E62A, 0x1653947E, 0x22D1F4E6,
0957b409SSimon J. Gerraty	  0x0FB8D64B, 0x0000B5B9 }
0957b409SSimon J. Gerraty};
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty/*
0957b409SSimon J. Gerraty * Lookup one of the Gwin[] values, by index. This is constant-time.
0957b409SSimon J. Gerraty */
0957b409SSimon J. Gerratystatic void
0957b409SSimon J. Gerratylookup_Gwin(p256_jacobian *T, uint32_t idx)
0957b409SSimon J. Gerraty{
0957b409SSimon J. Gerraty	uint32_t xy[18];
0957b409SSimon J. Gerraty	uint32_t k;
0957b409SSimon J. Gerraty	size_t u;
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	memset(xy, 0, sizeof xy);
0957b409SSimon J. Gerraty	for (k = 0; k < 15; k ++) {
0957b409SSimon J. Gerraty		uint32_t m;
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty		m = -EQ(idx, k + 1);
0957b409SSimon J. Gerraty		for (u = 0; u < 18; u ++) {
0957b409SSimon J. Gerraty			xy[u] |= m & Gwin[k][u];
0957b409SSimon J. Gerraty		}
0957b409SSimon J. Gerraty	}
0957b409SSimon J. Gerraty	memcpy(T->x, &xy[0], sizeof T->x);
0957b409SSimon J. Gerraty	memcpy(T->y, &xy[9], sizeof T->y);
0957b409SSimon J. Gerraty	memset(T->z, 0, sizeof T->z);
0957b409SSimon J. Gerraty	T->z[0] = 1;
0957b409SSimon J. Gerraty}
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty/*
0957b409SSimon J. Gerraty * Multiply the generator by an integer. The integer is assumed non-zero
0957b409SSimon J. Gerraty * and lower than the curve order.
0957b409SSimon J. Gerraty */
0957b409SSimon J. Gerratystatic void
0957b409SSimon J. Gerratyp256_mulgen(p256_jacobian *P, const unsigned char *x, size_t xlen)
0957b409SSimon J. Gerraty{
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * qz is a flag that is initially 1, and remains equal to 1
0957b409SSimon J. Gerraty	 * as long as the point is the point at infinity.
0957b409SSimon J. Gerraty	 *
0957b409SSimon J. Gerraty	 * We use a 4-bit window to handle multiplier bits by groups
0957b409SSimon J. Gerraty	 * of 4. The precomputed window is constant static data, with
0957b409SSimon J. Gerraty	 * points in affine coordinates; we use a constant-time lookup.
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	p256_jacobian Q;
0957b409SSimon J. Gerraty	uint32_t qz;
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	memset(&Q, 0, sizeof Q);
0957b409SSimon J. Gerraty	qz = 1;
0957b409SSimon J. Gerraty	while (xlen -- > 0) {
0957b409SSimon J. Gerraty		int k;
0957b409SSimon J. Gerraty		unsigned bx;
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty		bx = *x ++;
0957b409SSimon J. Gerraty		for (k = 0; k < 2; k ++) {
0957b409SSimon J. Gerraty			uint32_t bits;
0957b409SSimon J. Gerraty			uint32_t bnz;
0957b409SSimon J. Gerraty			p256_jacobian T, U;
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty			p256_double(&Q);
0957b409SSimon J. Gerraty			p256_double(&Q);
0957b409SSimon J. Gerraty			p256_double(&Q);
0957b409SSimon J. Gerraty			p256_double(&Q);
0957b409SSimon J. Gerraty			bits = (bx >> 4) & 0x0F;
0957b409SSimon J. Gerraty			bnz = NEQ(bits, 0);
0957b409SSimon J. Gerraty			lookup_Gwin(&T, bits);
0957b409SSimon J. Gerraty			U = Q;
0957b409SSimon J. Gerraty			p256_add_mixed(&U, &T);
0957b409SSimon J. Gerraty			CCOPY(bnz & qz, &Q, &T, sizeof Q);
0957b409SSimon J. Gerraty			CCOPY(bnz & ~qz, &Q, &U, sizeof Q);
0957b409SSimon J. Gerraty			qz &= ~bnz;
0957b409SSimon J. Gerraty			bx <<= 4;
0957b409SSimon J. Gerraty		}
0957b409SSimon J. Gerraty	}
0957b409SSimon J. Gerraty	*P = Q;
0957b409SSimon J. Gerraty}
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerratystatic const unsigned char P256_G[] = {
0957b409SSimon J. Gerraty	0x04, 0x6B, 0x17, 0xD1, 0xF2, 0xE1, 0x2C, 0x42, 0x47, 0xF8,
0957b409SSimon J. Gerraty	0xBC, 0xE6, 0xE5, 0x63, 0xA4, 0x40, 0xF2, 0x77, 0x03, 0x7D,
0957b409SSimon J. Gerraty	0x81, 0x2D, 0xEB, 0x33, 0xA0, 0xF4, 0xA1, 0x39, 0x45, 0xD8,
0957b409SSimon J. Gerraty	0x98, 0xC2, 0x96, 0x4F, 0xE3, 0x42, 0xE2, 0xFE, 0x1A, 0x7F,
0957b409SSimon J. Gerraty	0x9B, 0x8E, 0xE7, 0xEB, 0x4A, 0x7C, 0x0F, 0x9E, 0x16, 0x2B,
0957b409SSimon J. Gerraty	0xCE, 0x33, 0x57, 0x6B, 0x31, 0x5E, 0xCE, 0xCB, 0xB6, 0x40,
0957b409SSimon J. Gerraty	0x68, 0x37, 0xBF, 0x51, 0xF5
0957b409SSimon J. Gerraty};
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerratystatic const unsigned char P256_N[] = {
0957b409SSimon J. Gerraty	0xFF, 0xFF, 0xFF, 0xFF, 0x00, 0x00, 0x00, 0x00, 0xFF, 0xFF,
0957b409SSimon J. Gerraty	0xFF, 0xFF, 0xFF, 0xFF, 0xFF, 0xFF, 0xBC, 0xE6, 0xFA, 0xAD,
0957b409SSimon J. Gerraty	0xA7, 0x17, 0x9E, 0x84, 0xF3, 0xB9, 0xCA, 0xC2, 0xFC, 0x63,
0957b409SSimon J. Gerraty	0x25, 0x51
0957b409SSimon J. Gerraty};
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerratystatic const unsigned char *
0957b409SSimon J. Gerratyapi_generator(int curve, size_t *len)
0957b409SSimon J. Gerraty{
0957b409SSimon J. Gerraty	(void)curve;
0957b409SSimon J. Gerraty	*len = sizeof P256_G;
0957b409SSimon J. Gerraty	return P256_G;
0957b409SSimon J. Gerraty}
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerratystatic const unsigned char *
0957b409SSimon J. Gerratyapi_order(int curve, size_t *len)
0957b409SSimon J. Gerraty{
0957b409SSimon J. Gerraty	(void)curve;
0957b409SSimon J. Gerraty	*len = sizeof P256_N;
0957b409SSimon J. Gerraty	return P256_N;
0957b409SSimon J. Gerraty}
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerratystatic size_t
0957b409SSimon J. Gerratyapi_xoff(int curve, size_t *len)
0957b409SSimon J. Gerraty{
0957b409SSimon J. Gerraty	(void)curve;
0957b409SSimon J. Gerraty	*len = 32;
0957b409SSimon J. Gerraty	return 1;
0957b409SSimon J. Gerraty}
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerratystatic uint32_t
0957b409SSimon J. Gerratyapi_mul(unsigned char *G, size_t Glen,
0957b409SSimon J. Gerraty	const unsigned char *x, size_t xlen, int curve)
0957b409SSimon J. Gerraty{
0957b409SSimon J. Gerraty	uint32_t r;
0957b409SSimon J. Gerraty	p256_jacobian P;
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	(void)curve;
*cc9e6590SSimon J. Gerraty	if (Glen != 65) {
*cc9e6590SSimon J. Gerraty		return 0;
*cc9e6590SSimon J. Gerraty	}
0957b409SSimon J. Gerraty	r = p256_decode(&P, G, Glen);
0957b409SSimon J. Gerraty	p256_mul(&P, x, xlen);
0957b409SSimon J. Gerraty	p256_to_affine(&P);
0957b409SSimon J. Gerraty	p256_encode(G, &P);
0957b409SSimon J. Gerraty	return r;
0957b409SSimon J. Gerraty}
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerratystatic size_t
0957b409SSimon J. Gerratyapi_mulgen(unsigned char *R,
0957b409SSimon J. Gerraty	const unsigned char *x, size_t xlen, int curve)
0957b409SSimon J. Gerraty{
0957b409SSimon J. Gerraty	p256_jacobian P;
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	(void)curve;
0957b409SSimon J. Gerraty	p256_mulgen(&P, x, xlen);
0957b409SSimon J. Gerraty	p256_to_affine(&P);
0957b409SSimon J. Gerraty	p256_encode(R, &P);
0957b409SSimon J. Gerraty	return 65;
0957b409SSimon J. Gerraty}
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerratystatic uint32_t
0957b409SSimon J. Gerratyapi_muladd(unsigned char *A, const unsigned char *B, size_t len,
0957b409SSimon J. Gerraty	const unsigned char *x, size_t xlen,
0957b409SSimon J. Gerraty	const unsigned char *y, size_t ylen, int curve)
0957b409SSimon J. Gerraty{
0957b409SSimon J. Gerraty	p256_jacobian P, Q;
0957b409SSimon J. Gerraty	uint32_t r, t, z;
0957b409SSimon J. Gerraty	int i;
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	(void)curve;
*cc9e6590SSimon J. Gerraty	if (len != 65) {
*cc9e6590SSimon J. Gerraty		return 0;
*cc9e6590SSimon J. Gerraty	}
0957b409SSimon J. Gerraty	r = p256_decode(&P, A, len);
0957b409SSimon J. Gerraty	p256_mul(&P, x, xlen);
0957b409SSimon J. Gerraty	if (B == NULL) {
0957b409SSimon J. Gerraty		p256_mulgen(&Q, y, ylen);
0957b409SSimon J. Gerraty	} else {
0957b409SSimon J. Gerraty		r &= p256_decode(&Q, B, len);
0957b409SSimon J. Gerraty		p256_mul(&Q, y, ylen);
0957b409SSimon J. Gerraty	}
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * The final addition may fail in case both points are equal.
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	t = p256_add(&P, &Q);
0957b409SSimon J. Gerraty	reduce_final_f256(P.z);
0957b409SSimon J. Gerraty	z = 0;
0957b409SSimon J. Gerraty	for (i = 0; i < 9; i ++) {
0957b409SSimon J. Gerraty		z |= P.z[i];
0957b409SSimon J. Gerraty	}
0957b409SSimon J. Gerraty	z = EQ(z, 0);
0957b409SSimon J. Gerraty	p256_double(&Q);
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty	/*
0957b409SSimon J. Gerraty	 * If z is 1 then either P+Q = 0 (t = 1) or P = Q (t = 0). So we
0957b409SSimon J. Gerraty	 * have the following:
0957b409SSimon J. Gerraty	 *
0957b409SSimon J. Gerraty	 *   z = 0, t = 0   return P (normal addition)
0957b409SSimon J. Gerraty	 *   z = 0, t = 1   return P (normal addition)
0957b409SSimon J. Gerraty	 *   z = 1, t = 0   return Q (a 'double' case)
0957b409SSimon J. Gerraty	 *   z = 1, t = 1   report an error (P+Q = 0)
0957b409SSimon J. Gerraty	 */
0957b409SSimon J. Gerraty	CCOPY(z & ~t, &P, &Q, sizeof Q);
0957b409SSimon J. Gerraty	p256_to_affine(&P);
0957b409SSimon J. Gerraty	p256_encode(A, &P);
0957b409SSimon J. Gerraty	r &= ~(z & t);
0957b409SSimon J. Gerraty	return r;
0957b409SSimon J. Gerraty}
0957b409SSimon J. Gerraty
0957b409SSimon J. Gerraty/* see bearssl_ec.h */
0957b409SSimon J. Gerratyconst br_ec_impl br_ec_p256_m31 = {
0957b409SSimon J. Gerraty	(uint32_t)0x00800000,
0957b409SSimon J. Gerraty	&api_generator,
0957b409SSimon J. Gerraty	&api_order,
0957b409SSimon J. Gerraty	&api_xoff,
0957b409SSimon J. Gerraty	&api_mul,
0957b409SSimon J. Gerraty	&api_mulgen,
0957b409SSimon J. Gerraty	&api_muladd
0957b409SSimon J. Gerraty};