src/int/i31_moddiv.c

*0957b409SSimon J. Gerraty/*
*0957b409SSimon J. Gerraty * Copyright (c) 2018 Thomas Pornin <pornin@bolet.org>
*0957b409SSimon J. Gerraty *
*0957b409SSimon J. Gerraty * Permission is hereby granted, free of charge, to any person obtaining
*0957b409SSimon J. Gerraty * a copy of this software and associated documentation files (the
*0957b409SSimon J. Gerraty * "Software"), to deal in the Software without restriction, including
*0957b409SSimon J. Gerraty * without limitation the rights to use, copy, modify, merge, publish,
*0957b409SSimon J. Gerraty * distribute, sublicense, and/or sell copies of the Software, and to
*0957b409SSimon J. Gerraty * permit persons to whom the Software is furnished to do so, subject to
*0957b409SSimon J. Gerraty * the following conditions:
*0957b409SSimon J. Gerraty *
*0957b409SSimon J. Gerraty * The above copyright notice and this permission notice shall be
*0957b409SSimon J. Gerraty * included in all copies or substantial portions of the Software.
*0957b409SSimon J. Gerraty *
*0957b409SSimon J. Gerraty * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND,
*0957b409SSimon J. Gerraty * EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF
*0957b409SSimon J. Gerraty * MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND
*0957b409SSimon J. Gerraty * NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS
*0957b409SSimon J. Gerraty * BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN
*0957b409SSimon J. Gerraty * ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN
*0957b409SSimon J. Gerraty * CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
*0957b409SSimon J. Gerraty * SOFTWARE.
*0957b409SSimon J. Gerraty */
*0957b409SSimon J. Gerraty
*0957b409SSimon J. Gerraty#include "inner.h"
*0957b409SSimon J. Gerraty
*0957b409SSimon J. Gerraty/*
*0957b409SSimon J. Gerraty * In this file, we handle big integers with a custom format, i.e.
*0957b409SSimon J. Gerraty * without the usual one-word header. Value is split into 31-bit words,
*0957b409SSimon J. Gerraty * each stored in a 32-bit slot (top bit is zero) in little-endian
*0957b409SSimon J. Gerraty * order. The length (in words) is provided explicitly. In some cases,
*0957b409SSimon J. Gerraty * the value can be negative (using two's complement representation). In
*0957b409SSimon J. Gerraty * some cases, the top word is allowed to have a 32th bit.
*0957b409SSimon J. Gerraty */
*0957b409SSimon J. Gerraty
*0957b409SSimon J. Gerraty/*
*0957b409SSimon J. Gerraty * Negate big integer conditionally. The value consists of 'len' words,
*0957b409SSimon J. Gerraty * with 31 bits in each word (the top bit of each word should be 0,
*0957b409SSimon J. Gerraty * except possibly for the last word). If 'ctl' is 1, the negation is
*0957b409SSimon J. Gerraty * computed; otherwise, if 'ctl' is 0, then the value is unchanged.
*0957b409SSimon J. Gerraty */
*0957b409SSimon J. Gerratystatic void
*0957b409SSimon J. Gerratycond_negate(uint32_t *a, size_t len, uint32_t ctl)
*0957b409SSimon J. Gerraty{
*0957b409SSimon J. Gerraty	size_t k;
*0957b409SSimon J. Gerraty	uint32_t cc, xm;
*0957b409SSimon J. Gerraty
*0957b409SSimon J. Gerraty	cc = ctl;
*0957b409SSimon J. Gerraty	xm = -ctl >> 1;
*0957b409SSimon J. Gerraty	for (k = 0; k < len; k ++) {
*0957b409SSimon J. Gerraty		uint32_t aw;
*0957b409SSimon J. Gerraty
*0957b409SSimon J. Gerraty		aw = a[k];
*0957b409SSimon J. Gerraty		aw = (aw ^ xm) + cc;
*0957b409SSimon J. Gerraty		a[k] = aw & 0x7FFFFFFF;
*0957b409SSimon J. Gerraty		cc = aw >> 31;
*0957b409SSimon J. Gerraty	}
*0957b409SSimon J. Gerraty}
*0957b409SSimon J. Gerraty
*0957b409SSimon J. Gerraty/*
*0957b409SSimon J. Gerraty * Finish modular reduction. Rules on input parameters:
*0957b409SSimon J. Gerraty *
*0957b409SSimon J. Gerraty *   if neg = 1, then -m <= a < 0
*0957b409SSimon J. Gerraty *   if neg = 0, then 0 <= a < 2*m
*0957b409SSimon J. Gerraty *
*0957b409SSimon J. Gerraty * If neg = 0, then the top word of a[] may use 32 bits.
*0957b409SSimon J. Gerraty *
*0957b409SSimon J. Gerraty * Also, modulus m must be odd.
*0957b409SSimon J. Gerraty */
*0957b409SSimon J. Gerratystatic void
*0957b409SSimon J. Gerratyfinish_mod(uint32_t *a, size_t len, const uint32_t *m, uint32_t neg)
*0957b409SSimon J. Gerraty{
*0957b409SSimon J. Gerraty	size_t k;
*0957b409SSimon J. Gerraty	uint32_t cc, xm, ym;
*0957b409SSimon J. Gerraty
*0957b409SSimon J. Gerraty	/*
*0957b409SSimon J. Gerraty	 * First pass: compare a (assumed nonnegative) with m.
*0957b409SSimon J. Gerraty	 * Note that if the final word uses the top extra bit, then
*0957b409SSimon J. Gerraty	 * subtracting m must yield a value less than 2^31, since we
*0957b409SSimon J. Gerraty	 * assumed that a < 2*m.
*0957b409SSimon J. Gerraty	 */
*0957b409SSimon J. Gerraty	cc = 0;
*0957b409SSimon J. Gerraty	for (k = 0; k < len; k ++) {
*0957b409SSimon J. Gerraty		uint32_t aw, mw;
*0957b409SSimon J. Gerraty
*0957b409SSimon J. Gerraty		aw = a[k];
*0957b409SSimon J. Gerraty		mw = m[k];
*0957b409SSimon J. Gerraty		cc = (aw - mw - cc) >> 31;
*0957b409SSimon J. Gerraty	}
*0957b409SSimon J. Gerraty
*0957b409SSimon J. Gerraty	/*
*0957b409SSimon J. Gerraty	 * At this point:
*0957b409SSimon J. Gerraty	 *   if neg = 1, then we must add m (regardless of cc)
*0957b409SSimon J. Gerraty	 *   if neg = 0 and cc = 0, then we must subtract m
*0957b409SSimon J. Gerraty	 *   if neg = 0 and cc = 1, then we must do nothing
*0957b409SSimon J. Gerraty	 */
*0957b409SSimon J. Gerraty	xm = -neg >> 1;
*0957b409SSimon J. Gerraty	ym = -(neg | (1 - cc));
*0957b409SSimon J. Gerraty	cc = neg;
*0957b409SSimon J. Gerraty	for (k = 0; k < len; k ++) {
*0957b409SSimon J. Gerraty		uint32_t aw, mw;
*0957b409SSimon J. Gerraty
*0957b409SSimon J. Gerraty		aw = a[k];
*0957b409SSimon J. Gerraty		mw = (m[k] ^ xm) & ym;
*0957b409SSimon J. Gerraty		aw = aw - mw - cc;
*0957b409SSimon J. Gerraty		a[k] = aw & 0x7FFFFFFF;
*0957b409SSimon J. Gerraty		cc = aw >> 31;
*0957b409SSimon J. Gerraty	}
*0957b409SSimon J. Gerraty}
*0957b409SSimon J. Gerraty
*0957b409SSimon J. Gerraty/*
*0957b409SSimon J. Gerraty * Compute:
*0957b409SSimon J. Gerraty *   a <- (a*pa+b*pb)/(2^31)
*0957b409SSimon J. Gerraty *   b <- (a*qa+b*qb)/(2^31)
*0957b409SSimon J. Gerraty * The division is assumed to be exact (i.e. the low word is dropped).
*0957b409SSimon J. Gerraty * If the final a is negative, then it is negated. Similarly for b.
*0957b409SSimon J. Gerraty * Returned value is the combination of two bits:
*0957b409SSimon J. Gerraty *   bit 0: 1 if a had to be negated, 0 otherwise
*0957b409SSimon J. Gerraty *   bit 1: 1 if b had to be negated, 0 otherwise
*0957b409SSimon J. Gerraty *
*0957b409SSimon J. Gerraty * Factors pa, pb, qa and qb must be at most 2^31 in absolute value.
*0957b409SSimon J. Gerraty * Source integers a and b must be nonnegative; top word is not allowed
*0957b409SSimon J. Gerraty * to contain an extra 32th bit.
*0957b409SSimon J. Gerraty */
*0957b409SSimon J. Gerratystatic uint32_t
*0957b409SSimon J. Gerratyco_reduce(uint32_t *a, uint32_t *b, size_t len,
*0957b409SSimon J. Gerraty	int64_t pa, int64_t pb, int64_t qa, int64_t qb)
*0957b409SSimon J. Gerraty{
*0957b409SSimon J. Gerraty	size_t k;
*0957b409SSimon J. Gerraty	int64_t cca, ccb;
*0957b409SSimon J. Gerraty	uint32_t nega, negb;
*0957b409SSimon J. Gerraty
*0957b409SSimon J. Gerraty	cca = 0;
*0957b409SSimon J. Gerraty	ccb = 0;
*0957b409SSimon J. Gerraty	for (k = 0; k < len; k ++) {
*0957b409SSimon J. Gerraty		uint32_t wa, wb;
*0957b409SSimon J. Gerraty		uint64_t za, zb;
*0957b409SSimon J. Gerraty		uint64_t tta, ttb;
*0957b409SSimon J. Gerraty
*0957b409SSimon J. Gerraty		/*
*0957b409SSimon J. Gerraty		 * Since:
*0957b409SSimon J. Gerraty		 *   |pa| <= 2^31
*0957b409SSimon J. Gerraty		 *   |pb| <= 2^31
*0957b409SSimon J. Gerraty		 *   0 <= wa <= 2^31 - 1
*0957b409SSimon J. Gerraty		 *   0 <= wb <= 2^31 - 1
*0957b409SSimon J. Gerraty		 *   |cca| <= 2^32 - 1
*0957b409SSimon J. Gerraty		 * Then:
*0957b409SSimon J. Gerraty		 *   |za| <= (2^31-1)*(2^32) + (2^32-1) = 2^63 - 1
*0957b409SSimon J. Gerraty		 *
*0957b409SSimon J. Gerraty		 * Thus, the new value of cca is such that |cca| <= 2^32 - 1.
*0957b409SSimon J. Gerraty		 * The same applies to ccb.
*0957b409SSimon J. Gerraty		 */
*0957b409SSimon J. Gerraty		wa = a[k];
*0957b409SSimon J. Gerraty		wb = b[k];
*0957b409SSimon J. Gerraty		za = wa * (uint64_t)pa + wb * (uint64_t)pb + (uint64_t)cca;
*0957b409SSimon J. Gerraty		zb = wa * (uint64_t)qa + wb * (uint64_t)qb + (uint64_t)ccb;
*0957b409SSimon J. Gerraty		if (k > 0) {
*0957b409SSimon J. Gerraty			a[k - 1] = za & 0x7FFFFFFF;
*0957b409SSimon J. Gerraty			b[k - 1] = zb & 0x7FFFFFFF;
*0957b409SSimon J. Gerraty		}
*0957b409SSimon J. Gerraty
*0957b409SSimon J. Gerraty		/*
*0957b409SSimon J. Gerraty		 * For the new values of cca and ccb, we need a signed
*0957b409SSimon J. Gerraty		 * right-shift; since, in C, right-shifting a signed
*0957b409SSimon J. Gerraty		 * negative value is implementation-defined, we use a
*0957b409SSimon J. Gerraty		 * custom portable sign extension expression.
*0957b409SSimon J. Gerraty		 */
*0957b409SSimon J. Gerraty#define M   ((uint64_t)1 << 32)
*0957b409SSimon J. Gerraty		tta = za >> 31;
*0957b409SSimon J. Gerraty		ttb = zb >> 31;
*0957b409SSimon J. Gerraty		tta = (tta ^ M) - M;
*0957b409SSimon J. Gerraty		ttb = (ttb ^ M) - M;
*0957b409SSimon J. Gerraty		cca = *(int64_t *)&tta;
*0957b409SSimon J. Gerraty		ccb = *(int64_t *)&ttb;
*0957b409SSimon J. Gerraty#undef M
*0957b409SSimon J. Gerraty	}
*0957b409SSimon J. Gerraty	a[len - 1] = (uint32_t)cca;
*0957b409SSimon J. Gerraty	b[len - 1] = (uint32_t)ccb;
*0957b409SSimon J. Gerraty
*0957b409SSimon J. Gerraty	nega = (uint32_t)((uint64_t)cca >> 63);
*0957b409SSimon J. Gerraty	negb = (uint32_t)((uint64_t)ccb >> 63);
*0957b409SSimon J. Gerraty	cond_negate(a, len, nega);
*0957b409SSimon J. Gerraty	cond_negate(b, len, negb);
*0957b409SSimon J. Gerraty	return nega | (negb << 1);
*0957b409SSimon J. Gerraty}
*0957b409SSimon J. Gerraty
*0957b409SSimon J. Gerraty/*
*0957b409SSimon J. Gerraty * Compute:
*0957b409SSimon J. Gerraty *   a <- (a*pa+b*pb)/(2^31) mod m
*0957b409SSimon J. Gerraty *   b <- (a*qa+b*qb)/(2^31) mod m
*0957b409SSimon J. Gerraty *
*0957b409SSimon J. Gerraty * m0i is equal to -1/m[0] mod 2^31.
*0957b409SSimon J. Gerraty *
*0957b409SSimon J. Gerraty * Factors pa, pb, qa and qb must be at most 2^31 in absolute value.
*0957b409SSimon J. Gerraty * Source integers a and b must be nonnegative; top word is not allowed
*0957b409SSimon J. Gerraty * to contain an extra 32th bit.
*0957b409SSimon J. Gerraty */
*0957b409SSimon J. Gerratystatic void
*0957b409SSimon J. Gerratyco_reduce_mod(uint32_t *a, uint32_t *b, size_t len,
*0957b409SSimon J. Gerraty	int64_t pa, int64_t pb, int64_t qa, int64_t qb,
*0957b409SSimon J. Gerraty	const uint32_t *m, uint32_t m0i)
*0957b409SSimon J. Gerraty{
*0957b409SSimon J. Gerraty	size_t k;
*0957b409SSimon J. Gerraty	int64_t cca, ccb;
*0957b409SSimon J. Gerraty	uint32_t fa, fb;
*0957b409SSimon J. Gerraty
*0957b409SSimon J. Gerraty	cca = 0;
*0957b409SSimon J. Gerraty	ccb = 0;
*0957b409SSimon J. Gerraty	fa = ((a[0] * (uint32_t)pa + b[0] * (uint32_t)pb) * m0i) & 0x7FFFFFFF;
*0957b409SSimon J. Gerraty	fb = ((a[0] * (uint32_t)qa + b[0] * (uint32_t)qb) * m0i) & 0x7FFFFFFF;
*0957b409SSimon J. Gerraty	for (k = 0; k < len; k ++) {
*0957b409SSimon J. Gerraty		uint32_t wa, wb;
*0957b409SSimon J. Gerraty		uint64_t za, zb;
*0957b409SSimon J. Gerraty		uint64_t tta, ttb;
*0957b409SSimon J. Gerraty
*0957b409SSimon J. Gerraty		/*
*0957b409SSimon J. Gerraty		 * In this loop, carries 'cca' and 'ccb' always fit on
*0957b409SSimon J. Gerraty		 * 33 bits (in absolute value).
*0957b409SSimon J. Gerraty		 */
*0957b409SSimon J. Gerraty		wa = a[k];
*0957b409SSimon J. Gerraty		wb = b[k];
*0957b409SSimon J. Gerraty		za = wa * (uint64_t)pa + wb * (uint64_t)pb
*0957b409SSimon J. Gerraty			+ m[k] * (uint64_t)fa + (uint64_t)cca;
*0957b409SSimon J. Gerraty		zb = wa * (uint64_t)qa + wb * (uint64_t)qb
*0957b409SSimon J. Gerraty			+ m[k] * (uint64_t)fb + (uint64_t)ccb;
*0957b409SSimon J. Gerraty		if (k > 0) {
*0957b409SSimon J. Gerraty			a[k - 1] = (uint32_t)za & 0x7FFFFFFF;
*0957b409SSimon J. Gerraty			b[k - 1] = (uint32_t)zb & 0x7FFFFFFF;
*0957b409SSimon J. Gerraty		}
*0957b409SSimon J. Gerraty
*0957b409SSimon J. Gerraty#define M   ((uint64_t)1 << 32)
*0957b409SSimon J. Gerraty		tta = za >> 31;
*0957b409SSimon J. Gerraty		ttb = zb >> 31;
*0957b409SSimon J. Gerraty		tta = (tta ^ M) - M;
*0957b409SSimon J. Gerraty		ttb = (ttb ^ M) - M;
*0957b409SSimon J. Gerraty		cca = *(int64_t *)&tta;
*0957b409SSimon J. Gerraty		ccb = *(int64_t *)&ttb;
*0957b409SSimon J. Gerraty#undef M
*0957b409SSimon J. Gerraty	}
*0957b409SSimon J. Gerraty	a[len - 1] = (uint32_t)cca;
*0957b409SSimon J. Gerraty	b[len - 1] = (uint32_t)ccb;
*0957b409SSimon J. Gerraty
*0957b409SSimon J. Gerraty	/*
*0957b409SSimon J. Gerraty	 * At this point:
*0957b409SSimon J. Gerraty	 *   -m <= a < 2*m
*0957b409SSimon J. Gerraty	 *   -m <= b < 2*m
*0957b409SSimon J. Gerraty	 * (this is a case of Montgomery reduction)
*0957b409SSimon J. Gerraty	 * The top word of 'a' and 'b' may have a 32-th bit set.
*0957b409SSimon J. Gerraty	 * We may have to add or subtract the modulus.
*0957b409SSimon J. Gerraty	 */
*0957b409SSimon J. Gerraty	finish_mod(a, len, m, (uint32_t)((uint64_t)cca >> 63));
*0957b409SSimon J. Gerraty	finish_mod(b, len, m, (uint32_t)((uint64_t)ccb >> 63));
*0957b409SSimon J. Gerraty}
*0957b409SSimon J. Gerraty
*0957b409SSimon J. Gerraty/* see inner.h */
*0957b409SSimon J. Gerratyuint32_t
*0957b409SSimon J. Gerratybr_i31_moddiv(uint32_t *x, const uint32_t *y, const uint32_t *m, uint32_t m0i,
*0957b409SSimon J. Gerraty	uint32_t *t)
*0957b409SSimon J. Gerraty{
*0957b409SSimon J. Gerraty	/*
*0957b409SSimon J. Gerraty	 * Algorithm is an extended binary GCD. We maintain four values
*0957b409SSimon J. Gerraty	 * a, b, u and v, with the following invariants:
*0957b409SSimon J. Gerraty	 *
*0957b409SSimon J. Gerraty	 *   a * x = y * u mod m
*0957b409SSimon J. Gerraty	 *   b * x = y * v mod m
*0957b409SSimon J. Gerraty	 *
*0957b409SSimon J. Gerraty	 * Starting values are:
*0957b409SSimon J. Gerraty	 *
*0957b409SSimon J. Gerraty	 *   a = y
*0957b409SSimon J. Gerraty	 *   b = m
*0957b409SSimon J. Gerraty	 *   u = x
*0957b409SSimon J. Gerraty	 *   v = 0
*0957b409SSimon J. Gerraty	 *
*0957b409SSimon J. Gerraty	 * The formal definition of the algorithm is a sequence of steps:
*0957b409SSimon J. Gerraty	 *
*0957b409SSimon J. Gerraty	 *   - If a is even, then a <- a/2 and u <- u/2 mod m.
*0957b409SSimon J. Gerraty	 *   - Otherwise, if b is even, then b <- b/2 and v <- v/2 mod m.
*0957b409SSimon J. Gerraty	 *   - Otherwise, if a > b, then a <- (a-b)/2 and u <- (u-v)/2 mod m.
*0957b409SSimon J. Gerraty	 *   - Otherwise, b <- (b-a)/2 and v <- (v-u)/2 mod m.
*0957b409SSimon J. Gerraty	 *
*0957b409SSimon J. Gerraty	 * Algorithm stops when a = b. At that point, they both are equal
*0957b409SSimon J. Gerraty	 * to GCD(y,m); the modular division succeeds if that value is 1.
*0957b409SSimon J. Gerraty	 * The result of the modular division is then u (or v: both are
*0957b409SSimon J. Gerraty	 * equal at that point).
*0957b409SSimon J. Gerraty	 *
*0957b409SSimon J. Gerraty	 * Each step makes either a or b shrink by at least one bit; hence,
*0957b409SSimon J. Gerraty	 * if m has bit length k bits, then 2k-2 steps are sufficient.
*0957b409SSimon J. Gerraty	 *
*0957b409SSimon J. Gerraty	 *
*0957b409SSimon J. Gerraty	 * Though complexity is quadratic in the size of m, the bit-by-bit
*0957b409SSimon J. Gerraty	 * processing is not very efficient. We can speed up processing by
*0957b409SSimon J. Gerraty	 * remarking that the decisions are taken based only on observation
*0957b409SSimon J. Gerraty	 * of the top and low bits of a and b.
*0957b409SSimon J. Gerraty	 *
*0957b409SSimon J. Gerraty	 * In the loop below, at each iteration, we use the two top words
*0957b409SSimon J. Gerraty	 * of a and b, and the low words of a and b, to compute reduction
*0957b409SSimon J. Gerraty	 * parameters pa, pb, qa and qb such that the new values for a
*0957b409SSimon J. Gerraty	 * and b are:
*0957b409SSimon J. Gerraty	 *
*0957b409SSimon J. Gerraty	 *   a' = (a*pa + b*pb) / (2^31)
*0957b409SSimon J. Gerraty	 *   b' = (a*qa + b*qb) / (2^31)
*0957b409SSimon J. Gerraty	 *
*0957b409SSimon J. Gerraty	 * the division being exact.
*0957b409SSimon J. Gerraty	 *
*0957b409SSimon J. Gerraty	 * Since the choices are based on the top words, they may be slightly
*0957b409SSimon J. Gerraty	 * off, requiring an optional correction: if a' < 0, then we replace
*0957b409SSimon J. Gerraty	 * pa with -pa, and pb with -pb. The total length of a and b is
*0957b409SSimon J. Gerraty	 * thus reduced by at least 30 bits at each iteration.
*0957b409SSimon J. Gerraty	 *
*0957b409SSimon J. Gerraty	 * The stopping conditions are still the same, though: when a
*0957b409SSimon J. Gerraty	 * and b become equal, they must be both odd (since m is odd,
*0957b409SSimon J. Gerraty	 * the GCD cannot be even), therefore the next operation is a
*0957b409SSimon J. Gerraty	 * subtraction, and one of the values becomes 0. At that point,
*0957b409SSimon J. Gerraty	 * nothing else happens, i.e. one value is stuck at 0, and the
*0957b409SSimon J. Gerraty	 * other one is the GCD.
*0957b409SSimon J. Gerraty	 */
*0957b409SSimon J. Gerraty	size_t len, k;
*0957b409SSimon J. Gerraty	uint32_t *a, *b, *u, *v;
*0957b409SSimon J. Gerraty	uint32_t num, r;
*0957b409SSimon J. Gerraty
*0957b409SSimon J. Gerraty	len = (m[0] + 31) >> 5;
*0957b409SSimon J. Gerraty	a = t;
*0957b409SSimon J. Gerraty	b = a + len;
*0957b409SSimon J. Gerraty	u = x + 1;
*0957b409SSimon J. Gerraty	v = b + len;
*0957b409SSimon J. Gerraty	memcpy(a, y + 1, len * sizeof *y);
*0957b409SSimon J. Gerraty	memcpy(b, m + 1, len * sizeof *m);
*0957b409SSimon J. Gerraty	memset(v, 0, len * sizeof *v);
*0957b409SSimon J. Gerraty
*0957b409SSimon J. Gerraty	/*
*0957b409SSimon J. Gerraty	 * Loop below ensures that a and b are reduced by some bits each,
*0957b409SSimon J. Gerraty	 * for a total of at least 30 bits.
*0957b409SSimon J. Gerraty	 */
*0957b409SSimon J. Gerraty	for (num = ((m[0] - (m[0] >> 5)) << 1) + 30; num >= 30; num -= 30) {
*0957b409SSimon J. Gerraty		size_t j;
*0957b409SSimon J. Gerraty		uint32_t c0, c1;
*0957b409SSimon J. Gerraty		uint32_t a0, a1, b0, b1;
*0957b409SSimon J. Gerraty		uint64_t a_hi, b_hi;
*0957b409SSimon J. Gerraty		uint32_t a_lo, b_lo;
*0957b409SSimon J. Gerraty		int64_t pa, pb, qa, qb;
*0957b409SSimon J. Gerraty		int i;
*0957b409SSimon J. Gerraty
*0957b409SSimon J. Gerraty		/*
*0957b409SSimon J. Gerraty		 * Extract top words of a and b. If j is the highest
*0957b409SSimon J. Gerraty		 * index >= 1 such that a[j] != 0 or b[j] != 0, then we want
*0957b409SSimon J. Gerraty		 * (a[j] << 31) + a[j - 1], and (b[j] << 31) + b[j - 1].
*0957b409SSimon J. Gerraty		 * If a and b are down to one word each, then we use a[0]
*0957b409SSimon J. Gerraty		 * and b[0].
*0957b409SSimon J. Gerraty		 */
*0957b409SSimon J. Gerraty		c0 = (uint32_t)-1;
*0957b409SSimon J. Gerraty		c1 = (uint32_t)-1;
*0957b409SSimon J. Gerraty		a0 = 0;
*0957b409SSimon J. Gerraty		a1 = 0;
*0957b409SSimon J. Gerraty		b0 = 0;
*0957b409SSimon J. Gerraty		b1 = 0;
*0957b409SSimon J. Gerraty		j = len;
*0957b409SSimon J. Gerraty		while (j -- > 0) {
*0957b409SSimon J. Gerraty			uint32_t aw, bw;
*0957b409SSimon J. Gerraty
*0957b409SSimon J. Gerraty			aw = a[j];
*0957b409SSimon J. Gerraty			bw = b[j];
*0957b409SSimon J. Gerraty			a0 ^= (a0 ^ aw) & c0;
*0957b409SSimon J. Gerraty			a1 ^= (a1 ^ aw) & c1;
*0957b409SSimon J. Gerraty			b0 ^= (b0 ^ bw) & c0;
*0957b409SSimon J. Gerraty			b1 ^= (b1 ^ bw) & c1;
*0957b409SSimon J. Gerraty			c1 = c0;
*0957b409SSimon J. Gerraty			c0 &= (((aw | bw) + 0x7FFFFFFF) >> 31) - (uint32_t)1;
*0957b409SSimon J. Gerraty		}
*0957b409SSimon J. Gerraty
*0957b409SSimon J. Gerraty		/*
*0957b409SSimon J. Gerraty		 * If c1 = 0, then we grabbed two words for a and b.
*0957b409SSimon J. Gerraty		 * If c1 != 0 but c0 = 0, then we grabbed one word. It
*0957b409SSimon J. Gerraty		 * is not possible that c1 != 0 and c0 != 0, because that
*0957b409SSimon J. Gerraty		 * would mean that both integers are zero.
*0957b409SSimon J. Gerraty		 */
*0957b409SSimon J. Gerraty		a1 |= a0 & c1;
*0957b409SSimon J. Gerraty		a0 &= ~c1;
*0957b409SSimon J. Gerraty		b1 |= b0 & c1;
*0957b409SSimon J. Gerraty		b0 &= ~c1;
*0957b409SSimon J. Gerraty		a_hi = ((uint64_t)a0 << 31) + a1;
*0957b409SSimon J. Gerraty		b_hi = ((uint64_t)b0 << 31) + b1;
*0957b409SSimon J. Gerraty		a_lo = a[0];
*0957b409SSimon J. Gerraty		b_lo = b[0];
*0957b409SSimon J. Gerraty
*0957b409SSimon J. Gerraty		/*
*0957b409SSimon J. Gerraty		 * Compute reduction factors:
*0957b409SSimon J. Gerraty		 *
*0957b409SSimon J. Gerraty		 *   a' = a*pa + b*pb
*0957b409SSimon J. Gerraty		 *   b' = a*qa + b*qb
*0957b409SSimon J. Gerraty		 *
*0957b409SSimon J. Gerraty		 * such that a' and b' are both multiple of 2^31, but are
*0957b409SSimon J. Gerraty		 * only marginally larger than a and b.
*0957b409SSimon J. Gerraty		 */
*0957b409SSimon J. Gerraty		pa = 1;
*0957b409SSimon J. Gerraty		pb = 0;
*0957b409SSimon J. Gerraty		qa = 0;
*0957b409SSimon J. Gerraty		qb = 1;
*0957b409SSimon J. Gerraty		for (i = 0; i < 31; i ++) {
*0957b409SSimon J. Gerraty			/*
*0957b409SSimon J. Gerraty			 * At each iteration:
*0957b409SSimon J. Gerraty			 *
*0957b409SSimon J. Gerraty			 *   a <- (a-b)/2 if: a is odd, b is odd, a_hi > b_hi
*0957b409SSimon J. Gerraty			 *   b <- (b-a)/2 if: a is odd, b is odd, a_hi <= b_hi
*0957b409SSimon J. Gerraty			 *   a <- a/2 if: a is even
*0957b409SSimon J. Gerraty			 *   b <- b/2 if: a is odd, b is even
*0957b409SSimon J. Gerraty			 *
*0957b409SSimon J. Gerraty			 * We multiply a_lo and b_lo by 2 at each
*0957b409SSimon J. Gerraty			 * iteration, thus a division by 2 really is a
*0957b409SSimon J. Gerraty			 * non-multiplication by 2.
*0957b409SSimon J. Gerraty			 */
*0957b409SSimon J. Gerraty			uint32_t r, oa, ob, cAB, cBA, cA;
*0957b409SSimon J. Gerraty			uint64_t rz;
*0957b409SSimon J. Gerraty
*0957b409SSimon J. Gerraty			/*
*0957b409SSimon J. Gerraty			 * r = GT(a_hi, b_hi)
*0957b409SSimon J. Gerraty			 * But the GT() function works on uint32_t operands,
*0957b409SSimon J. Gerraty			 * so we inline a 64-bit version here.
*0957b409SSimon J. Gerraty			 */
*0957b409SSimon J. Gerraty			rz = b_hi - a_hi;
*0957b409SSimon J. Gerraty			r = (uint32_t)((rz ^ ((a_hi ^ b_hi)
*0957b409SSimon J. Gerraty				& (a_hi ^ rz))) >> 63);
*0957b409SSimon J. Gerraty
*0957b409SSimon J. Gerraty			/*
*0957b409SSimon J. Gerraty			 * cAB = 1 if b must be subtracted from a
*0957b409SSimon J. Gerraty			 * cBA = 1 if a must be subtracted from b
*0957b409SSimon J. Gerraty			 * cA = 1 if a is divided by 2, 0 otherwise
*0957b409SSimon J. Gerraty			 *
*0957b409SSimon J. Gerraty			 * Rules:
*0957b409SSimon J. Gerraty			 *
*0957b409SSimon J. Gerraty			 *   cAB and cBA cannot be both 1.
*0957b409SSimon J. Gerraty			 *   if a is not divided by 2, b is.
*0957b409SSimon J. Gerraty			 */
*0957b409SSimon J. Gerraty			oa = (a_lo >> i) & 1;
*0957b409SSimon J. Gerraty			ob = (b_lo >> i) & 1;
*0957b409SSimon J. Gerraty			cAB = oa & ob & r;
*0957b409SSimon J. Gerraty			cBA = oa & ob & NOT(r);
*0957b409SSimon J. Gerraty			cA = cAB | NOT(oa);
*0957b409SSimon J. Gerraty
*0957b409SSimon J. Gerraty			/*
*0957b409SSimon J. Gerraty			 * Conditional subtractions.
*0957b409SSimon J. Gerraty			 */
*0957b409SSimon J. Gerraty			a_lo -= b_lo & -cAB;
*0957b409SSimon J. Gerraty			a_hi -= b_hi & -(uint64_t)cAB;
*0957b409SSimon J. Gerraty			pa -= qa & -(int64_t)cAB;
*0957b409SSimon J. Gerraty			pb -= qb & -(int64_t)cAB;
*0957b409SSimon J. Gerraty			b_lo -= a_lo & -cBA;
*0957b409SSimon J. Gerraty			b_hi -= a_hi & -(uint64_t)cBA;
*0957b409SSimon J. Gerraty			qa -= pa & -(int64_t)cBA;
*0957b409SSimon J. Gerraty			qb -= pb & -(int64_t)cBA;
*0957b409SSimon J. Gerraty
*0957b409SSimon J. Gerraty			/*
*0957b409SSimon J. Gerraty			 * Shifting.
*0957b409SSimon J. Gerraty			 */
*0957b409SSimon J. Gerraty			a_lo += a_lo & (cA - 1);
*0957b409SSimon J. Gerraty			pa += pa & ((int64_t)cA - 1);
*0957b409SSimon J. Gerraty			pb += pb & ((int64_t)cA - 1);
*0957b409SSimon J. Gerraty			a_hi ^= (a_hi ^ (a_hi >> 1)) & -(uint64_t)cA;
*0957b409SSimon J. Gerraty			b_lo += b_lo & -cA;
*0957b409SSimon J. Gerraty			qa += qa & -(int64_t)cA;
*0957b409SSimon J. Gerraty			qb += qb & -(int64_t)cA;
*0957b409SSimon J. Gerraty			b_hi ^= (b_hi ^ (b_hi >> 1)) & ((uint64_t)cA - 1);
*0957b409SSimon J. Gerraty		}
*0957b409SSimon J. Gerraty
*0957b409SSimon J. Gerraty		/*
*0957b409SSimon J. Gerraty		 * Replace a and b with new values a' and b'.
*0957b409SSimon J. Gerraty		 */
*0957b409SSimon J. Gerraty		r = co_reduce(a, b, len, pa, pb, qa, qb);
*0957b409SSimon J. Gerraty		pa -= pa * ((r & 1) << 1);
*0957b409SSimon J. Gerraty		pb -= pb * ((r & 1) << 1);
*0957b409SSimon J. Gerraty		qa -= qa * (r & 2);
*0957b409SSimon J. Gerraty		qb -= qb * (r & 2);
*0957b409SSimon J. Gerraty		co_reduce_mod(u, v, len, pa, pb, qa, qb, m + 1, m0i);
*0957b409SSimon J. Gerraty	}
*0957b409SSimon J. Gerraty
*0957b409SSimon J. Gerraty	/*
*0957b409SSimon J. Gerraty	 * Now one of the arrays should be 0, and the other contains
*0957b409SSimon J. Gerraty	 * the GCD. If a is 0, then u is 0 as well, and v contains
*0957b409SSimon J. Gerraty	 * the division result.
*0957b409SSimon J. Gerraty	 * Result is correct if and only if GCD is 1.
*0957b409SSimon J. Gerraty	 */
*0957b409SSimon J. Gerraty	r = (a[0] | b[0]) ^ 1;
*0957b409SSimon J. Gerraty	u[0] |= v[0];
*0957b409SSimon J. Gerraty	for (k = 1; k < len; k ++) {
*0957b409SSimon J. Gerraty		r |= a[k] | b[k];
*0957b409SSimon J. Gerraty		u[k] |= v[k];
*0957b409SSimon J. Gerraty	}
*0957b409SSimon J. Gerraty	return EQ0(r);
*0957b409SSimon J. Gerraty}