msun/src/e_sqrt.c

3a8617a8SJordan K. Hubbard/* @(#)e_sqrt.c 5.1 93/09/24 */
3a8617a8SJordan K. Hubbard/*
3a8617a8SJordan K. Hubbard * ====================================================
3a8617a8SJordan K. Hubbard * Copyright (C) 1993 by Sun Microsystems, Inc. All rights reserved.
3a8617a8SJordan K. Hubbard *
3a8617a8SJordan K. Hubbard * Developed at SunPro, a Sun Microsystems, Inc. business.
3a8617a8SJordan K. Hubbard * Permission to use, copy, modify, and distribute this
3a8617a8SJordan K. Hubbard * software is freely granted, provided that this notice
3a8617a8SJordan K. Hubbard * is preserved.
3a8617a8SJordan K. Hubbard * ====================================================
3a8617a8SJordan K. Hubbard */
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard#ifndef lint
3a8617a8SJordan K. Hubbardstatic char rcsid[] = "$Id: e_sqrt.c,v 1.6 1994/08/18 23:06:06 jtc Exp $";
3a8617a8SJordan K. Hubbard#endif
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard/* __ieee754_sqrt(x)
3a8617a8SJordan K. Hubbard * Return correctly rounded sqrt.
3a8617a8SJordan K. Hubbard *           ------------------------------------------
3a8617a8SJordan K. Hubbard *	     |  Use the hardware sqrt if you have one |
3a8617a8SJordan K. Hubbard *           ------------------------------------------
3a8617a8SJordan K. Hubbard * Method:
3a8617a8SJordan K. Hubbard *   Bit by bit method using integer arithmetic. (Slow, but portable)
3a8617a8SJordan K. Hubbard *   1. Normalization
3a8617a8SJordan K. Hubbard *	Scale x to y in [1,4) with even powers of 2:
3a8617a8SJordan K. Hubbard *	find an integer k such that  1 <= (y=x*2^(2k)) < 4, then
3a8617a8SJordan K. Hubbard *		sqrt(x) = 2^k * sqrt(y)
3a8617a8SJordan K. Hubbard *   2. Bit by bit computation
3a8617a8SJordan K. Hubbard *	Let q  = sqrt(y) truncated to i bit after binary point (q = 1),
3a8617a8SJordan K. Hubbard *	     i							 0
3a8617a8SJordan K. Hubbard *                                     i+1         2
3a8617a8SJordan K. Hubbard *	    s  = 2*q , and	y  =  2   * ( y - q  ).		(1)
3a8617a8SJordan K. Hubbard *	     i      i            i                 i
3a8617a8SJordan K. Hubbard *
3a8617a8SJordan K. Hubbard *	To compute q    from q , one checks whether
3a8617a8SJordan K. Hubbard *		    i+1       i
3a8617a8SJordan K. Hubbard *
3a8617a8SJordan K. Hubbard *			      -(i+1) 2
3a8617a8SJordan K. Hubbard *			(q + 2      ) <= y.			(2)
3a8617a8SJordan K. Hubbard *     			  i
3a8617a8SJordan K. Hubbard *							      -(i+1)
3a8617a8SJordan K. Hubbard *	If (2) is false, then q   = q ; otherwise q   = q  + 2      .
3a8617a8SJordan K. Hubbard *		 	       i+1   i             i+1   i
3a8617a8SJordan K. Hubbard *
3a8617a8SJordan K. Hubbard *	With some algebric manipulation, it is not difficult to see
3a8617a8SJordan K. Hubbard *	that (2) is equivalent to
3a8617a8SJordan K. Hubbard *                             -(i+1)
3a8617a8SJordan K. Hubbard *			s  +  2       <= y			(3)
3a8617a8SJordan K. Hubbard *			 i                i
3a8617a8SJordan K. Hubbard *
3a8617a8SJordan K. Hubbard *	The advantage of (3) is that s  and y  can be computed by
3a8617a8SJordan K. Hubbard *				      i      i
3a8617a8SJordan K. Hubbard *	the following recurrence formula:
3a8617a8SJordan K. Hubbard *	    if (3) is false
3a8617a8SJordan K. Hubbard *
3a8617a8SJordan K. Hubbard *	    s     =  s  ,	y    = y   ;			(4)
3a8617a8SJordan K. Hubbard *	     i+1      i		 i+1    i
3a8617a8SJordan K. Hubbard *
3a8617a8SJordan K. Hubbard *	    otherwise,
3a8617a8SJordan K. Hubbard *                         -i                     -(i+1)
3a8617a8SJordan K. Hubbard *	    s	  =  s  + 2  ,  y    = y  -  s  - 2  		(5)
3a8617a8SJordan K. Hubbard *           i+1      i          i+1    i     i
3a8617a8SJordan K. Hubbard *
3a8617a8SJordan K. Hubbard *	One may easily use induction to prove (4) and (5).
3a8617a8SJordan K. Hubbard *	Note. Since the left hand side of (3) contain only i+2 bits,
3a8617a8SJordan K. Hubbard *	      it does not necessary to do a full (53-bit) comparison
3a8617a8SJordan K. Hubbard *	      in (3).
3a8617a8SJordan K. Hubbard *   3. Final rounding
3a8617a8SJordan K. Hubbard *	After generating the 53 bits result, we compute one more bit.
3a8617a8SJordan K. Hubbard *	Together with the remainder, we can decide whether the
3a8617a8SJordan K. Hubbard *	result is exact, bigger than 1/2ulp, or less than 1/2ulp
3a8617a8SJordan K. Hubbard *	(it will never equal to 1/2ulp).
3a8617a8SJordan K. Hubbard *	The rounding mode can be detected by checking whether
3a8617a8SJordan K. Hubbard *	huge + tiny is equal to huge, and whether huge - tiny is
3a8617a8SJordan K. Hubbard *	equal to huge for some floating point number "huge" and "tiny".
3a8617a8SJordan K. Hubbard *
3a8617a8SJordan K. Hubbard * Special cases:
3a8617a8SJordan K. Hubbard *	sqrt(+-0) = +-0 	... exact
3a8617a8SJordan K. Hubbard *	sqrt(inf) = inf
3a8617a8SJordan K. Hubbard *	sqrt(-ve) = NaN		... with invalid signal
3a8617a8SJordan K. Hubbard *	sqrt(NaN) = NaN		... with invalid signal for signaling NaN
3a8617a8SJordan K. Hubbard *
3a8617a8SJordan K. Hubbard * Other methods : see the appended file at the end of the program below.
3a8617a8SJordan K. Hubbard *---------------
3a8617a8SJordan K. Hubbard */
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard#include "math.h"
3a8617a8SJordan K. Hubbard#include "math_private.h"
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard#ifdef __STDC__
3a8617a8SJordan K. Hubbardstatic	const double	one	= 1.0, tiny=1.0e-300;
3a8617a8SJordan K. Hubbard#else
3a8617a8SJordan K. Hubbardstatic	double	one	= 1.0, tiny=1.0e-300;
3a8617a8SJordan K. Hubbard#endif
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard#ifdef __STDC__
3a8617a8SJordan K. Hubbard	double __ieee754_sqrt(double x)
3a8617a8SJordan K. Hubbard#else
3a8617a8SJordan K. Hubbard	double __ieee754_sqrt(x)
3a8617a8SJordan K. Hubbard	double x;
3a8617a8SJordan K. Hubbard#endif
3a8617a8SJordan K. Hubbard{
3a8617a8SJordan K. Hubbard	double z;
3a8617a8SJordan K. Hubbard	int32_t sign = (int)0x80000000;
3a8617a8SJordan K. Hubbard	int32_t ix0,s0,q,m,t,i;
3a8617a8SJordan K. Hubbard	u_int32_t r,t1,s1,ix1,q1;
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard	EXTRACT_WORDS(ix0,ix1,x);
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard    /* take care of Inf and NaN */
3a8617a8SJordan K. Hubbard	if((ix0&0x7ff00000)==0x7ff00000) {
3a8617a8SJordan K. Hubbard	    return x*x+x;		/* sqrt(NaN)=NaN, sqrt(+inf)=+inf
3a8617a8SJordan K. Hubbard					   sqrt(-inf)=sNaN */
3a8617a8SJordan K. Hubbard	}
3a8617a8SJordan K. Hubbard    /* take care of zero */
3a8617a8SJordan K. Hubbard	if(ix0<=0) {
3a8617a8SJordan K. Hubbard	    if(((ix0&(~sign))|ix1)==0) return x;/* sqrt(+-0) = +-0 */
3a8617a8SJordan K. Hubbard	    else if(ix0<0)
3a8617a8SJordan K. Hubbard		return (x-x)/(x-x);		/* sqrt(-ve) = sNaN */
3a8617a8SJordan K. Hubbard	}
3a8617a8SJordan K. Hubbard    /* normalize x */
3a8617a8SJordan K. Hubbard	m = (ix0>>20);
3a8617a8SJordan K. Hubbard	if(m==0) {				/* subnormal x */
3a8617a8SJordan K. Hubbard	    while(ix0==0) {
3a8617a8SJordan K. Hubbard		m -= 21;
3a8617a8SJordan K. Hubbard		ix0 |= (ix1>>11); ix1 <<= 21;
3a8617a8SJordan K. Hubbard	    }
3a8617a8SJordan K. Hubbard	    for(i=0;(ix0&0x00100000)==0;i++) ix0<<=1;
3a8617a8SJordan K. Hubbard	    m -= i-1;
3a8617a8SJordan K. Hubbard	    ix0 |= (ix1>>(32-i));
3a8617a8SJordan K. Hubbard	    ix1 <<= i;
3a8617a8SJordan K. Hubbard	}
3a8617a8SJordan K. Hubbard	m -= 1023;	/* unbias exponent */
3a8617a8SJordan K. Hubbard	ix0 = (ix0&0x000fffff)|0x00100000;
3a8617a8SJordan K. Hubbard	if(m&1){	/* odd m, double x to make it even */
3a8617a8SJordan K. Hubbard	    ix0 += ix0 + ((ix1&sign)>>31);
3a8617a8SJordan K. Hubbard	    ix1 += ix1;
3a8617a8SJordan K. Hubbard	}
3a8617a8SJordan K. Hubbard	m >>= 1;	/* m = [m/2] */
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard    /* generate sqrt(x) bit by bit */
3a8617a8SJordan K. Hubbard	ix0 += ix0 + ((ix1&sign)>>31);
3a8617a8SJordan K. Hubbard	ix1 += ix1;
3a8617a8SJordan K. Hubbard	q = q1 = s0 = s1 = 0;	/* [q,q1] = sqrt(x) */
3a8617a8SJordan K. Hubbard	r = 0x00200000;		/* r = moving bit from right to left */
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard	while(r!=0) {
3a8617a8SJordan K. Hubbard	    t = s0+r;
3a8617a8SJordan K. Hubbard	    if(t<=ix0) {
3a8617a8SJordan K. Hubbard		s0   = t+r;
3a8617a8SJordan K. Hubbard		ix0 -= t;
3a8617a8SJordan K. Hubbard		q   += r;
3a8617a8SJordan K. Hubbard	    }
3a8617a8SJordan K. Hubbard	    ix0 += ix0 + ((ix1&sign)>>31);
3a8617a8SJordan K. Hubbard	    ix1 += ix1;
3a8617a8SJordan K. Hubbard	    r>>=1;
3a8617a8SJordan K. Hubbard	}
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard	r = sign;
3a8617a8SJordan K. Hubbard	while(r!=0) {
3a8617a8SJordan K. Hubbard	    t1 = s1+r;
3a8617a8SJordan K. Hubbard	    t  = s0;
3a8617a8SJordan K. Hubbard	    if((t<ix0)||((t==ix0)&&(t1<=ix1))) {
3a8617a8SJordan K. Hubbard		s1  = t1+r;
3a8617a8SJordan K. Hubbard		if(((t1&sign)==sign)&&(s1&sign)==0) s0 += 1;
3a8617a8SJordan K. Hubbard		ix0 -= t;
3a8617a8SJordan K. Hubbard		if (ix1 < t1) ix0 -= 1;
3a8617a8SJordan K. Hubbard		ix1 -= t1;
3a8617a8SJordan K. Hubbard		q1  += r;
3a8617a8SJordan K. Hubbard	    }
3a8617a8SJordan K. Hubbard	    ix0 += ix0 + ((ix1&sign)>>31);
3a8617a8SJordan K. Hubbard	    ix1 += ix1;
3a8617a8SJordan K. Hubbard	    r>>=1;
3a8617a8SJordan K. Hubbard	}
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard    /* use floating add to find out rounding direction */
3a8617a8SJordan K. Hubbard	if((ix0|ix1)!=0) {
3a8617a8SJordan K. Hubbard	    z = one-tiny; /* trigger inexact flag */
3a8617a8SJordan K. Hubbard	    if (z>=one) {
3a8617a8SJordan K. Hubbard	        z = one+tiny;
3a8617a8SJordan K. Hubbard	        if (q1==(u_int32_t)0xffffffff) { q1=0; q += 1;}
3a8617a8SJordan K. Hubbard		else if (z>one) {
3a8617a8SJordan K. Hubbard		    if (q1==(u_int32_t)0xfffffffe) q+=1;
3a8617a8SJordan K. Hubbard		    q1+=2;
3a8617a8SJordan K. Hubbard		} else
3a8617a8SJordan K. Hubbard	            q1 += (q1&1);
3a8617a8SJordan K. Hubbard	    }
3a8617a8SJordan K. Hubbard	}
3a8617a8SJordan K. Hubbard	ix0 = (q>>1)+0x3fe00000;
3a8617a8SJordan K. Hubbard	ix1 =  q1>>1;
3a8617a8SJordan K. Hubbard	if ((q&1)==1) ix1 |= sign;
3a8617a8SJordan K. Hubbard	ix0 += (m <<20);
3a8617a8SJordan K. Hubbard	INSERT_WORDS(z,ix0,ix1);
3a8617a8SJordan K. Hubbard	return z;
3a8617a8SJordan K. Hubbard}
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard/*
3a8617a8SJordan K. HubbardOther methods  (use floating-point arithmetic)
3a8617a8SJordan K. Hubbard-------------
3a8617a8SJordan K. Hubbard(This is a copy of a drafted paper by Prof W. Kahan
3a8617a8SJordan K. Hubbardand K.C. Ng, written in May, 1986)
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard	Two algorithms are given here to implement sqrt(x)
3a8617a8SJordan K. Hubbard	(IEEE double precision arithmetic) in software.
3a8617a8SJordan K. Hubbard	Both supply sqrt(x) correctly rounded. The first algorithm (in
3a8617a8SJordan K. Hubbard	Section A) uses newton iterations and involves four divisions.
3a8617a8SJordan K. Hubbard	The second one uses reciproot iterations to avoid division, but
3a8617a8SJordan K. Hubbard	requires more multiplications. Both algorithms need the ability
3a8617a8SJordan K. Hubbard	to chop results of arithmetic operations instead of round them,
3a8617a8SJordan K. Hubbard	and the INEXACT flag to indicate when an arithmetic operation
3a8617a8SJordan K. Hubbard	is executed exactly with no roundoff error, all part of the
3a8617a8SJordan K. Hubbard	standard (IEEE 754-1985). The ability to perform shift, add,
3a8617a8SJordan K. Hubbard	subtract and logical AND operations upon 32-bit words is needed
3a8617a8SJordan K. Hubbard	too, though not part of the standard.
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. HubbardA.  sqrt(x) by Newton Iteration
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard   (1)	Initial approximation
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard	Let x0 and x1 be the leading and the trailing 32-bit words of
3a8617a8SJordan K. Hubbard	a floating point number x (in IEEE double format) respectively
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard	    1    11		     52				  ...widths
3a8617a8SJordan K. Hubbard	   ------------------------------------------------------
3a8617a8SJordan K. Hubbard	x: |s|	  e     |	      f				|
3a8617a8SJordan K. Hubbard	   ------------------------------------------------------
3a8617a8SJordan K. Hubbard	      msb    lsb  msb				      lsb ...order
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard	     ------------------------  	     ------------------------
3a8617a8SJordan K. Hubbard	x0:  |s|   e    |    f1     |	 x1: |          f2           |
3a8617a8SJordan K. Hubbard	     ------------------------  	     ------------------------
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard	By performing shifts and subtracts on x0 and x1 (both regarded
3a8617a8SJordan K. Hubbard	as integers), we obtain an 8-bit approximation of sqrt(x) as
3a8617a8SJordan K. Hubbard	follows.
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard		k  := (x0>>1) + 0x1ff80000;
3a8617a8SJordan K. Hubbard		y0 := k - T1[31&(k>>15)].	... y ~ sqrt(x) to 8 bits
3a8617a8SJordan K. Hubbard	Here k is a 32-bit integer and T1[] is an integer array containing
3a8617a8SJordan K. Hubbard	correction terms. Now magically the floating value of y (y's
3a8617a8SJordan K. Hubbard	leading 32-bit word is y0, the value of its trailing word is 0)
3a8617a8SJordan K. Hubbard	approximates sqrt(x) to almost 8-bit.
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard	Value of T1:
3a8617a8SJordan K. Hubbard	static int T1[32]= {
3a8617a8SJordan K. Hubbard	0,	1024,	3062,	5746,	9193,	13348,	18162,	23592,
3a8617a8SJordan K. Hubbard	29598,	36145,	43202,	50740,	58733,	67158,	75992,	85215,
3a8617a8SJordan K. Hubbard	83599,	71378,	60428,	50647,	41945,	34246,	27478,	21581,
3a8617a8SJordan K. Hubbard	16499,	12183,	8588,	5674,	3403,	1742,	661,	130,};
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard    (2)	Iterative refinement
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard	Apply Heron's rule three times to y, we have y approximates
3a8617a8SJordan K. Hubbard	sqrt(x) to within 1 ulp (Unit in the Last Place):
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard		y := (y+x/y)/2		... almost 17 sig. bits
3a8617a8SJordan K. Hubbard		y := (y+x/y)/2		... almost 35 sig. bits
3a8617a8SJordan K. Hubbard		y := y-(y-x/y)/2	... within 1 ulp
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard	Remark 1.
3a8617a8SJordan K. Hubbard	    Another way to improve y to within 1 ulp is:
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard		y := (y+x/y)		... almost 17 sig. bits to 2*sqrt(x)
3a8617a8SJordan K. Hubbard		y := y - 0x00100006	... almost 18 sig. bits to sqrt(x)
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard				2
3a8617a8SJordan K. Hubbard			    (x-y )*y
3a8617a8SJordan K. Hubbard		y := y + 2* ----------	...within 1 ulp
3a8617a8SJordan K. Hubbard			       2
3a8617a8SJordan K. Hubbard			     3y  + x
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard	This formula has one division fewer than the one above; however,
3a8617a8SJordan K. Hubbard	it requires more multiplications and additions. Also x must be
3a8617a8SJordan K. Hubbard	scaled in advance to avoid spurious overflow in evaluating the
3a8617a8SJordan K. Hubbard	expression 3y*y+x. Hence it is not recommended uless division
3a8617a8SJordan K. Hubbard	is slow. If division is very slow, then one should use the
3a8617a8SJordan K. Hubbard	reciproot algorithm given in section B.
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard    (3) Final adjustment
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard	By twiddling y's last bit it is possible to force y to be
3a8617a8SJordan K. Hubbard	correctly rounded according to the prevailing rounding mode
3a8617a8SJordan K. Hubbard	as follows. Let r and i be copies of the rounding mode and
3a8617a8SJordan K. Hubbard	inexact flag before entering the square root program. Also we
3a8617a8SJordan K. Hubbard	use the expression y+-ulp for the next representable floating
3a8617a8SJordan K. Hubbard	numbers (up and down) of y. Note that y+-ulp = either fixed
3a8617a8SJordan K. Hubbard	point y+-1, or multiply y by nextafter(1,+-inf) in chopped
3a8617a8SJordan K. Hubbard	mode.
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard		I := FALSE;	... reset INEXACT flag I
3a8617a8SJordan K. Hubbard		R := RZ;	... set rounding mode to round-toward-zero
3a8617a8SJordan K. Hubbard		z := x/y;	... chopped quotient, possibly inexact
3a8617a8SJordan K. Hubbard		If(not I) then {	... if the quotient is exact
3a8617a8SJordan K. Hubbard		    if(z=y) {
3a8617a8SJordan K. Hubbard		        I := i;	 ... restore inexact flag
3a8617a8SJordan K. Hubbard		        R := r;  ... restore rounded mode
3a8617a8SJordan K. Hubbard		        return sqrt(x):=y.
3a8617a8SJordan K. Hubbard		    } else {
3a8617a8SJordan K. Hubbard			z := z - ulp;	... special rounding
3a8617a8SJordan K. Hubbard		    }
3a8617a8SJordan K. Hubbard		}
3a8617a8SJordan K. Hubbard		i := TRUE;		... sqrt(x) is inexact
3a8617a8SJordan K. Hubbard		If (r=RN) then z=z+ulp	... rounded-to-nearest
3a8617a8SJordan K. Hubbard		If (r=RP) then {	... round-toward-+inf
3a8617a8SJordan K. Hubbard		    y = y+ulp; z=z+ulp;
3a8617a8SJordan K. Hubbard		}
3a8617a8SJordan K. Hubbard		y := y+z;		... chopped sum
3a8617a8SJordan K. Hubbard		y0:=y0-0x00100000;	... y := y/2 is correctly rounded.
3a8617a8SJordan K. Hubbard	        I := i;	 		... restore inexact flag
3a8617a8SJordan K. Hubbard	        R := r;  		... restore rounded mode
3a8617a8SJordan K. Hubbard	        return sqrt(x):=y.
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard    (4)	Special cases
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard	Square root of +inf, +-0, or NaN is itself;
3a8617a8SJordan K. Hubbard	Square root of a negative number is NaN with invalid signal.
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. HubbardB.  sqrt(x) by Reciproot Iteration
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard   (1)	Initial approximation
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard	Let x0 and x1 be the leading and the trailing 32-bit words of
3a8617a8SJordan K. Hubbard	a floating point number x (in IEEE double format) respectively
3a8617a8SJordan K. Hubbard	(see section A). By performing shifs and subtracts on x0 and y0,
3a8617a8SJordan K. Hubbard	we obtain a 7.8-bit approximation of 1/sqrt(x) as follows.
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard	    k := 0x5fe80000 - (x0>>1);
3a8617a8SJordan K. Hubbard	    y0:= k - T2[63&(k>>14)].	... y ~ 1/sqrt(x) to 7.8 bits
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard	Here k is a 32-bit integer and T2[] is an integer array
3a8617a8SJordan K. Hubbard	containing correction terms. Now magically the floating
3a8617a8SJordan K. Hubbard	value of y (y's leading 32-bit word is y0, the value of
3a8617a8SJordan K. Hubbard	its trailing word y1 is set to zero) approximates 1/sqrt(x)
3a8617a8SJordan K. Hubbard	to almost 7.8-bit.
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard	Value of T2:
3a8617a8SJordan K. Hubbard	static int T2[64]= {
3a8617a8SJordan K. Hubbard	0x1500,	0x2ef8,	0x4d67,	0x6b02,	0x87be,	0xa395,	0xbe7a,	0xd866,
3a8617a8SJordan K. Hubbard	0xf14a,	0x1091b,0x11fcd,0x13552,0x14999,0x15c98,0x16e34,0x17e5f,
3a8617a8SJordan K. Hubbard	0x18d03,0x19a01,0x1a545,0x1ae8a,0x1b5c4,0x1bb01,0x1bfde,0x1c28d,
3a8617a8SJordan K. Hubbard	0x1c2de,0x1c0db,0x1ba73,0x1b11c,0x1a4b5,0x1953d,0x18266,0x16be0,
3a8617a8SJordan K. Hubbard	0x1683e,0x179d8,0x18a4d,0x19992,0x1a789,0x1b445,0x1bf61,0x1c989,
3a8617a8SJordan K. Hubbard	0x1d16d,0x1d77b,0x1dddf,0x1e2ad,0x1e5bf,0x1e6e8,0x1e654,0x1e3cd,
3a8617a8SJordan K. Hubbard	0x1df2a,0x1d635,0x1cb16,0x1be2c,0x1ae4e,0x19bde,0x1868e,0x16e2e,
3a8617a8SJordan K. Hubbard	0x1527f,0x1334a,0x11051,0xe951,	0xbe01,	0x8e0d,	0x5924,	0x1edd,};
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard    (2)	Iterative refinement
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard	Apply Reciproot iteration three times to y and multiply the
3a8617a8SJordan K. Hubbard	result by x to get an approximation z that matches sqrt(x)
3a8617a8SJordan K. Hubbard	to about 1 ulp. To be exact, we will have
3a8617a8SJordan K. Hubbard		-1ulp < sqrt(x)-z<1.0625ulp.
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard	... set rounding mode to Round-to-nearest
3a8617a8SJordan K. Hubbard	   y := y*(1.5-0.5*x*y*y)	... almost 15 sig. bits to 1/sqrt(x)
3a8617a8SJordan K. Hubbard	   y := y*((1.5-2^-30)+0.5*x*y*y)... about 29 sig. bits to 1/sqrt(x)
3a8617a8SJordan K. Hubbard	... special arrangement for better accuracy
3a8617a8SJordan K. Hubbard	   z := x*y			... 29 bits to sqrt(x), with z*y<1
3a8617a8SJordan K. Hubbard	   z := z + 0.5*z*(1-z*y)	... about 1 ulp to sqrt(x)
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard	Remark 2. The constant 1.5-2^-30 is chosen to bias the error so that
3a8617a8SJordan K. Hubbard	(a) the term z*y in the final iteration is always less than 1;
3a8617a8SJordan K. Hubbard	(b) the error in the final result is biased upward so that
3a8617a8SJordan K. Hubbard		-1 ulp < sqrt(x) - z < 1.0625 ulp
3a8617a8SJordan K. Hubbard	    instead of |sqrt(x)-z|<1.03125ulp.
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard    (3)	Final adjustment
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard	By twiddling y's last bit it is possible to force y to be
3a8617a8SJordan K. Hubbard	correctly rounded according to the prevailing rounding mode
3a8617a8SJordan K. Hubbard	as follows. Let r and i be copies of the rounding mode and
3a8617a8SJordan K. Hubbard	inexact flag before entering the square root program. Also we
3a8617a8SJordan K. Hubbard	use the expression y+-ulp for the next representable floating
3a8617a8SJordan K. Hubbard	numbers (up and down) of y. Note that y+-ulp = either fixed
3a8617a8SJordan K. Hubbard	point y+-1, or multiply y by nextafter(1,+-inf) in chopped
3a8617a8SJordan K. Hubbard	mode.
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard	R := RZ;		... set rounding mode to round-toward-zero
3a8617a8SJordan K. Hubbard	switch(r) {
3a8617a8SJordan K. Hubbard	    case RN:		... round-to-nearest
3a8617a8SJordan K. Hubbard	       if(x<= z*(z-ulp)...chopped) z = z - ulp; else
3a8617a8SJordan K. Hubbard	       if(x<= z*(z+ulp)...chopped) z = z; else z = z+ulp;
3a8617a8SJordan K. Hubbard	       break;
3a8617a8SJordan K. Hubbard	    case RZ:case RM:	... round-to-zero or round-to--inf
3a8617a8SJordan K. Hubbard	       R:=RP;		... reset rounding mod to round-to-+inf
3a8617a8SJordan K. Hubbard	       if(x<z*z ... rounded up) z = z - ulp; else
3a8617a8SJordan K. Hubbard	       if(x>=(z+ulp)*(z+ulp) ...rounded up) z = z+ulp;
3a8617a8SJordan K. Hubbard	       break;
3a8617a8SJordan K. Hubbard	    case RP:		... round-to-+inf
3a8617a8SJordan K. Hubbard	       if(x>(z+ulp)*(z+ulp)...chopped) z = z+2*ulp; else
3a8617a8SJordan K. Hubbard	       if(x>z*z ...chopped) z = z+ulp;
3a8617a8SJordan K. Hubbard	       break;
3a8617a8SJordan K. Hubbard	}
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard	Remark 3. The above comparisons can be done in fixed point. For
3a8617a8SJordan K. Hubbard	example, to compare x and w=z*z chopped, it suffices to compare
3a8617a8SJordan K. Hubbard	x1 and w1 (the trailing parts of x and w), regarding them as
3a8617a8SJordan K. Hubbard	two's complement integers.
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard	...Is z an exact square root?
3a8617a8SJordan K. Hubbard	To determine whether z is an exact square root of x, let z1 be the
3a8617a8SJordan K. Hubbard	trailing part of z, and also let x0 and x1 be the leading and
3a8617a8SJordan K. Hubbard	trailing parts of x.
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard	If ((z1&0x03ffffff)!=0)	... not exact if trailing 26 bits of z!=0
3a8617a8SJordan K. Hubbard	    I := 1;		... Raise Inexact flag: z is not exact
3a8617a8SJordan K. Hubbard	else {
3a8617a8SJordan K. Hubbard	    j := 1 - [(x0>>20)&1]	... j = logb(x) mod 2
3a8617a8SJordan K. Hubbard	    k := z1 >> 26;		... get z's 25-th and 26-th
3a8617a8SJordan K. Hubbard					    fraction bits
3a8617a8SJordan K. Hubbard	    I := i or (k&j) or ((k&(j+j+1))!=(x1&3));
3a8617a8SJordan K. Hubbard	}
3a8617a8SJordan K. Hubbard	R:= r		... restore rounded mode
3a8617a8SJordan K. Hubbard	return sqrt(x):=z.
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard	If multiplication is cheaper then the foregoing red tape, the
3a8617a8SJordan K. Hubbard	Inexact flag can be evaluated by
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard	    I := i;
3a8617a8SJordan K. Hubbard	    I := (z*z!=x) or I.
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard	Note that z*z can overwrite I; this value must be sensed if it is
3a8617a8SJordan K. Hubbard	True.
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard	Remark 4. If z*z = x exactly, then bit 25 to bit 0 of z1 must be
3a8617a8SJordan K. Hubbard	zero.
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard		    --------------------
3a8617a8SJordan K. Hubbard		z1: |        f2        |
3a8617a8SJordan K. Hubbard		    --------------------
3a8617a8SJordan K. Hubbard		bit 31		   bit 0
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard	Further more, bit 27 and 26 of z1, bit 0 and 1 of x1, and the odd
3a8617a8SJordan K. Hubbard	or even of logb(x) have the following relations:
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard	-------------------------------------------------
3a8617a8SJordan K. Hubbard	bit 27,26 of z1		bit 1,0 of x1	logb(x)
3a8617a8SJordan K. Hubbard	-------------------------------------------------
3a8617a8SJordan K. Hubbard	00			00		odd and even
3a8617a8SJordan K. Hubbard	01			01		even
3a8617a8SJordan K. Hubbard	10			10		odd
3a8617a8SJordan K. Hubbard	10			00		even
3a8617a8SJordan K. Hubbard	11			01		even
3a8617a8SJordan K. Hubbard	-------------------------------------------------
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard    (4)	Special cases (see (4) of Section A).
3a8617a8SJordan K. Hubbard
3a8617a8SJordan K. Hubbard */
3a8617a8SJordan K. Hubbard