common/m9x/fmaf.c

*25c28e83SPiotr Jasiukajtis/*
*25c28e83SPiotr Jasiukajtis * CDDL HEADER START
*25c28e83SPiotr Jasiukajtis *
*25c28e83SPiotr Jasiukajtis * The contents of this file are subject to the terms of the
*25c28e83SPiotr Jasiukajtis * Common Development and Distribution License (the "License").
*25c28e83SPiotr Jasiukajtis * You may not use this file except in compliance with the License.
*25c28e83SPiotr Jasiukajtis *
*25c28e83SPiotr Jasiukajtis * You can obtain a copy of the license at usr/src/OPENSOLARIS.LICENSE
*25c28e83SPiotr Jasiukajtis * or http://www.opensolaris.org/os/licensing.
*25c28e83SPiotr Jasiukajtis * See the License for the specific language governing permissions
*25c28e83SPiotr Jasiukajtis * and limitations under the License.
*25c28e83SPiotr Jasiukajtis *
*25c28e83SPiotr Jasiukajtis * When distributing Covered Code, include this CDDL HEADER in each
*25c28e83SPiotr Jasiukajtis * file and include the License file at usr/src/OPENSOLARIS.LICENSE.
*25c28e83SPiotr Jasiukajtis * If applicable, add the following below this CDDL HEADER, with the
*25c28e83SPiotr Jasiukajtis * fields enclosed by brackets "[]" replaced with your own identifying
*25c28e83SPiotr Jasiukajtis * information: Portions Copyright [yyyy] [name of copyright owner]
*25c28e83SPiotr Jasiukajtis *
*25c28e83SPiotr Jasiukajtis * CDDL HEADER END
*25c28e83SPiotr Jasiukajtis */
*25c28e83SPiotr Jasiukajtis
*25c28e83SPiotr Jasiukajtis/*
*25c28e83SPiotr Jasiukajtis * Copyright 2011 Nexenta Systems, Inc.  All rights reserved.
*25c28e83SPiotr Jasiukajtis */
*25c28e83SPiotr Jasiukajtis/*
*25c28e83SPiotr Jasiukajtis * Copyright 2006 Sun Microsystems, Inc.  All rights reserved.
*25c28e83SPiotr Jasiukajtis * Use is subject to license terms.
*25c28e83SPiotr Jasiukajtis */
*25c28e83SPiotr Jasiukajtis
*25c28e83SPiotr Jasiukajtis#pragma weak fmaf = __fmaf
*25c28e83SPiotr Jasiukajtis
*25c28e83SPiotr Jasiukajtis#include "libm.h"
*25c28e83SPiotr Jasiukajtis#include "fma.h"
*25c28e83SPiotr Jasiukajtis#include "fenv_inlines.h"
*25c28e83SPiotr Jasiukajtis
*25c28e83SPiotr Jasiukajtis#if defined(__sparc)
*25c28e83SPiotr Jasiukajtis
*25c28e83SPiotr Jasiukajtis/*
*25c28e83SPiotr Jasiukajtis * fmaf for SPARC: 32-bit single precision, big-endian
*25c28e83SPiotr Jasiukajtis */
*25c28e83SPiotr Jasiukajtisfloat
*25c28e83SPiotr Jasiukajtis__fmaf(float x, float y, float z) {
*25c28e83SPiotr Jasiukajtis	union {
*25c28e83SPiotr Jasiukajtis		unsigned i[2];
*25c28e83SPiotr Jasiukajtis		double d;
*25c28e83SPiotr Jasiukajtis	} xy, zz;
*25c28e83SPiotr Jasiukajtis	unsigned u, s;
*25c28e83SPiotr Jasiukajtis	int exy, ez;
*25c28e83SPiotr Jasiukajtis
*25c28e83SPiotr Jasiukajtis	/*
*25c28e83SPiotr Jasiukajtis	 * the following operations can only raise the invalid exception,
*25c28e83SPiotr Jasiukajtis	 * and then only if either x*y is of the form Inf*0 or one of x,
*25c28e83SPiotr Jasiukajtis	 * y, or z is a signaling NaN
*25c28e83SPiotr Jasiukajtis	 */
*25c28e83SPiotr Jasiukajtis	xy.d = (double) x * y;
*25c28e83SPiotr Jasiukajtis	zz.d = (double) z;
*25c28e83SPiotr Jasiukajtis
*25c28e83SPiotr Jasiukajtis	/*
*25c28e83SPiotr Jasiukajtis	 * if the sum xy + z will be exact, just compute it and cast the
*25c28e83SPiotr Jasiukajtis	 * result to float
*25c28e83SPiotr Jasiukajtis	 */
*25c28e83SPiotr Jasiukajtis	exy = (xy.i[0] >> 20) & 0x7ff;
*25c28e83SPiotr Jasiukajtis	ez = (zz.i[0] >> 20) & 0x7ff;
*25c28e83SPiotr Jasiukajtis	if ((ez - exy <= 4 && exy - ez <= 28) || exy == 0x7ff || exy == 0 ||
*25c28e83SPiotr Jasiukajtis		ez == 0x7ff || ez == 0) {
*25c28e83SPiotr Jasiukajtis		return ((float) (xy.d + zz.d));
*25c28e83SPiotr Jasiukajtis	}
*25c28e83SPiotr Jasiukajtis
*25c28e83SPiotr Jasiukajtis	/*
*25c28e83SPiotr Jasiukajtis	 * collapse the tail of the smaller summand into a "sticky bit"
*25c28e83SPiotr Jasiukajtis	 * so that the sum can be computed without error
*25c28e83SPiotr Jasiukajtis	 */
*25c28e83SPiotr Jasiukajtis	if (ez > exy) {
*25c28e83SPiotr Jasiukajtis		if (ez - exy < 31) {
*25c28e83SPiotr Jasiukajtis			u = xy.i[1];
*25c28e83SPiotr Jasiukajtis			s = 2 << (ez - exy);
*25c28e83SPiotr Jasiukajtis			if (u & (s - 1))
*25c28e83SPiotr Jasiukajtis				u |= s;
*25c28e83SPiotr Jasiukajtis			xy.i[1] = u & ~(s - 1);
*25c28e83SPiotr Jasiukajtis		} else if (ez - exy < 51) {
*25c28e83SPiotr Jasiukajtis			u = xy.i[0];
*25c28e83SPiotr Jasiukajtis			s = 1 << (ez - exy - 31);
*25c28e83SPiotr Jasiukajtis			if ((u & (s - 1)) | xy.i[1])
*25c28e83SPiotr Jasiukajtis				u |= s;
*25c28e83SPiotr Jasiukajtis			xy.i[0] = u & ~(s - 1);
*25c28e83SPiotr Jasiukajtis			xy.i[1] = 0;
*25c28e83SPiotr Jasiukajtis		} else {
*25c28e83SPiotr Jasiukajtis			/* collapse all of xy into a single bit */
*25c28e83SPiotr Jasiukajtis			xy.i[0] = (xy.i[0] & 0x80000000) | ((ez - 51) << 20);
*25c28e83SPiotr Jasiukajtis			xy.i[1] = 0;
*25c28e83SPiotr Jasiukajtis		}
*25c28e83SPiotr Jasiukajtis	} else {
*25c28e83SPiotr Jasiukajtis		if (exy - ez < 31) {
*25c28e83SPiotr Jasiukajtis			u = zz.i[1];
*25c28e83SPiotr Jasiukajtis			s = 2 << (exy - ez);
*25c28e83SPiotr Jasiukajtis			if (u & (s - 1))
*25c28e83SPiotr Jasiukajtis				u |= s;
*25c28e83SPiotr Jasiukajtis			zz.i[1] = u & ~(s - 1);
*25c28e83SPiotr Jasiukajtis		} else if (exy - ez < 51) {
*25c28e83SPiotr Jasiukajtis			u = zz.i[0];
*25c28e83SPiotr Jasiukajtis			s = 1 << (exy - ez - 31);
*25c28e83SPiotr Jasiukajtis			if ((u & (s - 1)) | zz.i[1])
*25c28e83SPiotr Jasiukajtis				u |= s;
*25c28e83SPiotr Jasiukajtis			zz.i[0] = u & ~(s - 1);
*25c28e83SPiotr Jasiukajtis			zz.i[1] = 0;
*25c28e83SPiotr Jasiukajtis		} else {
*25c28e83SPiotr Jasiukajtis			/* collapse all of zz into a single bit */
*25c28e83SPiotr Jasiukajtis			zz.i[0] = (zz.i[0] & 0x80000000) | ((exy - 51) << 20);
*25c28e83SPiotr Jasiukajtis			zz.i[1] = 0;
*25c28e83SPiotr Jasiukajtis		}
*25c28e83SPiotr Jasiukajtis	}
*25c28e83SPiotr Jasiukajtis
*25c28e83SPiotr Jasiukajtis	return ((float) (xy.d + zz.d));
*25c28e83SPiotr Jasiukajtis}
*25c28e83SPiotr Jasiukajtis
*25c28e83SPiotr Jasiukajtis#elif defined(__x86)
*25c28e83SPiotr Jasiukajtis
*25c28e83SPiotr Jasiukajtis#if defined(__amd64)
*25c28e83SPiotr Jasiukajtis#define	NI	4
*25c28e83SPiotr Jasiukajtis#else
*25c28e83SPiotr Jasiukajtis#define	NI	3
*25c28e83SPiotr Jasiukajtis#endif
*25c28e83SPiotr Jasiukajtis
*25c28e83SPiotr Jasiukajtis/*
*25c28e83SPiotr Jasiukajtis * fmaf for x86: 32-bit single precision, little-endian
*25c28e83SPiotr Jasiukajtis */
*25c28e83SPiotr Jasiukajtisfloat
*25c28e83SPiotr Jasiukajtis__fmaf(float x, float y, float z) {
*25c28e83SPiotr Jasiukajtis	union {
*25c28e83SPiotr Jasiukajtis		unsigned i[NI];
*25c28e83SPiotr Jasiukajtis		long double e;
*25c28e83SPiotr Jasiukajtis	} xy, zz;
*25c28e83SPiotr Jasiukajtis	unsigned u, s, cwsw, oldcwsw;
*25c28e83SPiotr Jasiukajtis	int exy, ez;
*25c28e83SPiotr Jasiukajtis
*25c28e83SPiotr Jasiukajtis	/* set rounding precision to 64 bits */
*25c28e83SPiotr Jasiukajtis	__fenv_getcwsw(&oldcwsw);
*25c28e83SPiotr Jasiukajtis	cwsw = (oldcwsw & 0xfcffffff) | 0x03000000;
*25c28e83SPiotr Jasiukajtis	__fenv_setcwsw(&cwsw);
*25c28e83SPiotr Jasiukajtis
*25c28e83SPiotr Jasiukajtis	/*
*25c28e83SPiotr Jasiukajtis	 * the following operations can only raise the invalid exception,
*25c28e83SPiotr Jasiukajtis	 * and then only if either x*y is of the form Inf*0 or one of x,
*25c28e83SPiotr Jasiukajtis	 * y, or z is a signaling NaN
*25c28e83SPiotr Jasiukajtis	 */
*25c28e83SPiotr Jasiukajtis	xy.e = (long double) x * y;
*25c28e83SPiotr Jasiukajtis	zz.e = (long double) z;
*25c28e83SPiotr Jasiukajtis
*25c28e83SPiotr Jasiukajtis	/*
*25c28e83SPiotr Jasiukajtis	 * if the sum xy + z will be exact, just compute it and cast the
*25c28e83SPiotr Jasiukajtis	 * result to float
*25c28e83SPiotr Jasiukajtis	 */
*25c28e83SPiotr Jasiukajtis	exy = xy.i[2] & 0x7fff;
*25c28e83SPiotr Jasiukajtis	ez = zz.i[2] & 0x7fff;
*25c28e83SPiotr Jasiukajtis	if ((ez - exy <= 15 && exy - ez <= 39) || exy == 0x7fff || exy == 0 ||
*25c28e83SPiotr Jasiukajtis		ez == 0x7fff || ez == 0) {
*25c28e83SPiotr Jasiukajtis		goto cont;
*25c28e83SPiotr Jasiukajtis	}
*25c28e83SPiotr Jasiukajtis
*25c28e83SPiotr Jasiukajtis	/*
*25c28e83SPiotr Jasiukajtis	 * collapse the tail of the smaller summand into a "sticky bit"
*25c28e83SPiotr Jasiukajtis	 * so that the sum can be computed without error
*25c28e83SPiotr Jasiukajtis	 */
*25c28e83SPiotr Jasiukajtis	if (ez > exy) {
*25c28e83SPiotr Jasiukajtis		if (ez - exy < 31) {
*25c28e83SPiotr Jasiukajtis			u = xy.i[0];
*25c28e83SPiotr Jasiukajtis			s = 2 << (ez - exy);
*25c28e83SPiotr Jasiukajtis			if (u & (s - 1))
*25c28e83SPiotr Jasiukajtis				u |= s;
*25c28e83SPiotr Jasiukajtis			xy.i[0] = u & ~(s - 1);
*25c28e83SPiotr Jasiukajtis		} else if (ez - exy < 62) {
*25c28e83SPiotr Jasiukajtis			u = xy.i[1];
*25c28e83SPiotr Jasiukajtis			s = 1 << (ez - exy - 31);
*25c28e83SPiotr Jasiukajtis			if ((u & (s - 1)) | xy.i[0])
*25c28e83SPiotr Jasiukajtis				u |= s;
*25c28e83SPiotr Jasiukajtis			xy.i[1] = u & ~(s - 1);
*25c28e83SPiotr Jasiukajtis			xy.i[0] = 0;
*25c28e83SPiotr Jasiukajtis		} else {
*25c28e83SPiotr Jasiukajtis			/* collapse all of xy into a single bit */
*25c28e83SPiotr Jasiukajtis			xy.i[0] = 0;
*25c28e83SPiotr Jasiukajtis			xy.i[1] = 0x80000000;
*25c28e83SPiotr Jasiukajtis			xy.i[2] = (xy.i[2] & 0x8000) | (ez - 62);
*25c28e83SPiotr Jasiukajtis		}
*25c28e83SPiotr Jasiukajtis	} else {
*25c28e83SPiotr Jasiukajtis		if (exy - ez < 62) {
*25c28e83SPiotr Jasiukajtis			u = zz.i[1];
*25c28e83SPiotr Jasiukajtis			s = 1 << (exy - ez - 31);
*25c28e83SPiotr Jasiukajtis			if ((u & (s - 1)) | zz.i[0])
*25c28e83SPiotr Jasiukajtis				u |= s;
*25c28e83SPiotr Jasiukajtis			zz.i[1] = u & ~(s - 1);
*25c28e83SPiotr Jasiukajtis			zz.i[0] = 0;
*25c28e83SPiotr Jasiukajtis		} else {
*25c28e83SPiotr Jasiukajtis			/* collapse all of zz into a single bit */
*25c28e83SPiotr Jasiukajtis			zz.i[0] = 0;
*25c28e83SPiotr Jasiukajtis			zz.i[1] = 0x80000000;
*25c28e83SPiotr Jasiukajtis			zz.i[2] = (zz.i[2] & 0x8000) | (exy - 62);
*25c28e83SPiotr Jasiukajtis		}
*25c28e83SPiotr Jasiukajtis	}
*25c28e83SPiotr Jasiukajtis
*25c28e83SPiotr Jasiukajtiscont:
*25c28e83SPiotr Jasiukajtis	xy.e += zz.e;
*25c28e83SPiotr Jasiukajtis
*25c28e83SPiotr Jasiukajtis	/* restore the rounding precision */
*25c28e83SPiotr Jasiukajtis	__fenv_getcwsw(&cwsw);
*25c28e83SPiotr Jasiukajtis	cwsw = (cwsw & 0xfcffffff) | (oldcwsw & 0x03000000);
*25c28e83SPiotr Jasiukajtis	__fenv_setcwsw(&cwsw);
*25c28e83SPiotr Jasiukajtis
*25c28e83SPiotr Jasiukajtis	return ((float) xy.e);
*25c28e83SPiotr Jasiukajtis}
*25c28e83SPiotr Jasiukajtis
*25c28e83SPiotr Jasiukajtis#if 0
*25c28e83SPiotr Jasiukajtis/*
*25c28e83SPiotr Jasiukajtis * another fmaf for x86: assumes return value will be left in
*25c28e83SPiotr Jasiukajtis * long double (80-bit double extended) precision
*25c28e83SPiotr Jasiukajtis */
*25c28e83SPiotr Jasiukajtislong double
*25c28e83SPiotr Jasiukajtis__fmaf(float x, float y, float z) {
*25c28e83SPiotr Jasiukajtis	/*
*25c28e83SPiotr Jasiukajtis	 * Note: This implementation assumes the rounding precision mode
*25c28e83SPiotr Jasiukajtis	 * is set to the default, rounding to 64 bit precision.  If this
*25c28e83SPiotr Jasiukajtis	 * routine must work in non-default rounding precision modes, do
*25c28e83SPiotr Jasiukajtis	 * the following instead:
*25c28e83SPiotr Jasiukajtis	 *
*25c28e83SPiotr Jasiukajtis	 *   long double t;
*25c28e83SPiotr Jasiukajtis	 *
*25c28e83SPiotr Jasiukajtis	 *   <set rp mode to round to 64 bit precision>
*25c28e83SPiotr Jasiukajtis	 *   t = x * y;
*25c28e83SPiotr Jasiukajtis	 *   <restore rp mode>
*25c28e83SPiotr Jasiukajtis	 *   return t + z;
*25c28e83SPiotr Jasiukajtis	 *
*25c28e83SPiotr Jasiukajtis	 * Note that the code to change rounding precision must not alter
*25c28e83SPiotr Jasiukajtis	 * the exception masks or flags, since the product x * y may raise
*25c28e83SPiotr Jasiukajtis	 * an invalid operation exception.
*25c28e83SPiotr Jasiukajtis	 */
*25c28e83SPiotr Jasiukajtis	return ((long double) x * y + z);
*25c28e83SPiotr Jasiukajtis}
*25c28e83SPiotr Jasiukajtis#endif
*25c28e83SPiotr Jasiukajtis
*25c28e83SPiotr Jasiukajtis#else
*25c28e83SPiotr Jasiukajtis#error Unknown architecture
*25c28e83SPiotr Jasiukajtis#endif