aarch64/experimental/erfcf_1u7.c

*f3087befSAndrew Turner/*
*f3087befSAndrew Turner * Single-precision erfc(x) function.
*f3087befSAndrew Turner *
*f3087befSAndrew Turner * Copyright (c) 2023-2024, Arm Limited.
*f3087befSAndrew Turner * SPDX-License-Identifier: MIT OR Apache-2.0 WITH LLVM-exception
*f3087befSAndrew Turner */
*f3087befSAndrew Turner
*f3087befSAndrew Turner#include "math_config.h"
*f3087befSAndrew Turner#include "test_sig.h"
*f3087befSAndrew Turner#include "test_defs.h"
*f3087befSAndrew Turner
*f3087befSAndrew Turner#define Shift 0x1p17f
*f3087befSAndrew Turner#define OneThird 0x1.555556p-2f
*f3087befSAndrew Turner#define TwoThird 0x1.555556p-1f
*f3087befSAndrew Turner
*f3087befSAndrew Turner#define TwoOverFifteen 0x1.111112p-3f
*f3087befSAndrew Turner#define TwoOverFive 0x1.99999ap-2f
*f3087befSAndrew Turner#define Tenth 0x1.99999ap-4f
*f3087befSAndrew Turner
*f3087befSAndrew Turner#define SignMask 0x7fffffff
*f3087befSAndrew Turner
*f3087befSAndrew Turner/* Fast erfcf approximation based on series expansion near x rounded to
*f3087befSAndrew Turner   nearest multiple of 1/64.
*f3087befSAndrew Turner   Let d = x - r, and scale = 2 / sqrt(pi) * exp(-r^2). For x near r,
*f3087befSAndrew Turner
*f3087befSAndrew Turner   erfc(x) ~ erfc(r) - scale * d * poly(r, d), with
*f3087befSAndrew Turner
*f3087befSAndrew Turner   poly(r, d) = 1 - r d + (2/3 r^2 - 1/3) d^2 - r (1/3 r^2 - 1/2) d^3
*f3087befSAndrew Turner		+ (2/15 r^4 - 2/5 r^2 + 1/10) d^4
*f3087befSAndrew Turner
*f3087befSAndrew Turner   Values of erfc(r) and scale are read from lookup tables. Stored values
*f3087befSAndrew Turner   are scaled to avoid hitting the subnormal range.
*f3087befSAndrew Turner
*f3087befSAndrew Turner   Note that for x < 0, erfc(x) = 2.0 - erfc(-x).
*f3087befSAndrew Turner
*f3087befSAndrew Turner   Maximum error: 1.63 ULP (~1.0 ULP for x < 0.0).
*f3087befSAndrew Turner   erfcf(0x1.1dbf7ap+3) got 0x1.f51212p-120
*f3087befSAndrew Turner		       want 0x1.f51216p-120.  */
*f3087befSAndrew Turnerfloat
*f3087befSAndrew Turnererfcf (float x)
*f3087befSAndrew Turner{
*f3087befSAndrew Turner  /* Get top words and sign.  */
*f3087befSAndrew Turner  uint32_t ix = asuint (x);
*f3087befSAndrew Turner  uint32_t ia = ix & SignMask;
*f3087befSAndrew Turner  uint32_t sign = ix & ~SignMask;
*f3087befSAndrew Turner
*f3087befSAndrew Turner  /* |x| < 0x1.0p-26 => accurate to 0.5 ULP (top12(0x1p-26) = 0x328).  */
*f3087befSAndrew Turner  if (unlikely (ia < 0x32800000))
*f3087befSAndrew Turner    return 1.0f - x; /* Small case.  */
*f3087befSAndrew Turner
*f3087befSAndrew Turner  /* For |x| < 10.0625, the following approximation holds.  */
*f3087befSAndrew Turner  if (likely (ia < 0x41210000))
*f3087befSAndrew Turner    {
*f3087befSAndrew Turner      /* Lookup erfc(r) and scale(r) in tables, e.g. set erfc(r) to 1 and scale
*f3087befSAndrew Turner	 to 2/sqrt(pi), when x reduced to r = 0.  */
*f3087befSAndrew Turner      float a = asfloat (ia);
*f3087befSAndrew Turner      float z = a + Shift;
*f3087befSAndrew Turner      uint32_t i = asuint (z) - asuint (Shift);
*f3087befSAndrew Turner      float r = z - Shift;
*f3087befSAndrew Turner
*f3087befSAndrew Turner      /* These values are scaled by 2^-47.  */
*f3087befSAndrew Turner      float erfcr = __v_erfcf_data.tab[i].erfc;
*f3087befSAndrew Turner      float scale = __v_erfcf_data.tab[i].scale;
*f3087befSAndrew Turner
*f3087befSAndrew Turner      /* erfc(x) ~ erfc(r) - scale * d * poly (r, d).  */
*f3087befSAndrew Turner      float d = a - r;
*f3087befSAndrew Turner      float d2 = d * d;
*f3087befSAndrew Turner      float r2 = r * r;
*f3087befSAndrew Turner      float p1 = -r;
*f3087befSAndrew Turner      float p2 = fmaf (TwoThird, r2, -OneThird);
*f3087befSAndrew Turner      float p3 = -r * fmaf (OneThird, r2, -0.5f);
*f3087befSAndrew Turner      float p4 = fmaf (fmaf (TwoOverFifteen, r2, -TwoOverFive), r2, Tenth);
*f3087befSAndrew Turner      float y = fmaf (p4, d, p3);
*f3087befSAndrew Turner      y = fmaf (y, d, p2);
*f3087befSAndrew Turner      y = fmaf (y, d, p1);
*f3087befSAndrew Turner      y = fmaf (-fmaf (y, d2, d), scale, erfcr);
*f3087befSAndrew Turner      /* Handle sign and scale back in a single fma.  */
*f3087befSAndrew Turner      float off = asfloat (sign >> 1);
*f3087befSAndrew Turner      float fac = asfloat (asuint (0x1p-47f) | sign);
*f3087befSAndrew Turner      y = fmaf (y, fac, off);
*f3087befSAndrew Turner      /* The underflow exception needs to be signaled explicitly when
*f3087befSAndrew Turner	 result gets into subormnal range.  */
*f3087befSAndrew Turner      if (x >= 0x1.2639cp+3f)
*f3087befSAndrew Turner	force_eval_float (opt_barrier_float (0x1p-123f) * 0x1p-123f);
*f3087befSAndrew Turner      return y;
*f3087befSAndrew Turner    }
*f3087befSAndrew Turner
*f3087befSAndrew Turner  /* erfcf(nan)=nan, erfcf(+inf)=0 and erfcf(-inf)=2.  */
*f3087befSAndrew Turner  if (unlikely (ia >= 0x7f800000))
*f3087befSAndrew Turner    return asfloat (sign >> 1) + 1.0f / x; /* Special cases.  */
*f3087befSAndrew Turner
*f3087befSAndrew Turner  /* Above this threshold erfcf is constant and needs to raise underflow
*f3087befSAndrew Turner     exception for positive x.  */
*f3087befSAndrew Turner  return sign ? 2.0f : __math_uflowf (0);
*f3087befSAndrew Turner}
*f3087befSAndrew Turner
*f3087befSAndrew TurnerTEST_SIG (S, F, 1, erfc, -4.0, 10.0)
*f3087befSAndrew TurnerTEST_ULP (erfcf, 1.14)
*f3087befSAndrew TurnerTEST_SYM_INTERVAL (erfcf, 0, 0x1p-26, 40000)
*f3087befSAndrew TurnerTEST_INTERVAL (erfcf, 0x1p-26, 10.0625, 40000)
*f3087befSAndrew TurnerTEST_INTERVAL (erfcf, -0x1p-26, -4.0, 40000)
*f3087befSAndrew TurnerTEST_INTERVAL (erfcf, 10.0625, inf, 40000)
*f3087befSAndrew TurnerTEST_INTERVAL (erfcf, -4.0, -inf, 40000)