mips/math-emu/dp_sqrt.c

1da177e4SLinus Torvalds/* IEEE754 floating point arithmetic
1da177e4SLinus Torvalds * double precision square root
1da177e4SLinus Torvalds */
1da177e4SLinus Torvalds/*
1da177e4SLinus Torvalds * MIPS floating point support
1da177e4SLinus Torvalds * Copyright (C) 1994-2000 Algorithmics Ltd.
1da177e4SLinus Torvalds *
1da177e4SLinus Torvalds * ########################################################################
1da177e4SLinus Torvalds *
1da177e4SLinus Torvalds *  This program is free software; you can distribute it and/or modify it
1da177e4SLinus Torvalds *  under the terms of the GNU General Public License (Version 2) as
1da177e4SLinus Torvalds *  published by the Free Software Foundation.
1da177e4SLinus Torvalds *
1da177e4SLinus Torvalds *  This program is distributed in the hope it will be useful, but WITHOUT
1da177e4SLinus Torvalds *  ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or
1da177e4SLinus Torvalds *  FITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public License
1da177e4SLinus Torvalds *  for more details.
1da177e4SLinus Torvalds *
1da177e4SLinus Torvalds *  You should have received a copy of the GNU General Public License along
1da177e4SLinus Torvalds *  with this program; if not, write to the Free Software Foundation, Inc.,
1da177e4SLinus Torvalds *  59 Temple Place - Suite 330, Boston MA 02111-1307, USA.
1da177e4SLinus Torvalds *
1da177e4SLinus Torvalds * ########################################################################
1da177e4SLinus Torvalds */
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds#include "ieee754dp.h"
1da177e4SLinus Torvalds
1da177e4SLinus Torvaldsstatic const unsigned table[] = {
1da177e4SLinus Torvalds	0, 1204, 3062, 5746, 9193, 13348, 18162, 23592,
1da177e4SLinus Torvalds	29598, 36145, 43202, 50740, 58733, 67158, 75992,
1da177e4SLinus Torvalds	85215, 83599, 71378, 60428, 50647, 41945, 34246,
1da177e4SLinus Torvalds	27478, 21581, 16499, 12183, 8588, 5674, 3403,
1da177e4SLinus Torvalds	1742, 661, 130
1da177e4SLinus Torvalds};
1da177e4SLinus Torvalds
2209bcb1SRalf Baechleunion ieee754dp ieee754dp_sqrt(union ieee754dp x)
1da177e4SLinus Torvalds{
cd21dfcfSRalf Baechle	struct _ieee754_csr oldcsr;
2209bcb1SRalf Baechle	union ieee754dp y, z, t;
1da177e4SLinus Torvalds	unsigned scalx, yh;
1da177e4SLinus Torvalds	COMPXDP;
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	EXPLODEXDP;
9e8bad1fSRalf Baechle	ieee754_clearcx();
1da177e4SLinus Torvalds	FLUSHXDP;
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	/* x == INF or NAN? */
1da177e4SLinus Torvalds	switch (xc) {
1da177e4SLinus Torvalds	case IEEE754_CLASS_QNAN:
1da177e4SLinus Torvalds		/* sqrt(Nan) = Nan */
90efba36SRalf Baechle		return ieee754dp_nanxcpt(x);
1da177e4SLinus Torvalds	case IEEE754_CLASS_SNAN:
9e8bad1fSRalf Baechle		ieee754_setcx(IEEE754_INVALID_OPERATION);
90efba36SRalf Baechle		return ieee754dp_nanxcpt(ieee754dp_indef());
1da177e4SLinus Torvalds	case IEEE754_CLASS_ZERO:
1da177e4SLinus Torvalds		/* sqrt(0) = 0 */
1da177e4SLinus Torvalds		return x;
1da177e4SLinus Torvalds	case IEEE754_CLASS_INF:
1da177e4SLinus Torvalds		if (xs) {
1da177e4SLinus Torvalds			/* sqrt(-Inf) = Nan */
9e8bad1fSRalf Baechle			ieee754_setcx(IEEE754_INVALID_OPERATION);
90efba36SRalf Baechle			return ieee754dp_nanxcpt(ieee754dp_indef());
1da177e4SLinus Torvalds		}
1da177e4SLinus Torvalds		/* sqrt(+Inf) = Inf */
1da177e4SLinus Torvalds		return x;
1da177e4SLinus Torvalds	case IEEE754_CLASS_DNORM:
1da177e4SLinus Torvalds		DPDNORMX;
1da177e4SLinus Torvalds		/* fall through */
1da177e4SLinus Torvalds	case IEEE754_CLASS_NORM:
1da177e4SLinus Torvalds		if (xs) {
1da177e4SLinus Torvalds			/* sqrt(-x) = Nan */
9e8bad1fSRalf Baechle			ieee754_setcx(IEEE754_INVALID_OPERATION);
90efba36SRalf Baechle			return ieee754dp_nanxcpt(ieee754dp_indef());
1da177e4SLinus Torvalds		}
1da177e4SLinus Torvalds		break;
1da177e4SLinus Torvalds	}
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	/* save old csr; switch off INX enable & flag; set RN rounding */
1da177e4SLinus Torvalds	oldcsr = ieee754_csr;
1da177e4SLinus Torvalds	ieee754_csr.mx &= ~IEEE754_INEXACT;
1da177e4SLinus Torvalds	ieee754_csr.sx &= ~IEEE754_INEXACT;
1da177e4SLinus Torvalds	ieee754_csr.rm = IEEE754_RN;
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	/* adjust exponent to prevent overflow */
1da177e4SLinus Torvalds	scalx = 0;
1da177e4SLinus Torvalds	if (xe > 512) {		/* x > 2**-512? */
1da177e4SLinus Torvalds		xe -= 512;	/* x = x / 2**512 */
1da177e4SLinus Torvalds		scalx += 256;
1da177e4SLinus Torvalds	} else if (xe < -512) { /* x < 2**-512? */
1da177e4SLinus Torvalds		xe += 512;	/* x = x * 2**512 */
1da177e4SLinus Torvalds		scalx -= 256;
1da177e4SLinus Torvalds	}
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	y = x = builddp(0, xe + DP_EBIAS, xm & ~DP_HIDDEN_BIT);
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	/* magic initial approximation to almost 8 sig. bits */
1da177e4SLinus Torvalds	yh = y.bits >> 32;
1da177e4SLinus Torvalds	yh = (yh >> 1) + 0x1ff80000;
1da177e4SLinus Torvalds	yh = yh - table[(yh >> 15) & 31];
1da177e4SLinus Torvalds	y.bits = ((u64) yh << 32) | (y.bits & 0xffffffff);
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	/* Heron's rule once with correction to improve to ~18 sig. bits */
1da177e4SLinus Torvalds	/* t=x/y; y=y+t; py[n0]=py[n0]-0x00100006; py[n1]=0; */
1da177e4SLinus Torvalds	t = ieee754dp_div(x, y);
1da177e4SLinus Torvalds	y = ieee754dp_add(y, t);
1da177e4SLinus Torvalds	y.bits -= 0x0010000600000000LL;
1da177e4SLinus Torvalds	y.bits &= 0xffffffff00000000LL;
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	/* triple to almost 56 sig. bits: y ~= sqrt(x) to within 1 ulp */
1da177e4SLinus Torvalds	/* t=y*y; z=t;	pt[n0]+=0x00100000; t+=z; z=(x-z)*y; */
1da177e4SLinus Torvalds	z = t = ieee754dp_mul(y, y);
1da177e4SLinus Torvalds	t.parts.bexp += 0x001;
1da177e4SLinus Torvalds	t = ieee754dp_add(t, z);
1da177e4SLinus Torvalds	z = ieee754dp_mul(ieee754dp_sub(x, z), y);
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	/* t=z/(t+x) ;	pt[n0]+=0x00100000; y+=t; */
1da177e4SLinus Torvalds	t = ieee754dp_div(z, ieee754dp_add(t, x));
1da177e4SLinus Torvalds	t.parts.bexp += 0x001;
1da177e4SLinus Torvalds	y = ieee754dp_add(y, t);
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	/* twiddle last bit to force y correctly rounded */
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	/* set RZ, clear INEX flag */
1da177e4SLinus Torvalds	ieee754_csr.rm = IEEE754_RZ;
1da177e4SLinus Torvalds	ieee754_csr.sx &= ~IEEE754_INEXACT;
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	/* t=x/y; ...chopped quotient, possibly inexact */
1da177e4SLinus Torvalds	t = ieee754dp_div(x, y);
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	if (ieee754_csr.sx & IEEE754_INEXACT || t.bits != y.bits) {
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds		if (!(ieee754_csr.sx & IEEE754_INEXACT))
1da177e4SLinus Torvalds			/* t = t-ulp */
1da177e4SLinus Torvalds			t.bits -= 1;
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds		/* add inexact to result status */
1da177e4SLinus Torvalds		oldcsr.cx |= IEEE754_INEXACT;
1da177e4SLinus Torvalds		oldcsr.sx |= IEEE754_INEXACT;
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds		switch (oldcsr.rm) {
1da177e4SLinus Torvalds		case IEEE754_RP:
1da177e4SLinus Torvalds			y.bits += 1;
1da177e4SLinus Torvalds			/* drop through */
1da177e4SLinus Torvalds		case IEEE754_RN:
1da177e4SLinus Torvalds			t.bits += 1;
1da177e4SLinus Torvalds			break;
1da177e4SLinus Torvalds		}
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds		/* y=y+t; ...chopped sum */
1da177e4SLinus Torvalds		y = ieee754dp_add(y, t);
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds		/* adjust scalx for correctly rounded sqrt(x) */
1da177e4SLinus Torvalds		scalx -= 1;
1da177e4SLinus Torvalds	}
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	/* py[n0]=py[n0]+scalx; ...scale back y */
1da177e4SLinus Torvalds	y.parts.bexp += scalx;
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	/* restore rounding mode, possibly set inexact */
1da177e4SLinus Torvalds	ieee754_csr = oldcsr;
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	return y;
1da177e4SLinus Torvalds}