mips/math-emu/dp_sqrt.c

1da177e4SLinus Torvalds/* IEEE754 floating point arithmetic
1da177e4SLinus Torvalds * double precision square root
1da177e4SLinus Torvalds */
1da177e4SLinus Torvalds/*
1da177e4SLinus Torvalds * MIPS floating point support
1da177e4SLinus Torvalds * Copyright (C) 1994-2000 Algorithmics Ltd.
1da177e4SLinus Torvalds *
1da177e4SLinus Torvalds *  This program is free software; you can distribute it and/or modify it
1da177e4SLinus Torvalds *  under the terms of the GNU General Public License (Version 2) as
1da177e4SLinus Torvalds *  published by the Free Software Foundation.
1da177e4SLinus Torvalds *
1da177e4SLinus Torvalds *  This program is distributed in the hope it will be useful, but WITHOUT
1da177e4SLinus Torvalds *  ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or
1da177e4SLinus Torvalds *  FITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public License
1da177e4SLinus Torvalds *  for more details.
1da177e4SLinus Torvalds *
1da177e4SLinus Torvalds *  You should have received a copy of the GNU General Public License along
1da177e4SLinus Torvalds *  with this program; if not, write to the Free Software Foundation, Inc.,
3f7cac41SRalf Baechle *  51 Franklin St, Fifth Floor, Boston, MA  02110-1301  USA.
1da177e4SLinus Torvalds */
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds#include "ieee754dp.h"
1da177e4SLinus Torvalds
a58f85b5SAleksandar Markovicstatic const unsigned int table[] = {
1da177e4SLinus Torvalds	0, 1204, 3062, 5746, 9193, 13348, 18162, 23592,
1da177e4SLinus Torvalds	29598, 36145, 43202, 50740, 58733, 67158, 75992,
1da177e4SLinus Torvalds	85215, 83599, 71378, 60428, 50647, 41945, 34246,
1da177e4SLinus Torvalds	27478, 21581, 16499, 12183, 8588, 5674, 3403,
1da177e4SLinus Torvalds	1742, 661, 130
1da177e4SLinus Torvalds};
1da177e4SLinus Torvalds
2209bcb1SRalf Baechleunion ieee754dp ieee754dp_sqrt(union ieee754dp x)
1da177e4SLinus Torvalds{
cd21dfcfSRalf Baechle	struct _ieee754_csr oldcsr;
2209bcb1SRalf Baechle	union ieee754dp y, z, t;
a58f85b5SAleksandar Markovic	unsigned int scalx, yh;
1da177e4SLinus Torvalds	COMPXDP;
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	EXPLODEXDP;
9e8bad1fSRalf Baechle	ieee754_clearcx();
1da177e4SLinus Torvalds	FLUSHXDP;
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	/* x == INF or NAN? */
1da177e4SLinus Torvalds	switch (xc) {
d5afa7e9SMaciej W. Rozycki	case IEEE754_CLASS_SNAN:
d5afa7e9SMaciej W. Rozycki		return ieee754dp_nanxcpt(x);
d5afa7e9SMaciej W. Rozycki
1da177e4SLinus Torvalds	case IEEE754_CLASS_QNAN:
1da177e4SLinus Torvalds		/* sqrt(Nan) = Nan */
539bfb57SMaciej W. Rozycki		return x;
3f7cac41SRalf Baechle
1da177e4SLinus Torvalds	case IEEE754_CLASS_ZERO:
1da177e4SLinus Torvalds		/* sqrt(0) = 0 */
1da177e4SLinus Torvalds		return x;
3f7cac41SRalf Baechle
1da177e4SLinus Torvalds	case IEEE754_CLASS_INF:
1da177e4SLinus Torvalds		if (xs) {
1da177e4SLinus Torvalds			/* sqrt(-Inf) = Nan */
9e8bad1fSRalf Baechle			ieee754_setcx(IEEE754_INVALID_OPERATION);
539bfb57SMaciej W. Rozycki			return ieee754dp_indef();
1da177e4SLinus Torvalds		}
1da177e4SLinus Torvalds		/* sqrt(+Inf) = Inf */
1da177e4SLinus Torvalds		return x;
3f7cac41SRalf Baechle
1da177e4SLinus Torvalds	case IEEE754_CLASS_DNORM:
1da177e4SLinus Torvalds		DPDNORMX;
1da177e4SLinus Torvalds		/* fall through */
3f7cac41SRalf Baechle
1da177e4SLinus Torvalds	case IEEE754_CLASS_NORM:
1da177e4SLinus Torvalds		if (xs) {
1da177e4SLinus Torvalds			/* sqrt(-x) = Nan */
9e8bad1fSRalf Baechle			ieee754_setcx(IEEE754_INVALID_OPERATION);
539bfb57SMaciej W. Rozycki			return ieee754dp_indef();
1da177e4SLinus Torvalds		}
1da177e4SLinus Torvalds		break;
1da177e4SLinus Torvalds	}
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	/* save old csr; switch off INX enable & flag; set RN rounding */
1da177e4SLinus Torvalds	oldcsr = ieee754_csr;
1da177e4SLinus Torvalds	ieee754_csr.mx &= ~IEEE754_INEXACT;
1da177e4SLinus Torvalds	ieee754_csr.sx &= ~IEEE754_INEXACT;
56a64733SRalf Baechle	ieee754_csr.rm = FPU_CSR_RN;
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	/* adjust exponent to prevent overflow */
1da177e4SLinus Torvalds	scalx = 0;
1da177e4SLinus Torvalds	if (xe > 512) {		/* x > 2**-512? */
1da177e4SLinus Torvalds		xe -= 512;	/* x = x / 2**512 */
1da177e4SLinus Torvalds		scalx += 256;
1da177e4SLinus Torvalds	} else if (xe < -512) { /* x < 2**-512? */
1da177e4SLinus Torvalds		xe += 512;	/* x = x * 2**512 */
1da177e4SLinus Torvalds		scalx -= 256;
1da177e4SLinus Torvalds	}
1da177e4SLinus Torvalds
61100500SAleksandar Markovic	x = builddp(0, xe + DP_EBIAS, xm & ~DP_HIDDEN_BIT);
61100500SAleksandar Markovic	y = x;
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	/* magic initial approximation to almost 8 sig. bits */
1da177e4SLinus Torvalds	yh = y.bits >> 32;
1da177e4SLinus Torvalds	yh = (yh >> 1) + 0x1ff80000;
1da177e4SLinus Torvalds	yh = yh - table[(yh >> 15) & 31];
1da177e4SLinus Torvalds	y.bits = ((u64) yh << 32) | (y.bits & 0xffffffff);
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	/* Heron's rule once with correction to improve to ~18 sig. bits */
1da177e4SLinus Torvalds	/* t=x/y; y=y+t; py[n0]=py[n0]-0x00100006; py[n1]=0; */
1da177e4SLinus Torvalds	t = ieee754dp_div(x, y);
1da177e4SLinus Torvalds	y = ieee754dp_add(y, t);
1da177e4SLinus Torvalds	y.bits -= 0x0010000600000000LL;
1da177e4SLinus Torvalds	y.bits &= 0xffffffff00000000LL;
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	/* triple to almost 56 sig. bits: y ~= sqrt(x) to within 1 ulp */
1da177e4SLinus Torvalds	/* t=y*y; z=t;	pt[n0]+=0x00100000; t+=z; z=(x-z)*y; */
61100500SAleksandar Markovic	t = ieee754dp_mul(y, y);
61100500SAleksandar Markovic	z = t;
49548b09SRalf Baechle	t.bexp += 0x001;
1da177e4SLinus Torvalds	t = ieee754dp_add(t, z);
1da177e4SLinus Torvalds	z = ieee754dp_mul(ieee754dp_sub(x, z), y);
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	/* t=z/(t+x) ;	pt[n0]+=0x00100000; y+=t; */
1da177e4SLinus Torvalds	t = ieee754dp_div(z, ieee754dp_add(t, x));
49548b09SRalf Baechle	t.bexp += 0x001;
1da177e4SLinus Torvalds	y = ieee754dp_add(y, t);
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	/* twiddle last bit to force y correctly rounded */
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	/* set RZ, clear INEX flag */
56a64733SRalf Baechle	ieee754_csr.rm = FPU_CSR_RZ;
1da177e4SLinus Torvalds	ieee754_csr.sx &= ~IEEE754_INEXACT;
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	/* t=x/y; ...chopped quotient, possibly inexact */
1da177e4SLinus Torvalds	t = ieee754dp_div(x, y);
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	if (ieee754_csr.sx & IEEE754_INEXACT || t.bits != y.bits) {
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds		if (!(ieee754_csr.sx & IEEE754_INEXACT))
1da177e4SLinus Torvalds			/* t = t-ulp */
1da177e4SLinus Torvalds			t.bits -= 1;
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds		/* add inexact to result status */
1da177e4SLinus Torvalds		oldcsr.cx |= IEEE754_INEXACT;
1da177e4SLinus Torvalds		oldcsr.sx |= IEEE754_INEXACT;
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds		switch (oldcsr.rm) {
56a64733SRalf Baechle		case FPU_CSR_RU:
1da177e4SLinus Torvalds			y.bits += 1;
1da177e4SLinus Torvalds			/* drop through */
56a64733SRalf Baechle		case FPU_CSR_RN:
1da177e4SLinus Torvalds			t.bits += 1;
1da177e4SLinus Torvalds			break;
1da177e4SLinus Torvalds		}
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds		/* y=y+t; ...chopped sum */
1da177e4SLinus Torvalds		y = ieee754dp_add(y, t);
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds		/* adjust scalx for correctly rounded sqrt(x) */
1da177e4SLinus Torvalds		scalx -= 1;
1da177e4SLinus Torvalds	}
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	/* py[n0]=py[n0]+scalx; ...scale back y */
49548b09SRalf Baechle	y.bexp += scalx;
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	/* restore rounding mode, possibly set inexact */
1da177e4SLinus Torvalds	ieee754_csr = oldcsr;
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	return y;
1da177e4SLinus Torvalds}