mips/math-emu/dp_sqrt.c

9d5a6349SThomas Gleixner// SPDX-License-Identifier: GPL-2.0-only
1da177e4SLinus Torvalds/* IEEE754 floating point arithmetic
1da177e4SLinus Torvalds * double precision square root
1da177e4SLinus Torvalds */
1da177e4SLinus Torvalds/*
1da177e4SLinus Torvalds * MIPS floating point support
1da177e4SLinus Torvalds * Copyright (C) 1994-2000 Algorithmics Ltd.
1da177e4SLinus Torvalds */
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds#include "ieee754dp.h"
1da177e4SLinus Torvalds
a58f85b5SAleksandar Markovicstatic const unsigned int table[] = {
1da177e4SLinus Torvalds	0, 1204, 3062, 5746, 9193, 13348, 18162, 23592,
1da177e4SLinus Torvalds	29598, 36145, 43202, 50740, 58733, 67158, 75992,
1da177e4SLinus Torvalds	85215, 83599, 71378, 60428, 50647, 41945, 34246,
1da177e4SLinus Torvalds	27478, 21581, 16499, 12183, 8588, 5674, 3403,
1da177e4SLinus Torvalds	1742, 661, 130
1da177e4SLinus Torvalds};
1da177e4SLinus Torvalds
2209bcb1SRalf Baechleunion ieee754dp ieee754dp_sqrt(union ieee754dp x)
1da177e4SLinus Torvalds{
cd21dfcfSRalf Baechle	struct _ieee754_csr oldcsr;
2209bcb1SRalf Baechle	union ieee754dp y, z, t;
a58f85b5SAleksandar Markovic	unsigned int scalx, yh;
1da177e4SLinus Torvalds	COMPXDP;
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	EXPLODEXDP;
9e8bad1fSRalf Baechle	ieee754_clearcx();
1da177e4SLinus Torvalds	FLUSHXDP;
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	/* x == INF or NAN? */
1da177e4SLinus Torvalds	switch (xc) {
d5afa7e9SMaciej W. Rozycki	case IEEE754_CLASS_SNAN:
d5afa7e9SMaciej W. Rozycki		return ieee754dp_nanxcpt(x);
d5afa7e9SMaciej W. Rozycki
1da177e4SLinus Torvalds	case IEEE754_CLASS_QNAN:
1da177e4SLinus Torvalds		/* sqrt(Nan) = Nan */
539bfb57SMaciej W. Rozycki		return x;
3f7cac41SRalf Baechle
1da177e4SLinus Torvalds	case IEEE754_CLASS_ZERO:
1da177e4SLinus Torvalds		/* sqrt(0) = 0 */
1da177e4SLinus Torvalds		return x;
3f7cac41SRalf Baechle
1da177e4SLinus Torvalds	case IEEE754_CLASS_INF:
1da177e4SLinus Torvalds		if (xs) {
1da177e4SLinus Torvalds			/* sqrt(-Inf) = Nan */
9e8bad1fSRalf Baechle			ieee754_setcx(IEEE754_INVALID_OPERATION);
539bfb57SMaciej W. Rozycki			return ieee754dp_indef();
1da177e4SLinus Torvalds		}
1da177e4SLinus Torvalds		/* sqrt(+Inf) = Inf */
1da177e4SLinus Torvalds		return x;
3f7cac41SRalf Baechle
1da177e4SLinus Torvalds	case IEEE754_CLASS_DNORM:
1da177e4SLinus Torvalds		DPDNORMX;
c9b02990SLiangliang Huang		fallthrough;
1da177e4SLinus Torvalds	case IEEE754_CLASS_NORM:
1da177e4SLinus Torvalds		if (xs) {
1da177e4SLinus Torvalds			/* sqrt(-x) = Nan */
9e8bad1fSRalf Baechle			ieee754_setcx(IEEE754_INVALID_OPERATION);
539bfb57SMaciej W. Rozycki			return ieee754dp_indef();
1da177e4SLinus Torvalds		}
1da177e4SLinus Torvalds		break;
1da177e4SLinus Torvalds	}
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	/* save old csr; switch off INX enable & flag; set RN rounding */
1da177e4SLinus Torvalds	oldcsr = ieee754_csr;
1da177e4SLinus Torvalds	ieee754_csr.mx &= ~IEEE754_INEXACT;
1da177e4SLinus Torvalds	ieee754_csr.sx &= ~IEEE754_INEXACT;
56a64733SRalf Baechle	ieee754_csr.rm = FPU_CSR_RN;
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	/* adjust exponent to prevent overflow */
1da177e4SLinus Torvalds	scalx = 0;
1da177e4SLinus Torvalds	if (xe > 512) {		/* x > 2**-512? */
1da177e4SLinus Torvalds		xe -= 512;	/* x = x / 2**512 */
1da177e4SLinus Torvalds		scalx += 256;
1da177e4SLinus Torvalds	} else if (xe < -512) { /* x < 2**-512? */
1da177e4SLinus Torvalds		xe += 512;	/* x = x * 2**512 */
1da177e4SLinus Torvalds		scalx -= 256;
1da177e4SLinus Torvalds	}
1da177e4SLinus Torvalds
61100500SAleksandar Markovic	x = builddp(0, xe + DP_EBIAS, xm & ~DP_HIDDEN_BIT);
61100500SAleksandar Markovic	y = x;
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	/* magic initial approximation to almost 8 sig. bits */
1da177e4SLinus Torvalds	yh = y.bits >> 32;
1da177e4SLinus Torvalds	yh = (yh >> 1) + 0x1ff80000;
1da177e4SLinus Torvalds	yh = yh - table[(yh >> 15) & 31];
1da177e4SLinus Torvalds	y.bits = ((u64) yh << 32) | (y.bits & 0xffffffff);
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	/* Heron's rule once with correction to improve to ~18 sig. bits */
1da177e4SLinus Torvalds	/* t=x/y; y=y+t; py[n0]=py[n0]-0x00100006; py[n1]=0; */
1da177e4SLinus Torvalds	t = ieee754dp_div(x, y);
1da177e4SLinus Torvalds	y = ieee754dp_add(y, t);
1da177e4SLinus Torvalds	y.bits -= 0x0010000600000000LL;
1da177e4SLinus Torvalds	y.bits &= 0xffffffff00000000LL;
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	/* triple to almost 56 sig. bits: y ~= sqrt(x) to within 1 ulp */
1da177e4SLinus Torvalds	/* t=y*y; z=t;	pt[n0]+=0x00100000; t+=z; z=(x-z)*y; */
61100500SAleksandar Markovic	t = ieee754dp_mul(y, y);
61100500SAleksandar Markovic	z = t;
49548b09SRalf Baechle	t.bexp += 0x001;
1da177e4SLinus Torvalds	t = ieee754dp_add(t, z);
1da177e4SLinus Torvalds	z = ieee754dp_mul(ieee754dp_sub(x, z), y);
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	/* t=z/(t+x) ;	pt[n0]+=0x00100000; y+=t; */
1da177e4SLinus Torvalds	t = ieee754dp_div(z, ieee754dp_add(t, x));
49548b09SRalf Baechle	t.bexp += 0x001;
1da177e4SLinus Torvalds	y = ieee754dp_add(y, t);
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	/* twiddle last bit to force y correctly rounded */
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	/* set RZ, clear INEX flag */
56a64733SRalf Baechle	ieee754_csr.rm = FPU_CSR_RZ;
1da177e4SLinus Torvalds	ieee754_csr.sx &= ~IEEE754_INEXACT;
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	/* t=x/y; ...chopped quotient, possibly inexact */
1da177e4SLinus Torvalds	t = ieee754dp_div(x, y);
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	if (ieee754_csr.sx & IEEE754_INEXACT || t.bits != y.bits) {
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds		if (!(ieee754_csr.sx & IEEE754_INEXACT))
1da177e4SLinus Torvalds			/* t = t-ulp */
1da177e4SLinus Torvalds			t.bits -= 1;
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds		/* add inexact to result status */
1da177e4SLinus Torvalds		oldcsr.cx |= IEEE754_INEXACT;
1da177e4SLinus Torvalds		oldcsr.sx |= IEEE754_INEXACT;
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds		switch (oldcsr.rm) {
56a64733SRalf Baechle		case FPU_CSR_RU:
1da177e4SLinus Torvalds			y.bits += 1;
c9b02990SLiangliang Huang			fallthrough;
56a64733SRalf Baechle		case FPU_CSR_RN:
1da177e4SLinus Torvalds			t.bits += 1;
1da177e4SLinus Torvalds			break;
1da177e4SLinus Torvalds		}
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds		/* y=y+t; ...chopped sum */
1da177e4SLinus Torvalds		y = ieee754dp_add(y, t);
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds		/* adjust scalx for correctly rounded sqrt(x) */
1da177e4SLinus Torvalds		scalx -= 1;
1da177e4SLinus Torvalds	}
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	/* py[n0]=py[n0]+scalx; ...scale back y */
49548b09SRalf Baechle	y.bexp += scalx;
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	/* restore rounding mode, possibly set inexact */
1da177e4SLinus Torvalds	ieee754_csr = oldcsr;
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	return y;
1da177e4SLinus Torvalds}