cpu/sh4/softfloat.c

c8c0a1abSStuart Menefy/*
c8c0a1abSStuart Menefy * Floating point emulation support for subnormalised numbers on SH4
c8c0a1abSStuart Menefy * architecture This file is derived from the SoftFloat IEC/IEEE
c8c0a1abSStuart Menefy * Floating-point Arithmetic Package, Release 2 the original license of
c8c0a1abSStuart Menefy * which is reproduced below.
c8c0a1abSStuart Menefy *
c8c0a1abSStuart Menefy * ========================================================================
c8c0a1abSStuart Menefy *
c8c0a1abSStuart Menefy * This C source file is part of the SoftFloat IEC/IEEE Floating-point
c8c0a1abSStuart Menefy * Arithmetic Package, Release 2.
c8c0a1abSStuart Menefy *
c8c0a1abSStuart Menefy * Written by John R. Hauser.  This work was made possible in part by the
c8c0a1abSStuart Menefy * International Computer Science Institute, located at Suite 600, 1947 Center
c8c0a1abSStuart Menefy * Street, Berkeley, California 94704.  Funding was partially provided by the
c8c0a1abSStuart Menefy * National Science Foundation under grant MIP-9311980.  The original version
c8c0a1abSStuart Menefy * of this code was written as part of a project to build a fixed-point vector
c8c0a1abSStuart Menefy * processor in collaboration with the University of California at Berkeley,
c8c0a1abSStuart Menefy * overseen by Profs. Nelson Morgan and John Wawrzynek.  More information
c8c0a1abSStuart Menefy * is available through the web page `http://HTTP.CS.Berkeley.EDU/~jhauser/
c8c0a1abSStuart Menefy * arithmetic/softfloat.html'.
c8c0a1abSStuart Menefy *
c8c0a1abSStuart Menefy * THIS SOFTWARE IS DISTRIBUTED AS IS, FOR FREE.  Although reasonable effort
c8c0a1abSStuart Menefy * has been made to avoid it, THIS SOFTWARE MAY CONTAIN FAULTS THAT WILL AT
c8c0a1abSStuart Menefy * TIMES RESULT IN INCORRECT BEHAVIOR.  USE OF THIS SOFTWARE IS RESTRICTED TO
c8c0a1abSStuart Menefy * PERSONS AND ORGANIZATIONS WHO CAN AND WILL TAKE FULL RESPONSIBILITY FOR ANY
c8c0a1abSStuart Menefy * AND ALL LOSSES, COSTS, OR OTHER PROBLEMS ARISING FROM ITS USE.
c8c0a1abSStuart Menefy *
c8c0a1abSStuart Menefy * Derivative works are acceptable, even for commercial purposes, so long as
c8c0a1abSStuart Menefy * (1) they include prominent notice that the work is derivative, and (2) they
c8c0a1abSStuart Menefy * include prominent notice akin to these three paragraphs for those parts of
c8c0a1abSStuart Menefy * this code that are retained.
c8c0a1abSStuart Menefy *
c8c0a1abSStuart Menefy * ========================================================================
c8c0a1abSStuart Menefy *
c8c0a1abSStuart Menefy * SH4 modifications by Ismail Dhaoui <ismail.dhaoui@st.com>
c8c0a1abSStuart Menefy * and Kamel Khelifi <kamel.khelifi@st.com>
c8c0a1abSStuart Menefy */
c8c0a1abSStuart Menefy#include <linux/kernel.h>
f15cbe6fSPaul Mundt#include <cpu/fpu.h>
*e9bf51e5SPaul Mundt#include <asm/div64.h>
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefy#define LIT64( a ) a##LL
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefytypedef char flag;
c8c0a1abSStuart Menefytypedef unsigned char uint8;
c8c0a1abSStuart Menefytypedef signed char int8;
c8c0a1abSStuart Menefytypedef int uint16;
c8c0a1abSStuart Menefytypedef int int16;
c8c0a1abSStuart Menefytypedef unsigned int uint32;
c8c0a1abSStuart Menefytypedef signed int int32;
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefytypedef unsigned long long int bits64;
c8c0a1abSStuart Menefytypedef signed long long int sbits64;
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefytypedef unsigned char bits8;
c8c0a1abSStuart Menefytypedef signed char sbits8;
c8c0a1abSStuart Menefytypedef unsigned short int bits16;
c8c0a1abSStuart Menefytypedef signed short int sbits16;
c8c0a1abSStuart Menefytypedef unsigned int bits32;
c8c0a1abSStuart Menefytypedef signed int sbits32;
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefytypedef unsigned long long int uint64;
c8c0a1abSStuart Menefytypedef signed long long int int64;
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefytypedef unsigned long int float32;
c8c0a1abSStuart Menefytypedef unsigned long long float64;
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefyextern void float_raise(unsigned int flags);	/* in fpu.c */
c8c0a1abSStuart Menefyextern int float_rounding_mode(void);	/* in fpu.c */
c8c0a1abSStuart Menefy
*e9bf51e5SPaul Mundtbits64 extractFloat64Frac(float64 a);
*e9bf51e5SPaul Mundtflag extractFloat64Sign(float64 a);
*e9bf51e5SPaul Mundtint16 extractFloat64Exp(float64 a);
*e9bf51e5SPaul Mundtint16 extractFloat32Exp(float32 a);
*e9bf51e5SPaul Mundtflag extractFloat32Sign(float32 a);
*e9bf51e5SPaul Mundtbits32 extractFloat32Frac(float32 a);
*e9bf51e5SPaul Mundtfloat64 packFloat64(flag zSign, int16 zExp, bits64 zSig);
*e9bf51e5SPaul Mundtvoid shift64RightJamming(bits64 a, int16 count, bits64 * zPtr);
*e9bf51e5SPaul Mundtfloat32 packFloat32(flag zSign, int16 zExp, bits32 zSig);
*e9bf51e5SPaul Mundtvoid shift32RightJamming(bits32 a, int16 count, bits32 * zPtr);
c8c0a1abSStuart Menefyfloat64 float64_sub(float64 a, float64 b);
c8c0a1abSStuart Menefyfloat32 float32_sub(float32 a, float32 b);
c8c0a1abSStuart Menefyfloat32 float32_add(float32 a, float32 b);
c8c0a1abSStuart Menefyfloat64 float64_add(float64 a, float64 b);
c8c0a1abSStuart Menefyfloat64 float64_div(float64 a, float64 b);
c8c0a1abSStuart Menefyfloat32 float32_div(float32 a, float32 b);
c8c0a1abSStuart Menefyfloat32 float32_mul(float32 a, float32 b);
c8c0a1abSStuart Menefyfloat64 float64_mul(float64 a, float64 b);
b6ad1e8cSCarl Shawfloat32 float64_to_float32(float64 a);
*e9bf51e5SPaul Mundtvoid add128(bits64 a0, bits64 a1, bits64 b0, bits64 b1, bits64 * z0Ptr,
c8c0a1abSStuart Menefy		   bits64 * z1Ptr);
*e9bf51e5SPaul Mundtvoid sub128(bits64 a0, bits64 a1, bits64 b0, bits64 b1, bits64 * z0Ptr,
c8c0a1abSStuart Menefy		   bits64 * z1Ptr);
*e9bf51e5SPaul Mundtvoid mul64To128(bits64 a, bits64 b, bits64 * z0Ptr, bits64 * z1Ptr);
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefystatic int8 countLeadingZeros32(bits32 a);
c8c0a1abSStuart Menefystatic int8 countLeadingZeros64(bits64 a);
c8c0a1abSStuart Menefystatic float64 normalizeRoundAndPackFloat64(flag zSign, int16 zExp,
c8c0a1abSStuart Menefy					    bits64 zSig);
c8c0a1abSStuart Menefystatic float64 subFloat64Sigs(float64 a, float64 b, flag zSign);
c8c0a1abSStuart Menefystatic float64 addFloat64Sigs(float64 a, float64 b, flag zSign);
c8c0a1abSStuart Menefystatic float32 roundAndPackFloat32(flag zSign, int16 zExp, bits32 zSig);
c8c0a1abSStuart Menefystatic float32 normalizeRoundAndPackFloat32(flag zSign, int16 zExp,
c8c0a1abSStuart Menefy					    bits32 zSig);
c8c0a1abSStuart Menefystatic float64 roundAndPackFloat64(flag zSign, int16 zExp, bits64 zSig);
c8c0a1abSStuart Menefystatic float32 subFloat32Sigs(float32 a, float32 b, flag zSign);
c8c0a1abSStuart Menefystatic float32 addFloat32Sigs(float32 a, float32 b, flag zSign);
c8c0a1abSStuart Menefystatic void normalizeFloat64Subnormal(bits64 aSig, int16 * zExpPtr,
c8c0a1abSStuart Menefy				      bits64 * zSigPtr);
c8c0a1abSStuart Menefystatic bits64 estimateDiv128To64(bits64 a0, bits64 a1, bits64 b);
c8c0a1abSStuart Menefystatic void normalizeFloat32Subnormal(bits32 aSig, int16 * zExpPtr,
c8c0a1abSStuart Menefy				      bits32 * zSigPtr);
c8c0a1abSStuart Menefy
*e9bf51e5SPaul Mundtbits64 extractFloat64Frac(float64 a)
c8c0a1abSStuart Menefy{
c8c0a1abSStuart Menefy	return a & LIT64(0x000FFFFFFFFFFFFF);
c8c0a1abSStuart Menefy}
c8c0a1abSStuart Menefy
*e9bf51e5SPaul Mundtflag extractFloat64Sign(float64 a)
c8c0a1abSStuart Menefy{
c8c0a1abSStuart Menefy	return a >> 63;
c8c0a1abSStuart Menefy}
c8c0a1abSStuart Menefy
*e9bf51e5SPaul Mundtint16 extractFloat64Exp(float64 a)
c8c0a1abSStuart Menefy{
c8c0a1abSStuart Menefy	return (a >> 52) & 0x7FF;
c8c0a1abSStuart Menefy}
c8c0a1abSStuart Menefy
*e9bf51e5SPaul Mundtint16 extractFloat32Exp(float32 a)
c8c0a1abSStuart Menefy{
c8c0a1abSStuart Menefy	return (a >> 23) & 0xFF;
c8c0a1abSStuart Menefy}
c8c0a1abSStuart Menefy
*e9bf51e5SPaul Mundtflag extractFloat32Sign(float32 a)
c8c0a1abSStuart Menefy{
c8c0a1abSStuart Menefy	return a >> 31;
c8c0a1abSStuart Menefy}
c8c0a1abSStuart Menefy
*e9bf51e5SPaul Mundtbits32 extractFloat32Frac(float32 a)
c8c0a1abSStuart Menefy{
c8c0a1abSStuart Menefy	return a & 0x007FFFFF;
c8c0a1abSStuart Menefy}
c8c0a1abSStuart Menefy
*e9bf51e5SPaul Mundtfloat64 packFloat64(flag zSign, int16 zExp, bits64 zSig)
c8c0a1abSStuart Menefy{
c8c0a1abSStuart Menefy	return (((bits64) zSign) << 63) + (((bits64) zExp) << 52) + zSig;
c8c0a1abSStuart Menefy}
c8c0a1abSStuart Menefy
*e9bf51e5SPaul Mundtvoid shift64RightJamming(bits64 a, int16 count, bits64 * zPtr)
c8c0a1abSStuart Menefy{
c8c0a1abSStuart Menefy	bits64 z;
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefy	if (count == 0) {
c8c0a1abSStuart Menefy		z = a;
c8c0a1abSStuart Menefy	} else if (count < 64) {
c8c0a1abSStuart Menefy		z = (a >> count) | ((a << ((-count) & 63)) != 0);
c8c0a1abSStuart Menefy	} else {
c8c0a1abSStuart Menefy		z = (a != 0);
c8c0a1abSStuart Menefy	}
c8c0a1abSStuart Menefy	*zPtr = z;
c8c0a1abSStuart Menefy}
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefystatic int8 countLeadingZeros32(bits32 a)
c8c0a1abSStuart Menefy{
c8c0a1abSStuart Menefy	static const int8 countLeadingZerosHigh[] = {
c8c0a1abSStuart Menefy		8, 7, 6, 6, 5, 5, 5, 5, 4, 4, 4, 4, 4, 4, 4, 4,
c8c0a1abSStuart Menefy		3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3,
c8c0a1abSStuart Menefy		2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
c8c0a1abSStuart Menefy		2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
c8c0a1abSStuart Menefy		1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
c8c0a1abSStuart Menefy		1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
c8c0a1abSStuart Menefy		1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
c8c0a1abSStuart Menefy		1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
c8c0a1abSStuart Menefy		0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
c8c0a1abSStuart Menefy		0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
c8c0a1abSStuart Menefy		0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
c8c0a1abSStuart Menefy		0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
c8c0a1abSStuart Menefy		0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
c8c0a1abSStuart Menefy		0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
c8c0a1abSStuart Menefy		0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
c8c0a1abSStuart Menefy		0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0
c8c0a1abSStuart Menefy	};
c8c0a1abSStuart Menefy	int8 shiftCount;
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefy	shiftCount = 0;
c8c0a1abSStuart Menefy	if (a < 0x10000) {
c8c0a1abSStuart Menefy		shiftCount += 16;
c8c0a1abSStuart Menefy		a <<= 16;
c8c0a1abSStuart Menefy	}
c8c0a1abSStuart Menefy	if (a < 0x1000000) {
c8c0a1abSStuart Menefy		shiftCount += 8;
c8c0a1abSStuart Menefy		a <<= 8;
c8c0a1abSStuart Menefy	}
c8c0a1abSStuart Menefy	shiftCount += countLeadingZerosHigh[a >> 24];
c8c0a1abSStuart Menefy	return shiftCount;
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefy}
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefystatic int8 countLeadingZeros64(bits64 a)
c8c0a1abSStuart Menefy{
c8c0a1abSStuart Menefy	int8 shiftCount;
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefy	shiftCount = 0;
c8c0a1abSStuart Menefy	if (a < ((bits64) 1) << 32) {
c8c0a1abSStuart Menefy		shiftCount += 32;
c8c0a1abSStuart Menefy	} else {
c8c0a1abSStuart Menefy		a >>= 32;
c8c0a1abSStuart Menefy	}
c8c0a1abSStuart Menefy	shiftCount += countLeadingZeros32(a);
c8c0a1abSStuart Menefy	return shiftCount;
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefy}
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefystatic float64 normalizeRoundAndPackFloat64(flag zSign, int16 zExp, bits64 zSig)
c8c0a1abSStuart Menefy{
c8c0a1abSStuart Menefy	int8 shiftCount;
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefy	shiftCount = countLeadingZeros64(zSig) - 1;
c8c0a1abSStuart Menefy	return roundAndPackFloat64(zSign, zExp - shiftCount,
c8c0a1abSStuart Menefy				   zSig << shiftCount);
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefy}
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefystatic float64 subFloat64Sigs(float64 a, float64 b, flag zSign)
c8c0a1abSStuart Menefy{
c8c0a1abSStuart Menefy	int16 aExp, bExp, zExp;
c8c0a1abSStuart Menefy	bits64 aSig, bSig, zSig;
c8c0a1abSStuart Menefy	int16 expDiff;
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefy	aSig = extractFloat64Frac(a);
c8c0a1abSStuart Menefy	aExp = extractFloat64Exp(a);
c8c0a1abSStuart Menefy	bSig = extractFloat64Frac(b);
c8c0a1abSStuart Menefy	bExp = extractFloat64Exp(b);
c8c0a1abSStuart Menefy	expDiff = aExp - bExp;
c8c0a1abSStuart Menefy	aSig <<= 10;
c8c0a1abSStuart Menefy	bSig <<= 10;
c8c0a1abSStuart Menefy	if (0 < expDiff)
c8c0a1abSStuart Menefy		goto aExpBigger;
c8c0a1abSStuart Menefy	if (expDiff < 0)
c8c0a1abSStuart Menefy		goto bExpBigger;
c8c0a1abSStuart Menefy	if (aExp == 0) {
c8c0a1abSStuart Menefy		aExp = 1;
c8c0a1abSStuart Menefy		bExp = 1;
c8c0a1abSStuart Menefy	}
c8c0a1abSStuart Menefy	if (bSig < aSig)
c8c0a1abSStuart Menefy		goto aBigger;
c8c0a1abSStuart Menefy	if (aSig < bSig)
c8c0a1abSStuart Menefy		goto bBigger;
c8c0a1abSStuart Menefy	return packFloat64(float_rounding_mode() == FPSCR_RM_ZERO, 0, 0);
c8c0a1abSStuart Menefy      bExpBigger:
c8c0a1abSStuart Menefy	if (bExp == 0x7FF) {
c8c0a1abSStuart Menefy		return packFloat64(zSign ^ 1, 0x7FF, 0);
c8c0a1abSStuart Menefy	}
c8c0a1abSStuart Menefy	if (aExp == 0) {
c8c0a1abSStuart Menefy		++expDiff;
c8c0a1abSStuart Menefy	} else {
c8c0a1abSStuart Menefy		aSig |= LIT64(0x4000000000000000);
c8c0a1abSStuart Menefy	}
c8c0a1abSStuart Menefy	shift64RightJamming(aSig, -expDiff, &aSig);
c8c0a1abSStuart Menefy	bSig |= LIT64(0x4000000000000000);
c8c0a1abSStuart Menefy      bBigger:
c8c0a1abSStuart Menefy	zSig = bSig - aSig;
c8c0a1abSStuart Menefy	zExp = bExp;
c8c0a1abSStuart Menefy	zSign ^= 1;
c8c0a1abSStuart Menefy	goto normalizeRoundAndPack;
c8c0a1abSStuart Menefy      aExpBigger:
c8c0a1abSStuart Menefy	if (aExp == 0x7FF) {
c8c0a1abSStuart Menefy		return a;
c8c0a1abSStuart Menefy	}
c8c0a1abSStuart Menefy	if (bExp == 0) {
c8c0a1abSStuart Menefy		--expDiff;
c8c0a1abSStuart Menefy	} else {
c8c0a1abSStuart Menefy		bSig |= LIT64(0x4000000000000000);
c8c0a1abSStuart Menefy	}
c8c0a1abSStuart Menefy	shift64RightJamming(bSig, expDiff, &bSig);
c8c0a1abSStuart Menefy	aSig |= LIT64(0x4000000000000000);
c8c0a1abSStuart Menefy      aBigger:
c8c0a1abSStuart Menefy	zSig = aSig - bSig;
c8c0a1abSStuart Menefy	zExp = aExp;
c8c0a1abSStuart Menefy      normalizeRoundAndPack:
c8c0a1abSStuart Menefy	--zExp;
c8c0a1abSStuart Menefy	return normalizeRoundAndPackFloat64(zSign, zExp, zSig);
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefy}
c8c0a1abSStuart Menefystatic float64 addFloat64Sigs(float64 a, float64 b, flag zSign)
c8c0a1abSStuart Menefy{
c8c0a1abSStuart Menefy	int16 aExp, bExp, zExp;
c8c0a1abSStuart Menefy	bits64 aSig, bSig, zSig;
c8c0a1abSStuart Menefy	int16 expDiff;
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefy	aSig = extractFloat64Frac(a);
c8c0a1abSStuart Menefy	aExp = extractFloat64Exp(a);
c8c0a1abSStuart Menefy	bSig = extractFloat64Frac(b);
c8c0a1abSStuart Menefy	bExp = extractFloat64Exp(b);
c8c0a1abSStuart Menefy	expDiff = aExp - bExp;
c8c0a1abSStuart Menefy	aSig <<= 9;
c8c0a1abSStuart Menefy	bSig <<= 9;
c8c0a1abSStuart Menefy	if (0 < expDiff) {
c8c0a1abSStuart Menefy		if (aExp == 0x7FF) {
c8c0a1abSStuart Menefy			return a;
c8c0a1abSStuart Menefy		}
c8c0a1abSStuart Menefy		if (bExp == 0) {
c8c0a1abSStuart Menefy			--expDiff;
c8c0a1abSStuart Menefy		} else {
c8c0a1abSStuart Menefy			bSig |= LIT64(0x2000000000000000);
c8c0a1abSStuart Menefy		}
c8c0a1abSStuart Menefy		shift64RightJamming(bSig, expDiff, &bSig);
c8c0a1abSStuart Menefy		zExp = aExp;
c8c0a1abSStuart Menefy	} else if (expDiff < 0) {
c8c0a1abSStuart Menefy		if (bExp == 0x7FF) {
c8c0a1abSStuart Menefy			return packFloat64(zSign, 0x7FF, 0);
c8c0a1abSStuart Menefy		}
c8c0a1abSStuart Menefy		if (aExp == 0) {
c8c0a1abSStuart Menefy			++expDiff;
c8c0a1abSStuart Menefy		} else {
c8c0a1abSStuart Menefy			aSig |= LIT64(0x2000000000000000);
c8c0a1abSStuart Menefy		}
c8c0a1abSStuart Menefy		shift64RightJamming(aSig, -expDiff, &aSig);
c8c0a1abSStuart Menefy		zExp = bExp;
c8c0a1abSStuart Menefy	} else {
c8c0a1abSStuart Menefy		if (aExp == 0x7FF) {
c8c0a1abSStuart Menefy			return a;
c8c0a1abSStuart Menefy		}
c8c0a1abSStuart Menefy		if (aExp == 0)
c8c0a1abSStuart Menefy			return packFloat64(zSign, 0, (aSig + bSig) >> 9);
c8c0a1abSStuart Menefy		zSig = LIT64(0x4000000000000000) + aSig + bSig;
c8c0a1abSStuart Menefy		zExp = aExp;
c8c0a1abSStuart Menefy		goto roundAndPack;
c8c0a1abSStuart Menefy	}
c8c0a1abSStuart Menefy	aSig |= LIT64(0x2000000000000000);
c8c0a1abSStuart Menefy	zSig = (aSig + bSig) << 1;
c8c0a1abSStuart Menefy	--zExp;
c8c0a1abSStuart Menefy	if ((sbits64) zSig < 0) {
c8c0a1abSStuart Menefy		zSig = aSig + bSig;
c8c0a1abSStuart Menefy		++zExp;
c8c0a1abSStuart Menefy	}
c8c0a1abSStuart Menefy      roundAndPack:
c8c0a1abSStuart Menefy	return roundAndPackFloat64(zSign, zExp, zSig);
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefy}
c8c0a1abSStuart Menefy
*e9bf51e5SPaul Mundtfloat32 packFloat32(flag zSign, int16 zExp, bits32 zSig)
c8c0a1abSStuart Menefy{
c8c0a1abSStuart Menefy	return (((bits32) zSign) << 31) + (((bits32) zExp) << 23) + zSig;
c8c0a1abSStuart Menefy}
c8c0a1abSStuart Menefy
*e9bf51e5SPaul Mundtvoid shift32RightJamming(bits32 a, int16 count, bits32 * zPtr)
c8c0a1abSStuart Menefy{
c8c0a1abSStuart Menefy	bits32 z;
c8c0a1abSStuart Menefy	if (count == 0) {
c8c0a1abSStuart Menefy		z = a;
c8c0a1abSStuart Menefy	} else if (count < 32) {
c8c0a1abSStuart Menefy		z = (a >> count) | ((a << ((-count) & 31)) != 0);
c8c0a1abSStuart Menefy	} else {
c8c0a1abSStuart Menefy		z = (a != 0);
c8c0a1abSStuart Menefy	}
c8c0a1abSStuart Menefy	*zPtr = z;
c8c0a1abSStuart Menefy}
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefystatic float32 roundAndPackFloat32(flag zSign, int16 zExp, bits32 zSig)
c8c0a1abSStuart Menefy{
c8c0a1abSStuart Menefy	flag roundNearestEven;
c8c0a1abSStuart Menefy	int8 roundIncrement, roundBits;
c8c0a1abSStuart Menefy	flag isTiny;
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefy	/* SH4 has only 2 rounding modes - round to nearest and round to zero */
c8c0a1abSStuart Menefy	roundNearestEven = (float_rounding_mode() == FPSCR_RM_NEAREST);
c8c0a1abSStuart Menefy	roundIncrement = 0x40;
c8c0a1abSStuart Menefy	if (!roundNearestEven) {
c8c0a1abSStuart Menefy		roundIncrement = 0;
c8c0a1abSStuart Menefy	}
c8c0a1abSStuart Menefy	roundBits = zSig & 0x7F;
c8c0a1abSStuart Menefy	if (0xFD <= (bits16) zExp) {
c8c0a1abSStuart Menefy		if ((0xFD < zExp)
c8c0a1abSStuart Menefy		    || ((zExp == 0xFD)
c8c0a1abSStuart Menefy			&& ((sbits32) (zSig + roundIncrement) < 0))
c8c0a1abSStuart Menefy		    ) {
c8c0a1abSStuart Menefy			float_raise(FPSCR_CAUSE_OVERFLOW | FPSCR_CAUSE_INEXACT);
c8c0a1abSStuart Menefy			return packFloat32(zSign, 0xFF,
c8c0a1abSStuart Menefy					   0) - (roundIncrement == 0);
c8c0a1abSStuart Menefy		}
c8c0a1abSStuart Menefy		if (zExp < 0) {
c8c0a1abSStuart Menefy			isTiny = (zExp < -1)
c8c0a1abSStuart Menefy			    || (zSig + roundIncrement < 0x80000000);
c8c0a1abSStuart Menefy			shift32RightJamming(zSig, -zExp, &zSig);
c8c0a1abSStuart Menefy			zExp = 0;
c8c0a1abSStuart Menefy			roundBits = zSig & 0x7F;
c8c0a1abSStuart Menefy			if (isTiny && roundBits)
c8c0a1abSStuart Menefy				float_raise(FPSCR_CAUSE_UNDERFLOW);
c8c0a1abSStuart Menefy		}
c8c0a1abSStuart Menefy	}
c8c0a1abSStuart Menefy	if (roundBits)
c8c0a1abSStuart Menefy		float_raise(FPSCR_CAUSE_INEXACT);
c8c0a1abSStuart Menefy	zSig = (zSig + roundIncrement) >> 7;
c8c0a1abSStuart Menefy	zSig &= ~(((roundBits ^ 0x40) == 0) & roundNearestEven);
c8c0a1abSStuart Menefy	if (zSig == 0)
c8c0a1abSStuart Menefy		zExp = 0;
c8c0a1abSStuart Menefy	return packFloat32(zSign, zExp, zSig);
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefy}
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefystatic float32 normalizeRoundAndPackFloat32(flag zSign, int16 zExp, bits32 zSig)
c8c0a1abSStuart Menefy{
c8c0a1abSStuart Menefy	int8 shiftCount;
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefy	shiftCount = countLeadingZeros32(zSig) - 1;
c8c0a1abSStuart Menefy	return roundAndPackFloat32(zSign, zExp - shiftCount,
c8c0a1abSStuart Menefy				   zSig << shiftCount);
c8c0a1abSStuart Menefy}
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefystatic float64 roundAndPackFloat64(flag zSign, int16 zExp, bits64 zSig)
c8c0a1abSStuart Menefy{
c8c0a1abSStuart Menefy	flag roundNearestEven;
c8c0a1abSStuart Menefy	int16 roundIncrement, roundBits;
c8c0a1abSStuart Menefy	flag isTiny;
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefy	/* SH4 has only 2 rounding modes - round to nearest and round to zero */
c8c0a1abSStuart Menefy	roundNearestEven = (float_rounding_mode() == FPSCR_RM_NEAREST);
c8c0a1abSStuart Menefy	roundIncrement = 0x200;
c8c0a1abSStuart Menefy	if (!roundNearestEven) {
c8c0a1abSStuart Menefy		roundIncrement = 0;
c8c0a1abSStuart Menefy	}
c8c0a1abSStuart Menefy	roundBits = zSig & 0x3FF;
c8c0a1abSStuart Menefy	if (0x7FD <= (bits16) zExp) {
c8c0a1abSStuart Menefy		if ((0x7FD < zExp)
c8c0a1abSStuart Menefy		    || ((zExp == 0x7FD)
c8c0a1abSStuart Menefy			&& ((sbits64) (zSig + roundIncrement) < 0))
c8c0a1abSStuart Menefy		    ) {
c8c0a1abSStuart Menefy			float_raise(FPSCR_CAUSE_OVERFLOW | FPSCR_CAUSE_INEXACT);
c8c0a1abSStuart Menefy			return packFloat64(zSign, 0x7FF,
c8c0a1abSStuart Menefy					   0) - (roundIncrement == 0);
c8c0a1abSStuart Menefy		}
c8c0a1abSStuart Menefy		if (zExp < 0) {
c8c0a1abSStuart Menefy			isTiny = (zExp < -1)
c8c0a1abSStuart Menefy			    || (zSig + roundIncrement <
c8c0a1abSStuart Menefy				LIT64(0x8000000000000000));
c8c0a1abSStuart Menefy			shift64RightJamming(zSig, -zExp, &zSig);
c8c0a1abSStuart Menefy			zExp = 0;
c8c0a1abSStuart Menefy			roundBits = zSig & 0x3FF;
c8c0a1abSStuart Menefy			if (isTiny && roundBits)
c8c0a1abSStuart Menefy				float_raise(FPSCR_CAUSE_UNDERFLOW);
c8c0a1abSStuart Menefy		}
c8c0a1abSStuart Menefy	}
c8c0a1abSStuart Menefy	if (roundBits)
c8c0a1abSStuart Menefy		float_raise(FPSCR_CAUSE_INEXACT);
c8c0a1abSStuart Menefy	zSig = (zSig + roundIncrement) >> 10;
c8c0a1abSStuart Menefy	zSig &= ~(((roundBits ^ 0x200) == 0) & roundNearestEven);
c8c0a1abSStuart Menefy	if (zSig == 0)
c8c0a1abSStuart Menefy		zExp = 0;
c8c0a1abSStuart Menefy	return packFloat64(zSign, zExp, zSig);
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefy}
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefystatic float32 subFloat32Sigs(float32 a, float32 b, flag zSign)
c8c0a1abSStuart Menefy{
c8c0a1abSStuart Menefy	int16 aExp, bExp, zExp;
c8c0a1abSStuart Menefy	bits32 aSig, bSig, zSig;
c8c0a1abSStuart Menefy	int16 expDiff;
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefy	aSig = extractFloat32Frac(a);
c8c0a1abSStuart Menefy	aExp = extractFloat32Exp(a);
c8c0a1abSStuart Menefy	bSig = extractFloat32Frac(b);
c8c0a1abSStuart Menefy	bExp = extractFloat32Exp(b);
c8c0a1abSStuart Menefy	expDiff = aExp - bExp;
c8c0a1abSStuart Menefy	aSig <<= 7;
c8c0a1abSStuart Menefy	bSig <<= 7;
c8c0a1abSStuart Menefy	if (0 < expDiff)
c8c0a1abSStuart Menefy		goto aExpBigger;
c8c0a1abSStuart Menefy	if (expDiff < 0)
c8c0a1abSStuart Menefy		goto bExpBigger;
c8c0a1abSStuart Menefy	if (aExp == 0) {
c8c0a1abSStuart Menefy		aExp = 1;
c8c0a1abSStuart Menefy		bExp = 1;
c8c0a1abSStuart Menefy	}
c8c0a1abSStuart Menefy	if (bSig < aSig)
c8c0a1abSStuart Menefy		goto aBigger;
c8c0a1abSStuart Menefy	if (aSig < bSig)
c8c0a1abSStuart Menefy		goto bBigger;
c8c0a1abSStuart Menefy	return packFloat32(float_rounding_mode() == FPSCR_RM_ZERO, 0, 0);
c8c0a1abSStuart Menefy      bExpBigger:
c8c0a1abSStuart Menefy	if (bExp == 0xFF) {
c8c0a1abSStuart Menefy		return packFloat32(zSign ^ 1, 0xFF, 0);
c8c0a1abSStuart Menefy	}
c8c0a1abSStuart Menefy	if (aExp == 0) {
c8c0a1abSStuart Menefy		++expDiff;
c8c0a1abSStuart Menefy	} else {
c8c0a1abSStuart Menefy		aSig |= 0x40000000;
c8c0a1abSStuart Menefy	}
c8c0a1abSStuart Menefy	shift32RightJamming(aSig, -expDiff, &aSig);
c8c0a1abSStuart Menefy	bSig |= 0x40000000;
c8c0a1abSStuart Menefy      bBigger:
c8c0a1abSStuart Menefy	zSig = bSig - aSig;
c8c0a1abSStuart Menefy	zExp = bExp;
c8c0a1abSStuart Menefy	zSign ^= 1;
c8c0a1abSStuart Menefy	goto normalizeRoundAndPack;
c8c0a1abSStuart Menefy      aExpBigger:
c8c0a1abSStuart Menefy	if (aExp == 0xFF) {
c8c0a1abSStuart Menefy		return a;
c8c0a1abSStuart Menefy	}
c8c0a1abSStuart Menefy	if (bExp == 0) {
c8c0a1abSStuart Menefy		--expDiff;
c8c0a1abSStuart Menefy	} else {
c8c0a1abSStuart Menefy		bSig |= 0x40000000;
c8c0a1abSStuart Menefy	}
c8c0a1abSStuart Menefy	shift32RightJamming(bSig, expDiff, &bSig);
c8c0a1abSStuart Menefy	aSig |= 0x40000000;
c8c0a1abSStuart Menefy      aBigger:
c8c0a1abSStuart Menefy	zSig = aSig - bSig;
c8c0a1abSStuart Menefy	zExp = aExp;
c8c0a1abSStuart Menefy      normalizeRoundAndPack:
c8c0a1abSStuart Menefy	--zExp;
c8c0a1abSStuart Menefy	return normalizeRoundAndPackFloat32(zSign, zExp, zSig);
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefy}
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefystatic float32 addFloat32Sigs(float32 a, float32 b, flag zSign)
c8c0a1abSStuart Menefy{
c8c0a1abSStuart Menefy	int16 aExp, bExp, zExp;
c8c0a1abSStuart Menefy	bits32 aSig, bSig, zSig;
c8c0a1abSStuart Menefy	int16 expDiff;
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefy	aSig = extractFloat32Frac(a);
c8c0a1abSStuart Menefy	aExp = extractFloat32Exp(a);
c8c0a1abSStuart Menefy	bSig = extractFloat32Frac(b);
c8c0a1abSStuart Menefy	bExp = extractFloat32Exp(b);
c8c0a1abSStuart Menefy	expDiff = aExp - bExp;
c8c0a1abSStuart Menefy	aSig <<= 6;
c8c0a1abSStuart Menefy	bSig <<= 6;
c8c0a1abSStuart Menefy	if (0 < expDiff) {
c8c0a1abSStuart Menefy		if (aExp == 0xFF) {
c8c0a1abSStuart Menefy			return a;
c8c0a1abSStuart Menefy		}
c8c0a1abSStuart Menefy		if (bExp == 0) {
c8c0a1abSStuart Menefy			--expDiff;
c8c0a1abSStuart Menefy		} else {
c8c0a1abSStuart Menefy			bSig |= 0x20000000;
c8c0a1abSStuart Menefy		}
c8c0a1abSStuart Menefy		shift32RightJamming(bSig, expDiff, &bSig);
c8c0a1abSStuart Menefy		zExp = aExp;
c8c0a1abSStuart Menefy	} else if (expDiff < 0) {
c8c0a1abSStuart Menefy		if (bExp == 0xFF) {
c8c0a1abSStuart Menefy			return packFloat32(zSign, 0xFF, 0);
c8c0a1abSStuart Menefy		}
c8c0a1abSStuart Menefy		if (aExp == 0) {
c8c0a1abSStuart Menefy			++expDiff;
c8c0a1abSStuart Menefy		} else {
c8c0a1abSStuart Menefy			aSig |= 0x20000000;
c8c0a1abSStuart Menefy		}
c8c0a1abSStuart Menefy		shift32RightJamming(aSig, -expDiff, &aSig);
c8c0a1abSStuart Menefy		zExp = bExp;
c8c0a1abSStuart Menefy	} else {
c8c0a1abSStuart Menefy		if (aExp == 0xFF) {
c8c0a1abSStuart Menefy			return a;
c8c0a1abSStuart Menefy		}
c8c0a1abSStuart Menefy		if (aExp == 0)
c8c0a1abSStuart Menefy			return packFloat32(zSign, 0, (aSig + bSig) >> 6);
c8c0a1abSStuart Menefy		zSig = 0x40000000 + aSig + bSig;
c8c0a1abSStuart Menefy		zExp = aExp;
c8c0a1abSStuart Menefy		goto roundAndPack;
c8c0a1abSStuart Menefy	}
c8c0a1abSStuart Menefy	aSig |= 0x20000000;
c8c0a1abSStuart Menefy	zSig = (aSig + bSig) << 1;
c8c0a1abSStuart Menefy	--zExp;
c8c0a1abSStuart Menefy	if ((sbits32) zSig < 0) {
c8c0a1abSStuart Menefy		zSig = aSig + bSig;
c8c0a1abSStuart Menefy		++zExp;
c8c0a1abSStuart Menefy	}
c8c0a1abSStuart Menefy      roundAndPack:
c8c0a1abSStuart Menefy	return roundAndPackFloat32(zSign, zExp, zSig);
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefy}
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefyfloat64 float64_sub(float64 a, float64 b)
c8c0a1abSStuart Menefy{
c8c0a1abSStuart Menefy	flag aSign, bSign;
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefy	aSign = extractFloat64Sign(a);
c8c0a1abSStuart Menefy	bSign = extractFloat64Sign(b);
c8c0a1abSStuart Menefy	if (aSign == bSign) {
c8c0a1abSStuart Menefy		return subFloat64Sigs(a, b, aSign);
c8c0a1abSStuart Menefy	} else {
c8c0a1abSStuart Menefy		return addFloat64Sigs(a, b, aSign);
c8c0a1abSStuart Menefy	}
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefy}
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefyfloat32 float32_sub(float32 a, float32 b)
c8c0a1abSStuart Menefy{
c8c0a1abSStuart Menefy	flag aSign, bSign;
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefy	aSign = extractFloat32Sign(a);
c8c0a1abSStuart Menefy	bSign = extractFloat32Sign(b);
c8c0a1abSStuart Menefy	if (aSign == bSign) {
c8c0a1abSStuart Menefy		return subFloat32Sigs(a, b, aSign);
c8c0a1abSStuart Menefy	} else {
c8c0a1abSStuart Menefy		return addFloat32Sigs(a, b, aSign);
c8c0a1abSStuart Menefy	}
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefy}
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefyfloat32 float32_add(float32 a, float32 b)
c8c0a1abSStuart Menefy{
c8c0a1abSStuart Menefy	flag aSign, bSign;
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefy	aSign = extractFloat32Sign(a);
c8c0a1abSStuart Menefy	bSign = extractFloat32Sign(b);
c8c0a1abSStuart Menefy	if (aSign == bSign) {
c8c0a1abSStuart Menefy		return addFloat32Sigs(a, b, aSign);
c8c0a1abSStuart Menefy	} else {
c8c0a1abSStuart Menefy		return subFloat32Sigs(a, b, aSign);
c8c0a1abSStuart Menefy	}
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefy}
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefyfloat64 float64_add(float64 a, float64 b)
c8c0a1abSStuart Menefy{
c8c0a1abSStuart Menefy	flag aSign, bSign;
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefy	aSign = extractFloat64Sign(a);
c8c0a1abSStuart Menefy	bSign = extractFloat64Sign(b);
c8c0a1abSStuart Menefy	if (aSign == bSign) {
c8c0a1abSStuart Menefy		return addFloat64Sigs(a, b, aSign);
c8c0a1abSStuart Menefy	} else {
c8c0a1abSStuart Menefy		return subFloat64Sigs(a, b, aSign);
c8c0a1abSStuart Menefy	}
c8c0a1abSStuart Menefy}
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefystatic void
c8c0a1abSStuart MenefynormalizeFloat64Subnormal(bits64 aSig, int16 * zExpPtr, bits64 * zSigPtr)
c8c0a1abSStuart Menefy{
c8c0a1abSStuart Menefy	int8 shiftCount;
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefy	shiftCount = countLeadingZeros64(aSig) - 11;
c8c0a1abSStuart Menefy	*zSigPtr = aSig << shiftCount;
c8c0a1abSStuart Menefy	*zExpPtr = 1 - shiftCount;
c8c0a1abSStuart Menefy}
c8c0a1abSStuart Menefy
*e9bf51e5SPaul Mundtvoid add128(bits64 a0, bits64 a1, bits64 b0, bits64 b1, bits64 * z0Ptr,
c8c0a1abSStuart Menefy		   bits64 * z1Ptr)
c8c0a1abSStuart Menefy{
c8c0a1abSStuart Menefy	bits64 z1;
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefy	z1 = a1 + b1;
c8c0a1abSStuart Menefy	*z1Ptr = z1;
c8c0a1abSStuart Menefy	*z0Ptr = a0 + b0 + (z1 < a1);
c8c0a1abSStuart Menefy}
c8c0a1abSStuart Menefy
*e9bf51e5SPaul Mundtvoid
c8c0a1abSStuart Menefysub128(bits64 a0, bits64 a1, bits64 b0, bits64 b1, bits64 * z0Ptr,
c8c0a1abSStuart Menefy       bits64 * z1Ptr)
c8c0a1abSStuart Menefy{
c8c0a1abSStuart Menefy	*z1Ptr = a1 - b1;
c8c0a1abSStuart Menefy	*z0Ptr = a0 - b0 - (a1 < b1);
c8c0a1abSStuart Menefy}
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefystatic bits64 estimateDiv128To64(bits64 a0, bits64 a1, bits64 b)
c8c0a1abSStuart Menefy{
c8c0a1abSStuart Menefy	bits64 b0, b1;
c8c0a1abSStuart Menefy	bits64 rem0, rem1, term0, term1;
*e9bf51e5SPaul Mundt	bits64 z, tmp;
c8c0a1abSStuart Menefy	if (b <= a0)
c8c0a1abSStuart Menefy		return LIT64(0xFFFFFFFFFFFFFFFF);
c8c0a1abSStuart Menefy	b0 = b >> 32;
*e9bf51e5SPaul Mundt	tmp = a0;
*e9bf51e5SPaul Mundt	do_div(tmp, b0);
*e9bf51e5SPaul Mundt
*e9bf51e5SPaul Mundt	z = (b0 << 32 <= a0) ? LIT64(0xFFFFFFFF00000000) : tmp << 32;
c8c0a1abSStuart Menefy	mul64To128(b, z, &term0, &term1);
c8c0a1abSStuart Menefy	sub128(a0, a1, term0, term1, &rem0, &rem1);
c8c0a1abSStuart Menefy	while (((sbits64) rem0) < 0) {
c8c0a1abSStuart Menefy		z -= LIT64(0x100000000);
c8c0a1abSStuart Menefy		b1 = b << 32;
c8c0a1abSStuart Menefy		add128(rem0, rem1, b0, b1, &rem0, &rem1);
c8c0a1abSStuart Menefy	}
c8c0a1abSStuart Menefy	rem0 = (rem0 << 32) | (rem1 >> 32);
*e9bf51e5SPaul Mundt	tmp = rem0;
*e9bf51e5SPaul Mundt	do_div(tmp, b0);
*e9bf51e5SPaul Mundt	z |= (b0 << 32 <= rem0) ? 0xFFFFFFFF : tmp;
c8c0a1abSStuart Menefy	return z;
c8c0a1abSStuart Menefy}
c8c0a1abSStuart Menefy
*e9bf51e5SPaul Mundtvoid mul64To128(bits64 a, bits64 b, bits64 * z0Ptr, bits64 * z1Ptr)
c8c0a1abSStuart Menefy{
c8c0a1abSStuart Menefy	bits32 aHigh, aLow, bHigh, bLow;
c8c0a1abSStuart Menefy	bits64 z0, zMiddleA, zMiddleB, z1;
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefy	aLow = a;
c8c0a1abSStuart Menefy	aHigh = a >> 32;
c8c0a1abSStuart Menefy	bLow = b;
c8c0a1abSStuart Menefy	bHigh = b >> 32;
c8c0a1abSStuart Menefy	z1 = ((bits64) aLow) * bLow;
c8c0a1abSStuart Menefy	zMiddleA = ((bits64) aLow) * bHigh;
c8c0a1abSStuart Menefy	zMiddleB = ((bits64) aHigh) * bLow;
c8c0a1abSStuart Menefy	z0 = ((bits64) aHigh) * bHigh;
c8c0a1abSStuart Menefy	zMiddleA += zMiddleB;
c8c0a1abSStuart Menefy	z0 += (((bits64) (zMiddleA < zMiddleB)) << 32) + (zMiddleA >> 32);
c8c0a1abSStuart Menefy	zMiddleA <<= 32;
c8c0a1abSStuart Menefy	z1 += zMiddleA;
c8c0a1abSStuart Menefy	z0 += (z1 < zMiddleA);
c8c0a1abSStuart Menefy	*z1Ptr = z1;
c8c0a1abSStuart Menefy	*z0Ptr = z0;
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefy}
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefystatic void normalizeFloat32Subnormal(bits32 aSig, int16 * zExpPtr,
c8c0a1abSStuart Menefy				      bits32 * zSigPtr)
c8c0a1abSStuart Menefy{
c8c0a1abSStuart Menefy	int8 shiftCount;
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefy	shiftCount = countLeadingZeros32(aSig) - 8;
c8c0a1abSStuart Menefy	*zSigPtr = aSig << shiftCount;
c8c0a1abSStuart Menefy	*zExpPtr = 1 - shiftCount;
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefy}
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefyfloat64 float64_div(float64 a, float64 b)
c8c0a1abSStuart Menefy{
c8c0a1abSStuart Menefy	flag aSign, bSign, zSign;
c8c0a1abSStuart Menefy	int16 aExp, bExp, zExp;
c8c0a1abSStuart Menefy	bits64 aSig, bSig, zSig;
c8c0a1abSStuart Menefy	bits64 rem0, rem1;
c8c0a1abSStuart Menefy	bits64 term0, term1;
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefy	aSig = extractFloat64Frac(a);
c8c0a1abSStuart Menefy	aExp = extractFloat64Exp(a);
c8c0a1abSStuart Menefy	aSign = extractFloat64Sign(a);
c8c0a1abSStuart Menefy	bSig = extractFloat64Frac(b);
c8c0a1abSStuart Menefy	bExp = extractFloat64Exp(b);
c8c0a1abSStuart Menefy	bSign = extractFloat64Sign(b);
c8c0a1abSStuart Menefy	zSign = aSign ^ bSign;
c8c0a1abSStuart Menefy	if (aExp == 0x7FF) {
c8c0a1abSStuart Menefy		if (bExp == 0x7FF) {
c8c0a1abSStuart Menefy		}
c8c0a1abSStuart Menefy		return packFloat64(zSign, 0x7FF, 0);
c8c0a1abSStuart Menefy	}
c8c0a1abSStuart Menefy	if (bExp == 0x7FF) {
c8c0a1abSStuart Menefy		return packFloat64(zSign, 0, 0);
c8c0a1abSStuart Menefy	}
c8c0a1abSStuart Menefy	if (bExp == 0) {
c8c0a1abSStuart Menefy		if (bSig == 0) {
c8c0a1abSStuart Menefy			if ((aExp | aSig) == 0) {
c8c0a1abSStuart Menefy				float_raise(FPSCR_CAUSE_INVALID);
c8c0a1abSStuart Menefy			}
c8c0a1abSStuart Menefy			return packFloat64(zSign, 0x7FF, 0);
c8c0a1abSStuart Menefy		}
c8c0a1abSStuart Menefy		normalizeFloat64Subnormal(bSig, &bExp, &bSig);
c8c0a1abSStuart Menefy	}
c8c0a1abSStuart Menefy	if (aExp == 0) {
c8c0a1abSStuart Menefy		if (aSig == 0)
c8c0a1abSStuart Menefy			return packFloat64(zSign, 0, 0);
c8c0a1abSStuart Menefy		normalizeFloat64Subnormal(aSig, &aExp, &aSig);
c8c0a1abSStuart Menefy	}
c8c0a1abSStuart Menefy	zExp = aExp - bExp + 0x3FD;
c8c0a1abSStuart Menefy	aSig = (aSig | LIT64(0x0010000000000000)) << 10;
c8c0a1abSStuart Menefy	bSig = (bSig | LIT64(0x0010000000000000)) << 11;
c8c0a1abSStuart Menefy	if (bSig <= (aSig + aSig)) {
c8c0a1abSStuart Menefy		aSig >>= 1;
c8c0a1abSStuart Menefy		++zExp;
c8c0a1abSStuart Menefy	}
c8c0a1abSStuart Menefy	zSig = estimateDiv128To64(aSig, 0, bSig);
c8c0a1abSStuart Menefy	if ((zSig & 0x1FF) <= 2) {
c8c0a1abSStuart Menefy		mul64To128(bSig, zSig, &term0, &term1);
c8c0a1abSStuart Menefy		sub128(aSig, 0, term0, term1, &rem0, &rem1);
c8c0a1abSStuart Menefy		while ((sbits64) rem0 < 0) {
c8c0a1abSStuart Menefy			--zSig;
c8c0a1abSStuart Menefy			add128(rem0, rem1, 0, bSig, &rem0, &rem1);
c8c0a1abSStuart Menefy		}
c8c0a1abSStuart Menefy		zSig |= (rem1 != 0);
c8c0a1abSStuart Menefy	}
c8c0a1abSStuart Menefy	return roundAndPackFloat64(zSign, zExp, zSig);
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefy}
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefyfloat32 float32_div(float32 a, float32 b)
c8c0a1abSStuart Menefy{
c8c0a1abSStuart Menefy	flag aSign, bSign, zSign;
c8c0a1abSStuart Menefy	int16 aExp, bExp, zExp;
*e9bf51e5SPaul Mundt	bits32 aSig, bSig;
*e9bf51e5SPaul Mundt	uint64_t zSig;
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefy	aSig = extractFloat32Frac(a);
c8c0a1abSStuart Menefy	aExp = extractFloat32Exp(a);
c8c0a1abSStuart Menefy	aSign = extractFloat32Sign(a);
c8c0a1abSStuart Menefy	bSig = extractFloat32Frac(b);
c8c0a1abSStuart Menefy	bExp = extractFloat32Exp(b);
c8c0a1abSStuart Menefy	bSign = extractFloat32Sign(b);
c8c0a1abSStuart Menefy	zSign = aSign ^ bSign;
c8c0a1abSStuart Menefy	if (aExp == 0xFF) {
c8c0a1abSStuart Menefy		if (bExp == 0xFF) {
c8c0a1abSStuart Menefy		}
c8c0a1abSStuart Menefy		return packFloat32(zSign, 0xFF, 0);
c8c0a1abSStuart Menefy	}
c8c0a1abSStuart Menefy	if (bExp == 0xFF) {
c8c0a1abSStuart Menefy		return packFloat32(zSign, 0, 0);
c8c0a1abSStuart Menefy	}
c8c0a1abSStuart Menefy	if (bExp == 0) {
c8c0a1abSStuart Menefy		if (bSig == 0) {
c8c0a1abSStuart Menefy			return packFloat32(zSign, 0xFF, 0);
c8c0a1abSStuart Menefy		}
c8c0a1abSStuart Menefy		normalizeFloat32Subnormal(bSig, &bExp, &bSig);
c8c0a1abSStuart Menefy	}
c8c0a1abSStuart Menefy	if (aExp == 0) {
c8c0a1abSStuart Menefy		if (aSig == 0)
c8c0a1abSStuart Menefy			return packFloat32(zSign, 0, 0);
c8c0a1abSStuart Menefy		normalizeFloat32Subnormal(aSig, &aExp, &aSig);
c8c0a1abSStuart Menefy	}
c8c0a1abSStuart Menefy	zExp = aExp - bExp + 0x7D;
c8c0a1abSStuart Menefy	aSig = (aSig | 0x00800000) << 7;
c8c0a1abSStuart Menefy	bSig = (bSig | 0x00800000) << 8;
c8c0a1abSStuart Menefy	if (bSig <= (aSig + aSig)) {
c8c0a1abSStuart Menefy		aSig >>= 1;
c8c0a1abSStuart Menefy		++zExp;
c8c0a1abSStuart Menefy	}
*e9bf51e5SPaul Mundt	zSig = (((bits64) aSig) << 32);
*e9bf51e5SPaul Mundt	do_div(zSig, bSig);
*e9bf51e5SPaul Mundt
c8c0a1abSStuart Menefy	if ((zSig & 0x3F) == 0) {
c8c0a1abSStuart Menefy		zSig |= (((bits64) bSig) * zSig != ((bits64) aSig) << 32);
c8c0a1abSStuart Menefy	}
*e9bf51e5SPaul Mundt	return roundAndPackFloat32(zSign, zExp, (bits32)zSig);
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefy}
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefyfloat32 float32_mul(float32 a, float32 b)
c8c0a1abSStuart Menefy{
c8c0a1abSStuart Menefy	char aSign, bSign, zSign;
c8c0a1abSStuart Menefy	int aExp, bExp, zExp;
c8c0a1abSStuart Menefy	unsigned int aSig, bSig;
c8c0a1abSStuart Menefy	unsigned long long zSig64;
c8c0a1abSStuart Menefy	unsigned int zSig;
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefy	aSig = extractFloat32Frac(a);
c8c0a1abSStuart Menefy	aExp = extractFloat32Exp(a);
c8c0a1abSStuart Menefy	aSign = extractFloat32Sign(a);
c8c0a1abSStuart Menefy	bSig = extractFloat32Frac(b);
c8c0a1abSStuart Menefy	bExp = extractFloat32Exp(b);
c8c0a1abSStuart Menefy	bSign = extractFloat32Sign(b);
c8c0a1abSStuart Menefy	zSign = aSign ^ bSign;
c8c0a1abSStuart Menefy	if (aExp == 0) {
c8c0a1abSStuart Menefy		if (aSig == 0)
c8c0a1abSStuart Menefy			return packFloat32(zSign, 0, 0);
c8c0a1abSStuart Menefy		normalizeFloat32Subnormal(aSig, &aExp, &aSig);
c8c0a1abSStuart Menefy	}
c8c0a1abSStuart Menefy	if (bExp == 0) {
c8c0a1abSStuart Menefy		if (bSig == 0)
c8c0a1abSStuart Menefy			return packFloat32(zSign, 0, 0);
c8c0a1abSStuart Menefy		normalizeFloat32Subnormal(bSig, &bExp, &bSig);
c8c0a1abSStuart Menefy	}
c8c0a1abSStuart Menefy	if ((bExp == 0xff && bSig == 0) || (aExp == 0xff && aSig == 0))
c8c0a1abSStuart Menefy		return roundAndPackFloat32(zSign, 0xff, 0);
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefy	zExp = aExp + bExp - 0x7F;
c8c0a1abSStuart Menefy	aSig = (aSig | 0x00800000) << 7;
c8c0a1abSStuart Menefy	bSig = (bSig | 0x00800000) << 8;
c8c0a1abSStuart Menefy	shift64RightJamming(((unsigned long long)aSig) * bSig, 32, &zSig64);
c8c0a1abSStuart Menefy	zSig = zSig64;
c8c0a1abSStuart Menefy	if (0 <= (signed int)(zSig << 1)) {
c8c0a1abSStuart Menefy		zSig <<= 1;
c8c0a1abSStuart Menefy		--zExp;
c8c0a1abSStuart Menefy	}
c8c0a1abSStuart Menefy	return roundAndPackFloat32(zSign, zExp, zSig);
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefy}
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefyfloat64 float64_mul(float64 a, float64 b)
c8c0a1abSStuart Menefy{
c8c0a1abSStuart Menefy	char aSign, bSign, zSign;
c8c0a1abSStuart Menefy	int aExp, bExp, zExp;
c8c0a1abSStuart Menefy	unsigned long long int aSig, bSig, zSig0, zSig1;
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefy	aSig = extractFloat64Frac(a);
c8c0a1abSStuart Menefy	aExp = extractFloat64Exp(a);
c8c0a1abSStuart Menefy	aSign = extractFloat64Sign(a);
c8c0a1abSStuart Menefy	bSig = extractFloat64Frac(b);
c8c0a1abSStuart Menefy	bExp = extractFloat64Exp(b);
c8c0a1abSStuart Menefy	bSign = extractFloat64Sign(b);
c8c0a1abSStuart Menefy	zSign = aSign ^ bSign;
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefy	if (aExp == 0) {
c8c0a1abSStuart Menefy		if (aSig == 0)
c8c0a1abSStuart Menefy			return packFloat64(zSign, 0, 0);
c8c0a1abSStuart Menefy		normalizeFloat64Subnormal(aSig, &aExp, &aSig);
c8c0a1abSStuart Menefy	}
c8c0a1abSStuart Menefy	if (bExp == 0) {
c8c0a1abSStuart Menefy		if (bSig == 0)
c8c0a1abSStuart Menefy			return packFloat64(zSign, 0, 0);
c8c0a1abSStuart Menefy		normalizeFloat64Subnormal(bSig, &bExp, &bSig);
c8c0a1abSStuart Menefy	}
c8c0a1abSStuart Menefy	if ((aExp == 0x7ff && aSig == 0) || (bExp == 0x7ff && bSig == 0))
c8c0a1abSStuart Menefy		return roundAndPackFloat64(zSign, 0x7ff, 0);
c8c0a1abSStuart Menefy
c8c0a1abSStuart Menefy	zExp = aExp + bExp - 0x3FF;
c8c0a1abSStuart Menefy	aSig = (aSig | 0x0010000000000000LL) << 10;
c8c0a1abSStuart Menefy	bSig = (bSig | 0x0010000000000000LL) << 11;
c8c0a1abSStuart Menefy	mul64To128(aSig, bSig, &zSig0, &zSig1);
c8c0a1abSStuart Menefy	zSig0 |= (zSig1 != 0);
c8c0a1abSStuart Menefy	if (0 <= (signed long long int)(zSig0 << 1)) {
c8c0a1abSStuart Menefy		zSig0 <<= 1;
c8c0a1abSStuart Menefy		--zExp;
c8c0a1abSStuart Menefy	}
c8c0a1abSStuart Menefy	return roundAndPackFloat64(zSign, zExp, zSig0);
c8c0a1abSStuart Menefy}
b6ad1e8cSCarl Shaw
b6ad1e8cSCarl Shaw/*
b6ad1e8cSCarl Shaw * -------------------------------------------------------------------------------
b6ad1e8cSCarl Shaw *  Returns the result of converting the double-precision floating-point value
b6ad1e8cSCarl Shaw *  `a' to the single-precision floating-point format.  The conversion is
b6ad1e8cSCarl Shaw *  performed according to the IEC/IEEE Standard for Binary Floating-point
b6ad1e8cSCarl Shaw *  Arithmetic.
b6ad1e8cSCarl Shaw *  -------------------------------------------------------------------------------
b6ad1e8cSCarl Shaw *  */
b6ad1e8cSCarl Shawfloat32 float64_to_float32(float64 a)
b6ad1e8cSCarl Shaw{
b6ad1e8cSCarl Shaw    flag aSign;
b6ad1e8cSCarl Shaw    int16 aExp;
b6ad1e8cSCarl Shaw    bits64 aSig;
b6ad1e8cSCarl Shaw    bits32 zSig;
b6ad1e8cSCarl Shaw
b6ad1e8cSCarl Shaw    aSig = extractFloat64Frac( a );
b6ad1e8cSCarl Shaw    aExp = extractFloat64Exp( a );
b6ad1e8cSCarl Shaw    aSign = extractFloat64Sign( a );
b6ad1e8cSCarl Shaw
b6ad1e8cSCarl Shaw    shift64RightJamming( aSig, 22, &aSig );
b6ad1e8cSCarl Shaw    zSig = aSig;
b6ad1e8cSCarl Shaw    if ( aExp || zSig ) {
b6ad1e8cSCarl Shaw        zSig |= 0x40000000;
b6ad1e8cSCarl Shaw        aExp -= 0x381;
b6ad1e8cSCarl Shaw    }
b6ad1e8cSCarl Shaw    return roundAndPackFloat32(aSign, aExp, zSig);
b6ad1e8cSCarl Shaw}