m68k/fpsp040/setox.S

1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	setox.sa 3.1 12/10/90
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	The entry point setox computes the exponential of a value.
1da177e4SLinus Torvalds|	setoxd does the same except the input value is a denormalized
1da177e4SLinus Torvalds|	number.	setoxm1 computes exp(X)-1, and setoxm1d computes
1da177e4SLinus Torvalds|	exp(X)-1 for denormalized X.
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	INPUT
1da177e4SLinus Torvalds|	-----
1da177e4SLinus Torvalds|	Double-extended value in memory location pointed to by address
1da177e4SLinus Torvalds|	register a0.
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	OUTPUT
1da177e4SLinus Torvalds|	------
1da177e4SLinus Torvalds|	exp(X) or exp(X)-1 returned in floating-point register fp0.
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	ACCURACY and MONOTONICITY
1da177e4SLinus Torvalds|	-------------------------
1da177e4SLinus Torvalds|	The returned result is within 0.85 ulps in 64 significant bit, i.e.
1da177e4SLinus Torvalds|	within 0.5001 ulp to 53 bits if the result is subsequently rounded
1da177e4SLinus Torvalds|	to double precision. The result is provably monotonic in double
1da177e4SLinus Torvalds|	precision.
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	SPEED
1da177e4SLinus Torvalds|	-----
1da177e4SLinus Torvalds|	Two timings are measured, both in the copy-back mode. The
1da177e4SLinus Torvalds|	first one is measured when the function is invoked the first time
1da177e4SLinus Torvalds|	(so the instructions and data are not in cache), and the
1da177e4SLinus Torvalds|	second one is measured when the function is reinvoked at the same
1da177e4SLinus Torvalds|	input argument.
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	The program setox takes approximately 210/190 cycles for input
1da177e4SLinus Torvalds|	argument X whose magnitude is less than 16380 log2, which
1da177e4SLinus Torvalds|	is the usual situation.	For the less common arguments,
1da177e4SLinus Torvalds|	depending on their values, the program may run faster or slower --
1da177e4SLinus Torvalds|	but no worse than 10% slower even in the extreme cases.
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	The program setoxm1 takes approximately ??? / ??? cycles for input
1da177e4SLinus Torvalds|	argument X, 0.25 <= |X| < 70log2. For |X| < 0.25, it takes
1da177e4SLinus Torvalds|	approximately ??? / ??? cycles. For the less common arguments,
1da177e4SLinus Torvalds|	depending on their values, the program may run faster or slower --
1da177e4SLinus Torvalds|	but no worse than 10% slower even in the extreme cases.
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	ALGORITHM and IMPLEMENTATION NOTES
1da177e4SLinus Torvalds|	----------------------------------
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	setoxd
1da177e4SLinus Torvalds|	------
1da177e4SLinus Torvalds|	Step 1.	Set ans := 1.0
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	Step 2.	Return	ans := ans + sign(X)*2^(-126). Exit.
1da177e4SLinus Torvalds|	Notes:	This will always generate one exception -- inexact.
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	setox
1da177e4SLinus Torvalds|	-----
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	Step 1.	Filter out extreme cases of input argument.
1da177e4SLinus Torvalds|		1.1	If |X| >= 2^(-65), go to Step 1.3.
1da177e4SLinus Torvalds|		1.2	Go to Step 7.
1da177e4SLinus Torvalds|		1.3	If |X| < 16380 log(2), go to Step 2.
1da177e4SLinus Torvalds|		1.4	Go to Step 8.
1da177e4SLinus Torvalds|	Notes:	The usual case should take the branches 1.1 -> 1.3 -> 2.
1da177e4SLinus Torvalds|		 To avoid the use of floating-point comparisons, a
1da177e4SLinus Torvalds|		 compact representation of |X| is used. This format is a
1da177e4SLinus Torvalds|		 32-bit integer, the upper (more significant) 16 bits are
1da177e4SLinus Torvalds|		 the sign and biased exponent field of |X|; the lower 16
1da177e4SLinus Torvalds|		 bits are the 16 most significant fraction (including the
1da177e4SLinus Torvalds|		 explicit bit) bits of |X|. Consequently, the comparisons
1da177e4SLinus Torvalds|		 in Steps 1.1 and 1.3 can be performed by integer comparison.
1da177e4SLinus Torvalds|		 Note also that the constant 16380 log(2) used in Step 1.3
1da177e4SLinus Torvalds|		 is also in the compact form. Thus taking the branch
1da177e4SLinus Torvalds|		 to Step 2 guarantees |X| < 16380 log(2). There is no harm
1da177e4SLinus Torvalds|		 to have a small number of cases where |X| is less than,
1da177e4SLinus Torvalds|		 but close to, 16380 log(2) and the branch to Step 9 is
1da177e4SLinus Torvalds|		 taken.
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	Step 2.	Calculate N = round-to-nearest-int( X * 64/log2 ).
1da177e4SLinus Torvalds|		2.1	Set AdjFlag := 0 (indicates the branch 1.3 -> 2 was taken)
1da177e4SLinus Torvalds|		2.2	N := round-to-nearest-integer( X * 64/log2 ).
1da177e4SLinus Torvalds|		2.3	Calculate	J = N mod 64; so J = 0,1,2,..., or 63.
1da177e4SLinus Torvalds|		2.4	Calculate	M = (N - J)/64; so N = 64M + J.
1da177e4SLinus Torvalds|		2.5	Calculate the address of the stored value of 2^(J/64).
1da177e4SLinus Torvalds|		2.6	Create the value Scale = 2^M.
1da177e4SLinus Torvalds|	Notes:	The calculation in 2.2 is really performed by
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|			Z := X * constant
1da177e4SLinus Torvalds|			N := round-to-nearest-integer(Z)
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|		 where
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|			constant := single-precision( 64/log 2 ).
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|		 Using a single-precision constant avoids memory access.
1da177e4SLinus Torvalds|		 Another effect of using a single-precision "constant" is
1da177e4SLinus Torvalds|		 that the calculated value Z is
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|			Z = X*(64/log2)*(1+eps), |eps| <= 2^(-24).
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|		 This error has to be considered later in Steps 3 and 4.
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	Step 3.	Calculate X - N*log2/64.
1da177e4SLinus Torvalds|		3.1	R := X + N*L1, where L1 := single-precision(-log2/64).
1da177e4SLinus Torvalds|		3.2	R := R + N*L2, L2 := extended-precision(-log2/64 - L1).
1da177e4SLinus Torvalds|	Notes:	a) The way L1 and L2 are chosen ensures L1+L2 approximate
1da177e4SLinus Torvalds|		 the value	-log2/64	to 88 bits of accuracy.
1da177e4SLinus Torvalds|		 b) N*L1 is exact because N is no longer than 22 bits and
1da177e4SLinus Torvalds|		 L1 is no longer than 24 bits.
1da177e4SLinus Torvalds|		 c) The calculation X+N*L1 is also exact due to cancellation.
1da177e4SLinus Torvalds|		 Thus, R is practically X+N(L1+L2) to full 64 bits.
1da177e4SLinus Torvalds|		 d) It is important to estimate how large can |R| be after
1da177e4SLinus Torvalds|		 Step 3.2.
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|			N = rnd-to-int( X*64/log2 (1+eps) ), |eps|<=2^(-24)
1da177e4SLinus Torvalds|			X*64/log2 (1+eps)	=	N + f,	|f| <= 0.5
1da177e4SLinus Torvalds|			X*64/log2 - N	=	f - eps*X 64/log2
1da177e4SLinus Torvalds|			X - N*log2/64	=	f*log2/64 - eps*X
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|		 Now |X| <= 16446 log2, thus
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|			|X - N*log2/64| <= (0.5 + 16446/2^(18))*log2/64
1da177e4SLinus Torvalds|					<= 0.57 log2/64.
1da177e4SLinus Torvalds|		 This bound will be used in Step 4.
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	Step 4.	Approximate exp(R)-1 by a polynomial
1da177e4SLinus Torvalds|			p = R + R*R*(A1 + R*(A2 + R*(A3 + R*(A4 + R*A5))))
1da177e4SLinus Torvalds|	Notes:	a) In order to reduce memory access, the coefficients are
1da177e4SLinus Torvalds|		 made as "short" as possible: A1 (which is 1/2), A4 and A5
1da177e4SLinus Torvalds|		 are single precision; A2 and A3 are double precision.
1da177e4SLinus Torvalds|		 b) Even with the restrictions above,
1da177e4SLinus Torvalds|			|p - (exp(R)-1)| < 2^(-68.8) for all |R| <= 0.0062.
1da177e4SLinus Torvalds|		 Note that 0.0062 is slightly bigger than 0.57 log2/64.
1da177e4SLinus Torvalds|		 c) To fully utilize the pipeline, p is separated into
1da177e4SLinus Torvalds|		 two independent pieces of roughly equal complexities
1da177e4SLinus Torvalds|			p = [ R + R*S*(A2 + S*A4) ]	+
1da177e4SLinus Torvalds|				[ S*(A1 + S*(A3 + S*A5)) ]
1da177e4SLinus Torvalds|		 where S = R*R.
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	Step 5.	Compute 2^(J/64)*exp(R) = 2^(J/64)*(1+p) by
1da177e4SLinus Torvalds|				ans := T + ( T*p + t)
1da177e4SLinus Torvalds|		 where T and t are the stored values for 2^(J/64).
1da177e4SLinus Torvalds|	Notes:	2^(J/64) is stored as T and t where T+t approximates
1da177e4SLinus Torvalds|		 2^(J/64) to roughly 85 bits; T is in extended precision
1da177e4SLinus Torvalds|		 and t is in single precision. Note also that T is rounded
1da177e4SLinus Torvalds|		 to 62 bits so that the last two bits of T are zero. The
1da177e4SLinus Torvalds|		 reason for such a special form is that T-1, T-2, and T-8
1da177e4SLinus Torvalds|		 will all be exact --- a property that will give much
1da177e4SLinus Torvalds|		 more accurate computation of the function EXPM1.
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	Step 6.	Reconstruction of exp(X)
1da177e4SLinus Torvalds|			exp(X) = 2^M * 2^(J/64) * exp(R).
1da177e4SLinus Torvalds|		6.1	If AdjFlag = 0, go to 6.3
1da177e4SLinus Torvalds|		6.2	ans := ans * AdjScale
1da177e4SLinus Torvalds|		6.3	Restore the user FPCR
1da177e4SLinus Torvalds|		6.4	Return ans := ans * Scale. Exit.
1da177e4SLinus Torvalds|	Notes:	If AdjFlag = 0, we have X = Mlog2 + Jlog2/64 + R,
1da177e4SLinus Torvalds|		 |M| <= 16380, and Scale = 2^M. Moreover, exp(X) will
1da177e4SLinus Torvalds|		 neither overflow nor underflow. If AdjFlag = 1, that
1da177e4SLinus Torvalds|		 means that
1da177e4SLinus Torvalds|			X = (M1+M)log2 + Jlog2/64 + R, |M1+M| >= 16380.
1da177e4SLinus Torvalds|		 Hence, exp(X) may overflow or underflow or neither.
1da177e4SLinus Torvalds|		 When that is the case, AdjScale = 2^(M1) where M1 is
1da177e4SLinus Torvalds|		 approximately M. Thus 6.2 will never cause over/underflow.
1da177e4SLinus Torvalds|		 Possible exception in 6.4 is overflow or underflow.
1da177e4SLinus Torvalds|		 The inexact exception is not generated in 6.4. Although
1da177e4SLinus Torvalds|		 one can argue that the inexact flag should always be
1da177e4SLinus Torvalds|		 raised, to simulate that exception cost to much than the
1da177e4SLinus Torvalds|		 flag is worth in practical uses.
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	Step 7.	Return 1 + X.
1da177e4SLinus Torvalds|		7.1	ans := X
1da177e4SLinus Torvalds|		7.2	Restore user FPCR.
1da177e4SLinus Torvalds|		7.3	Return ans := 1 + ans. Exit
1da177e4SLinus Torvalds|	Notes:	For non-zero X, the inexact exception will always be
1da177e4SLinus Torvalds|		 raised by 7.3. That is the only exception raised by 7.3.
1da177e4SLinus Torvalds|		 Note also that we use the FMOVEM instruction to move X
1da177e4SLinus Torvalds|		 in Step 7.1 to avoid unnecessary trapping. (Although
1da177e4SLinus Torvalds|		 the FMOVEM may not seem relevant since X is normalized,
1da177e4SLinus Torvalds|		 the precaution will be useful in the library version of
1da177e4SLinus Torvalds|		 this code where the separate entry for denormalized inputs
1da177e4SLinus Torvalds|		 will be done away with.)
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	Step 8.	Handle exp(X) where |X| >= 16380log2.
1da177e4SLinus Torvalds|		8.1	If |X| > 16480 log2, go to Step 9.
1da177e4SLinus Torvalds|		(mimic 2.2 - 2.6)
1da177e4SLinus Torvalds|		8.2	N := round-to-integer( X * 64/log2 )
1da177e4SLinus Torvalds|		8.3	Calculate J = N mod 64, J = 0,1,...,63
1da177e4SLinus Torvalds|		8.4	K := (N-J)/64, M1 := truncate(K/2), M = K-M1, AdjFlag := 1.
1da177e4SLinus Torvalds|		8.5	Calculate the address of the stored value 2^(J/64).
1da177e4SLinus Torvalds|		8.6	Create the values Scale = 2^M, AdjScale = 2^M1.
1da177e4SLinus Torvalds|		8.7	Go to Step 3.
1da177e4SLinus Torvalds|	Notes:	Refer to notes for 2.2 - 2.6.
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	Step 9.	Handle exp(X), |X| > 16480 log2.
1da177e4SLinus Torvalds|		9.1	If X < 0, go to 9.3
1da177e4SLinus Torvalds|		9.2	ans := Huge, go to 9.4
1da177e4SLinus Torvalds|		9.3	ans := Tiny.
1da177e4SLinus Torvalds|		9.4	Restore user FPCR.
1da177e4SLinus Torvalds|		9.5	Return ans := ans * ans. Exit.
1da177e4SLinus Torvalds|	Notes:	Exp(X) will surely overflow or underflow, depending on
1da177e4SLinus Torvalds|		 X's sign. "Huge" and "Tiny" are respectively large/tiny
1da177e4SLinus Torvalds|		 extended-precision numbers whose square over/underflow
1da177e4SLinus Torvalds|		 with an inexact result. Thus, 9.5 always raises the
1da177e4SLinus Torvalds|		 inexact together with either overflow or underflow.
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	setoxm1d
1da177e4SLinus Torvalds|	--------
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	Step 1.	Set ans := 0
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	Step 2.	Return	ans := X + ans. Exit.
1da177e4SLinus Torvalds|	Notes:	This will return X with the appropriate rounding
1da177e4SLinus Torvalds|		 precision prescribed by the user FPCR.
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	setoxm1
1da177e4SLinus Torvalds|	-------
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	Step 1.	Check |X|
1da177e4SLinus Torvalds|		1.1	If |X| >= 1/4, go to Step 1.3.
1da177e4SLinus Torvalds|		1.2	Go to Step 7.
1da177e4SLinus Torvalds|		1.3	If |X| < 70 log(2), go to Step 2.
1da177e4SLinus Torvalds|		1.4	Go to Step 10.
1da177e4SLinus Torvalds|	Notes:	The usual case should take the branches 1.1 -> 1.3 -> 2.
1da177e4SLinus Torvalds|		 However, it is conceivable |X| can be small very often
1da177e4SLinus Torvalds|		 because EXPM1 is intended to evaluate exp(X)-1 accurately
1da177e4SLinus Torvalds|		 when |X| is small. For further details on the comparisons,
1da177e4SLinus Torvalds|		 see the notes on Step 1 of setox.
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	Step 2.	Calculate N = round-to-nearest-int( X * 64/log2 ).
1da177e4SLinus Torvalds|		2.1	N := round-to-nearest-integer( X * 64/log2 ).
1da177e4SLinus Torvalds|		2.2	Calculate	J = N mod 64; so J = 0,1,2,..., or 63.
1da177e4SLinus Torvalds|		2.3	Calculate	M = (N - J)/64; so N = 64M + J.
1da177e4SLinus Torvalds|		2.4	Calculate the address of the stored value of 2^(J/64).
1da177e4SLinus Torvalds|		2.5	Create the values Sc = 2^M and OnebySc := -2^(-M).
1da177e4SLinus Torvalds|	Notes:	See the notes on Step 2 of setox.
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	Step 3.	Calculate X - N*log2/64.
1da177e4SLinus Torvalds|		3.1	R := X + N*L1, where L1 := single-precision(-log2/64).
1da177e4SLinus Torvalds|		3.2	R := R + N*L2, L2 := extended-precision(-log2/64 - L1).
1da177e4SLinus Torvalds|	Notes:	Applying the analysis of Step 3 of setox in this case
1da177e4SLinus Torvalds|		 shows that |R| <= 0.0055 (note that |X| <= 70 log2 in
1da177e4SLinus Torvalds|		 this case).
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	Step 4.	Approximate exp(R)-1 by a polynomial
1da177e4SLinus Torvalds|			p = R+R*R*(A1+R*(A2+R*(A3+R*(A4+R*(A5+R*A6)))))
1da177e4SLinus Torvalds|	Notes:	a) In order to reduce memory access, the coefficients are
1da177e4SLinus Torvalds|		 made as "short" as possible: A1 (which is 1/2), A5 and A6
1da177e4SLinus Torvalds|		 are single precision; A2, A3 and A4 are double precision.
1da177e4SLinus Torvalds|		 b) Even with the restriction above,
1da177e4SLinus Torvalds|			|p - (exp(R)-1)| <	|R| * 2^(-72.7)
1da177e4SLinus Torvalds|		 for all |R| <= 0.0055.
1da177e4SLinus Torvalds|		 c) To fully utilize the pipeline, p is separated into
1da177e4SLinus Torvalds|		 two independent pieces of roughly equal complexity
1da177e4SLinus Torvalds|			p = [ R*S*(A2 + S*(A4 + S*A6)) ]	+
1da177e4SLinus Torvalds|				[ R + S*(A1 + S*(A3 + S*A5)) ]
1da177e4SLinus Torvalds|		 where S = R*R.
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	Step 5.	Compute 2^(J/64)*p by
1da177e4SLinus Torvalds|				p := T*p
1da177e4SLinus Torvalds|		 where T and t are the stored values for 2^(J/64).
1da177e4SLinus Torvalds|	Notes:	2^(J/64) is stored as T and t where T+t approximates
1da177e4SLinus Torvalds|		 2^(J/64) to roughly 85 bits; T is in extended precision
1da177e4SLinus Torvalds|		 and t is in single precision. Note also that T is rounded
1da177e4SLinus Torvalds|		 to 62 bits so that the last two bits of T are zero. The
1da177e4SLinus Torvalds|		 reason for such a special form is that T-1, T-2, and T-8
1da177e4SLinus Torvalds|		 will all be exact --- a property that will be exploited
1da177e4SLinus Torvalds|		 in Step 6 below. The total relative error in p is no
1da177e4SLinus Torvalds|		 bigger than 2^(-67.7) compared to the final result.
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	Step 6.	Reconstruction of exp(X)-1
1da177e4SLinus Torvalds|			exp(X)-1 = 2^M * ( 2^(J/64) + p - 2^(-M) ).
1da177e4SLinus Torvalds|		6.1	If M <= 63, go to Step 6.3.
1da177e4SLinus Torvalds|		6.2	ans := T + (p + (t + OnebySc)). Go to 6.6
1da177e4SLinus Torvalds|		6.3	If M >= -3, go to 6.5.
1da177e4SLinus Torvalds|		6.4	ans := (T + (p + t)) + OnebySc. Go to 6.6
1da177e4SLinus Torvalds|		6.5	ans := (T + OnebySc) + (p + t).
1da177e4SLinus Torvalds|		6.6	Restore user FPCR.
1da177e4SLinus Torvalds|		6.7	Return ans := Sc * ans. Exit.
1da177e4SLinus Torvalds|	Notes:	The various arrangements of the expressions give accurate
1da177e4SLinus Torvalds|		 evaluations.
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	Step 7.	exp(X)-1 for |X| < 1/4.
1da177e4SLinus Torvalds|		7.1	If |X| >= 2^(-65), go to Step 9.
1da177e4SLinus Torvalds|		7.2	Go to Step 8.
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	Step 8.	Calculate exp(X)-1, |X| < 2^(-65).
1da177e4SLinus Torvalds|		8.1	If |X| < 2^(-16312), goto 8.3
1da177e4SLinus Torvalds|		8.2	Restore FPCR; return ans := X - 2^(-16382). Exit.
1da177e4SLinus Torvalds|		8.3	X := X * 2^(140).
1da177e4SLinus Torvalds|		8.4	Restore FPCR; ans := ans - 2^(-16382).
1da177e4SLinus Torvalds|		 Return ans := ans*2^(140). Exit
1da177e4SLinus Torvalds|	Notes:	The idea is to return "X - tiny" under the user
1da177e4SLinus Torvalds|		 precision and rounding modes. To avoid unnecessary
1da177e4SLinus Torvalds|		 inefficiency, we stay away from denormalized numbers the
1da177e4SLinus Torvalds|		 best we can. For |X| >= 2^(-16312), the straightforward
1da177e4SLinus Torvalds|		 8.2 generates the inexact exception as the case warrants.
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	Step 9.	Calculate exp(X)-1, |X| < 1/4, by a polynomial
1da177e4SLinus Torvalds|			p = X + X*X*(B1 + X*(B2 + ... + X*B12))
1da177e4SLinus Torvalds|	Notes:	a) In order to reduce memory access, the coefficients are
1da177e4SLinus Torvalds|		 made as "short" as possible: B1 (which is 1/2), B9 to B12
1da177e4SLinus Torvalds|		 are single precision; B3 to B8 are double precision; and
1da177e4SLinus Torvalds|		 B2 is double extended.
1da177e4SLinus Torvalds|		 b) Even with the restriction above,
1da177e4SLinus Torvalds|			|p - (exp(X)-1)| < |X| 2^(-70.6)
1da177e4SLinus Torvalds|		 for all |X| <= 0.251.
1da177e4SLinus Torvalds|		 Note that 0.251 is slightly bigger than 1/4.
1da177e4SLinus Torvalds|		 c) To fully preserve accuracy, the polynomial is computed
1da177e4SLinus Torvalds|		 as	X + ( S*B1 +	Q ) where S = X*X and
1da177e4SLinus Torvalds|			Q	=	X*S*(B2 + X*(B3 + ... + X*B12))
1da177e4SLinus Torvalds|		 d) To fully utilize the pipeline, Q is separated into
1da177e4SLinus Torvalds|		 two independent pieces of roughly equal complexity
1da177e4SLinus Torvalds|			Q = [ X*S*(B2 + S*(B4 + ... + S*B12)) ] +
1da177e4SLinus Torvalds|				[ S*S*(B3 + S*(B5 + ... + S*B11)) ]
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	Step 10.	Calculate exp(X)-1 for |X| >= 70 log 2.
1da177e4SLinus Torvalds|		10.1 If X >= 70log2 , exp(X) - 1 = exp(X) for all practical
1da177e4SLinus Torvalds|		 purposes. Therefore, go to Step 1 of setox.
1da177e4SLinus Torvalds|		10.2 If X <= -70log2, exp(X) - 1 = -1 for all practical purposes.
1da177e4SLinus Torvalds|		 ans := -1
1da177e4SLinus Torvalds|		 Restore user FPCR
1da177e4SLinus Torvalds|		 Return ans := ans + 2^(-126). Exit.
1da177e4SLinus Torvalds|	Notes:	10.2 will always create an inexact and return -1 + tiny
1da177e4SLinus Torvalds|		 in the user rounding precision and mode.
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds|		Copyright (C) Motorola, Inc. 1990
1da177e4SLinus Torvalds|			All Rights Reserved
1da177e4SLinus Torvalds|
*e00d82d0SMatt Waddel|       For details on the license for this file, please see the
*e00d82d0SMatt Waddel|       file, README, in this same directory.
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds|setox	idnt	2,1 | Motorola 040 Floating Point Software Package
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	|section	8
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds#include "fpsp.h"
1da177e4SLinus Torvalds
1da177e4SLinus TorvaldsL2:	.long	0x3FDC0000,0x82E30865,0x4361C4C6,0x00000000
1da177e4SLinus Torvalds
1da177e4SLinus TorvaldsEXPA3:	.long	0x3FA55555,0x55554431
1da177e4SLinus TorvaldsEXPA2:	.long	0x3FC55555,0x55554018
1da177e4SLinus Torvalds
1da177e4SLinus TorvaldsHUGE:	.long	0x7FFE0000,0xFFFFFFFF,0xFFFFFFFF,0x00000000
1da177e4SLinus TorvaldsTINY:	.long	0x00010000,0xFFFFFFFF,0xFFFFFFFF,0x00000000
1da177e4SLinus Torvalds
1da177e4SLinus TorvaldsEM1A4:	.long	0x3F811111,0x11174385
1da177e4SLinus TorvaldsEM1A3:	.long	0x3FA55555,0x55554F5A
1da177e4SLinus Torvalds
1da177e4SLinus TorvaldsEM1A2:	.long	0x3FC55555,0x55555555,0x00000000,0x00000000
1da177e4SLinus Torvalds
1da177e4SLinus TorvaldsEM1B8:	.long	0x3EC71DE3,0xA5774682
1da177e4SLinus TorvaldsEM1B7:	.long	0x3EFA01A0,0x19D7CB68
1da177e4SLinus Torvalds
1da177e4SLinus TorvaldsEM1B6:	.long	0x3F2A01A0,0x1A019DF3
1da177e4SLinus TorvaldsEM1B5:	.long	0x3F56C16C,0x16C170E2
1da177e4SLinus Torvalds
1da177e4SLinus TorvaldsEM1B4:	.long	0x3F811111,0x11111111
1da177e4SLinus TorvaldsEM1B3:	.long	0x3FA55555,0x55555555
1da177e4SLinus Torvalds
1da177e4SLinus TorvaldsEM1B2:	.long	0x3FFC0000,0xAAAAAAAA,0xAAAAAAAB
1da177e4SLinus Torvalds	.long	0x00000000
1da177e4SLinus Torvalds
1da177e4SLinus TorvaldsTWO140:	.long	0x48B00000,0x00000000
1da177e4SLinus TorvaldsTWON140:	.long	0x37300000,0x00000000
1da177e4SLinus Torvalds
1da177e4SLinus TorvaldsEXPTBL:
1da177e4SLinus Torvalds	.long	0x3FFF0000,0x80000000,0x00000000,0x00000000
1da177e4SLinus Torvalds	.long	0x3FFF0000,0x8164D1F3,0xBC030774,0x9F841A9B
1da177e4SLinus Torvalds	.long	0x3FFF0000,0x82CD8698,0xAC2BA1D8,0x9FC1D5B9
1da177e4SLinus Torvalds	.long	0x3FFF0000,0x843A28C3,0xACDE4048,0xA0728369
1da177e4SLinus Torvalds	.long	0x3FFF0000,0x85AAC367,0xCC487B14,0x1FC5C95C
1da177e4SLinus Torvalds	.long	0x3FFF0000,0x871F6196,0x9E8D1010,0x1EE85C9F
1da177e4SLinus Torvalds	.long	0x3FFF0000,0x88980E80,0x92DA8528,0x9FA20729
1da177e4SLinus Torvalds	.long	0x3FFF0000,0x8A14D575,0x496EFD9C,0xA07BF9AF
1da177e4SLinus Torvalds	.long	0x3FFF0000,0x8B95C1E3,0xEA8BD6E8,0xA0020DCF
1da177e4SLinus Torvalds	.long	0x3FFF0000,0x8D1ADF5B,0x7E5BA9E4,0x205A63DA
1da177e4SLinus Torvalds	.long	0x3FFF0000,0x8EA4398B,0x45CD53C0,0x1EB70051
1da177e4SLinus Torvalds	.long	0x3FFF0000,0x9031DC43,0x1466B1DC,0x1F6EB029
1da177e4SLinus Torvalds	.long	0x3FFF0000,0x91C3D373,0xAB11C338,0xA0781494
1da177e4SLinus Torvalds	.long	0x3FFF0000,0x935A2B2F,0x13E6E92C,0x9EB319B0
1da177e4SLinus Torvalds	.long	0x3FFF0000,0x94F4EFA8,0xFEF70960,0x2017457D
1da177e4SLinus Torvalds	.long	0x3FFF0000,0x96942D37,0x20185A00,0x1F11D537
1da177e4SLinus Torvalds	.long	0x3FFF0000,0x9837F051,0x8DB8A970,0x9FB952DD
1da177e4SLinus Torvalds	.long	0x3FFF0000,0x99E04593,0x20B7FA64,0x1FE43087
1da177e4SLinus Torvalds	.long	0x3FFF0000,0x9B8D39B9,0xD54E5538,0x1FA2A818
1da177e4SLinus Torvalds	.long	0x3FFF0000,0x9D3ED9A7,0x2CFFB750,0x1FDE494D
1da177e4SLinus Torvalds	.long	0x3FFF0000,0x9EF53260,0x91A111AC,0x20504890
1da177e4SLinus Torvalds	.long	0x3FFF0000,0xA0B0510F,0xB9714FC4,0xA073691C
1da177e4SLinus Torvalds	.long	0x3FFF0000,0xA2704303,0x0C496818,0x1F9B7A05
1da177e4SLinus Torvalds	.long	0x3FFF0000,0xA43515AE,0x09E680A0,0xA0797126
1da177e4SLinus Torvalds	.long	0x3FFF0000,0xA5FED6A9,0xB15138EC,0xA071A140
1da177e4SLinus Torvalds	.long	0x3FFF0000,0xA7CD93B4,0xE9653568,0x204F62DA
1da177e4SLinus Torvalds	.long	0x3FFF0000,0xA9A15AB4,0xEA7C0EF8,0x1F283C4A
1da177e4SLinus Torvalds	.long	0x3FFF0000,0xAB7A39B5,0xA93ED338,0x9F9A7FDC
1da177e4SLinus Torvalds	.long	0x3FFF0000,0xAD583EEA,0x42A14AC8,0xA05B3FAC
1da177e4SLinus Torvalds	.long	0x3FFF0000,0xAF3B78AD,0x690A4374,0x1FDF2610
1da177e4SLinus Torvalds	.long	0x3FFF0000,0xB123F581,0xD2AC2590,0x9F705F90
1da177e4SLinus Torvalds	.long	0x3FFF0000,0xB311C412,0xA9112488,0x201F678A
1da177e4SLinus Torvalds	.long	0x3FFF0000,0xB504F333,0xF9DE6484,0x1F32FB13
1da177e4SLinus Torvalds	.long	0x3FFF0000,0xB6FD91E3,0x28D17790,0x20038B30
1da177e4SLinus Torvalds	.long	0x3FFF0000,0xB8FBAF47,0x62FB9EE8,0x200DC3CC
1da177e4SLinus Torvalds	.long	0x3FFF0000,0xBAFF5AB2,0x133E45FC,0x9F8B2AE6
1da177e4SLinus Torvalds	.long	0x3FFF0000,0xBD08A39F,0x580C36C0,0xA02BBF70
1da177e4SLinus Torvalds	.long	0x3FFF0000,0xBF1799B6,0x7A731084,0xA00BF518
1da177e4SLinus Torvalds	.long	0x3FFF0000,0xC12C4CCA,0x66709458,0xA041DD41
1da177e4SLinus Torvalds	.long	0x3FFF0000,0xC346CCDA,0x24976408,0x9FDF137B
1da177e4SLinus Torvalds	.long	0x3FFF0000,0xC5672A11,0x5506DADC,0x201F1568
1da177e4SLinus Torvalds	.long	0x3FFF0000,0xC78D74C8,0xABB9B15C,0x1FC13A2E
1da177e4SLinus Torvalds	.long	0x3FFF0000,0xC9B9BD86,0x6E2F27A4,0xA03F8F03
1da177e4SLinus Torvalds	.long	0x3FFF0000,0xCBEC14FE,0xF2727C5C,0x1FF4907D
1da177e4SLinus Torvalds	.long	0x3FFF0000,0xCE248C15,0x1F8480E4,0x9E6E53E4
1da177e4SLinus Torvalds	.long	0x3FFF0000,0xD06333DA,0xEF2B2594,0x1FD6D45C
1da177e4SLinus Torvalds	.long	0x3FFF0000,0xD2A81D91,0xF12AE45C,0xA076EDB9
1da177e4SLinus Torvalds	.long	0x3FFF0000,0xD4F35AAB,0xCFEDFA20,0x9FA6DE21
1da177e4SLinus Torvalds	.long	0x3FFF0000,0xD744FCCA,0xD69D6AF4,0x1EE69A2F
1da177e4SLinus Torvalds	.long	0x3FFF0000,0xD99D15C2,0x78AFD7B4,0x207F439F
1da177e4SLinus Torvalds	.long	0x3FFF0000,0xDBFBB797,0xDAF23754,0x201EC207
1da177e4SLinus Torvalds	.long	0x3FFF0000,0xDE60F482,0x5E0E9124,0x9E8BE175
1da177e4SLinus Torvalds	.long	0x3FFF0000,0xE0CCDEEC,0x2A94E110,0x20032C4B
1da177e4SLinus Torvalds	.long	0x3FFF0000,0xE33F8972,0xBE8A5A50,0x2004DFF5
1da177e4SLinus Torvalds	.long	0x3FFF0000,0xE5B906E7,0x7C8348A8,0x1E72F47A
1da177e4SLinus Torvalds	.long	0x3FFF0000,0xE8396A50,0x3C4BDC68,0x1F722F22
1da177e4SLinus Torvalds	.long	0x3FFF0000,0xEAC0C6E7,0xDD243930,0xA017E945
1da177e4SLinus Torvalds	.long	0x3FFF0000,0xED4F301E,0xD9942B84,0x1F401A5B
1da177e4SLinus Torvalds	.long	0x3FFF0000,0xEFE4B99B,0xDCDAF5CC,0x9FB9A9E3
1da177e4SLinus Torvalds	.long	0x3FFF0000,0xF281773C,0x59FFB138,0x20744C05
1da177e4SLinus Torvalds	.long	0x3FFF0000,0xF5257D15,0x2486CC2C,0x1F773A19
1da177e4SLinus Torvalds	.long	0x3FFF0000,0xF7D0DF73,0x0AD13BB8,0x1FFE90D5
1da177e4SLinus Torvalds	.long	0x3FFF0000,0xFA83B2DB,0x722A033C,0xA041ED22
1da177e4SLinus Torvalds	.long	0x3FFF0000,0xFD3E0C0C,0xF486C174,0x1F853F3A
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	.set	ADJFLAG,L_SCR2
1da177e4SLinus Torvalds	.set	SCALE,FP_SCR1
1da177e4SLinus Torvalds	.set	ADJSCALE,FP_SCR2
1da177e4SLinus Torvalds	.set	SC,FP_SCR3
1da177e4SLinus Torvalds	.set	ONEBYSC,FP_SCR4
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	| xref	t_frcinx
1da177e4SLinus Torvalds	|xref	t_extdnrm
1da177e4SLinus Torvalds	|xref	t_unfl
1da177e4SLinus Torvalds	|xref	t_ovfl
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	.global	setoxd
1da177e4SLinus Torvaldssetoxd:
1da177e4SLinus Torvalds|--entry point for EXP(X), X is denormalized
1da177e4SLinus Torvalds	movel		(%a0),%d0
1da177e4SLinus Torvalds	andil		#0x80000000,%d0
1da177e4SLinus Torvalds	oril		#0x00800000,%d0		| ...sign(X)*2^(-126)
1da177e4SLinus Torvalds	movel		%d0,-(%sp)
1da177e4SLinus Torvalds	fmoves		#0x3F800000,%fp0
1da177e4SLinus Torvalds	fmovel		%d1,%fpcr
1da177e4SLinus Torvalds	fadds		(%sp)+,%fp0
1da177e4SLinus Torvalds	bra		t_frcinx
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	.global	setox
1da177e4SLinus Torvaldssetox:
1da177e4SLinus Torvalds|--entry point for EXP(X), here X is finite, non-zero, and not NaN's
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds|--Step 1.
1da177e4SLinus Torvalds	movel		(%a0),%d0	 | ...load part of input X
1da177e4SLinus Torvalds	andil		#0x7FFF0000,%d0	| ...biased expo. of X
1da177e4SLinus Torvalds	cmpil		#0x3FBE0000,%d0	| ...2^(-65)
1da177e4SLinus Torvalds	bges		EXPC1		| ...normal case
1da177e4SLinus Torvalds	bra		EXPSM
1da177e4SLinus Torvalds
1da177e4SLinus TorvaldsEXPC1:
1da177e4SLinus Torvalds|--The case |X| >= 2^(-65)
1da177e4SLinus Torvalds	movew		4(%a0),%d0	| ...expo. and partial sig. of |X|
1da177e4SLinus Torvalds	cmpil		#0x400CB167,%d0	| ...16380 log2 trunc. 16 bits
1da177e4SLinus Torvalds	blts		EXPMAIN	 | ...normal case
1da177e4SLinus Torvalds	bra		EXPBIG
1da177e4SLinus Torvalds
1da177e4SLinus TorvaldsEXPMAIN:
1da177e4SLinus Torvalds|--Step 2.
1da177e4SLinus Torvalds|--This is the normal branch:	2^(-65) <= |X| < 16380 log2.
1da177e4SLinus Torvalds	fmovex		(%a0),%fp0	| ...load input from (a0)
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fmovex		%fp0,%fp1
1da177e4SLinus Torvalds	fmuls		#0x42B8AA3B,%fp0	| ...64/log2 * X
1da177e4SLinus Torvalds	fmovemx	%fp2-%fp2/%fp3,-(%a7)		| ...save fp2
1da177e4SLinus Torvalds	movel		#0,ADJFLAG(%a6)
1da177e4SLinus Torvalds	fmovel		%fp0,%d0		| ...N = int( X * 64/log2 )
1da177e4SLinus Torvalds	lea		EXPTBL,%a1
1da177e4SLinus Torvalds	fmovel		%d0,%fp0		| ...convert to floating-format
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	movel		%d0,L_SCR1(%a6)	| ...save N temporarily
1da177e4SLinus Torvalds	andil		#0x3F,%d0		| ...D0 is J = N mod 64
1da177e4SLinus Torvalds	lsll		#4,%d0
1da177e4SLinus Torvalds	addal		%d0,%a1		| ...address of 2^(J/64)
1da177e4SLinus Torvalds	movel		L_SCR1(%a6),%d0
1da177e4SLinus Torvalds	asrl		#6,%d0		| ...D0 is M
1da177e4SLinus Torvalds	addiw		#0x3FFF,%d0	| ...biased expo. of 2^(M)
1da177e4SLinus Torvalds	movew		L2,L_SCR1(%a6)	| ...prefetch L2, no need in CB
1da177e4SLinus Torvalds
1da177e4SLinus TorvaldsEXPCONT1:
1da177e4SLinus Torvalds|--Step 3.
1da177e4SLinus Torvalds|--fp1,fp2 saved on the stack. fp0 is N, fp1 is X,
1da177e4SLinus Torvalds|--a0 points to 2^(J/64), D0 is biased expo. of 2^(M)
1da177e4SLinus Torvalds	fmovex		%fp0,%fp2
1da177e4SLinus Torvalds	fmuls		#0xBC317218,%fp0	| ...N * L1, L1 = lead(-log2/64)
1da177e4SLinus Torvalds	fmulx		L2,%fp2		| ...N * L2, L1+L2 = -log2/64
1da177e4SLinus Torvalds	faddx		%fp1,%fp0		| ...X + N*L1
1da177e4SLinus Torvalds	faddx		%fp2,%fp0		| ...fp0 is R, reduced arg.
1da177e4SLinus Torvalds|	MOVE.W		#$3FA5,EXPA3	...load EXPA3 in cache
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds|--Step 4.
1da177e4SLinus Torvalds|--WE NOW COMPUTE EXP(R)-1 BY A POLYNOMIAL
1da177e4SLinus Torvalds|-- R + R*R*(A1 + R*(A2 + R*(A3 + R*(A4 + R*A5))))
1da177e4SLinus Torvalds|--TO FULLY UTILIZE THE PIPELINE, WE COMPUTE S = R*R
1da177e4SLinus Torvalds|--[R+R*S*(A2+S*A4)] + [S*(A1+S*(A3+S*A5))]
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fmovex		%fp0,%fp1
1da177e4SLinus Torvalds	fmulx		%fp1,%fp1		| ...fp1 IS S = R*R
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fmoves		#0x3AB60B70,%fp2	| ...fp2 IS A5
1da177e4SLinus Torvalds|	MOVE.W		#0,2(%a1)	...load 2^(J/64) in cache
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fmulx		%fp1,%fp2		| ...fp2 IS S*A5
1da177e4SLinus Torvalds	fmovex		%fp1,%fp3
1da177e4SLinus Torvalds	fmuls		#0x3C088895,%fp3	| ...fp3 IS S*A4
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	faddd		EXPA3,%fp2	| ...fp2 IS A3+S*A5
1da177e4SLinus Torvalds	faddd		EXPA2,%fp3	| ...fp3 IS A2+S*A4
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fmulx		%fp1,%fp2		| ...fp2 IS S*(A3+S*A5)
1da177e4SLinus Torvalds	movew		%d0,SCALE(%a6)	| ...SCALE is 2^(M) in extended
1da177e4SLinus Torvalds	clrw		SCALE+2(%a6)
1da177e4SLinus Torvalds	movel		#0x80000000,SCALE+4(%a6)
1da177e4SLinus Torvalds	clrl		SCALE+8(%a6)
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fmulx		%fp1,%fp3		| ...fp3 IS S*(A2+S*A4)
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fadds		#0x3F000000,%fp2	| ...fp2 IS A1+S*(A3+S*A5)
1da177e4SLinus Torvalds	fmulx		%fp0,%fp3		| ...fp3 IS R*S*(A2+S*A4)
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fmulx		%fp1,%fp2		| ...fp2 IS S*(A1+S*(A3+S*A5))
1da177e4SLinus Torvalds	faddx		%fp3,%fp0		| ...fp0 IS R+R*S*(A2+S*A4),
1da177e4SLinus Torvalds|					...fp3 released
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fmovex		(%a1)+,%fp1	| ...fp1 is lead. pt. of 2^(J/64)
1da177e4SLinus Torvalds	faddx		%fp2,%fp0		| ...fp0 is EXP(R) - 1
1da177e4SLinus Torvalds|					...fp2 released
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds|--Step 5
1da177e4SLinus Torvalds|--final reconstruction process
1da177e4SLinus Torvalds|--EXP(X) = 2^M * ( 2^(J/64) + 2^(J/64)*(EXP(R)-1) )
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fmulx		%fp1,%fp0		| ...2^(J/64)*(Exp(R)-1)
1da177e4SLinus Torvalds	fmovemx	(%a7)+,%fp2-%fp2/%fp3	| ...fp2 restored
1da177e4SLinus Torvalds	fadds		(%a1),%fp0	| ...accurate 2^(J/64)
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	faddx		%fp1,%fp0		| ...2^(J/64) + 2^(J/64)*...
1da177e4SLinus Torvalds	movel		ADJFLAG(%a6),%d0
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds|--Step 6
1da177e4SLinus Torvalds	tstl		%d0
1da177e4SLinus Torvalds	beqs		NORMAL
1da177e4SLinus TorvaldsADJUST:
1da177e4SLinus Torvalds	fmulx		ADJSCALE(%a6),%fp0
1da177e4SLinus TorvaldsNORMAL:
1da177e4SLinus Torvalds	fmovel		%d1,%FPCR		| ...restore user FPCR
1da177e4SLinus Torvalds	fmulx		SCALE(%a6),%fp0	| ...multiply 2^(M)
1da177e4SLinus Torvalds	bra		t_frcinx
1da177e4SLinus Torvalds
1da177e4SLinus TorvaldsEXPSM:
1da177e4SLinus Torvalds|--Step 7
1da177e4SLinus Torvalds	fmovemx	(%a0),%fp0-%fp0	| ...in case X is denormalized
1da177e4SLinus Torvalds	fmovel		%d1,%FPCR
1da177e4SLinus Torvalds	fadds		#0x3F800000,%fp0	| ...1+X in user mode
1da177e4SLinus Torvalds	bra		t_frcinx
1da177e4SLinus Torvalds
1da177e4SLinus TorvaldsEXPBIG:
1da177e4SLinus Torvalds|--Step 8
1da177e4SLinus Torvalds	cmpil		#0x400CB27C,%d0	| ...16480 log2
1da177e4SLinus Torvalds	bgts		EXP2BIG
1da177e4SLinus Torvalds|--Steps 8.2 -- 8.6
1da177e4SLinus Torvalds	fmovex		(%a0),%fp0	| ...load input from (a0)
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fmovex		%fp0,%fp1
1da177e4SLinus Torvalds	fmuls		#0x42B8AA3B,%fp0	| ...64/log2 * X
1da177e4SLinus Torvalds	fmovemx	 %fp2-%fp2/%fp3,-(%a7)		| ...save fp2
1da177e4SLinus Torvalds	movel		#1,ADJFLAG(%a6)
1da177e4SLinus Torvalds	fmovel		%fp0,%d0		| ...N = int( X * 64/log2 )
1da177e4SLinus Torvalds	lea		EXPTBL,%a1
1da177e4SLinus Torvalds	fmovel		%d0,%fp0		| ...convert to floating-format
1da177e4SLinus Torvalds	movel		%d0,L_SCR1(%a6)			| ...save N temporarily
1da177e4SLinus Torvalds	andil		#0x3F,%d0		 | ...D0 is J = N mod 64
1da177e4SLinus Torvalds	lsll		#4,%d0
1da177e4SLinus Torvalds	addal		%d0,%a1			| ...address of 2^(J/64)
1da177e4SLinus Torvalds	movel		L_SCR1(%a6),%d0
1da177e4SLinus Torvalds	asrl		#6,%d0			| ...D0 is K
1da177e4SLinus Torvalds	movel		%d0,L_SCR1(%a6)			| ...save K temporarily
1da177e4SLinus Torvalds	asrl		#1,%d0			| ...D0 is M1
1da177e4SLinus Torvalds	subl		%d0,L_SCR1(%a6)			| ...a1 is M
1da177e4SLinus Torvalds	addiw		#0x3FFF,%d0		| ...biased expo. of 2^(M1)
1da177e4SLinus Torvalds	movew		%d0,ADJSCALE(%a6)		| ...ADJSCALE := 2^(M1)
1da177e4SLinus Torvalds	clrw		ADJSCALE+2(%a6)
1da177e4SLinus Torvalds	movel		#0x80000000,ADJSCALE+4(%a6)
1da177e4SLinus Torvalds	clrl		ADJSCALE+8(%a6)
1da177e4SLinus Torvalds	movel		L_SCR1(%a6),%d0			| ...D0 is M
1da177e4SLinus Torvalds	addiw		#0x3FFF,%d0		| ...biased expo. of 2^(M)
1da177e4SLinus Torvalds	bra		EXPCONT1		| ...go back to Step 3
1da177e4SLinus Torvalds
1da177e4SLinus TorvaldsEXP2BIG:
1da177e4SLinus Torvalds|--Step 9
1da177e4SLinus Torvalds	fmovel		%d1,%FPCR
1da177e4SLinus Torvalds	movel		(%a0),%d0
1da177e4SLinus Torvalds	bclrb		#sign_bit,(%a0)		| ...setox always returns positive
1da177e4SLinus Torvalds	cmpil		#0,%d0
1da177e4SLinus Torvalds	blt		t_unfl
1da177e4SLinus Torvalds	bra		t_ovfl
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	.global	setoxm1d
1da177e4SLinus Torvaldssetoxm1d:
1da177e4SLinus Torvalds|--entry point for EXPM1(X), here X is denormalized
1da177e4SLinus Torvalds|--Step 0.
1da177e4SLinus Torvalds	bra		t_extdnrm
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	.global	setoxm1
1da177e4SLinus Torvaldssetoxm1:
1da177e4SLinus Torvalds|--entry point for EXPM1(X), here X is finite, non-zero, non-NaN
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds|--Step 1.
1da177e4SLinus Torvalds|--Step 1.1
1da177e4SLinus Torvalds	movel		(%a0),%d0	 | ...load part of input X
1da177e4SLinus Torvalds	andil		#0x7FFF0000,%d0	| ...biased expo. of X
1da177e4SLinus Torvalds	cmpil		#0x3FFD0000,%d0	| ...1/4
1da177e4SLinus Torvalds	bges		EM1CON1	 | ...|X| >= 1/4
1da177e4SLinus Torvalds	bra		EM1SM
1da177e4SLinus Torvalds
1da177e4SLinus TorvaldsEM1CON1:
1da177e4SLinus Torvalds|--Step 1.3
1da177e4SLinus Torvalds|--The case |X| >= 1/4
1da177e4SLinus Torvalds	movew		4(%a0),%d0	| ...expo. and partial sig. of |X|
1da177e4SLinus Torvalds	cmpil		#0x4004C215,%d0	| ...70log2 rounded up to 16 bits
1da177e4SLinus Torvalds	bles		EM1MAIN	 | ...1/4 <= |X| <= 70log2
1da177e4SLinus Torvalds	bra		EM1BIG
1da177e4SLinus Torvalds
1da177e4SLinus TorvaldsEM1MAIN:
1da177e4SLinus Torvalds|--Step 2.
1da177e4SLinus Torvalds|--This is the case:	1/4 <= |X| <= 70 log2.
1da177e4SLinus Torvalds	fmovex		(%a0),%fp0	| ...load input from (a0)
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fmovex		%fp0,%fp1
1da177e4SLinus Torvalds	fmuls		#0x42B8AA3B,%fp0	| ...64/log2 * X
1da177e4SLinus Torvalds	fmovemx	%fp2-%fp2/%fp3,-(%a7)		| ...save fp2
1da177e4SLinus Torvalds|	MOVE.W		#$3F81,EM1A4		...prefetch in CB mode
1da177e4SLinus Torvalds	fmovel		%fp0,%d0		| ...N = int( X * 64/log2 )
1da177e4SLinus Torvalds	lea		EXPTBL,%a1
1da177e4SLinus Torvalds	fmovel		%d0,%fp0		| ...convert to floating-format
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	movel		%d0,L_SCR1(%a6)			| ...save N temporarily
1da177e4SLinus Torvalds	andil		#0x3F,%d0		 | ...D0 is J = N mod 64
1da177e4SLinus Torvalds	lsll		#4,%d0
1da177e4SLinus Torvalds	addal		%d0,%a1			| ...address of 2^(J/64)
1da177e4SLinus Torvalds	movel		L_SCR1(%a6),%d0
1da177e4SLinus Torvalds	asrl		#6,%d0			| ...D0 is M
1da177e4SLinus Torvalds	movel		%d0,L_SCR1(%a6)			| ...save a copy of M
1da177e4SLinus Torvalds|	MOVE.W		#$3FDC,L2		...prefetch L2 in CB mode
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds|--Step 3.
1da177e4SLinus Torvalds|--fp1,fp2 saved on the stack. fp0 is N, fp1 is X,
1da177e4SLinus Torvalds|--a0 points to 2^(J/64), D0 and a1 both contain M
1da177e4SLinus Torvalds	fmovex		%fp0,%fp2
1da177e4SLinus Torvalds	fmuls		#0xBC317218,%fp0	| ...N * L1, L1 = lead(-log2/64)
1da177e4SLinus Torvalds	fmulx		L2,%fp2		| ...N * L2, L1+L2 = -log2/64
1da177e4SLinus Torvalds	faddx		%fp1,%fp0	 | ...X + N*L1
1da177e4SLinus Torvalds	faddx		%fp2,%fp0	 | ...fp0 is R, reduced arg.
1da177e4SLinus Torvalds|	MOVE.W		#$3FC5,EM1A2		...load EM1A2 in cache
1da177e4SLinus Torvalds	addiw		#0x3FFF,%d0		| ...D0 is biased expo. of 2^M
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds|--Step 4.
1da177e4SLinus Torvalds|--WE NOW COMPUTE EXP(R)-1 BY A POLYNOMIAL
1da177e4SLinus Torvalds|-- R + R*R*(A1 + R*(A2 + R*(A3 + R*(A4 + R*(A5 + R*A6)))))
1da177e4SLinus Torvalds|--TO FULLY UTILIZE THE PIPELINE, WE COMPUTE S = R*R
1da177e4SLinus Torvalds|--[R*S*(A2+S*(A4+S*A6))] + [R+S*(A1+S*(A3+S*A5))]
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fmovex		%fp0,%fp1
1da177e4SLinus Torvalds	fmulx		%fp1,%fp1		| ...fp1 IS S = R*R
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fmoves		#0x3950097B,%fp2	| ...fp2 IS a6
1da177e4SLinus Torvalds|	MOVE.W		#0,2(%a1)	...load 2^(J/64) in cache
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fmulx		%fp1,%fp2		| ...fp2 IS S*A6
1da177e4SLinus Torvalds	fmovex		%fp1,%fp3
1da177e4SLinus Torvalds	fmuls		#0x3AB60B6A,%fp3	| ...fp3 IS S*A5
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	faddd		EM1A4,%fp2	| ...fp2 IS A4+S*A6
1da177e4SLinus Torvalds	faddd		EM1A3,%fp3	| ...fp3 IS A3+S*A5
1da177e4SLinus Torvalds	movew		%d0,SC(%a6)		| ...SC is 2^(M) in extended
1da177e4SLinus Torvalds	clrw		SC+2(%a6)
1da177e4SLinus Torvalds	movel		#0x80000000,SC+4(%a6)
1da177e4SLinus Torvalds	clrl		SC+8(%a6)
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fmulx		%fp1,%fp2		| ...fp2 IS S*(A4+S*A6)
1da177e4SLinus Torvalds	movel		L_SCR1(%a6),%d0		| ...D0 is	M
1da177e4SLinus Torvalds	negw		%d0		| ...D0 is -M
1da177e4SLinus Torvalds	fmulx		%fp1,%fp3		| ...fp3 IS S*(A3+S*A5)
1da177e4SLinus Torvalds	addiw		#0x3FFF,%d0	| ...biased expo. of 2^(-M)
1da177e4SLinus Torvalds	faddd		EM1A2,%fp2	| ...fp2 IS A2+S*(A4+S*A6)
1da177e4SLinus Torvalds	fadds		#0x3F000000,%fp3	| ...fp3 IS A1+S*(A3+S*A5)
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fmulx		%fp1,%fp2		| ...fp2 IS S*(A2+S*(A4+S*A6))
1da177e4SLinus Torvalds	oriw		#0x8000,%d0	| ...signed/expo. of -2^(-M)
1da177e4SLinus Torvalds	movew		%d0,ONEBYSC(%a6)	| ...OnebySc is -2^(-M)
1da177e4SLinus Torvalds	clrw		ONEBYSC+2(%a6)
1da177e4SLinus Torvalds	movel		#0x80000000,ONEBYSC+4(%a6)
1da177e4SLinus Torvalds	clrl		ONEBYSC+8(%a6)
1da177e4SLinus Torvalds	fmulx		%fp3,%fp1		| ...fp1 IS S*(A1+S*(A3+S*A5))
1da177e4SLinus Torvalds|					...fp3 released
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fmulx		%fp0,%fp2		| ...fp2 IS R*S*(A2+S*(A4+S*A6))
1da177e4SLinus Torvalds	faddx		%fp1,%fp0		| ...fp0 IS R+S*(A1+S*(A3+S*A5))
1da177e4SLinus Torvalds|					...fp1 released
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	faddx		%fp2,%fp0		| ...fp0 IS EXP(R)-1
1da177e4SLinus Torvalds|					...fp2 released
1da177e4SLinus Torvalds	fmovemx	(%a7)+,%fp2-%fp2/%fp3	| ...fp2 restored
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds|--Step 5
1da177e4SLinus Torvalds|--Compute 2^(J/64)*p
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fmulx		(%a1),%fp0	| ...2^(J/64)*(Exp(R)-1)
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds|--Step 6
1da177e4SLinus Torvalds|--Step 6.1
1da177e4SLinus Torvalds	movel		L_SCR1(%a6),%d0		| ...retrieve M
1da177e4SLinus Torvalds	cmpil		#63,%d0
1da177e4SLinus Torvalds	bles		MLE63
1da177e4SLinus Torvalds|--Step 6.2	M >= 64
1da177e4SLinus Torvalds	fmoves		12(%a1),%fp1	| ...fp1 is t
1da177e4SLinus Torvalds	faddx		ONEBYSC(%a6),%fp1	| ...fp1 is t+OnebySc
1da177e4SLinus Torvalds	faddx		%fp1,%fp0		| ...p+(t+OnebySc), fp1 released
1da177e4SLinus Torvalds	faddx		(%a1),%fp0	| ...T+(p+(t+OnebySc))
1da177e4SLinus Torvalds	bras		EM1SCALE
1da177e4SLinus TorvaldsMLE63:
1da177e4SLinus Torvalds|--Step 6.3	M <= 63
1da177e4SLinus Torvalds	cmpil		#-3,%d0
1da177e4SLinus Torvalds	bges		MGEN3
1da177e4SLinus TorvaldsMLTN3:
1da177e4SLinus Torvalds|--Step 6.4	M <= -4
1da177e4SLinus Torvalds	fadds		12(%a1),%fp0	| ...p+t
1da177e4SLinus Torvalds	faddx		(%a1),%fp0	| ...T+(p+t)
1da177e4SLinus Torvalds	faddx		ONEBYSC(%a6),%fp0	| ...OnebySc + (T+(p+t))
1da177e4SLinus Torvalds	bras		EM1SCALE
1da177e4SLinus TorvaldsMGEN3:
1da177e4SLinus Torvalds|--Step 6.5	-3 <= M <= 63
1da177e4SLinus Torvalds	fmovex		(%a1)+,%fp1	| ...fp1 is T
1da177e4SLinus Torvalds	fadds		(%a1),%fp0	| ...fp0 is p+t
1da177e4SLinus Torvalds	faddx		ONEBYSC(%a6),%fp1	| ...fp1 is T+OnebySc
1da177e4SLinus Torvalds	faddx		%fp1,%fp0		| ...(T+OnebySc)+(p+t)
1da177e4SLinus Torvalds
1da177e4SLinus TorvaldsEM1SCALE:
1da177e4SLinus Torvalds|--Step 6.6
1da177e4SLinus Torvalds	fmovel		%d1,%FPCR
1da177e4SLinus Torvalds	fmulx		SC(%a6),%fp0
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	bra		t_frcinx
1da177e4SLinus Torvalds
1da177e4SLinus TorvaldsEM1SM:
1da177e4SLinus Torvalds|--Step 7	|X| < 1/4.
1da177e4SLinus Torvalds	cmpil		#0x3FBE0000,%d0	| ...2^(-65)
1da177e4SLinus Torvalds	bges		EM1POLY
1da177e4SLinus Torvalds
1da177e4SLinus TorvaldsEM1TINY:
1da177e4SLinus Torvalds|--Step 8	|X| < 2^(-65)
1da177e4SLinus Torvalds	cmpil		#0x00330000,%d0	| ...2^(-16312)
1da177e4SLinus Torvalds	blts		EM12TINY
1da177e4SLinus Torvalds|--Step 8.2
1da177e4SLinus Torvalds	movel		#0x80010000,SC(%a6)	| ...SC is -2^(-16382)
1da177e4SLinus Torvalds	movel		#0x80000000,SC+4(%a6)
1da177e4SLinus Torvalds	clrl		SC+8(%a6)
1da177e4SLinus Torvalds	fmovex		(%a0),%fp0
1da177e4SLinus Torvalds	fmovel		%d1,%FPCR
1da177e4SLinus Torvalds	faddx		SC(%a6),%fp0
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	bra		t_frcinx
1da177e4SLinus Torvalds
1da177e4SLinus TorvaldsEM12TINY:
1da177e4SLinus Torvalds|--Step 8.3
1da177e4SLinus Torvalds	fmovex		(%a0),%fp0
1da177e4SLinus Torvalds	fmuld		TWO140,%fp0
1da177e4SLinus Torvalds	movel		#0x80010000,SC(%a6)
1da177e4SLinus Torvalds	movel		#0x80000000,SC+4(%a6)
1da177e4SLinus Torvalds	clrl		SC+8(%a6)
1da177e4SLinus Torvalds	faddx		SC(%a6),%fp0
1da177e4SLinus Torvalds	fmovel		%d1,%FPCR
1da177e4SLinus Torvalds	fmuld		TWON140,%fp0
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	bra		t_frcinx
1da177e4SLinus Torvalds
1da177e4SLinus TorvaldsEM1POLY:
1da177e4SLinus Torvalds|--Step 9	exp(X)-1 by a simple polynomial
1da177e4SLinus Torvalds	fmovex		(%a0),%fp0	| ...fp0 is X
1da177e4SLinus Torvalds	fmulx		%fp0,%fp0		| ...fp0 is S := X*X
1da177e4SLinus Torvalds	fmovemx	%fp2-%fp2/%fp3,-(%a7)	| ...save fp2
1da177e4SLinus Torvalds	fmoves		#0x2F30CAA8,%fp1	| ...fp1 is B12
1da177e4SLinus Torvalds	fmulx		%fp0,%fp1		| ...fp1 is S*B12
1da177e4SLinus Torvalds	fmoves		#0x310F8290,%fp2	| ...fp2 is B11
1da177e4SLinus Torvalds	fadds		#0x32D73220,%fp1	| ...fp1 is B10+S*B12
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fmulx		%fp0,%fp2		| ...fp2 is S*B11
1da177e4SLinus Torvalds	fmulx		%fp0,%fp1		| ...fp1 is S*(B10 + ...
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fadds		#0x3493F281,%fp2	| ...fp2 is B9+S*...
1da177e4SLinus Torvalds	faddd		EM1B8,%fp1	| ...fp1 is B8+S*...
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fmulx		%fp0,%fp2		| ...fp2 is S*(B9+...
1da177e4SLinus Torvalds	fmulx		%fp0,%fp1		| ...fp1 is S*(B8+...
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	faddd		EM1B7,%fp2	| ...fp2 is B7+S*...
1da177e4SLinus Torvalds	faddd		EM1B6,%fp1	| ...fp1 is B6+S*...
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fmulx		%fp0,%fp2		| ...fp2 is S*(B7+...
1da177e4SLinus Torvalds	fmulx		%fp0,%fp1		| ...fp1 is S*(B6+...
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	faddd		EM1B5,%fp2	| ...fp2 is B5+S*...
1da177e4SLinus Torvalds	faddd		EM1B4,%fp1	| ...fp1 is B4+S*...
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fmulx		%fp0,%fp2		| ...fp2 is S*(B5+...
1da177e4SLinus Torvalds	fmulx		%fp0,%fp1		| ...fp1 is S*(B4+...
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	faddd		EM1B3,%fp2	| ...fp2 is B3+S*...
1da177e4SLinus Torvalds	faddx		EM1B2,%fp1	| ...fp1 is B2+S*...
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fmulx		%fp0,%fp2		| ...fp2 is S*(B3+...
1da177e4SLinus Torvalds	fmulx		%fp0,%fp1		| ...fp1 is S*(B2+...
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fmulx		%fp0,%fp2		| ...fp2 is S*S*(B3+...)
1da177e4SLinus Torvalds	fmulx		(%a0),%fp1	| ...fp1 is X*S*(B2...
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fmuls		#0x3F000000,%fp0	| ...fp0 is S*B1
1da177e4SLinus Torvalds	faddx		%fp2,%fp1		| ...fp1 is Q
1da177e4SLinus Torvalds|					...fp2 released
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fmovemx	(%a7)+,%fp2-%fp2/%fp3	| ...fp2 restored
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	faddx		%fp1,%fp0		| ...fp0 is S*B1+Q
1da177e4SLinus Torvalds|					...fp1 released
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fmovel		%d1,%FPCR
1da177e4SLinus Torvalds	faddx		(%a0),%fp0
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	bra		t_frcinx
1da177e4SLinus Torvalds
1da177e4SLinus TorvaldsEM1BIG:
1da177e4SLinus Torvalds|--Step 10	|X| > 70 log2
1da177e4SLinus Torvalds	movel		(%a0),%d0
1da177e4SLinus Torvalds	cmpil		#0,%d0
1da177e4SLinus Torvalds	bgt		EXPC1
1da177e4SLinus Torvalds|--Step 10.2
1da177e4SLinus Torvalds	fmoves		#0xBF800000,%fp0	| ...fp0 is -1
1da177e4SLinus Torvalds	fmovel		%d1,%FPCR
1da177e4SLinus Torvalds	fadds		#0x00800000,%fp0	| ...-1 + 2^(-126)
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	bra		t_frcinx
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	|end