m68k/fpsp040/stan.S

1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	stan.sa 3.3 7/29/91
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	The entry point stan computes the tangent of
1da177e4SLinus Torvalds|	an input argument;
1da177e4SLinus Torvalds|	stand does the same except for denormalized input.
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	Input: Double-extended number X in location pointed to
1da177e4SLinus Torvalds|		by address register a0.
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	Output: The value tan(X) returned in floating-point register Fp0.
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	Accuracy and Monotonicity: The returned result is within 3 ulp in
1da177e4SLinus Torvalds|		64 significant bit, i.e. within 0.5001 ulp to 53 bits if the
1da177e4SLinus Torvalds|		result is subsequently rounded to double precision. The
1da177e4SLinus Torvalds|		result is provably monotonic in double precision.
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	Speed: The program sTAN takes approximately 170 cycles for
1da177e4SLinus Torvalds|		input argument X such that |X| < 15Pi, which is the usual
1da177e4SLinus Torvalds|		situation.
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	Algorithm:
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	1. If |X| >= 15Pi or |X| < 2**(-40), go to 6.
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	2. Decompose X as X = N(Pi/2) + r where |r| <= Pi/4. Let
1da177e4SLinus Torvalds|		k = N mod 2, so in particular, k = 0 or 1.
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	3. If k is odd, go to 5.
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	4. (k is even) Tan(X) = tan(r) and tan(r) is approximated by a
1da177e4SLinus Torvalds|		rational function U/V where
1da177e4SLinus Torvalds|		U = r + r*s*(P1 + s*(P2 + s*P3)), and
1da177e4SLinus Torvalds|		V = 1 + s*(Q1 + s*(Q2 + s*(Q3 + s*Q4))),  s = r*r.
1da177e4SLinus Torvalds|		Exit.
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	4. (k is odd) Tan(X) = -cot(r). Since tan(r) is approximated by a
1da177e4SLinus Torvalds|		rational function U/V where
1da177e4SLinus Torvalds|		U = r + r*s*(P1 + s*(P2 + s*P3)), and
1da177e4SLinus Torvalds|		V = 1 + s*(Q1 + s*(Q2 + s*(Q3 + s*Q4))), s = r*r,
1da177e4SLinus Torvalds|		-Cot(r) = -V/U. Exit.
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	6. If |X| > 1, go to 8.
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	7. (|X|<2**(-40)) Tan(X) = X. Exit.
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds|	8. Overwrite X by X := X rem 2Pi. Now that |X| <= Pi, go back to 2.
1da177e4SLinus Torvalds|
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds|		Copyright (C) Motorola, Inc. 1990
1da177e4SLinus Torvalds|			All Rights Reserved
1da177e4SLinus Torvalds|
*e00d82d0SMatt Waddel|       For details on the license for this file, please see the
*e00d82d0SMatt Waddel|       file, README, in this same directory.
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds|STAN	idnt	2,1 | Motorola 040 Floating Point Software Package
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	|section	8
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds#include "fpsp.h"
1da177e4SLinus Torvalds
1da177e4SLinus TorvaldsBOUNDS1:	.long 0x3FD78000,0x4004BC7E
1da177e4SLinus TorvaldsTWOBYPI:	.long 0x3FE45F30,0x6DC9C883
1da177e4SLinus Torvalds
1da177e4SLinus TorvaldsTANQ4:	.long 0x3EA0B759,0xF50F8688
1da177e4SLinus TorvaldsTANP3:	.long 0xBEF2BAA5,0xA8924F04
1da177e4SLinus Torvalds
1da177e4SLinus TorvaldsTANQ3:	.long 0xBF346F59,0xB39BA65F,0x00000000,0x00000000
1da177e4SLinus Torvalds
1da177e4SLinus TorvaldsTANP2:	.long 0x3FF60000,0xE073D3FC,0x199C4A00,0x00000000
1da177e4SLinus Torvalds
1da177e4SLinus TorvaldsTANQ2:	.long 0x3FF90000,0xD23CD684,0x15D95FA1,0x00000000
1da177e4SLinus Torvalds
1da177e4SLinus TorvaldsTANP1:	.long 0xBFFC0000,0x8895A6C5,0xFB423BCA,0x00000000
1da177e4SLinus Torvalds
1da177e4SLinus TorvaldsTANQ1:	.long 0xBFFD0000,0xEEF57E0D,0xA84BC8CE,0x00000000
1da177e4SLinus Torvalds
1da177e4SLinus TorvaldsINVTWOPI: .long 0x3FFC0000,0xA2F9836E,0x4E44152A,0x00000000
1da177e4SLinus Torvalds
1da177e4SLinus TorvaldsTWOPI1:	.long 0x40010000,0xC90FDAA2,0x00000000,0x00000000
1da177e4SLinus TorvaldsTWOPI2:	.long 0x3FDF0000,0x85A308D4,0x00000000,0x00000000
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds|--N*PI/2, -32 <= N <= 32, IN A LEADING TERM IN EXT. AND TRAILING
1da177e4SLinus Torvalds|--TERM IN SGL. NOTE THAT PI IS 64-BIT LONG, THUS N*PI/2 IS AT
1da177e4SLinus Torvalds|--MOST 69 BITS LONG.
1da177e4SLinus Torvalds	.global	PITBL
1da177e4SLinus TorvaldsPITBL:
1da177e4SLinus Torvalds  .long  0xC0040000,0xC90FDAA2,0x2168C235,0x21800000
1da177e4SLinus Torvalds  .long  0xC0040000,0xC2C75BCD,0x105D7C23,0xA0D00000
1da177e4SLinus Torvalds  .long  0xC0040000,0xBC7EDCF7,0xFF523611,0xA1E80000
1da177e4SLinus Torvalds  .long  0xC0040000,0xB6365E22,0xEE46F000,0x21480000
1da177e4SLinus Torvalds  .long  0xC0040000,0xAFEDDF4D,0xDD3BA9EE,0xA1200000
1da177e4SLinus Torvalds  .long  0xC0040000,0xA9A56078,0xCC3063DD,0x21FC0000
1da177e4SLinus Torvalds  .long  0xC0040000,0xA35CE1A3,0xBB251DCB,0x21100000
1da177e4SLinus Torvalds  .long  0xC0040000,0x9D1462CE,0xAA19D7B9,0xA1580000
1da177e4SLinus Torvalds  .long  0xC0040000,0x96CBE3F9,0x990E91A8,0x21E00000
1da177e4SLinus Torvalds  .long  0xC0040000,0x90836524,0x88034B96,0x20B00000
1da177e4SLinus Torvalds  .long  0xC0040000,0x8A3AE64F,0x76F80584,0xA1880000
1da177e4SLinus Torvalds  .long  0xC0040000,0x83F2677A,0x65ECBF73,0x21C40000
1da177e4SLinus Torvalds  .long  0xC0030000,0xFB53D14A,0xA9C2F2C2,0x20000000
1da177e4SLinus Torvalds  .long  0xC0030000,0xEEC2D3A0,0x87AC669F,0x21380000
1da177e4SLinus Torvalds  .long  0xC0030000,0xE231D5F6,0x6595DA7B,0xA1300000
1da177e4SLinus Torvalds  .long  0xC0030000,0xD5A0D84C,0x437F4E58,0x9FC00000
1da177e4SLinus Torvalds  .long  0xC0030000,0xC90FDAA2,0x2168C235,0x21000000
1da177e4SLinus Torvalds  .long  0xC0030000,0xBC7EDCF7,0xFF523611,0xA1680000
1da177e4SLinus Torvalds  .long  0xC0030000,0xAFEDDF4D,0xDD3BA9EE,0xA0A00000
1da177e4SLinus Torvalds  .long  0xC0030000,0xA35CE1A3,0xBB251DCB,0x20900000
1da177e4SLinus Torvalds  .long  0xC0030000,0x96CBE3F9,0x990E91A8,0x21600000
1da177e4SLinus Torvalds  .long  0xC0030000,0x8A3AE64F,0x76F80584,0xA1080000
1da177e4SLinus Torvalds  .long  0xC0020000,0xFB53D14A,0xA9C2F2C2,0x1F800000
1da177e4SLinus Torvalds  .long  0xC0020000,0xE231D5F6,0x6595DA7B,0xA0B00000
1da177e4SLinus Torvalds  .long  0xC0020000,0xC90FDAA2,0x2168C235,0x20800000
1da177e4SLinus Torvalds  .long  0xC0020000,0xAFEDDF4D,0xDD3BA9EE,0xA0200000
1da177e4SLinus Torvalds  .long  0xC0020000,0x96CBE3F9,0x990E91A8,0x20E00000
1da177e4SLinus Torvalds  .long  0xC0010000,0xFB53D14A,0xA9C2F2C2,0x1F000000
1da177e4SLinus Torvalds  .long  0xC0010000,0xC90FDAA2,0x2168C235,0x20000000
1da177e4SLinus Torvalds  .long  0xC0010000,0x96CBE3F9,0x990E91A8,0x20600000
1da177e4SLinus Torvalds  .long  0xC0000000,0xC90FDAA2,0x2168C235,0x1F800000
1da177e4SLinus Torvalds  .long  0xBFFF0000,0xC90FDAA2,0x2168C235,0x1F000000
1da177e4SLinus Torvalds  .long  0x00000000,0x00000000,0x00000000,0x00000000
1da177e4SLinus Torvalds  .long  0x3FFF0000,0xC90FDAA2,0x2168C235,0x9F000000
1da177e4SLinus Torvalds  .long  0x40000000,0xC90FDAA2,0x2168C235,0x9F800000
1da177e4SLinus Torvalds  .long  0x40010000,0x96CBE3F9,0x990E91A8,0xA0600000
1da177e4SLinus Torvalds  .long  0x40010000,0xC90FDAA2,0x2168C235,0xA0000000
1da177e4SLinus Torvalds  .long  0x40010000,0xFB53D14A,0xA9C2F2C2,0x9F000000
1da177e4SLinus Torvalds  .long  0x40020000,0x96CBE3F9,0x990E91A8,0xA0E00000
1da177e4SLinus Torvalds  .long  0x40020000,0xAFEDDF4D,0xDD3BA9EE,0x20200000
1da177e4SLinus Torvalds  .long  0x40020000,0xC90FDAA2,0x2168C235,0xA0800000
1da177e4SLinus Torvalds  .long  0x40020000,0xE231D5F6,0x6595DA7B,0x20B00000
1da177e4SLinus Torvalds  .long  0x40020000,0xFB53D14A,0xA9C2F2C2,0x9F800000
1da177e4SLinus Torvalds  .long  0x40030000,0x8A3AE64F,0x76F80584,0x21080000
1da177e4SLinus Torvalds  .long  0x40030000,0x96CBE3F9,0x990E91A8,0xA1600000
1da177e4SLinus Torvalds  .long  0x40030000,0xA35CE1A3,0xBB251DCB,0xA0900000
1da177e4SLinus Torvalds  .long  0x40030000,0xAFEDDF4D,0xDD3BA9EE,0x20A00000
1da177e4SLinus Torvalds  .long  0x40030000,0xBC7EDCF7,0xFF523611,0x21680000
1da177e4SLinus Torvalds  .long  0x40030000,0xC90FDAA2,0x2168C235,0xA1000000
1da177e4SLinus Torvalds  .long  0x40030000,0xD5A0D84C,0x437F4E58,0x1FC00000
1da177e4SLinus Torvalds  .long  0x40030000,0xE231D5F6,0x6595DA7B,0x21300000
1da177e4SLinus Torvalds  .long  0x40030000,0xEEC2D3A0,0x87AC669F,0xA1380000
1da177e4SLinus Torvalds  .long  0x40030000,0xFB53D14A,0xA9C2F2C2,0xA0000000
1da177e4SLinus Torvalds  .long  0x40040000,0x83F2677A,0x65ECBF73,0xA1C40000
1da177e4SLinus Torvalds  .long  0x40040000,0x8A3AE64F,0x76F80584,0x21880000
1da177e4SLinus Torvalds  .long  0x40040000,0x90836524,0x88034B96,0xA0B00000
1da177e4SLinus Torvalds  .long  0x40040000,0x96CBE3F9,0x990E91A8,0xA1E00000
1da177e4SLinus Torvalds  .long  0x40040000,0x9D1462CE,0xAA19D7B9,0x21580000
1da177e4SLinus Torvalds  .long  0x40040000,0xA35CE1A3,0xBB251DCB,0xA1100000
1da177e4SLinus Torvalds  .long  0x40040000,0xA9A56078,0xCC3063DD,0xA1FC0000
1da177e4SLinus Torvalds  .long  0x40040000,0xAFEDDF4D,0xDD3BA9EE,0x21200000
1da177e4SLinus Torvalds  .long  0x40040000,0xB6365E22,0xEE46F000,0xA1480000
1da177e4SLinus Torvalds  .long  0x40040000,0xBC7EDCF7,0xFF523611,0x21E80000
1da177e4SLinus Torvalds  .long  0x40040000,0xC2C75BCD,0x105D7C23,0x20D00000
1da177e4SLinus Torvalds  .long  0x40040000,0xC90FDAA2,0x2168C235,0xA1800000
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	.set	INARG,FP_SCR4
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	.set	TWOTO63,L_SCR1
1da177e4SLinus Torvalds	.set	ENDFLAG,L_SCR2
1da177e4SLinus Torvalds	.set	N,L_SCR3
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	| xref	t_frcinx
1da177e4SLinus Torvalds	|xref	t_extdnrm
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	.global	stand
1da177e4SLinus Torvaldsstand:
1da177e4SLinus Torvalds|--TAN(X) = X FOR DENORMALIZED X
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	bra		t_extdnrm
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	.global	stan
1da177e4SLinus Torvaldsstan:
1da177e4SLinus Torvalds	fmovex		(%a0),%fp0	| ...LOAD INPUT
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	movel		(%a0),%d0
1da177e4SLinus Torvalds	movew		4(%a0),%d0
1da177e4SLinus Torvalds	andil		#0x7FFFFFFF,%d0
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	cmpil		#0x3FD78000,%d0		| ...|X| >= 2**(-40)?
1da177e4SLinus Torvalds	bges		TANOK1
1da177e4SLinus Torvalds	bra		TANSM
1da177e4SLinus TorvaldsTANOK1:
1da177e4SLinus Torvalds	cmpil		#0x4004BC7E,%d0		| ...|X| < 15 PI?
1da177e4SLinus Torvalds	blts		TANMAIN
1da177e4SLinus Torvalds	bra		REDUCEX
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds
1da177e4SLinus TorvaldsTANMAIN:
1da177e4SLinus Torvalds|--THIS IS THE USUAL CASE, |X| <= 15 PI.
1da177e4SLinus Torvalds|--THE ARGUMENT REDUCTION IS DONE BY TABLE LOOK UP.
1da177e4SLinus Torvalds	fmovex		%fp0,%fp1
1da177e4SLinus Torvalds	fmuld		TWOBYPI,%fp1	| ...X*2/PI
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds|--HIDE THE NEXT TWO INSTRUCTIONS
1da177e4SLinus Torvalds	leal		PITBL+0x200,%a1 | ...TABLE OF N*PI/2, N = -32,...,32
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds|--FP1 IS NOW READY
1da177e4SLinus Torvalds	fmovel		%fp1,%d0		| ...CONVERT TO INTEGER
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	asll		#4,%d0
1da177e4SLinus Torvalds	addal		%d0,%a1		| ...ADDRESS N*PIBY2 IN Y1, Y2
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fsubx		(%a1)+,%fp0	| ...X-Y1
1da177e4SLinus Torvalds|--HIDE THE NEXT ONE
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fsubs		(%a1),%fp0	| ...FP0 IS R = (X-Y1)-Y2
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	rorl		#5,%d0
1da177e4SLinus Torvalds	andil		#0x80000000,%d0	| ...D0 WAS ODD IFF D0 < 0
1da177e4SLinus Torvalds
1da177e4SLinus TorvaldsTANCONT:
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	cmpil		#0,%d0
1da177e4SLinus Torvalds	blt		NODD
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fmovex		%fp0,%fp1
1da177e4SLinus Torvalds	fmulx		%fp1,%fp1		| ...S = R*R
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fmoved		TANQ4,%fp3
1da177e4SLinus Torvalds	fmoved		TANP3,%fp2
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fmulx		%fp1,%fp3		| ...SQ4
1da177e4SLinus Torvalds	fmulx		%fp1,%fp2		| ...SP3
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	faddd		TANQ3,%fp3	| ...Q3+SQ4
1da177e4SLinus Torvalds	faddx		TANP2,%fp2	| ...P2+SP3
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fmulx		%fp1,%fp3		| ...S(Q3+SQ4)
1da177e4SLinus Torvalds	fmulx		%fp1,%fp2		| ...S(P2+SP3)
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	faddx		TANQ2,%fp3	| ...Q2+S(Q3+SQ4)
1da177e4SLinus Torvalds	faddx		TANP1,%fp2	| ...P1+S(P2+SP3)
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fmulx		%fp1,%fp3		| ...S(Q2+S(Q3+SQ4))
1da177e4SLinus Torvalds	fmulx		%fp1,%fp2		| ...S(P1+S(P2+SP3))
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	faddx		TANQ1,%fp3	| ...Q1+S(Q2+S(Q3+SQ4))
1da177e4SLinus Torvalds	fmulx		%fp0,%fp2		| ...RS(P1+S(P2+SP3))
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fmulx		%fp3,%fp1		| ...S(Q1+S(Q2+S(Q3+SQ4)))
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	faddx		%fp2,%fp0		| ...R+RS(P1+S(P2+SP3))
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fadds		#0x3F800000,%fp1	| ...1+S(Q1+...)
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fmovel		%d1,%fpcr		|restore users exceptions
1da177e4SLinus Torvalds	fdivx		%fp1,%fp0		|last inst - possible exception set
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	bra		t_frcinx
1da177e4SLinus Torvalds
1da177e4SLinus TorvaldsNODD:
1da177e4SLinus Torvalds	fmovex		%fp0,%fp1
1da177e4SLinus Torvalds	fmulx		%fp0,%fp0		| ...S = R*R
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fmoved		TANQ4,%fp3
1da177e4SLinus Torvalds	fmoved		TANP3,%fp2
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fmulx		%fp0,%fp3		| ...SQ4
1da177e4SLinus Torvalds	fmulx		%fp0,%fp2		| ...SP3
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	faddd		TANQ3,%fp3	| ...Q3+SQ4
1da177e4SLinus Torvalds	faddx		TANP2,%fp2	| ...P2+SP3
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fmulx		%fp0,%fp3		| ...S(Q3+SQ4)
1da177e4SLinus Torvalds	fmulx		%fp0,%fp2		| ...S(P2+SP3)
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	faddx		TANQ2,%fp3	| ...Q2+S(Q3+SQ4)
1da177e4SLinus Torvalds	faddx		TANP1,%fp2	| ...P1+S(P2+SP3)
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fmulx		%fp0,%fp3		| ...S(Q2+S(Q3+SQ4))
1da177e4SLinus Torvalds	fmulx		%fp0,%fp2		| ...S(P1+S(P2+SP3))
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	faddx		TANQ1,%fp3	| ...Q1+S(Q2+S(Q3+SQ4))
1da177e4SLinus Torvalds	fmulx		%fp1,%fp2		| ...RS(P1+S(P2+SP3))
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fmulx		%fp3,%fp0		| ...S(Q1+S(Q2+S(Q3+SQ4)))
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	faddx		%fp2,%fp1		| ...R+RS(P1+S(P2+SP3))
1da177e4SLinus Torvalds	fadds		#0x3F800000,%fp0	| ...1+S(Q1+...)
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fmovex		%fp1,-(%sp)
1da177e4SLinus Torvalds	eoril		#0x80000000,(%sp)
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fmovel		%d1,%fpcr		|restore users exceptions
1da177e4SLinus Torvalds	fdivx		(%sp)+,%fp0	|last inst - possible exception set
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	bra		t_frcinx
1da177e4SLinus Torvalds
1da177e4SLinus TorvaldsTANBORS:
1da177e4SLinus Torvalds|--IF |X| > 15PI, WE USE THE GENERAL ARGUMENT REDUCTION.
1da177e4SLinus Torvalds|--IF |X| < 2**(-40), RETURN X OR 1.
1da177e4SLinus Torvalds	cmpil		#0x3FFF8000,%d0
1da177e4SLinus Torvalds	bgts		REDUCEX
1da177e4SLinus Torvalds
1da177e4SLinus TorvaldsTANSM:
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fmovex		%fp0,-(%sp)
1da177e4SLinus Torvalds	fmovel		%d1,%fpcr		 |restore users exceptions
1da177e4SLinus Torvalds	fmovex		(%sp)+,%fp0	|last inst - possible exception set
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	bra		t_frcinx
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds
1da177e4SLinus TorvaldsREDUCEX:
1da177e4SLinus Torvalds|--WHEN REDUCEX IS USED, THE CODE WILL INEVITABLY BE SLOW.
1da177e4SLinus Torvalds|--THIS REDUCTION METHOD, HOWEVER, IS MUCH FASTER THAN USING
1da177e4SLinus Torvalds|--THE REMAINDER INSTRUCTION WHICH IS NOW IN SOFTWARE.
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fmovemx	%fp2-%fp5,-(%a7)	| ...save FP2 through FP5
1da177e4SLinus Torvalds	movel		%d2,-(%a7)
1da177e4SLinus Torvalds        fmoves         #0x00000000,%fp1
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds|--If compact form of abs(arg) in d0=$7ffeffff, argument is so large that
1da177e4SLinus Torvalds|--there is a danger of unwanted overflow in first LOOP iteration.  In this
1da177e4SLinus Torvalds|--case, reduce argument by one remainder step to make subsequent reduction
1da177e4SLinus Torvalds|--safe.
1da177e4SLinus Torvalds	cmpil	#0x7ffeffff,%d0		|is argument dangerously large?
1da177e4SLinus Torvalds	bnes	LOOP
1da177e4SLinus Torvalds	movel	#0x7ffe0000,FP_SCR2(%a6)	|yes
1da177e4SLinus Torvalds|					;create 2**16383*PI/2
1da177e4SLinus Torvalds	movel	#0xc90fdaa2,FP_SCR2+4(%a6)
1da177e4SLinus Torvalds	clrl	FP_SCR2+8(%a6)
1da177e4SLinus Torvalds	ftstx	%fp0			|test sign of argument
1da177e4SLinus Torvalds	movel	#0x7fdc0000,FP_SCR3(%a6)	|create low half of 2**16383*
1da177e4SLinus Torvalds|					;PI/2 at FP_SCR3
1da177e4SLinus Torvalds	movel	#0x85a308d3,FP_SCR3+4(%a6)
1da177e4SLinus Torvalds	clrl   FP_SCR3+8(%a6)
1da177e4SLinus Torvalds	fblt	red_neg
1da177e4SLinus Torvalds	orw	#0x8000,FP_SCR2(%a6)	|positive arg
1da177e4SLinus Torvalds	orw	#0x8000,FP_SCR3(%a6)
1da177e4SLinus Torvaldsred_neg:
1da177e4SLinus Torvalds	faddx  FP_SCR2(%a6),%fp0		|high part of reduction is exact
1da177e4SLinus Torvalds	fmovex  %fp0,%fp1		|save high result in fp1
1da177e4SLinus Torvalds	faddx  FP_SCR3(%a6),%fp0		|low part of reduction
1da177e4SLinus Torvalds	fsubx  %fp0,%fp1			|determine low component of result
1da177e4SLinus Torvalds	faddx  FP_SCR3(%a6),%fp1		|fp0/fp1 are reduced argument.
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds|--ON ENTRY, FP0 IS X, ON RETURN, FP0 IS X REM PI/2, |X| <= PI/4.
1da177e4SLinus Torvalds|--integer quotient will be stored in N
1da177e4SLinus Torvalds|--Intermediate remainder is 66-bit long; (R,r) in (FP0,FP1)
1da177e4SLinus Torvalds
1da177e4SLinus TorvaldsLOOP:
1da177e4SLinus Torvalds	fmovex		%fp0,INARG(%a6)	| ...+-2**K * F, 1 <= F < 2
1da177e4SLinus Torvalds	movew		INARG(%a6),%d0
1da177e4SLinus Torvalds        movel          %d0,%a1		| ...save a copy of D0
1da177e4SLinus Torvalds	andil		#0x00007FFF,%d0
1da177e4SLinus Torvalds	subil		#0x00003FFF,%d0	| ...D0 IS K
1da177e4SLinus Torvalds	cmpil		#28,%d0
1da177e4SLinus Torvalds	bles		LASTLOOP
1da177e4SLinus TorvaldsCONTLOOP:
1da177e4SLinus Torvalds	subil		#27,%d0	 | ...D0 IS L := K-27
1da177e4SLinus Torvalds	movel		#0,ENDFLAG(%a6)
1da177e4SLinus Torvalds	bras		WORK
1da177e4SLinus TorvaldsLASTLOOP:
1da177e4SLinus Torvalds	clrl		%d0		| ...D0 IS L := 0
1da177e4SLinus Torvalds	movel		#1,ENDFLAG(%a6)
1da177e4SLinus Torvalds
1da177e4SLinus TorvaldsWORK:
1da177e4SLinus Torvalds|--FIND THE REMAINDER OF (R,r) W.R.T.	2**L * (PI/2). L IS SO CHOSEN
1da177e4SLinus Torvalds|--THAT	INT( X * (2/PI) / 2**(L) ) < 2**29.
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds|--CREATE 2**(-L) * (2/PI), SIGN(INARG)*2**(63),
1da177e4SLinus Torvalds|--2**L * (PIby2_1), 2**L * (PIby2_2)
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	movel		#0x00003FFE,%d2	| ...BIASED EXPO OF 2/PI
1da177e4SLinus Torvalds	subl		%d0,%d2		| ...BIASED EXPO OF 2**(-L)*(2/PI)
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	movel		#0xA2F9836E,FP_SCR1+4(%a6)
1da177e4SLinus Torvalds	movel		#0x4E44152A,FP_SCR1+8(%a6)
1da177e4SLinus Torvalds	movew		%d2,FP_SCR1(%a6)	| ...FP_SCR1 is 2**(-L)*(2/PI)
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fmovex		%fp0,%fp2
1da177e4SLinus Torvalds	fmulx		FP_SCR1(%a6),%fp2
1da177e4SLinus Torvalds|--WE MUST NOW FIND INT(FP2). SINCE WE NEED THIS VALUE IN
1da177e4SLinus Torvalds|--FLOATING POINT FORMAT, THE TWO FMOVE'S	FMOVE.L FP <--> N
1da177e4SLinus Torvalds|--WILL BE TOO INEFFICIENT. THE WAY AROUND IT IS THAT
1da177e4SLinus Torvalds|--(SIGN(INARG)*2**63	+	FP2) - SIGN(INARG)*2**63 WILL GIVE
1da177e4SLinus Torvalds|--US THE DESIRED VALUE IN FLOATING POINT.
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds|--HIDE SIX CYCLES OF INSTRUCTION
1da177e4SLinus Torvalds        movel		%a1,%d2
1da177e4SLinus Torvalds        swap		%d2
1da177e4SLinus Torvalds	andil		#0x80000000,%d2
1da177e4SLinus Torvalds	oril		#0x5F000000,%d2	| ...D2 IS SIGN(INARG)*2**63 IN SGL
1da177e4SLinus Torvalds	movel		%d2,TWOTO63(%a6)
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	movel		%d0,%d2
1da177e4SLinus Torvalds	addil		#0x00003FFF,%d2	| ...BIASED EXPO OF 2**L * (PI/2)
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds|--FP2 IS READY
1da177e4SLinus Torvalds	fadds		TWOTO63(%a6),%fp2	| ...THE FRACTIONAL PART OF FP1 IS ROUNDED
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds|--HIDE 4 CYCLES OF INSTRUCTION; creating 2**(L)*Piby2_1  and  2**(L)*Piby2_2
1da177e4SLinus Torvalds        movew		%d2,FP_SCR2(%a6)
1da177e4SLinus Torvalds	clrw           FP_SCR2+2(%a6)
1da177e4SLinus Torvalds	movel		#0xC90FDAA2,FP_SCR2+4(%a6)
1da177e4SLinus Torvalds	clrl		FP_SCR2+8(%a6)		| ...FP_SCR2 is  2**(L) * Piby2_1
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds|--FP2 IS READY
1da177e4SLinus Torvalds	fsubs		TWOTO63(%a6),%fp2		| ...FP2 is N
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	addil		#0x00003FDD,%d0
1da177e4SLinus Torvalds        movew		%d0,FP_SCR3(%a6)
1da177e4SLinus Torvalds	clrw           FP_SCR3+2(%a6)
1da177e4SLinus Torvalds	movel		#0x85A308D3,FP_SCR3+4(%a6)
1da177e4SLinus Torvalds	clrl		FP_SCR3+8(%a6)		| ...FP_SCR3 is 2**(L) * Piby2_2
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	movel		ENDFLAG(%a6),%d0
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds|--We are now ready to perform (R+r) - N*P1 - N*P2, P1 = 2**(L) * Piby2_1 and
1da177e4SLinus Torvalds|--P2 = 2**(L) * Piby2_2
1da177e4SLinus Torvalds	fmovex		%fp2,%fp4
1da177e4SLinus Torvalds	fmulx		FP_SCR2(%a6),%fp4		| ...W = N*P1
1da177e4SLinus Torvalds	fmovex		%fp2,%fp5
1da177e4SLinus Torvalds	fmulx		FP_SCR3(%a6),%fp5		| ...w = N*P2
1da177e4SLinus Torvalds	fmovex		%fp4,%fp3
1da177e4SLinus Torvalds|--we want P+p = W+w  but  |p| <= half ulp of P
1da177e4SLinus Torvalds|--Then, we need to compute  A := R-P   and  a := r-p
1da177e4SLinus Torvalds	faddx		%fp5,%fp3			| ...FP3 is P
1da177e4SLinus Torvalds	fsubx		%fp3,%fp4			| ...W-P
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fsubx		%fp3,%fp0			| ...FP0 is A := R - P
1da177e4SLinus Torvalds        faddx		%fp5,%fp4			| ...FP4 is p = (W-P)+w
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	fmovex		%fp0,%fp3			| ...FP3 A
1da177e4SLinus Torvalds	fsubx		%fp4,%fp1			| ...FP1 is a := r - p
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds|--Now we need to normalize (A,a) to  "new (R,r)" where R+r = A+a but
1da177e4SLinus Torvalds|--|r| <= half ulp of R.
1da177e4SLinus Torvalds	faddx		%fp1,%fp0			| ...FP0 is R := A+a
1da177e4SLinus Torvalds|--No need to calculate r if this is the last loop
1da177e4SLinus Torvalds	cmpil		#0,%d0
1da177e4SLinus Torvalds	bgt		RESTORE
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds|--Need to calculate r
1da177e4SLinus Torvalds	fsubx		%fp0,%fp3			| ...A-R
1da177e4SLinus Torvalds	faddx		%fp3,%fp1			| ...FP1 is r := (A-R)+a
1da177e4SLinus Torvalds	bra		LOOP
1da177e4SLinus Torvalds
1da177e4SLinus TorvaldsRESTORE:
1da177e4SLinus Torvalds        fmovel		%fp2,N(%a6)
1da177e4SLinus Torvalds	movel		(%a7)+,%d2
1da177e4SLinus Torvalds	fmovemx	(%a7)+,%fp2-%fp5
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	movel		N(%a6),%d0
1da177e4SLinus Torvalds        rorl		#1,%d0
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	bra		TANCONT
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	|end