EuroCD 3

home *** CD-ROM | disk | FTP | other *** search

/ EuroCD 3 / EuroCD 3.iso / Programming / vbcc / machines / amiga68k / libsrc / math / math_040 / tan.s < prev next >

Wrap

Text File | 1998-06-24 | 14.9 KB | 374 lines

* * $VER: tan.s 33.1 (22.1.97) * * Calculates the tangent or the cotangent of the source operand * * Version history: * * 33.1 22.1.97 (c) Motorola * * - snipped from M68060SP * * 33.2 23.1.97 laukkanen * * - added cot(), well that was the second solution I thought * after 1/tan() which didn't seem very fast but I'm no * "mathemagician" so if anybody wants to object, please do. * * 33.3 24.1.97 laukkanen * * - the reduce part of tan() was broken, fixed. * machine 68040 fpu 1 XDEF _tan XDEF @tan XDEF _cot XDEF @cot XREF PITBL ************************************************************************* * tan(): computes the tangent of a normalized input * * cot(): computes the cotangent of a normalized input * * * * INPUT *************************************************************** * * fp0 = pointer to extended precision input * * * * OUTPUT ************************************************************** * * fp0 = tan(X) or fp0 = cot(X) * * * * ACCURACY and MONOTONICITY ******************************************* * * The returned result is within 3 ulp in 64 significant bit, i.e. * * within 0.5001 ulp to 53 bits if the result is subsequently * * rounded to double precision. The result is provably monotonic * * in double precision. * * * * ALGORITHM *********************************************************** * * * * 1. If |X| >= 15Pi or |X| < 2**(-40), go to 6. * * * * 2. Decompose X as X = N(Pi/2) + r where |r| <= Pi/4. Let * * k = N mod 2, so in particular, k = 0 or 1. * * * * 3. If k is odd, go to 5. * * * * 4. (k is even) Tan(X) = tan(r) and tan(r) is approximated by a * * rational function U/V where * * U = r + r*s*(P1 + s*(P2 + s*P3)), and * * V = 1 + s*(Q1 + s*(Q2 + s*(Q3 + s*Q4))), s = r*r. * * Exit. * * * * 4. (k is odd) Tan(X) = -cot(r). Since tan(r) is approximated by * * a rational function U/V where * * U = r + r*s*(P1 + s*(P2 + s*P3)), and * * V = 1 + s*(Q1 + s*(Q2 + s*(Q3 + s*Q4))), s = r*r, * * -Cot(r) = -V/U. Exit. * * * * 6. If |X| > 1, go to 8. * * * * 7. (|X|<2**(-40)) Tan(X) = X. Exit. * * * * 8. Overwrite X by X := X rem 2Pi. Now that |X| <= Pi, go back * * to 2. * * * ************************************************************************* TANQ4 dc.l $3EA0B759,$F50F8688 TANP3 dc.l $BEF2BAA5,$A8924F04 TANQ3 dc.l $BF346F59,$B39BA65F,$00000000,$00000000 TANP2 dc.l $3FF60000,$E073D3FC,$199C4A00,$00000000 TANQ2 dc.l $3FF90000,$D23CD684,$15D95FA1,$00000000 TANP1 dc.l $BFFC0000,$8895A6C5,$FB423BCA,$00000000 TANQ1 dc.l $BFFD0000,$EEF57E0D,$A84BC8CE,$00000000 INVTWOPI dc.l $3FFC0000,$A2F9836E,$4E44152A,$00000000 TWOPI1 dc.l $40010000,$C90FDAA2,$00000000,$00000000 TWOPI2 dc.l $3FDF0000,$85A308D4,$00000000,$00000000 TWOBYPI dc.l $3FE45F30,$6DC9C883 PID2 dc.d 1.57079632679489661923 _tan fmove.d (4,sp),fp0 @tan fmove.x fp0,-(sp) move.l (sp),d1 move.w (4,sp),d1 and.l #$7FFFFFFF,d1 lea (12,sp),sp cmp.l #$3FD78000,d1 ; |X| >= 2**(-40)? bge.b .TANOK1 bra.w .TANSM .TANOK1 cmp.l #$4004BC7E,d1 ; |X| < 15 PI? blt.b .TANMAIN bra.w .REDUCEX .TANMAIN ;--THIS IS THE USUAL CASE, |X| <= 15 PI. ;--THE ARGUMENT REDUCTION IS DONE BY TABLE LOOK UP. fmove.x fp0,fp1 fmul.d (TWOBYPI,pc),fp1 ; X*2/PI lea (PITBL+$200,pc),a1 ; TABLE OF N*PI/2, N = -32,...,32 fmove.l fp1,d1 ; CONVERT TO INTEGER asl.l #4,d1 add.l d1,a1 ; ADDRESS N*PIBY2 IN Y1, Y2 fsub.x (a1)+,fp0 ; X-Y1 fsub.s (a1),fp0 ; FP0 IS R = (X-Y1)-Y2 ror.l #5,d1 and.l #$80000000,d1 ; D0 WAS ODD IFF D0 < 0 .TANCONT fmovem.x fp2/fp3,-(sp) ; save fp2,fp3 tst.l d1 blt.w .NODD fmove.x fp0,fp1 fmul.x fp1,fp1 ; S = R*R fmove.d (TANQ4,pc),fp3 fmove.d (TANP3,pc),fp2 fmul.x fp1,fp3 ; SQ4 fmul.x fp1,fp2 ; SP3 fadd.d (TANQ3,pc),fp3 ; Q3+SQ4 fadd.x (TANP2,pc),fp2 ; P2+SP3 fmul.x fp1,fp3 ; S(Q3+SQ4) fmul.x fp1,fp2 ; S(P2+SP3) fadd.x (TANQ2,pc),fp3 ; Q2+S(Q3+SQ4) fadd.x (TANP1,pc),fp2 ; P1+S(P2+SP3) fmul.x fp1,fp3 ; S(Q2+S(Q3+SQ4)) fmul.x fp1,fp2 ; S(P1+S(P2+SP3)) fadd.x (TANQ1,pc),fp3 ; Q1+S(Q2+S(Q3+SQ4)) fmul.x fp0,fp2 ; RS(P1+S(P2+SP3)) fmul.x fp3,fp1 ; S(Q1+S(Q2+S(Q3+SQ4))) fadd.x fp2,fp0 ; R+RS(P1+S(P2+SP3)) fadd.s #$3F800000,fp1 ; 1+S(Q1+...) fmovem.x (sp)+,fp2/fp3 ; restore fp2,fp3 fdiv.x fp1,fp0 ; last inst - possible exception set rts .NODD fmove.x fp0,fp1 fmul.x fp0,fp0 ; S = R*R fmove.d (TANQ4,pc),fp3 fmove.d (TANP3,pc),fp2 fmul.x fp0,fp3 ; SQ4 fmul.x fp0,fp2 ; SP3 fadd.d (TANQ3,pc),fp3 ; Q3+SQ4 fadd.x (TANP2,pc),fp2 ; P2+SP3 fmul.x fp0,fp3 ; S(Q3+SQ4) fmul.x fp0,fp2 ; S(P2+SP3) fadd.x (TANQ2,pc),fp3 ; Q2+S(Q3+SQ4) fadd.x (TANP1,pc),fp2 ; P1+S(P2+SP3) fmul.x fp0,fp3 ; S(Q2+S(Q3+SQ4)) fmul.x fp0,fp2 ; S(P1+S(P2+SP3)) fadd.x (TANQ1,pc),fp3 ; Q1+S(Q2+S(Q3+SQ4)) fmul.x fp1,fp2 ; RS(P1+S(P2+SP3)) fmul.x fp3,fp0 ; S(Q1+S(Q2+S(Q3+SQ4))) fadd.x fp2,fp1 ; R+RS(P1+S(P2+SP3)) fadd.s #$3F800000,fp0 ; 1+S(Q1+...) fmovem.x (sp)+,fp2/fp3 ; restore fp2,fp3 fmove.x fp1,-(sp) eor.l #$80000000,(sp) fdiv.x (sp)+,fp0 ; last inst - possible exception set rts .TANSM rts FP_SCR0 EQU -12 FP_SCR0_EX EQU -12 FP_SCR0_HI EQU -8 FP_SCR0_LO EQU -4 FP_SCR1 EQU -24 FP_SCR1_EX EQU -24 FP_SCR1_HI EQU -20 FP_SCR1_LO EQU -16 INARG EQU -12 ENDFLAG EQU -28 TWOTO63 EQU -32 INT EQU -28 REDUCE_SIZE EQU 32 ;--WHEN REDUCEX IS USED, THE CODE WILL INEVITABLY BE SLOW. ;--THIS REDUCTION METHOD, HOWEVER, IS MUCH FASTER THAN USING ;--THE REMAINDER INSTRUCTION WHICH IS NOW IN SOFTWARE. .REDUCEX fmovem.x fp2-fp5,-(sp) ; save {fp2-fp5} move.l d2,-(sp) ; save d2 link a0,#-REDUCE_SIZE fmove.s #$00000000,fp1 ; fp1 = 0 ;--If compact form of abs(arg) in d0=$7ffeffff, argument is so large that ;--there is a danger of unwanted overflow in first LOOP iteration. In this ;--case, reduce argument by one remainder step to make subsequent reduction ;--safe. cmp.l #$7ffeffff,d1 ; is arg dangerously large? bne.b .LOOP ; no ; yes; create 2**16383*PI/2 move.w #$7ffe,(FP_SCR0_EX,a0) move.l #$c90fdaa2,(FP_SCR0_HI,a0) clr.l (FP_SCR0_LO,a0) ; create low half of 2**16383*PI/2 at FP_SCR1 move.w #$7fdc,(FP_SCR1_EX,a0) move.l #$85a308d3,(FP_SCR1_HI,a0) clr.l (FP_SCR1_LO,a0) fcmp.s #0,fp0 ; test sign of argument fblt.w .red_neg or.b #$80,(FP_SCR0_EX,a0) ; positive arg or.b #$80,(FP_SCR1_EX,a0) .red_neg fadd.x (FP_SCR0,a0),fp0 ; high part of reduction is exact fmove.x fp0,fp1 ; save high result in fp1 fadd.x (FP_SCR1,a0),fp0 ; low part of reduction fsub.x fp0,fp1 ; determine low component of result fadd.x (FP_SCR1,a0),fp1 ; fp0/fp1 are reduced argument. ;--ON ENTRY, FP0 IS X, ON RETURN, FP0 IS X REM PI/2, |X| <= PI/4. ;--integer quotient will be stored in N ;--Intermeditate remainder is 66-bit dc.l; (R,r) in (FP0,FP1) .LOOP fmove.x fp0,(INARG,a0) ; +-2**K * F, 1 <= F < 2 move.w (INARG,a0),d1 move.l d1,a1 ; save a copy of D0 and.l #$00007FFF,d1 sub.l #$00003FFF,d1 ; d0 = K cmp.l #28,d1 ble.b .LASTLOOP .CONTLOOP sub.l #27,d1 ; d0 = L := K-27 clr.b (ENDFLAG,a0) bra.b .WORK .LASTLOOP clr.l d1 ; d0 = L := 0 move.b #1,(ENDFLAG,a0) .WORK ;--FIND THE REMAINDER OF (R,r) W.R.T. 2**L * (PI/2). L IS SO CHOSEN ;--THAT INT( X * (2/PI) / 2**(L) ) < 2**29. ;--CREATE 2**(-L) * (2/PI), SIGN(INARG)*2**(63), ;--2**L * (PIby2_1), 2**L * (PIby2_2) move.l #$00003FFE,d2 ; BIASED EXP OF 2/PI sub.l d1,d2 ; BIASED EXP OF 2**(-L)*(2/PI) move.l #$A2F9836E,(FP_SCR0_HI,a0) move.l #$4E44152A,(FP_SCR0_LO,a0) move.w d2,(FP_SCR0_EX,a0) ; FP_SCR0 = 2**(-L)*(2/PI) fmove.x fp0,fp2 fmul.x (FP_SCR0,a0),fp2 ; fp2 = X * 2**(-L)*(2/PI) ;--WE MUST NOW FIND INT(FP2). SINCE WE NEED THIS VALUE IN ;--FLOATING POINT FORMAT, THE TWO FMOVE'S FMOVE.L FP <--> N ;--WILL BE TOO INEFFICIENT. THE WAY AROUND IT IS THAT ;--(SIGN(INARG)*2**63 + FP2) - SIGN(INARG)*2**63 WILL GIVE ;--US THE DESIRED VALUE IN FLOATING POINT. move.l a1,d2 swap d2 and.l #$80000000,d2 or.l #$5F000000,d2 ; d2 = SIGN(INARG)*2**63 IN SGL move.l d2,(TWOTO63,a0) fadd.s (TWOTO63,a0),fp2 ; THE FRACTIONAL PART OF FP1 IS ROUNDED fsub.s (TWOTO63,a0),fp2 ; fp2 = N ; fintrz.x fp2,fp2 ;--CREATING 2**(L)*Piby2_1 and 2**(L)*Piby2_2 move.l d1,d2 ; d2 = L add.l #$00003FFF,d2 ; BIASED EXP OF 2**L * (PI/2) move.w d2,(FP_SCR0_EX,a0) move.l #$C90FDAA2,(FP_SCR0_HI,a0) clr.l (FP_SCR0_LO,a0) ; FP_SCR0 = 2**(L) * Piby2_1 add.l #$00003FDD,d1 move.w d1,(FP_SCR1_EX,a0) move.l #$85A308D3,(FP_SCR1_HI,a0) clr.l (FP_SCR1_LO,a0) ; FP_SCR1 = 2**(L) * Piby2_2 move.b (ENDFLAG,a0),d1 ;--We are now ready to perform (R+r) - N*P1 - N*P2, P1 = 2**(L) * Piby2_1 and ;--P2 = 2**(L) * Piby2_2 fmove.x fp2,fp4 ; fp4 = N fmul.x (FP_SCR0,a0),fp4 ; fp4 = W = N*P1 fmove.x fp2,fp5 ; fp5 = N fmul.x (FP_SCR1,a0),fp5 ; fp5 = w = N*P2 fmove.x fp4,fp3 ; fp3 = W = N*P1 ;--we want P+p = W+w but |p| <= half ulp of P ;--Then, we need to compute A := R-P and a := r-p fadd.x fp5,fp3 ; fp3 = P fsub.x fp3,fp4 ; fp4 = W-P fsub.x fp3,fp0 ; fp0 = A := R - P fadd.x fp5,fp4 ; fp4 = p = (W-P)+w fmove.x fp0,fp3 ; fp3 = A fsub.x fp4,fp1 ; fp1 = a := r - p ;--Now we need to normalize (A,a) to "new (R,r)" where R+r = A+a but ;--|r| <= half ulp of R. fadd.x fp1,fp0 ; fp0 = R := A+a ;--No need to calculate r if this is the last loop tst.b d1 bgt.w .RESTORE ;--Need to calculate r fsub.x fp0,fp3 ; fp3 = A-R fadd.x fp3,fp1 ; fp1 = r := (A-R)+a bra.w .LOOP .RESTORE fmove.l fp2,(INT,a0) move.l (INT,a0),d1 unlk a0 move.l (sp)+,d2 ; restore d2 fmovem.x (sp)+,fp2-fp5 ; restore {fp2-fp5} ror.l #1,d1 bra.w .TANCONT _cot fmove.d (4,sp),fp0 @cot fadd.d (PID2,pc),fp0 bsr.w @tan fneg.x fp0 rts