EuroCD 3

home *** CD-ROM | disk | FTP | other *** search

/ EuroCD 3 / EuroCD 3.iso / Programming / vbcc / machines / amiga68k / libsrc / math / math_040 / cos.s < prev next >

Wrap

Text File | 1998-06-24 | 22.3 KB | 530 lines

* * $VER: cos.s 33.1 (22.1.97) * * calculates the sine or cosine of the source operand * * Version history: * * 33.1 22.1.97 (c) Motorola * * - snipped from M68060SP * * 33.2 24.1.97 laukkanen * * - cos(0) was broken, found out this when trying * to link mp3decoder with the new library, fixed. * machine 68040 fpu 1 XDEF _sin XDEF @sin XDEF _cos XDEF @cos XDEF PITBL ************************************************************************* * sin(): computes the sine of a normalized input * * cos(): computes the cosine of a normalized input * * * * INPUT *************************************************************** * * fp0 = extended precision input * * * * OUTPUT ************************************************************** * * fp0 = sin(X) or cos(X) * * * * ACCURACY and MONOTONICITY ******************************************* * * The returned result is within 1 ulp in 64 significant bit, i.e. * * within 0.5001 ulp to 53 bits if the result is subsequently * * rounded to double precision. The result is provably monotonic * * in double precision. * * * * ALGORITHM *********************************************************** * * * * SIN and COS: * * 1. If SIN is invoked, set AdjN := 0; otherwise, set AdjN := 1. * * * * 2. If |X| >= 15Pi or |X| < 2**(-40), go to 7. * * * * 3. Decompose X as X = N(Pi/2) + r where |r| <= Pi/4. Let * * k = N mod 4, so in particular, k = 0,1,2,or 3. * * Overwrite k by k := k + AdjN. * * * * 4. If k is even, go to 6. * * * * 5. (k is odd) Set j := (k-1)/2, sgn := (-1)**j. * * Return sgn*cos(r) where cos(r) is approximated by an * * even polynomial in r, 1 + r*r*(B1+s*(B2+ ... + s*B8)), * * s = r*r. * * Exit. * * * * 6. (k is even) Set j := k/2, sgn := (-1)**j. Return sgn*sin(r) * * where sin(r) is approximated by an odd polynomial in r * * r + r*s*(A1+s*(A2+ ... + s*A7)), s = r*r. * * Exit. * * * * 7. If |X| > 1, go to 9. * * * * 8. (|X|<2**(-40)) If SIN is invoked, return X; * * otherwise return 1. * * * * 9. Overwrite X by X := X rem 2Pi. Now that |X| <= Pi, * * go back to 3. * * * ************************************************************************* SINA7 dc.l $BD6AAA77,$CCC994F5 SINA6 dc.l $3DE61209,$7AAE8DA1 SINA5 dc.l $BE5AE645,$2A118AE4 SINA4 dc.l $3EC71DE3,$A5341531 SINA3 dc.l $BF2A01A0,$1A018B59,$00000000,$00000000 SINA2 dc.l $3FF80000,$88888888,$888859AF,$00000000 SINA1 dc.l $BFFC0000,$AAAAAAAA,$AAAAAA99,$00000000 TWOBYPI dc.l $3FE45F30,$6DC9C883 COSB8 dc.l $3D2AC4D0,$D6011EE3 COSB7 dc.l $BDA9396F,$9F45AC19 COSB6 dc.l $3E21EED9,$0612C972 COSB5 dc.l $BE927E4F,$B79D9FCF COSB4 dc.l $3EFA01A0,$1A01D423,$00000000,$00000000 COSB3 dc.l $BFF50000,$B60B60B6,$0B61D438,$00000000 COSB2 dc.l $3FFA0000,$AAAAAAAA,$AAAAAB5E COSB1 dc.l $BF000000 PITBL dc.l $C0040000,$C90FDAA2,$2168C235,$21800000 dc.l $C0040000,$C2C75BCD,$105D7C23,$A0D00000 dc.l $C0040000,$BC7EDCF7,$FF523611,$A1E80000 dc.l $C0040000,$B6365E22,$EE46F000,$21480000 dc.l $C0040000,$AFEDDF4D,$DD3BA9EE,$A1200000 dc.l $C0040000,$A9A56078,$CC3063DD,$21FC0000 dc.l $C0040000,$A35CE1A3,$BB251DCB,$21100000 dc.l $C0040000,$9D1462CE,$AA19D7B9,$A1580000 dc.l $C0040000,$96CBE3F9,$990E91A8,$21E00000 dc.l $C0040000,$90836524,$88034B96,$20B00000 dc.l $C0040000,$8A3AE64F,$76F80584,$A1880000 dc.l $C0040000,$83F2677A,$65ECBF73,$21C40000 dc.l $C0030000,$FB53D14A,$A9C2F2C2,$20000000 dc.l $C0030000,$EEC2D3A0,$87AC669F,$21380000 dc.l $C0030000,$E231D5F6,$6595DA7B,$A1300000 dc.l $C0030000,$D5A0D84C,$437F4E58,$9FC00000 dc.l $C0030000,$C90FDAA2,$2168C235,$21000000 dc.l $C0030000,$BC7EDCF7,$FF523611,$A1680000 dc.l $C0030000,$AFEDDF4D,$DD3BA9EE,$A0A00000 dc.l $C0030000,$A35CE1A3,$BB251DCB,$20900000 dc.l $C0030000,$96CBE3F9,$990E91A8,$21600000 dc.l $C0030000,$8A3AE64F,$76F80584,$A1080000 dc.l $C0020000,$FB53D14A,$A9C2F2C2,$1F800000 dc.l $C0020000,$E231D5F6,$6595DA7B,$A0B00000 dc.l $C0020000,$C90FDAA2,$2168C235,$20800000 dc.l $C0020000,$AFEDDF4D,$DD3BA9EE,$A0200000 dc.l $C0020000,$96CBE3F9,$990E91A8,$20E00000 dc.l $C0010000,$FB53D14A,$A9C2F2C2,$1F000000 dc.l $C0010000,$C90FDAA2,$2168C235,$20000000 dc.l $C0010000,$96CBE3F9,$990E91A8,$20600000 dc.l $C0000000,$C90FDAA2,$2168C235,$1F800000 dc.l $BFFF0000,$C90FDAA2,$2168C235,$1F000000 dc.l $00000000,$00000000,$00000000,$00000000 dc.l $3FFF0000,$C90FDAA2,$2168C235,$9F000000 dc.l $40000000,$C90FDAA2,$2168C235,$9F800000 dc.l $40010000,$96CBE3F9,$990E91A8,$A0600000 dc.l $40010000,$C90FDAA2,$2168C235,$A0000000 dc.l $40010000,$FB53D14A,$A9C2F2C2,$9F000000 dc.l $40020000,$96CBE3F9,$990E91A8,$A0E00000 dc.l $40020000,$AFEDDF4D,$DD3BA9EE,$20200000 dc.l $40020000,$C90FDAA2,$2168C235,$A0800000 dc.l $40020000,$E231D5F6,$6595DA7B,$20B00000 dc.l $40020000,$FB53D14A,$A9C2F2C2,$9F800000 dc.l $40030000,$8A3AE64F,$76F80584,$21080000 dc.l $40030000,$96CBE3F9,$990E91A8,$A1600000 dc.l $40030000,$A35CE1A3,$BB251DCB,$A0900000 dc.l $40030000,$AFEDDF4D,$DD3BA9EE,$20A00000 dc.l $40030000,$BC7EDCF7,$FF523611,$21680000 dc.l $40030000,$C90FDAA2,$2168C235,$A1000000 dc.l $40030000,$D5A0D84C,$437F4E58,$1FC00000 dc.l $40030000,$E231D5F6,$6595DA7B,$21300000 dc.l $40030000,$EEC2D3A0,$87AC669F,$A1380000 dc.l $40030000,$FB53D14A,$A9C2F2C2,$A0000000 dc.l $40040000,$83F2677A,$65ECBF73,$A1C40000 dc.l $40040000,$8A3AE64F,$76F80584,$21880000 dc.l $40040000,$90836524,$88034B96,$A0B00000 dc.l $40040000,$96CBE3F9,$990E91A8,$A1E00000 dc.l $40040000,$9D1462CE,$AA19D7B9,$21580000 dc.l $40040000,$A35CE1A3,$BB251DCB,$A1100000 dc.l $40040000,$A9A56078,$CC3063DD,$A1FC0000 dc.l $40040000,$AFEDDF4D,$DD3BA9EE,$21200000 dc.l $40040000,$B6365E22,$EE46F000,$A1480000 dc.l $40040000,$BC7EDCF7,$FF523611,$21E80000 dc.l $40040000,$C2C75BCD,$105D7C23,$20D00000 dc.l $40040000,$C90FDAA2,$2168C235,$A1800000 X EQU -12 XFRAC EQU X+4 POSNEG1 EQU -16 ADJN EQU -20 INT EQU -16 TEMP_SIZE EQU 20 ******************************************** _sin fmove.d (4,sp),fp0 @sin link a0,#-TEMP_SIZE clr.l (ADJN,a0) ; yes; SET ADJN TO 0 bra.b SINBGN ******************************************** _cos fmove.d (4,sp),fp0 @cos link a0,#-TEMP_SIZE moveq #1,d0 move.l d0,(ADJN,a0) ; yes; SET ADJN TO 1 ******************************************** SINBGN *--SAVE FPCR, FP1. CHECK IF |X| IS TOO SMALL OR LARGE fmove.x fp0,(X,a0) ; save input at X * "COMPACTIFY" X move.l (X,a0),d1 ; put exp in hi word move.w (X+4,a0),d1 ; fetch hi(man) and.l #$7FFFFFFF,d1 ; strip sign cmpi.l #$3FD78000,d1 ; is |X| >= 2**(-40)? bge.b .SOK1 ; no bra.w .SINSM ; yes; input is very small .SOK1 cmp.l #$4004BC7E,d1 ; is |X| < 15 PI? blt.b .SINMAIN ; no bra.w .SREDUCEX ; yes; input is very large *--THIS IS THE USUAL CASE, |X| <= 15 PI. *--THE ARGUMENT REDUCTION IS DONE BY TABLE LOOK UP. .SINMAIN fmove.x fp0,fp1 fmul.d (TWOBYPI,pc),fp1 ; X*2/PI lea (PITBL+$200,pc),a1 ; TABLE OF N*PI/2, N = -32,...,32 fmove.l fp1,(INT,a0) ; CONVERT TO INTEGER move.l (INT,a0),d1 ; make a copy of N asl.l #4,d1 ; N *= 16 add.l d1,a1 ; tbl_addr = a1 + (N*16) * A1 IS THE ADDRESS OF N*PIBY2 * ...WHICH IS IN TWO PIECES Y1 # Y2 fsub.x (a1)+,fp0 ; X-Y1 fsub.s (a1),fp0 ; fp0 = R = (X-Y1)-Y2 asr.l #4,d1 .SINCONT *--continuation from REDUCEX *--GET N+ADJN AND SEE IF SIN(R) OR COS(R) IS NEEDED add.l (ADJN,a0),d1 ; SEE IF D0 IS ODD OR EVEN ror.l #1,d1 ; D0 WAS ODD IFF D0 IS NEGATIVE tst.l d1 blt.w .COSPOLY *--LET J BE THE LEAST SIG. BIT OF D0, LET SGN := (-1)**J. *--THEN WE RETURN SGN*SIN(R). SGN*SIN(R) IS COMPUTED BY *--R' + R'*S*(A1 + S(A2 + S(A3 + S(A4 + ... + SA7)))), WHERE *--R' = SGN*R, S=R*R. THIS CAN BE REWRITTEN AS *--R' + R'*S*( [A1+T(A3+T(A5+TA7))] + [S(A2+T(A4+TA6))]) *--WHERE T=S*S. *--NOTE THAT A3 THROUGH A7 ARE STORED IN DOUBLE PRECISION *--WHILE A1 AND A2 ARE IN DOUBLE-EXTENDED FORMAT. .SINPOLY fmovem.x fp2/fp3,-(sp) ; save fp2/fp3 fmove.x fp0,(X,a0) ; X IS R fmul.x fp0,fp0 ; FP0 IS S fmove.d (SINA7,pc),fp3 fmove.d (SINA6,pc),fp2 fmove.x fp0,fp1 fmul.x fp1,fp1 ; FP1 IS T ror.l #1,d1 and.l #$80000000,d1 * ...LEAST SIG. BIT OF D0 IN SIGN POSITION eor.l d1,(X,a0) ; X IS NOW R'= SGN*R fmul.x fp1,fp3 ; TA7 fmul.x fp1,fp2 ; TA6 fadd.d (SINA5,pc),fp3 ; A5+TA7 fadd.d (SINA4,pc),fp2 ; A4+TA6 fmul.x fp1,fp3 ; T(A5+TA7) fmul.x fp1,fp2 ; T(A4+TA6) fadd.d (SINA3,pc),fp3 ; A3+T(A5+TA7) fadd.x (SINA2,pc),fp2 ; A2+T(A4+TA6) fmul.x fp3,fp1 ; T(A3+T(A5+TA7)) fmul.x fp0,fp2 ; S(A2+T(A4+TA6)) fadd.x (SINA1,pc),fp1 ; A1+T(A3+T(A5+TA7)) fmul.x (X,a0),fp0 ; R'*S fadd.x fp2,fp1 ; [A1+T(A3+T(A5+TA7))]+[S(A2+T(A4+TA6))] fmul.x fp1,fp0 ; SIN(R')-R' fmovem.x (sp)+,fp2/fp3 ; restore fp2/fp3 fadd.x (X,a0),fp0 ; last inst - possible exception set unlk a0 rts *--LET J BE THE LEAST SIG. BIT OF D0, LET SGN := (-1)**J. *--THEN WE RETURN SGN*COS(R). SGN*COS(R) IS COMPUTED BY *--SGN + S'*(B1 + S(B2 + S(B3 + S(B4 + ... + SB8)))), WHERE *--S=R*R AND S'=SGN*S. THIS CAN BE REWRITTEN AS *--SGN + S'*([B1+T(B3+T(B5+TB7))] + [S(B2+T(B4+T(B6+TB8)))]) *--WHERE T=S*S. *--NOTE THAT B4 THROUGH B8 ARE STORED IN DOUBLE PRECISION *--WHILE B2 AND B3 ARE IN DOUBLE-EXTENDED FORMAT, B1 IS -1/2 *--AND IS THEREFORE STORED AS SINGLE PRECISION. .COSPOLY fmovem.x fp2/fp3,-(sp) ; save fp2/fp3 fmul.x fp0,fp0 ; FP0 IS S fmove.d (COSB8,pc),fp2 fmove.d (COSB7,pc),fp3 fmove.x fp0,fp1 fmul.x fp1,fp1 ; FP1 IS T fmove.x fp0,(X,a0) ; X IS S ror.l #1,d1 and.l #$80000000,d1 * ...LEAST SIG. BIT OF D0 IN SIGN POSITION fmul.x fp1,fp2 ; TB8 eor.l d1,(X,a0) ; X IS NOW S'= SGN*S and.l #$80000000,d1 fmul.x fp1,fp3 ; TB7 or.l #$3F800000,d1 ; D0 IS SGN IN SINGLE move.l d1,(POSNEG1,a0) fadd.d (COSB6,pc),fp2 ; B6+TB8 fadd.d (COSB5,pc),fp3 ; B5+TB7 fmul.x fp1,fp2 ; T(B6+TB8) fmul.x fp1,fp3 ; T(B5+TB7) fadd.d (COSB4,pc),fp2 ; B4+T(B6+TB8) fadd.x (COSB3,pc),fp3 ; B3+T(B5+TB7) fmul.x fp1,fp2 ; T(B4+T(B6+TB8)) fmul.x fp3,fp1 ; T(B3+T(B5+TB7)) fadd.x (COSB2,pc),fp2 ; B2+T(B4+T(B6+TB8)) fadd.s (COSB1,pc),fp1 ; B1+T(B3+T(B5+TB7)) fmul.x fp2,fp0 ; S(B2+T(B4+T(B6+TB8))) fadd.x fp1,fp0 fmul.x (X,a0),fp0 fmovem.x (sp)+,fp2/fp3 ; restore fp2/fp3 fadd.s (POSNEG1,a0),fp0 ; last inst - possible exception set unlk a0 rts ********************************************** * SINe: Big OR Small? *--IF |X| > 15PI, WE USE THE GENERAL ARGUMENT REDUCTION. *--IF |X| < 2**(-40), RETURN X OR 1. .SINSM move.l (ADJN,a0),d1 tst.l d1 bgt.b .COSTINY * here, the operation may underflow iff the precision is sgl or dbl. * extended denorms are handled through another entry point. .SINTINY fmove.x (X,a0),fp0 ; last inst - possible exception set unlk a0 rts .COSTINY fmove.s #$3F800000,fp0 ; fp0 = 1.0 unlk a0 rts FP_SCR0_LO EQU -4 FP_SCR0_HI EQU -8 FP_SCR0_EX EQU -12 FP_SCR0 EQU -12 FP_SCR1_LO EQU -16 FP_SCR1_HI EQU -20 FP_SCR1_EX EQU -24 FP_SCR1 EQU -24 INARG EQU -12 ENDFLAG EQU -28 TWOTO63 EQU -32 REDUCE_SIZE EQU 32 ;--WHEN REDUCEX IS USED, THE CODE WILL INEVITABLY BE SLOW. ;--THIS REDUCTION METHOD, HOWEVER, IS MUCH FASTER THAN USING ;--THE REMAINDER INSTRUCTION WHICH IS NOW IN SOFTWARE. .SREDUCEX fmovem.x fp2-fp5,-(sp) ; save {fp2-fp5} movem.l d2/a0,-(sp) ; save d2 fmove.s #$00000000,fp1 ; fp1 = 0 link a0,#-REDUCE_SIZE ;--If compact form of abs(arg) in d0=$7ffeffff, argument is so large that ;--there is a danger of unwanted overflow in first LOOP iteration. In this ;--case, reduce argument by one remainder step to make subsequent reduction ;--safe. cmp.l #$7ffeffff,d1 ; is arg dangerously large? bne.b .SLOOP ; no ; yes; create 2**16383*PI/2 move.w #$7ffe,(FP_SCR0_EX,a0) move.l #$c90fdaa2,(FP_SCR0_HI,a0) clr.l (FP_SCR0_LO,a0) ; create low half of 2**16383*PI/2 at FP_SCR1 move.w #$7fdc,(FP_SCR1_EX,a0) move.l #$85a308d3,(FP_SCR1_HI,a0) clr.l (FP_SCR1_LO,a0) fcmp.s #0,fp0 ; test sign of argument fblt.w .sred_neg or.b #$80,(FP_SCR0_EX,a0) ; positive arg or.b #$80,(FP_SCR1_EX,a0) .sred_neg fadd.x (FP_SCR0,a0),fp0 ; high part of reduction is ex .act fmove.x fp0,fp1 ; save high result in fp1 fadd.x (FP_SCR1,a0),fp0 ; low part of reduction fsub.x fp0,fp1 ; determine low component of r .esult fadd.x (FP_SCR1,a0),fp1 ; fp0/fp1 are reduced argument . ;--ON ENTRY, FP0 IS X, ON RETURN, FP0 IS X REM PI/2, |X| <= PI/4. ;--integer quotient will be stored in N ;--Intermeditate remainder is 66-bit long; (R,r) in (FP0,FP1) .SLOOP fmove.x fp0,(INARG,a0) ; +-2**K * F, 1 <= F < 2 move.w (INARG,a0),d1 move.l d1,a1 ; save a copy of D0 and.l #$00007FFF,d1 sub.l #$00003FFF,d1 ; d0 = K cmp.l #28,d1 ble.b .SLASTLOOP .SCONTLOOP sub.l #27,d1 ; d0 = L := K-27 clr.b (ENDFLAG,a0) bra.b .SWORK .SLASTLOOP clr.l d1 ; d0 = L := 0 move.b #1,(ENDFLAG,a0) .SWORK ;--FIND THE REMAINDER OF (R,r) W.R.T. 2**L * (PI/2). L IS SO CHOSEN ;--THAT INT( X * (2/PI) / 2**(L) ) < 2**29. ;--CREATE 2**(-L) * (2/PI), SIGN(INARG)*2**(63), ;--2**L * (PIby2_1), 2**L * (PIby2_2) move.l #$00003FFE,d2 ; BIASED EXP OF 2/PI sub.l d1,d2 ; BIASED EXP OF 2**(-L)*(2/PI) move.l #$A2F9836E,(FP_SCR0_HI,a0) move.l #$4E44152A,(FP_SCR0_LO,a0) move.w d2,(FP_SCR0_EX,a0) ; FP_SCR0 = 2**(-L)*(2/PI) fmove.x fp0,fp2 fmul.x (FP_SCR0,a0),fp2 ; fp2 = X * 2**(-L)*(2/PI) ;--WE MUST NOW FIND INT(FP2). SINCE WE NEED THIS VALUE IN ;--FLOATING POINT FORMAT, THE TWO FMOVE'S FMOVE.L FP <--> N ;--WILL BE TOO INEFFICIENT. THE WAY AROUND IT IS THAT ;--(SIGN(INARG)*2**63 + FP2) - SIGN(INARG)*2**63 WILL GIVE ;--US THE DESIRED VALUE IN FLOATING POINT. move.l a1,d2 swap d2 and.l #$80000000,d2 or.l #$5F000000,d2 ; d2 = SIGN(INARG)*2**63 IN SGL move.l d2,(TWOTO63,a0) fadd.s (TWOTO63,a0),fp2 ; THE FRACTIONAL PART OF FP1 IS ROUNDED fsub.s (TWOTO63,a0),fp2 ; fp2 = N ;--CREATING 2**(L)*Piby2_1 and 2**(L)*Piby2_2 move.l d1,d2 ; d2 = L add.l #$00003FFF,d2 ; BIASED EXP OF 2**L * (PI/2) move.w d2,(FP_SCR0_EX,a0) move.l #$C90FDAA2,(FP_SCR0_HI,a0) clr.l (FP_SCR0_LO,a0) ; FP_SCR0 = 2**(L) * Piby2_1 add.l #$00003FDD,d1 move.w d1,(FP_SCR1_EX,a0) move.l #$85A308D3,(FP_SCR1_HI,a0) clr.l (FP_SCR1_LO,a0) ; FP_SCR1 = 2**(L) * Piby2_2 move.b (ENDFLAG,a0),d1 ;--We are now ready to perform (R+r) - N*P1 - N*P2, P1 = 2**(L) * Piby2_1 and ;--P2 = 2**(L) * Piby2_2 fmove.x fp2,fp4 ; fp4 = N fmul.x (FP_SCR0,a0),fp4 ; fp4 = W = N*P1 fmove.x fp2,fp5 ; fp5 = N fmul.x (FP_SCR1,a0),fp5 ; fp5 = w = N*P2 fmove.x fp4,fp3 ; fp3 = W = N*P1 ;--we want P+p = W+w but |p| <= half ulp of P ;--Then, we need to compute A := R-P and a := r-p fadd.x fp5,fp3 ; fp3 = P fsub.x fp3,fp4 ; fp4 = W-P fsub.x fp3,fp0 ; fp0 = A := R - P fadd.x fp5,fp4 ; fp4 = p = (W-P)+w fmove.x fp0,fp3 ; fp3 = A fsub.x fp4,fp1 ; fp1 = a := r - p ;--Now we need to normalize (A,a) to "new (R,r)" where R+r = A+a but ;--|r| <= half ulp of R. fadd.x fp1,fp0 ; fp0 = R := A+a ;--No need to calculate r if this is the last loop tst.b d1 bgt.w .SRESTORE ;--Need to calculate r fsub.x fp0,fp3 ; fp3 = A-R fadd.x fp3,fp1 ; fp1 = r := (A-R)+a bra.w .SLOOP .SRESTORE fmove.l fp2,d1 unlk a0 movem.l (sp)+,d2/a0 ; restore d2 fmovem.x (sp)+,fp2-fp5 ; restore {fp2-fp5} bra.w .SINCONT