xtensa/lib/mulsi3.S

*dbf4ed89SMax Filippov/* SPDX-License-Identifier: GPL-2.0-or-later WITH GCC-exception-2.0 */
*dbf4ed89SMax Filippov#include <linux/linkage.h>
*dbf4ed89SMax Filippov#include <asm/asmmacro.h>
*dbf4ed89SMax Filippov#include <asm/core.h>
*dbf4ed89SMax Filippov
*dbf4ed89SMax Filippov	.macro	do_addx2 dst, as, at, tmp
*dbf4ed89SMax Filippov#if XCHAL_HAVE_ADDX
*dbf4ed89SMax Filippov	addx2	\dst, \as, \at
*dbf4ed89SMax Filippov#else
*dbf4ed89SMax Filippov	slli	\tmp, \as, 1
*dbf4ed89SMax Filippov	add	\dst, \tmp, \at
*dbf4ed89SMax Filippov#endif
*dbf4ed89SMax Filippov	.endm
*dbf4ed89SMax Filippov
*dbf4ed89SMax Filippov	.macro	do_addx4 dst, as, at, tmp
*dbf4ed89SMax Filippov#if XCHAL_HAVE_ADDX
*dbf4ed89SMax Filippov	addx4	\dst, \as, \at
*dbf4ed89SMax Filippov#else
*dbf4ed89SMax Filippov	slli	\tmp, \as, 2
*dbf4ed89SMax Filippov	add	\dst, \tmp, \at
*dbf4ed89SMax Filippov#endif
*dbf4ed89SMax Filippov	.endm
*dbf4ed89SMax Filippov
*dbf4ed89SMax Filippov	.macro	do_addx8 dst, as, at, tmp
*dbf4ed89SMax Filippov#if XCHAL_HAVE_ADDX
*dbf4ed89SMax Filippov	addx8	\dst, \as, \at
*dbf4ed89SMax Filippov#else
*dbf4ed89SMax Filippov	slli	\tmp, \as, 3
*dbf4ed89SMax Filippov	add	\dst, \tmp, \at
*dbf4ed89SMax Filippov#endif
*dbf4ed89SMax Filippov	.endm
*dbf4ed89SMax Filippov
*dbf4ed89SMax FilippovENTRY(__mulsi3)
*dbf4ed89SMax Filippov
*dbf4ed89SMax Filippov	abi_entry_default
*dbf4ed89SMax Filippov
*dbf4ed89SMax Filippov#if XCHAL_HAVE_MUL32
*dbf4ed89SMax Filippov	mull	a2, a2, a3
*dbf4ed89SMax Filippov
*dbf4ed89SMax Filippov#elif XCHAL_HAVE_MUL16
*dbf4ed89SMax Filippov	or	a4, a2, a3
*dbf4ed89SMax Filippov	srai	a4, a4, 16
*dbf4ed89SMax Filippov	bnez	a4, .LMUL16
*dbf4ed89SMax Filippov	mul16u	a2, a2, a3
*dbf4ed89SMax Filippov	abi_ret_default
*dbf4ed89SMax Filippov.LMUL16:
*dbf4ed89SMax Filippov	srai	a4, a2, 16
*dbf4ed89SMax Filippov	srai	a5, a3, 16
*dbf4ed89SMax Filippov	mul16u	a7, a4, a3
*dbf4ed89SMax Filippov	mul16u	a6, a5, a2
*dbf4ed89SMax Filippov	mul16u	a4, a2, a3
*dbf4ed89SMax Filippov	add	a7, a7, a6
*dbf4ed89SMax Filippov	slli	a7, a7, 16
*dbf4ed89SMax Filippov	add	a2, a7, a4
*dbf4ed89SMax Filippov
*dbf4ed89SMax Filippov#elif XCHAL_HAVE_MAC16
*dbf4ed89SMax Filippov	mul.aa.hl a2, a3
*dbf4ed89SMax Filippov	mula.aa.lh a2, a3
*dbf4ed89SMax Filippov	rsr	a5, ACCLO
*dbf4ed89SMax Filippov	umul.aa.ll a2, a3
*dbf4ed89SMax Filippov	rsr	a4, ACCLO
*dbf4ed89SMax Filippov	slli	a5, a5, 16
*dbf4ed89SMax Filippov	add	a2, a4, a5
*dbf4ed89SMax Filippov
*dbf4ed89SMax Filippov#else /* !MUL32 && !MUL16 && !MAC16 */
*dbf4ed89SMax Filippov
*dbf4ed89SMax Filippov	/* Multiply one bit at a time, but unroll the loop 4x to better
*dbf4ed89SMax Filippov	   exploit the addx instructions and avoid overhead.
*dbf4ed89SMax Filippov	   Peel the first iteration to save a cycle on init.  */
*dbf4ed89SMax Filippov
*dbf4ed89SMax Filippov	/* Avoid negative numbers.  */
*dbf4ed89SMax Filippov	xor	a5, a2, a3	/* Top bit is 1 if one input is negative.  */
*dbf4ed89SMax Filippov	do_abs	a3, a3, a6
*dbf4ed89SMax Filippov	do_abs	a2, a2, a6
*dbf4ed89SMax Filippov
*dbf4ed89SMax Filippov	/* Swap so the second argument is smaller.  */
*dbf4ed89SMax Filippov	sub	a7, a2, a3
*dbf4ed89SMax Filippov	mov	a4, a3
*dbf4ed89SMax Filippov	movgez	a4, a2, a7	/* a4 = max (a2, a3) */
*dbf4ed89SMax Filippov	movltz	a3, a2, a7	/* a3 = min (a2, a3) */
*dbf4ed89SMax Filippov
*dbf4ed89SMax Filippov	movi	a2, 0
*dbf4ed89SMax Filippov	extui	a6, a3, 0, 1
*dbf4ed89SMax Filippov	movnez	a2, a4, a6
*dbf4ed89SMax Filippov
*dbf4ed89SMax Filippov	do_addx2 a7, a4, a2, a7
*dbf4ed89SMax Filippov	extui	a6, a3, 1, 1
*dbf4ed89SMax Filippov	movnez	a2, a7, a6
*dbf4ed89SMax Filippov
*dbf4ed89SMax Filippov	do_addx4 a7, a4, a2, a7
*dbf4ed89SMax Filippov	extui	a6, a3, 2, 1
*dbf4ed89SMax Filippov	movnez	a2, a7, a6
*dbf4ed89SMax Filippov
*dbf4ed89SMax Filippov	do_addx8 a7, a4, a2, a7
*dbf4ed89SMax Filippov	extui	a6, a3, 3, 1
*dbf4ed89SMax Filippov	movnez	a2, a7, a6
*dbf4ed89SMax Filippov
*dbf4ed89SMax Filippov	bgeui	a3, 16, .Lmult_main_loop
*dbf4ed89SMax Filippov	neg	a3, a2
*dbf4ed89SMax Filippov	movltz	a2, a3, a5
*dbf4ed89SMax Filippov	abi_ret_default
*dbf4ed89SMax Filippov
*dbf4ed89SMax Filippov	.align	4
*dbf4ed89SMax Filippov.Lmult_main_loop:
*dbf4ed89SMax Filippov	srli	a3, a3, 4
*dbf4ed89SMax Filippov	slli	a4, a4, 4
*dbf4ed89SMax Filippov
*dbf4ed89SMax Filippov	add	a7, a4, a2
*dbf4ed89SMax Filippov	extui	a6, a3, 0, 1
*dbf4ed89SMax Filippov	movnez	a2, a7, a6
*dbf4ed89SMax Filippov
*dbf4ed89SMax Filippov	do_addx2 a7, a4, a2, a7
*dbf4ed89SMax Filippov	extui	a6, a3, 1, 1
*dbf4ed89SMax Filippov	movnez	a2, a7, a6
*dbf4ed89SMax Filippov
*dbf4ed89SMax Filippov	do_addx4 a7, a4, a2, a7
*dbf4ed89SMax Filippov	extui	a6, a3, 2, 1
*dbf4ed89SMax Filippov	movnez	a2, a7, a6
*dbf4ed89SMax Filippov
*dbf4ed89SMax Filippov	do_addx8 a7, a4, a2, a7
*dbf4ed89SMax Filippov	extui	a6, a3, 3, 1
*dbf4ed89SMax Filippov	movnez	a2, a7, a6
*dbf4ed89SMax Filippov
*dbf4ed89SMax Filippov	bgeui	a3, 16, .Lmult_main_loop
*dbf4ed89SMax Filippov
*dbf4ed89SMax Filippov	neg	a3, a2
*dbf4ed89SMax Filippov	movltz	a2, a3, a5
*dbf4ed89SMax Filippov
*dbf4ed89SMax Filippov#endif /* !MUL32 && !MUL16 && !MAC16 */
*dbf4ed89SMax Filippov
*dbf4ed89SMax Filippov	abi_ret_default
*dbf4ed89SMax Filippov
*dbf4ed89SMax FilippovENDPROC(__mulsi3)