ia64/lib/memcpy.S

b2441318SGreg Kroah-Hartman/* SPDX-License-Identifier: GPL-2.0 */
1da177e4SLinus Torvalds/*
1da177e4SLinus Torvalds *
1da177e4SLinus Torvalds * Optimized version of the standard memcpy() function
1da177e4SLinus Torvalds *
1da177e4SLinus Torvalds * Inputs:
1da177e4SLinus Torvalds * 	in0:	destination address
1da177e4SLinus Torvalds *	in1:	source address
1da177e4SLinus Torvalds *	in2:	number of bytes to copy
1da177e4SLinus Torvalds * Output:
1da177e4SLinus Torvalds * 	no return value
1da177e4SLinus Torvalds *
1da177e4SLinus Torvalds * Copyright (C) 2000-2001 Hewlett-Packard Co
1da177e4SLinus Torvalds *	Stephane Eranian <eranian@hpl.hp.com>
1da177e4SLinus Torvalds *	David Mosberger-Tang <davidm@hpl.hp.com>
1da177e4SLinus Torvalds */
*ab03e604SMasahiro Yamada#include <linux/export.h>
1da177e4SLinus Torvalds#include <asm/asmmacro.h>
1da177e4SLinus Torvalds
1da177e4SLinus TorvaldsGLOBAL_ENTRY(memcpy)
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds#	define MEM_LAT	21		/* latency to memory */
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds#	define dst	r2
1da177e4SLinus Torvalds#	define src	r3
1da177e4SLinus Torvalds#	define retval	r8
1da177e4SLinus Torvalds#	define saved_pfs r9
1da177e4SLinus Torvalds#	define saved_lc	r10
1da177e4SLinus Torvalds#	define saved_pr	r11
1da177e4SLinus Torvalds#	define cnt	r16
1da177e4SLinus Torvalds#	define src2	r17
1da177e4SLinus Torvalds#	define t0	r18
1da177e4SLinus Torvalds#	define t1	r19
1da177e4SLinus Torvalds#	define t2	r20
1da177e4SLinus Torvalds#	define t3	r21
1da177e4SLinus Torvalds#	define t4	r22
1da177e4SLinus Torvalds#	define src_end	r23
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds#	define N	(MEM_LAT + 4)
1da177e4SLinus Torvalds#	define Nrot	((N + 7) & ~7)
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	/*
1da177e4SLinus Torvalds	 * First, check if everything (src, dst, len) is a multiple of eight.  If
1da177e4SLinus Torvalds	 * so, we handle everything with no taken branches (other than the loop
1da177e4SLinus Torvalds	 * itself) and a small icache footprint.  Otherwise, we jump off to
1da177e4SLinus Torvalds	 * the more general copy routine handling arbitrary
1da177e4SLinus Torvalds	 * sizes/alignment etc.
1da177e4SLinus Torvalds	 */
1da177e4SLinus Torvalds	.prologue
1da177e4SLinus Torvalds	.save ar.pfs, saved_pfs
1da177e4SLinus Torvalds	alloc saved_pfs=ar.pfs,3,Nrot,0,Nrot
1da177e4SLinus Torvalds	.save ar.lc, saved_lc
1da177e4SLinus Torvalds	mov saved_lc=ar.lc
1da177e4SLinus Torvalds	or t0=in0,in1
1da177e4SLinus Torvalds	;;
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	or t0=t0,in2
1da177e4SLinus Torvalds	.save pr, saved_pr
1da177e4SLinus Torvalds	mov saved_pr=pr
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	.body
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	cmp.eq p6,p0=in2,r0	// zero length?
1da177e4SLinus Torvalds	mov retval=in0		// return dst
1da177e4SLinus Torvalds(p6)	br.ret.spnt.many rp	// zero length, return immediately
1da177e4SLinus Torvalds	;;
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	mov dst=in0		// copy because of rotation
1da177e4SLinus Torvalds	shr.u cnt=in2,3		// number of 8-byte words to copy
1da177e4SLinus Torvalds	mov pr.rot=1<<16
1da177e4SLinus Torvalds	;;
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	adds cnt=-1,cnt		// br.ctop is repeat/until
1da177e4SLinus Torvalds	cmp.gtu p7,p0=16,in2	// copying less than 16 bytes?
1da177e4SLinus Torvalds	mov ar.ec=N
1da177e4SLinus Torvalds	;;
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	and t0=0x7,t0
1da177e4SLinus Torvalds	mov ar.lc=cnt
1da177e4SLinus Torvalds	;;
1da177e4SLinus Torvalds	cmp.ne p6,p0=t0,r0
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	mov src=in1		// copy because of rotation
1da177e4SLinus Torvalds(p7)	br.cond.spnt.few .memcpy_short
1da177e4SLinus Torvalds(p6)	br.cond.spnt.few .memcpy_long
1da177e4SLinus Torvalds	;;
1da177e4SLinus Torvalds	nop.m	0
1da177e4SLinus Torvalds	;;
1da177e4SLinus Torvalds	nop.m	0
1da177e4SLinus Torvalds	nop.i	0
1da177e4SLinus Torvalds	;;
1da177e4SLinus Torvalds	nop.m	0
1da177e4SLinus Torvalds	;;
1da177e4SLinus Torvalds	.rotr val[N]
1da177e4SLinus Torvalds	.rotp p[N]
1da177e4SLinus Torvalds	.align 32
1da177e4SLinus Torvalds1: { .mib
1da177e4SLinus Torvalds(p[0])	ld8 val[0]=[src],8
1da177e4SLinus Torvalds	nop.i 0
1da177e4SLinus Torvalds	brp.loop.imp 1b, 2f
1da177e4SLinus Torvalds}
1da177e4SLinus Torvalds2: { .mfb
1da177e4SLinus Torvalds(p[N-1])st8 [dst]=val[N-1],8
1da177e4SLinus Torvalds	nop.f 0
1da177e4SLinus Torvalds	br.ctop.dptk.few 1b
1da177e4SLinus Torvalds}
1da177e4SLinus Torvalds	;;
1da177e4SLinus Torvalds	mov ar.lc=saved_lc
1da177e4SLinus Torvalds	mov pr=saved_pr,-1
1da177e4SLinus Torvalds	mov ar.pfs=saved_pfs
1da177e4SLinus Torvalds	br.ret.sptk.many rp
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	/*
1da177e4SLinus Torvalds	 * Small (<16 bytes) unaligned copying is done via a simple byte-at-the-time
1da177e4SLinus Torvalds	 * copy loop.  This performs relatively poorly on Itanium, but it doesn't
1da177e4SLinus Torvalds	 * get used very often (gcc inlines small copies) and due to atomicity
1da177e4SLinus Torvalds	 * issues, we want to avoid read-modify-write of entire words.
1da177e4SLinus Torvalds	 */
1da177e4SLinus Torvalds	.align 32
1da177e4SLinus Torvalds.memcpy_short:
1da177e4SLinus Torvalds	adds cnt=-1,in2		// br.ctop is repeat/until
1da177e4SLinus Torvalds	mov ar.ec=MEM_LAT
1da177e4SLinus Torvalds	brp.loop.imp 1f, 2f
1da177e4SLinus Torvalds	;;
1da177e4SLinus Torvalds	mov ar.lc=cnt
1da177e4SLinus Torvalds	;;
1da177e4SLinus Torvalds	nop.m	0
1da177e4SLinus Torvalds	;;
1da177e4SLinus Torvalds	nop.m	0
1da177e4SLinus Torvalds	nop.i	0
1da177e4SLinus Torvalds	;;
1da177e4SLinus Torvalds	nop.m	0
1da177e4SLinus Torvalds	;;
1da177e4SLinus Torvalds	nop.m	0
1da177e4SLinus Torvalds	;;
1da177e4SLinus Torvalds	/*
1da177e4SLinus Torvalds	 * It is faster to put a stop bit in the loop here because it makes
1da177e4SLinus Torvalds	 * the pipeline shorter (and latency is what matters on short copies).
1da177e4SLinus Torvalds	 */
1da177e4SLinus Torvalds	.align 32
1da177e4SLinus Torvalds1: { .mib
1da177e4SLinus Torvalds(p[0])	ld1 val[0]=[src],1
1da177e4SLinus Torvalds	nop.i 0
1da177e4SLinus Torvalds	brp.loop.imp 1b, 2f
1da177e4SLinus Torvalds} ;;
1da177e4SLinus Torvalds2: { .mfb
1da177e4SLinus Torvalds(p[MEM_LAT-1])st1 [dst]=val[MEM_LAT-1],1
1da177e4SLinus Torvalds	nop.f 0
1da177e4SLinus Torvalds	br.ctop.dptk.few 1b
1da177e4SLinus Torvalds} ;;
1da177e4SLinus Torvalds	mov ar.lc=saved_lc
1da177e4SLinus Torvalds	mov pr=saved_pr,-1
1da177e4SLinus Torvalds	mov ar.pfs=saved_pfs
1da177e4SLinus Torvalds	br.ret.sptk.many rp
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	/*
1da177e4SLinus Torvalds	 * Large (>= 16 bytes) copying is done in a fancy way.  Latency isn't
1da177e4SLinus Torvalds	 * an overriding concern here, but throughput is.  We first do
1da177e4SLinus Torvalds	 * sub-word copying until the destination is aligned, then we check
1da177e4SLinus Torvalds	 * if the source is also aligned.  If so, we do a simple load/store-loop
1da177e4SLinus Torvalds	 * until there are less than 8 bytes left over and then we do the tail,
1da177e4SLinus Torvalds	 * by storing the last few bytes using sub-word copying.  If the source
1da177e4SLinus Torvalds	 * is not aligned, we branch off to the non-congruent loop.
1da177e4SLinus Torvalds	 *
1da177e4SLinus Torvalds	 *   stage:   op:
1da177e4SLinus Torvalds	 *         0  ld
1da177e4SLinus Torvalds	 *	   :
1da177e4SLinus Torvalds	 * MEM_LAT+3  shrp
1da177e4SLinus Torvalds	 * MEM_LAT+4  st
1da177e4SLinus Torvalds	 *
1da177e4SLinus Torvalds	 * On Itanium, the pipeline itself runs without stalls.  However,  br.ctop
1da177e4SLinus Torvalds	 * seems to introduce an unavoidable bubble in the pipeline so the overall
1da177e4SLinus Torvalds	 * latency is 2 cycles/iteration.  This gives us a _copy_ throughput
1da177e4SLinus Torvalds	 * of 4 byte/cycle.  Still not bad.
1da177e4SLinus Torvalds	 */
1da177e4SLinus Torvalds#	undef N
1da177e4SLinus Torvalds#	undef Nrot
1da177e4SLinus Torvalds#	define N	(MEM_LAT + 5)		/* number of stages */
1da177e4SLinus Torvalds#	define Nrot	((N+1 + 2 + 7) & ~7)	/* number of rotating regs */
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds#define LOG_LOOP_SIZE	6
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds.memcpy_long:
1da177e4SLinus Torvalds	alloc t3=ar.pfs,3,Nrot,0,Nrot	// resize register frame
1da177e4SLinus Torvalds	and t0=-8,src		// t0 = src & ~7
1da177e4SLinus Torvalds	and t2=7,src		// t2 = src & 7
1da177e4SLinus Torvalds	;;
1da177e4SLinus Torvalds	ld8 t0=[t0]		// t0 = 1st source word
1da177e4SLinus Torvalds	adds src2=7,src		// src2 = (src + 7)
1da177e4SLinus Torvalds	sub t4=r0,dst		// t4 = -dst
1da177e4SLinus Torvalds	;;
1da177e4SLinus Torvalds	and src2=-8,src2	// src2 = (src + 7) & ~7
1da177e4SLinus Torvalds	shl t2=t2,3		// t2 = 8*(src & 7)
1da177e4SLinus Torvalds	shl t4=t4,3		// t4 = 8*(dst & 7)
1da177e4SLinus Torvalds	;;
1da177e4SLinus Torvalds	ld8 t1=[src2]		// t1 = 1st source word if src is 8-byte aligned, 2nd otherwise
1da177e4SLinus Torvalds	sub t3=64,t2		// t3 = 64-8*(src & 7)
1da177e4SLinus Torvalds	shr.u t0=t0,t2
1da177e4SLinus Torvalds	;;
1da177e4SLinus Torvalds	add src_end=src,in2
1da177e4SLinus Torvalds	shl t1=t1,t3
1da177e4SLinus Torvalds	mov pr=t4,0x38		// (p5,p4,p3)=(dst & 7)
1da177e4SLinus Torvalds	;;
1da177e4SLinus Torvalds	or t0=t0,t1
1da177e4SLinus Torvalds	mov cnt=r0
1da177e4SLinus Torvalds	adds src_end=-1,src_end
1da177e4SLinus Torvalds	;;
1da177e4SLinus Torvalds(p3)	st1 [dst]=t0,1
1da177e4SLinus Torvalds(p3)	shr.u t0=t0,8
1da177e4SLinus Torvalds(p3)	adds cnt=1,cnt
1da177e4SLinus Torvalds	;;
1da177e4SLinus Torvalds(p4)	st2 [dst]=t0,2
1da177e4SLinus Torvalds(p4)	shr.u t0=t0,16
1da177e4SLinus Torvalds(p4)	adds cnt=2,cnt
1da177e4SLinus Torvalds	;;
1da177e4SLinus Torvalds(p5)	st4 [dst]=t0,4
1da177e4SLinus Torvalds(p5)	adds cnt=4,cnt
1da177e4SLinus Torvalds	and src_end=-8,src_end	// src_end = last word of source buffer
1da177e4SLinus Torvalds	;;
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	// At this point, dst is aligned to 8 bytes and there at least 16-7=9 bytes left to copy:
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds1:{	add src=cnt,src			// make src point to remainder of source buffer
1da177e4SLinus Torvalds	sub cnt=in2,cnt			// cnt = number of bytes left to copy
1da177e4SLinus Torvalds	mov t4=ip
1da177e4SLinus Torvalds  }	;;
1da177e4SLinus Torvalds	and src2=-8,src			// align source pointer
1da177e4SLinus Torvalds	adds t4=.memcpy_loops-1b,t4
1da177e4SLinus Torvalds	mov ar.ec=N
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	and t0=7,src			// t0 = src & 7
1da177e4SLinus Torvalds	shr.u t2=cnt,3			// t2 = number of 8-byte words left to copy
1da177e4SLinus Torvalds	shl cnt=cnt,3			// move bits 0-2 to 3-5
1da177e4SLinus Torvalds	;;
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	.rotr val[N+1], w[2]
1da177e4SLinus Torvalds	.rotp p[N]
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds	cmp.ne p6,p0=t0,r0		// is src aligned, too?
1da177e4SLinus Torvalds	shl t0=t0,LOG_LOOP_SIZE		// t0 = 8*(src & 7)
1da177e4SLinus Torvalds	adds t2=-1,t2			// br.ctop is repeat/until
1da177e4SLinus Torvalds	;;
1da177e4SLinus Torvalds	add t4=t0,t4
1da177e4SLinus Torvalds	mov pr=cnt,0x38			// set (p5,p4,p3) to # of bytes last-word bytes to copy
1da177e4SLinus Torvalds	mov ar.lc=t2
1da177e4SLinus Torvalds	;;
1da177e4SLinus Torvalds	nop.m	0
1da177e4SLinus Torvalds	;;
1da177e4SLinus Torvalds	nop.m	0
1da177e4SLinus Torvalds	nop.i	0
1da177e4SLinus Torvalds	;;
1da177e4SLinus Torvalds	nop.m	0
1da177e4SLinus Torvalds	;;
1da177e4SLinus Torvalds(p6)	ld8 val[1]=[src2],8		// prime the pump...
1da177e4SLinus Torvalds	mov b6=t4
1da177e4SLinus Torvalds	br.sptk.few b6
1da177e4SLinus Torvalds	;;
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds.memcpy_tail:
1da177e4SLinus Torvalds	// At this point, (p5,p4,p3) are set to the number of bytes left to copy (which is
1da177e4SLinus Torvalds	// less than 8) and t0 contains the last few bytes of the src buffer:
1da177e4SLinus Torvalds(p5)	st4 [dst]=t0,4
1da177e4SLinus Torvalds(p5)	shr.u t0=t0,32
1da177e4SLinus Torvalds	mov ar.lc=saved_lc
1da177e4SLinus Torvalds	;;
1da177e4SLinus Torvalds(p4)	st2 [dst]=t0,2
1da177e4SLinus Torvalds(p4)	shr.u t0=t0,16
1da177e4SLinus Torvalds	mov ar.pfs=saved_pfs
1da177e4SLinus Torvalds	;;
1da177e4SLinus Torvalds(p3)	st1 [dst]=t0
1da177e4SLinus Torvalds	mov pr=saved_pr,-1
1da177e4SLinus Torvalds	br.ret.sptk.many rp
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds///////////////////////////////////////////////////////
1da177e4SLinus Torvalds	.align 64
1da177e4SLinus Torvalds
1da177e4SLinus Torvalds#define COPY(shift,index)									\
1da177e4SLinus Torvalds 1: { .mib											\
1da177e4SLinus Torvalds	(p[0])		ld8 val[0]=[src2],8;							\
1da177e4SLinus Torvalds	(p[MEM_LAT+3])	shrp w[0]=val[MEM_LAT+3],val[MEM_LAT+4-index],shift;			\
1da177e4SLinus Torvalds			brp.loop.imp 1b, 2f							\
1da177e4SLinus Torvalds    };												\
1da177e4SLinus Torvalds 2: { .mfb											\
1da177e4SLinus Torvalds	(p[MEM_LAT+4])	st8 [dst]=w[1],8;							\
1da177e4SLinus Torvalds			nop.f 0;								\
1da177e4SLinus Torvalds			br.ctop.dptk.few 1b;							\
1da177e4SLinus Torvalds    };												\
1da177e4SLinus Torvalds			;;									\
1da177e4SLinus Torvalds			ld8 val[N-1]=[src_end];	/* load last word (may be same as val[N]) */	\
1da177e4SLinus Torvalds			;;									\
1da177e4SLinus Torvalds			shrp t0=val[N-1],val[N-index],shift;					\
1da177e4SLinus Torvalds			br .memcpy_tail
1da177e4SLinus Torvalds.memcpy_loops:
1da177e4SLinus Torvalds	COPY(0, 1) /* no point special casing this---it doesn't go any faster without shrp */
1da177e4SLinus Torvalds	COPY(8, 0)
1da177e4SLinus Torvalds	COPY(16, 0)
1da177e4SLinus Torvalds	COPY(24, 0)
1da177e4SLinus Torvalds	COPY(32, 0)
1da177e4SLinus Torvalds	COPY(40, 0)
1da177e4SLinus Torvalds	COPY(48, 0)
1da177e4SLinus Torvalds	COPY(56, 0)
1da177e4SLinus Torvalds
1da177e4SLinus TorvaldsEND(memcpy)
e007c533SAl ViroEXPORT_SYMBOL(memcpy)