sun4u-opl/common/memcpy.s

*1e49577aSRod Evans/*
*1e49577aSRod Evans * CDDL HEADER START
*1e49577aSRod Evans *
*1e49577aSRod Evans * The contents of this file are subject to the terms of the
*1e49577aSRod Evans * Common Development and Distribution License (the "License").
*1e49577aSRod Evans * You may not use this file except in compliance with the License.
*1e49577aSRod Evans *
*1e49577aSRod Evans * You can obtain a copy of the license at usr/src/OPENSOLARIS.LICENSE
*1e49577aSRod Evans * or http://www.opensolaris.org/os/licensing.
*1e49577aSRod Evans * See the License for the specific language governing permissions
*1e49577aSRod Evans * and limitations under the License.
*1e49577aSRod Evans *
*1e49577aSRod Evans * When distributing Covered Code, include this CDDL HEADER in each
*1e49577aSRod Evans * file and include the License file at usr/src/OPENSOLARIS.LICENSE.
*1e49577aSRod Evans * If applicable, add the following below this CDDL HEADER, with the
*1e49577aSRod Evans * fields enclosed by brackets "[]" replaced with your own identifying
*1e49577aSRod Evans * information: Portions Copyright [yyyy] [name of copyright owner]
*1e49577aSRod Evans *
*1e49577aSRod Evans * CDDL HEADER END
*1e49577aSRod Evans */
*1e49577aSRod Evans
*1e49577aSRod Evans/*
*1e49577aSRod Evans * Copyright (c) 2006, 2010, Oracle and/or its affiliates. All rights reserved.
*1e49577aSRod Evans */
*1e49577aSRod Evans
*1e49577aSRod Evans	.file	"memcpy.s"
*1e49577aSRod Evans
*1e49577aSRod Evans/*
*1e49577aSRod Evans * memcpy(s1, s2, len)
*1e49577aSRod Evans *
*1e49577aSRod Evans * Copy s2 to s1, always copy n bytes.
*1e49577aSRod Evans * Note: this C code does not work for overlapped copies.
*1e49577aSRod Evans *       Memmove() and bcopy() do.
*1e49577aSRod Evans *
*1e49577aSRod Evans * Fast assembler language version of the following C-program for memcpy
*1e49577aSRod Evans * which represents the `standard' for the C-library.
*1e49577aSRod Evans *
*1e49577aSRod Evans *	void *
*1e49577aSRod Evans *	memcpy(void *s, const void *s0, size_t n)
*1e49577aSRod Evans *	{
*1e49577aSRod Evans *		if (n != 0) {
*1e49577aSRod Evans *	   	    char *s1 = s;
*1e49577aSRod Evans *		    const char *s2 = s0;
*1e49577aSRod Evans *		    do {
*1e49577aSRod Evans *			*s1++ = *s2++;
*1e49577aSRod Evans *		    } while (--n != 0);
*1e49577aSRod Evans *		}
*1e49577aSRod Evans *		return (s);
*1e49577aSRod Evans *	}
*1e49577aSRod Evans */
*1e49577aSRod Evans
*1e49577aSRod Evans#include <sys/asm_linkage.h>
*1e49577aSRod Evans#include <sys/sun4asi.h>
*1e49577aSRod Evans#include <sys/trap.h>
*1e49577aSRod Evans
*1e49577aSRod Evans#define	ICACHE_LINE_SIZE	64
*1e49577aSRod Evans#define	BLOCK_SIZE		64
*1e49577aSRod Evans#define	FPRS_FEF		0x4
*1e49577aSRod Evans
*1e49577aSRod Evans#define	ALIGNED8_FPCOPY_THRESHOLD	1024
*1e49577aSRod Evans#define	ALIGNED4_FPCOPY_THRESHOLD	1024
*1e49577aSRod Evans#define	BST_THRESHOLD			65536
*1e49577aSRod Evans
*1e49577aSRod Evans#define	SHORTCOPY	3
*1e49577aSRod Evans#define	SMALL_MAX	64
*1e49577aSRod Evans#define	MEDIUM_MAX	255
*1e49577aSRod Evans#define	MED_WMAX	256	/* max copy for medium word-aligned case */
*1e49577aSRod Evans
*1e49577aSRod Evans#define	N_READS_STRONG	20
*1e49577aSRod Evans#define	N_WRITES_STRONG	22
*1e49577aSRod Evans
*1e49577aSRod Evans
*1e49577aSRod Evans	ANSI_PRAGMA_WEAK(memmove,function)
*1e49577aSRod Evans	ANSI_PRAGMA_WEAK(memcpy,function)
*1e49577aSRod Evans
*1e49577aSRod Evans	ENTRY(memmove)
*1e49577aSRod Evans	prefetch [%o1], N_READS_STRONG
*1e49577aSRod Evans	prefetch [%o0], N_WRITES_STRONG
*1e49577aSRod Evans	cmp	%o1, %o0	! if from address is >= to use forward copy
*1e49577aSRod Evans	bgeu	%ncc, .forcpy	! else use backward if ...
*1e49577aSRod Evans	sub	%o0, %o1, %o4	! get difference of two addresses
*1e49577aSRod Evans	cmp	%o2, %o4	! compare size and difference of addresses
*1e49577aSRod Evans	bleu	%ncc, .forcpy	! if size is bigger, do overlapped copy
*1e49577aSRod Evans	nop
*1e49577aSRod Evans
*1e49577aSRod Evans	!
*1e49577aSRod Evans	! an overlapped copy that must be done "backwards"
*1e49577aSRod Evans	!
*1e49577aSRod Evans.ovbc:
*1e49577aSRod Evans	mov	%o0, %g1		! save dest address for return val
*1e49577aSRod Evans	add     %o1, %o2, %o1           ! get to end of source space
*1e49577aSRod Evans	add     %o0, %o2, %o0           ! get to end of destination space
*1e49577aSRod Evans
*1e49577aSRod Evans	cmp	%o2, 64
*1e49577aSRod Evans	bgeu,pn	%ncc, .dbalign
*1e49577aSRod Evans	nop
*1e49577aSRod Evans	cmp	%o2, 4
*1e49577aSRod Evans	blt,pn	%ncc, .byte
*1e49577aSRod Evans	sub	%o2, 3, %o2
*1e49577aSRod Evans.byte4loop:
*1e49577aSRod Evans	ldub	[%o1-1], %o3		! load last byte
*1e49577aSRod Evans	stb	%o3, [%o0-1]		! store last byte
*1e49577aSRod Evans	sub	%o1, 4, %o1
*1e49577aSRod Evans	ldub	[%o1+2], %o3		! load 2nd from last byte
*1e49577aSRod Evans	stb	%o3, [%o0-2]		! store 2nd from last byte
*1e49577aSRod Evans	sub	%o0, 4, %o0
*1e49577aSRod Evans	ldub	[%o1+1], %o3		! load 3rd from last byte
*1e49577aSRod Evans	stb	%o3, [%o0+1]		! store 3rd from last byte
*1e49577aSRod Evans	subcc	%o2, 4, %o2
*1e49577aSRod Evans	ldub	[%o1], %o3		! load 4th from last byte
*1e49577aSRod Evans	bgu,pt	%ncc, .byte4loop
*1e49577aSRod Evans	stb	%o3, [%o0]		! store 4th from last byte
*1e49577aSRod Evans.byte:
*1e49577aSRod Evans	addcc	%o2, 3, %o2
*1e49577aSRod Evans	bz,pt	%ncc, .exit
*1e49577aSRod Evans.byteloop:
*1e49577aSRod Evans	dec	%o1			! decrement src address
*1e49577aSRod Evans	ldub	[%o1], %o3		! read a byte
*1e49577aSRod Evans	dec	%o0			! decrement dst address
*1e49577aSRod Evans	deccc	%o2			! decrement count
*1e49577aSRod Evans	bgu,pt	%ncc, .byteloop		! loop until done
*1e49577aSRod Evans	stb	%o3, [%o0]		! write byte
*1e49577aSRod Evans.exit:
*1e49577aSRod Evans	retl
*1e49577aSRod Evans	mov	%g1, %o0
*1e49577aSRod Evans
*1e49577aSRod Evans	.align	16
*1e49577aSRod Evans.dbalign:
*1e49577aSRod Evans	prefetch [%o1 - (4 * BLOCK_SIZE)], #one_read
*1e49577aSRod Evans	prefetch [%o0 - (4 * BLOCK_SIZE)], #one_write
*1e49577aSRod Evans	andcc   %o0, 7, %o5		! bytes till DST 8 byte aligned
*1e49577aSRod Evans	bz,pt	%ncc, .dbmed
*1e49577aSRod Evans	sub	%o2, %o5, %o2		! update count
*1e49577aSRod Evans.dbalign1:
*1e49577aSRod Evans	dec	%o1			! decrement src address
*1e49577aSRod Evans	ldub	[%o1], %o3		! read a byte
*1e49577aSRod Evans	dec	%o0			! decrement dst address
*1e49577aSRod Evans	deccc	%o5			! decrement count
*1e49577aSRod Evans	bgu,pt	%ncc, .dbalign1		! loop until done
*1e49577aSRod Evans	stb	%o3, [%o0]		! store a byte
*1e49577aSRod Evans
*1e49577aSRod Evans! check for src long word alignment
*1e49577aSRod Evans.dbmed:
*1e49577aSRod Evans	andcc	%o1, 7, %g0		! chk src long word alignment
*1e49577aSRod Evans	bnz,pn	%ncc, .dbbck
*1e49577aSRod Evans	nop
*1e49577aSRod Evans!
*1e49577aSRod Evans! Following code is for overlapping copies where src and dest
*1e49577aSRod Evans! are long word aligned
*1e49577aSRod Evans!
*1e49577aSRod Evans!
*1e49577aSRod Evans! For SPARC64-VI, prefetch is effective for both integer and fp register
*1e49577aSRod Evans! operations. There are no benefits in using the fp registers for
*1e49577aSRod Evans! aligned data copying.
*1e49577aSRod Evans
*1e49577aSRod Evans.dbmedl32enter:
*1e49577aSRod Evans	subcc	%o2, 31, %o2		! adjust length to allow cc test
*1e49577aSRod Evans					! for end of loop
*1e49577aSRod Evans	ble,pt  %ncc, .dbmedl31		! skip big loop if less than 32
*1e49577aSRod Evans	nop
*1e49577aSRod Evans.dbmedl32:
*1e49577aSRod Evans	ldx	[%o1-8], %o4		! load
*1e49577aSRod Evans	prefetch [%o1 - (8 * BLOCK_SIZE)], #one_read
*1e49577aSRod Evans	subcc	%o2, 32, %o2		! decrement length count
*1e49577aSRod Evans	stx	%o4, [%o0-8]		! and store
*1e49577aSRod Evans	prefetch [%o0 - (8 * BLOCK_SIZE)], #one_write
*1e49577aSRod Evans	ldx	[%o1-16], %o3		! a block of 32 bytes
*1e49577aSRod Evans	sub	%o1, 32, %o1		! decrease src ptr by 32
*1e49577aSRod Evans	stx	%o3, [%o0-16]
*1e49577aSRod Evans	ldx	[%o1+8], %o4
*1e49577aSRod Evans	sub	%o0, 32, %o0		! decrease dst ptr by 32
*1e49577aSRod Evans	stx	%o4, [%o0+8]
*1e49577aSRod Evans	ldx	[%o1], %o3
*1e49577aSRod Evans	bgu,pt	%ncc, .dbmedl32		! repeat if at least 32 bytes left
*1e49577aSRod Evans	stx	%o3, [%o0]
*1e49577aSRod Evans.dbmedl31:
*1e49577aSRod Evans	addcc	%o2, 16, %o2		! adjust remaining count
*1e49577aSRod Evans	ble,pt	%ncc, .dbmedl15		! skip if 15 or fewer bytes left
*1e49577aSRod Evans	nop				!
*1e49577aSRod Evans	ldx	[%o1-8], %o4		! load and store 16 bytes
*1e49577aSRod Evans	sub	%o1, 16, %o1		! decrease src ptr by 16
*1e49577aSRod Evans	stx	%o4, [%o0-8]		!
*1e49577aSRod Evans	sub	%o2, 16, %o2		! decrease count by 16
*1e49577aSRod Evans	ldx	[%o1], %o3		!
*1e49577aSRod Evans	sub	%o0, 16, %o0		! decrease dst ptr by 16
*1e49577aSRod Evans	stx	%o3, [%o0]
*1e49577aSRod Evans.dbmedl15:
*1e49577aSRod Evans	addcc	%o2, 15, %o2		! restore count
*1e49577aSRod Evans	bz,pt	%ncc, .dbexit		! exit if finished
*1e49577aSRod Evans	nop
*1e49577aSRod Evans	cmp	%o2, 8
*1e49577aSRod Evans	blt,pt	%ncc, .dbremain		! skip if 7 or fewer bytes left
*1e49577aSRod Evans	nop
*1e49577aSRod Evans	ldx	[%o1-8], %o4		! load 8 bytes
*1e49577aSRod Evans	sub	%o1, 8, %o1		! decrease src ptr by 8
*1e49577aSRod Evans	stx	%o4, [%o0-8]		! and store 8 bytes
*1e49577aSRod Evans	subcc	%o2, 8, %o2		! decrease count by 8
*1e49577aSRod Evans	bnz	%ncc, .dbremain		! exit if finished
*1e49577aSRod Evans	sub	%o0, 8, %o0		! decrease dst ptr by 8
*1e49577aSRod Evans	retl
*1e49577aSRod Evans	mov	%g1, %o0
*1e49577aSRod Evans
*1e49577aSRod Evans!
*1e49577aSRod Evans! Following code is for overlapping copies where src and dest
*1e49577aSRod Evans! are not long word aligned
*1e49577aSRod Evans!
*1e49577aSRod Evans	.align	16
*1e49577aSRod Evans.dbbck:
*1e49577aSRod Evans	rd	%fprs, %o3		! o3 = fprs
*1e49577aSRod Evans
*1e49577aSRod Evans	! if fprs.fef == 0, set it. Checking it, requires 2 instructions.
*1e49577aSRod Evans	! So set it anyway, without checking.
*1e49577aSRod Evans	wr	%g0, 0x4, %fprs		! fprs.fef = 1
*1e49577aSRod Evans
*1e49577aSRod Evans	alignaddr %o1, %g0, %o5		! align src
*1e49577aSRod Evans	ldd	[%o5], %d0		! get first 8 byte block
*1e49577aSRod Evans	andn	%o2, 7, %o4		! prepare src ptr for finishup code
*1e49577aSRod Evans	cmp	%o2, 32
*1e49577aSRod Evans	blt,pn	%ncc, .dbmv8
*1e49577aSRod Evans	sub	%o1, %o4, %o1		!
*1e49577aSRod Evans	cmp	%o2, 4095		! check for short memmoves
*1e49577aSRod Evans	blt,pn	%ncc, .dbmv32enter	! go to no prefetch code
*1e49577aSRod Evans.dbmv64:
*1e49577aSRod Evans	ldd	[%o5-8], %d2		! load 8 bytes
*1e49577aSRod Evans	ldd	[%o5-16], %d4		! load 8 bytes
*1e49577aSRod Evans	sub	%o5, 64, %o5		!
*1e49577aSRod Evans	ldd	[%o5+40], %d6		! load 8 bytes
*1e49577aSRod Evans	sub	%o0, 64, %o0		!
*1e49577aSRod Evans	ldd	[%o5+32], %d8		! load 8 bytes
*1e49577aSRod Evans	sub	%o2, 64, %o2		! 64 less bytes to copy
*1e49577aSRod Evans	ldd	[%o5+24], %d18		! load 8 bytes
*1e49577aSRod Evans	cmp	%o2, 64			! do we have < 64 bytes remaining
*1e49577aSRod Evans	ldd	[%o5+16], %d28		! load 8 bytes
*1e49577aSRod Evans	ldd	[%o5+8], %d30		! load 8 bytes
*1e49577aSRod Evans	faligndata %d2, %d0, %d10	! extract 8 bytes out
*1e49577aSRod Evans	prefetch [%o5 - (5 * BLOCK_SIZE)], #one_read
*1e49577aSRod Evans	ldd	[%o5], %d0		! load 8 bytes
*1e49577aSRod Evans	std	%d10, [%o0+56]		! store the current 8 bytes
*1e49577aSRod Evans	faligndata %d4, %d2, %d12	! extract 8 bytes out
*1e49577aSRod Evans	prefetch [%o0 - (5 * BLOCK_SIZE)], #one_write
*1e49577aSRod Evans	std	%d12, [%o0+48]		! store the current 8 bytes
*1e49577aSRod Evans	faligndata %d6, %d4, %d14	! extract 8 bytes out
*1e49577aSRod Evans	std	%d14, [%o0+40]		! store the current 8 bytes
*1e49577aSRod Evans	faligndata %d8, %d6, %d16	! extract 8 bytes out
*1e49577aSRod Evans	std	%d16, [%o0+32]		! store the current 8 bytes
*1e49577aSRod Evans	faligndata %d18, %d8, %d20	! extract 8 bytes out
*1e49577aSRod Evans	std	%d20, [%o0+24]		! store the current 8 bytes
*1e49577aSRod Evans	faligndata %d28, %d18, %d22	! extract 8 bytes out
*1e49577aSRod Evans	std	%d22, [%o0+16]		! store the current 8 bytes
*1e49577aSRod Evans	faligndata %d30, %d28, %d24	! extract 8 bytes out
*1e49577aSRod Evans	std	%d24, [%o0+8]		! store the current 8 bytes
*1e49577aSRod Evans	faligndata %d0, %d30, %d26	! extract 8 bytes out
*1e49577aSRod Evans	bgeu,pt	%ncc, .dbmv64
*1e49577aSRod Evans	std	%d26, [%o0]		! store the current 8 bytes
*1e49577aSRod Evans
*1e49577aSRod Evans	cmp	%o2, 32
*1e49577aSRod Evans	blt,pn	%ncc, .dbmvx
*1e49577aSRod Evans	nop
*1e49577aSRod Evans.dbmv32:
*1e49577aSRod Evans	ldd	[%o5-8], %d2		! load 8 bytes
*1e49577aSRod Evans.dbmv32enter:
*1e49577aSRod Evans	ldd	[%o5-16], %d4		! load 8 bytes
*1e49577aSRod Evans	sub	%o5, 32, %o5		!
*1e49577aSRod Evans	ldd	[%o5+8], %d6		! load 8 bytes
*1e49577aSRod Evans	sub	%o0, 32, %o0		!
*1e49577aSRod Evans	faligndata %d2, %d0, %d10	! extract 8 bytes out
*1e49577aSRod Evans	ldd	[%o5], %d0		! load 8 bytes
*1e49577aSRod Evans	sub	%o2,32, %o2		! 32 less bytes to copy
*1e49577aSRod Evans	std	%d10, [%o0+24]		! store the current 8 bytes
*1e49577aSRod Evans	cmp	%o2, 32			! do we have < 32 bytes remaining
*1e49577aSRod Evans	faligndata %d4, %d2, %d12	! extract 8 bytes out
*1e49577aSRod Evans	std	%d12, [%o0+16]		! store the current 8 bytes
*1e49577aSRod Evans	faligndata %d6, %d4, %d14	! extract 8 bytes out
*1e49577aSRod Evans	std	%d14, [%o0+8]		! store the current 8 bytes
*1e49577aSRod Evans	faligndata %d0, %d6, %d16	! extract 8 bytes out
*1e49577aSRod Evans	bgeu,pt	%ncc, .dbmv32
*1e49577aSRod Evans	std	%d16, [%o0]		! store the current 8 bytes
*1e49577aSRod Evans.dbmvx:
*1e49577aSRod Evans	cmp	%o2, 8			! do we have < 8 bytes remaining
*1e49577aSRod Evans	blt,pt	%ncc, .dbmvfinish	! if yes, skip to finish up code
*1e49577aSRod Evans	nop
*1e49577aSRod Evans.dbmv8:
*1e49577aSRod Evans	ldd	[%o5-8], %d2
*1e49577aSRod Evans	sub	%o0, 8, %o0		! since we are at the end
*1e49577aSRod Evans					! when we first enter the loop
*1e49577aSRod Evans	sub	%o2, 8, %o2		! 8 less bytes to copy
*1e49577aSRod Evans	sub	%o5, 8, %o5
*1e49577aSRod Evans	cmp	%o2, 8			! do we have < 8 bytes remaining
*1e49577aSRod Evans	faligndata %d2, %d0, %d8	! extract 8 bytes out
*1e49577aSRod Evans	std	%d8, [%o0]		! store the current 8 bytes
*1e49577aSRod Evans	bgeu,pt	%ncc, .dbmv8
*1e49577aSRod Evans	fmovd	%d2, %d0
*1e49577aSRod Evans.dbmvfinish:
*1e49577aSRod Evans	and	%o3, 0x4, %o3		! fprs.du = fprs.dl = 0
*1e49577aSRod Evans	tst	%o2
*1e49577aSRod Evans	bz,pt	%ncc, .dbexit
*1e49577aSRod Evans	wr	%o3, %g0, %fprs		! fprs = o3   restore fprs
*1e49577aSRod Evans
*1e49577aSRod Evans.dbremain:
*1e49577aSRod Evans	cmp	%o2, 4
*1e49577aSRod Evans	blt,pn	%ncc, .dbbyte
*1e49577aSRod Evans	nop
*1e49577aSRod Evans	ldub	[%o1-1], %o3		! load last byte
*1e49577aSRod Evans	stb	%o3, [%o0-1]		! store last byte
*1e49577aSRod Evans	sub	%o1, 4, %o1
*1e49577aSRod Evans	ldub	[%o1+2], %o3		! load 2nd from last byte
*1e49577aSRod Evans	stb	%o3, [%o0-2]		! store 2nd from last byte
*1e49577aSRod Evans	sub	%o0, 4, %o0
*1e49577aSRod Evans	ldub	[%o1+1], %o3		! load 3rd from last byte
*1e49577aSRod Evans	stb	%o3, [%o0+1]		! store 3rd from last byte
*1e49577aSRod Evans	subcc	%o2, 4, %o2
*1e49577aSRod Evans	ldub	[%o1], %o3		! load 4th from last byte
*1e49577aSRod Evans	stb	%o3, [%o0]		! store 4th from last byte
*1e49577aSRod Evans	bz,pt	%ncc, .dbexit
*1e49577aSRod Evans.dbbyte:
*1e49577aSRod Evans	dec	%o1			! decrement src address
*1e49577aSRod Evans	ldub	[%o1], %o3		! read a byte
*1e49577aSRod Evans	dec	%o0			! decrement dst address
*1e49577aSRod Evans	deccc	%o2			! decrement count
*1e49577aSRod Evans	bgu,pt	%ncc, .dbbyte		! loop until done
*1e49577aSRod Evans	stb	%o3, [%o0]		! write byte
*1e49577aSRod Evans.dbexit:
*1e49577aSRod Evans	retl
*1e49577aSRod Evans	mov	%g1, %o0
*1e49577aSRod Evans	SET_SIZE(memmove)
*1e49577aSRod Evans
*1e49577aSRod Evans
*1e49577aSRod Evans	.align ICACHE_LINE_SIZE
*1e49577aSRod Evans	ENTRY(memcpy)
*1e49577aSRod Evans					! adjust instruction alignment
*1e49577aSRod Evans	nop				! Do not remove, these nops affect
*1e49577aSRod Evans	nop				! icache alignment and performance
*1e49577aSRod Evans.forcpy:
*1e49577aSRod Evans	prefetch [%o1], N_READS_STRONG
*1e49577aSRod Evans	prefetch [%o0], N_WRITES_STRONG
*1e49577aSRod Evans	cmp	%o2, SMALL_MAX		! check for not small case
*1e49577aSRod Evans	bgu,pn	%ncc, .medium		! go to larger cases
*1e49577aSRod Evans	mov	%o0, %g1		! save %o0
*1e49577aSRod Evans	cmp	%o2, SHORTCOPY		! check for really short case
*1e49577aSRod Evans	ble,pt	%ncc, .smallleft	!
*1e49577aSRod Evans	or	%o0, %o1, %o3		! prepare alignment check
*1e49577aSRod Evans	andcc	%o3, 0x3, %g0		! test for alignment
*1e49577aSRod Evans	bz,pt	%ncc, .smallword	! branch to word aligned case
*1e49577aSRod Evans	sub	%o2, 3, %o2		! adjust count to allow cc zero test
*1e49577aSRod Evans.smallnotalign4:
*1e49577aSRod Evans	ldub	[%o1], %o3		! read byte
*1e49577aSRod Evans	subcc	%o2, 4, %o2		! reduce count by 4
*1e49577aSRod Evans	stb	%o3, [%o0]		! write byte
*1e49577aSRod Evans	ldub	[%o1+1], %o3		! repeat for a total of 4 bytes
*1e49577aSRod Evans	add	%o1, 4, %o1		! advance SRC by 4
*1e49577aSRod Evans	stb	%o3, [%o0+1]
*1e49577aSRod Evans	ldub	[%o1-2], %o3
*1e49577aSRod Evans	add	%o0, 4, %o0		! advance DST by 4
*1e49577aSRod Evans	stb	%o3, [%o0-2]
*1e49577aSRod Evans	ldub	[%o1-1], %o3
*1e49577aSRod Evans	bgu,pt	%ncc, .smallnotalign4	! loop til 3 or fewer bytes remain
*1e49577aSRod Evans	stb	%o3, [%o0-1]
*1e49577aSRod Evans	add	%o2, 3, %o2		! restore count
*1e49577aSRod Evans.smallleft:
*1e49577aSRod Evans	tst	%o2
*1e49577aSRod Evans	bz,pt	%ncc, .smallexit
*1e49577aSRod Evans	nop
*1e49577aSRod Evans.smallleft3:				! 1, 2, or 3 bytes remain
*1e49577aSRod Evans	ldub	[%o1], %o3		! load one byte
*1e49577aSRod Evans	deccc	%o2			! reduce count for cc test
*1e49577aSRod Evans	bz,pt	%ncc, .smallexit
*1e49577aSRod Evans	stb	%o3, [%o0]		! store one byte
*1e49577aSRod Evans	ldub	[%o1+1], %o3		! load second byte
*1e49577aSRod Evans	deccc	%o2
*1e49577aSRod Evans	bz,pt	%ncc, .smallexit
*1e49577aSRod Evans	stb	%o3, [%o0+1]		! store second byte
*1e49577aSRod Evans	ldub	[%o1+2], %o3		! load third byte
*1e49577aSRod Evans	stb	%o3, [%o0+2]		! store third byte
*1e49577aSRod Evans	retl
*1e49577aSRod Evans	mov	%g1, %o0		! restore %o0
*1e49577aSRod Evans
*1e49577aSRod Evans	.align	16
*1e49577aSRod Evans	nop				! affects loop icache alignment
*1e49577aSRod Evans.smallwords:
*1e49577aSRod Evans	lduw	[%o1], %o3		! read word
*1e49577aSRod Evans.smallwordx:
*1e49577aSRod Evans	subcc	%o2, 8, %o2		! update count
*1e49577aSRod Evans	stw	%o3, [%o0]		! write word
*1e49577aSRod Evans	add	%o1, 8, %o1		! update SRC
*1e49577aSRod Evans	lduw	[%o1-4], %o3		! read word
*1e49577aSRod Evans	add	%o0, 8, %o0		! update DST
*1e49577aSRod Evans	bgu,pt	%ncc, .smallwords	! loop until done
*1e49577aSRod Evans	stw	%o3, [%o0-4]		! write word
*1e49577aSRod Evans	addcc	%o2, 7, %o2		! restore count
*1e49577aSRod Evans	bz,pt	%ncc, .smallexit	! check for completion
*1e49577aSRod Evans	nop
*1e49577aSRod Evans	cmp	%o2, 4			! check for 4 or more bytes left
*1e49577aSRod Evans	blt	.smallleft3		! if not, go to finish up
*1e49577aSRod Evans	nop
*1e49577aSRod Evans	lduw	[%o1], %o3
*1e49577aSRod Evans	add	%o1, 4, %o1
*1e49577aSRod Evans	subcc	%o2, 4, %o2
*1e49577aSRod Evans	stw	%o3, [%o0]
*1e49577aSRod Evans	add	%o0, 4, %o0
*1e49577aSRod Evans	bnz,pt	%ncc, .smallleft3
*1e49577aSRod Evans	nop
*1e49577aSRod Evans	retl
*1e49577aSRod Evans	mov	%g1, %o0		! restore %o0
*1e49577aSRod Evans
*1e49577aSRod Evans.smallword:
*1e49577aSRod Evans	subcc	%o2, 4, %o2		! update count
*1e49577aSRod Evans	bgu,pt	%ncc, .smallwordx
*1e49577aSRod Evans	lduw	[%o1], %o3		! read word
*1e49577aSRod Evans	addcc	%o2, 3, %o2		! restore count
*1e49577aSRod Evans	bz,pt	%ncc, .smallexit
*1e49577aSRod Evans	stw	%o3, [%o0]		! write word
*1e49577aSRod Evans	deccc	%o2			! reduce count for cc test
*1e49577aSRod Evans	ldub	[%o1+4], %o3		! load one byte
*1e49577aSRod Evans	bz,pt	%ncc, .smallexit
*1e49577aSRod Evans	stb	%o3, [%o0+4]		! store one byte
*1e49577aSRod Evans	ldub	[%o1+5], %o3		! load second byte
*1e49577aSRod Evans	deccc	%o2
*1e49577aSRod Evans	bz,pt	%ncc, .smallexit
*1e49577aSRod Evans	stb	%o3, [%o0+5]		! store second byte
*1e49577aSRod Evans	ldub	[%o1+6], %o3		! load third byte
*1e49577aSRod Evans	stb	%o3, [%o0+6]		! store third byte
*1e49577aSRod Evans.smallexit:
*1e49577aSRod Evans	retl
*1e49577aSRod Evans	mov	%g1, %o0		! restore %o0
*1e49577aSRod Evans	.align 16
*1e49577aSRod Evans.medium:
*1e49577aSRod Evans	prefetch [%o1 + (4 * BLOCK_SIZE)], #one_read
*1e49577aSRod Evans	prefetch [%o0 + (4 * BLOCK_SIZE)], #one_write
*1e49577aSRod Evans	neg	%o0, %o5
*1e49577aSRod Evans	neg	%o1, %o3
*1e49577aSRod Evans	andcc	%o5, 7, %o5	! bytes till DST 8 byte aligned
*1e49577aSRod Evans	and	%o3, 7, %o3	! bytes till SRC 8 byte aligned
*1e49577aSRod Evans
*1e49577aSRod Evans	bz	%ncc, 2f
*1e49577aSRod Evans	sub	%o5, %o3, %o3	! -(bytes till SRC aligned after DST aligned)
*1e49577aSRod Evans				! o3={-7, -6, ... 7}  o3>0 => SRC overaligned
*1e49577aSRod Evans
*1e49577aSRod Evans	sub	%o2, %o5, %o2	! update count
*1e49577aSRod Evans
*1e49577aSRod Evans1:
*1e49577aSRod Evans	ldub	[%o1], %o4
*1e49577aSRod Evans	deccc	%o5
*1e49577aSRod Evans	inc	%o1
*1e49577aSRod Evans	stb	%o4, [%o0]
*1e49577aSRod Evans	bgu,pt	%ncc, 1b
*1e49577aSRod Evans	inc	%o0
*1e49577aSRod Evans
*1e49577aSRod Evans	! Now DST is 8-byte aligned.  o0, o1, o2 are current.
*1e49577aSRod Evans
*1e49577aSRod Evans2:
*1e49577aSRod Evans	andcc	%o1, 0x3, %g0		! test alignment
*1e49577aSRod Evans	prefetch [%o1 + (1 * BLOCK_SIZE)], #one_read
*1e49577aSRod Evans	bnz,pt	%ncc, .mediumsetup	! branch to skip aligned cases
*1e49577aSRod Evans					! if src, dst not aligned
*1e49577aSRod Evans	prefetch [%o0 + (1 * BLOCK_SIZE)], #one_write
*1e49577aSRod Evans
*1e49577aSRod Evans/*
*1e49577aSRod Evans * Handle all cases where src and dest are aligned on word
*1e49577aSRod Evans * or long word boundaries.  Use unrolled loops for better
*1e49577aSRod Evans * performance.  This option wins over standard large data
*1e49577aSRod Evans * move when source and destination is in cache for medium
*1e49577aSRod Evans * to short data moves.
*1e49577aSRod Evans */
*1e49577aSRod Evans	andcc	%o1, 0x7, %g0		! test word alignment
*1e49577aSRod Evans	prefetch [%o1 + (2 * BLOCK_SIZE)], #one_read
*1e49577aSRod Evans	bz,pt	%ncc, .medlword		! branch to long word aligned case
*1e49577aSRod Evans	prefetch [%o0 + (2 * BLOCK_SIZE)], #one_write
*1e49577aSRod Evans	cmp	%o2, ALIGNED4_FPCOPY_THRESHOLD	! limit to store buffer size
*1e49577aSRod Evans	bgu,pt	%ncc, .mediumrejoin	! otherwise rejoin main loop
*1e49577aSRod Evans	prefetch [%o1 + (3 * BLOCK_SIZE)], #one_read
*1e49577aSRod Evans	subcc	%o2, 15, %o2		! adjust length to allow cc test
*1e49577aSRod Evans	prefetch [%o0 + (3 * BLOCK_SIZE)], #one_write
*1e49577aSRod Evans					! for end of loop
*1e49577aSRod Evans	ble,pt	%ncc, .medw15		! skip big loop if less than 16
*1e49577aSRod Evans	  .empty
*1e49577aSRod Evans.medw16:
*1e49577aSRod Evans	prefetch [%o1 + (4 * BLOCK_SIZE)], #one_read
*1e49577aSRod Evans	ld	[%o1], %o4		! load
*1e49577aSRod Evans	subcc	%o2, 16, %o2		! decrement length count
*1e49577aSRod Evans	prefetch [%o0 + (4 * BLOCK_SIZE)], #one_write
*1e49577aSRod Evans	stw	%o4, [%o0]		! and store
*1e49577aSRod Evans	ld	[%o1+4], %o3		! a block of 16 bytes
*1e49577aSRod Evans	add	%o1, 16, %o1		! increase src ptr by 16
*1e49577aSRod Evans	stw	%o3, [%o0+4]
*1e49577aSRod Evans	ld	[%o1-8], %o4
*1e49577aSRod Evans	add	%o0, 16, %o0		! increase dst ptr by 16
*1e49577aSRod Evans	stw	%o4, [%o0-8]
*1e49577aSRod Evans	ld	[%o1-4], %o3
*1e49577aSRod Evans	bgu,pt	%ncc, .medw16		! repeat if at least 16 bytes left
*1e49577aSRod Evans	stw	%o3, [%o0-4]
*1e49577aSRod Evans.medw15:
*1e49577aSRod Evans	addcc	%o2, 15, %o2		! restore count
*1e49577aSRod Evans	bz,pt	%ncc, .medwexit		! exit if finished
*1e49577aSRod Evans	nop
*1e49577aSRod Evans	cmp	%o2, 8
*1e49577aSRod Evans	blt,pt	%ncc, .medw7		! skip if 7 or fewer bytes left
*1e49577aSRod Evans	nop				!
*1e49577aSRod Evans	ld	[%o1], %o4		! load 4 bytes
*1e49577aSRod Evans	subcc	%o2, 8, %o2		! decrease count by 8
*1e49577aSRod Evans	stw	%o4, [%o0]		! and store 4 bytes
*1e49577aSRod Evans	add	%o1, 8, %o1		! increase src ptr by 8
*1e49577aSRod Evans	ld	[%o1-4], %o3		! load 4 bytes
*1e49577aSRod Evans	add	%o0, 8, %o0		! increase dst ptr by 8
*1e49577aSRod Evans	stw	%o3, [%o0-4]		! and store 4 bytes
*1e49577aSRod Evans	bz	%ncc, .medwexit		! exit if finished
*1e49577aSRod Evans	nop
*1e49577aSRod Evans.medw7:					! count is ge 1, less than 8
*1e49577aSRod Evans	cmp	%o2, 3			! check for 4 bytes left
*1e49577aSRod Evans	ble,pt	%ncc, .medw3		! skip if 3 or fewer bytes left
*1e49577aSRod Evans	nop				!
*1e49577aSRod Evans	ld	[%o1], %o4		! load 4 bytes
*1e49577aSRod Evans	sub	%o2, 4, %o2		! decrease count by 4
*1e49577aSRod Evans	add	%o1, 4, %o1		! increase src ptr by 4
*1e49577aSRod Evans	stw	%o4, [%o0]		! and store 4 bytes
*1e49577aSRod Evans	add	%o0, 4, %o0		! increase dst ptr by 4
*1e49577aSRod Evans	tst	%o2			! check for zero bytes left
*1e49577aSRod Evans	bz	%ncc, .medwexit		! exit if finished
*1e49577aSRod Evans	nop
*1e49577aSRod Evans.medw3:					! count is known to be 1, 2, or 3
*1e49577aSRod Evans	deccc	%o2			! reduce count by one
*1e49577aSRod Evans	ldub	[%o1], %o3		! load one byte
*1e49577aSRod Evans	bz,pt	%ncc, .medwexit		! exit if last byte
*1e49577aSRod Evans	stb	%o3, [%o0]		! store one byte
*1e49577aSRod Evans	ldub	[%o1+1], %o3		! load second byte
*1e49577aSRod Evans	deccc	%o2			! reduce count by one
*1e49577aSRod Evans	bz,pt	%ncc, .medwexit		! exit if last byte
*1e49577aSRod Evans	stb	%o3, [%o0+1]		! store second byte
*1e49577aSRod Evans	ldub	[%o1+2], %o3		! load third byte
*1e49577aSRod Evans	stb	%o3, [%o0+2]		! store third byte
*1e49577aSRod Evans.medwexit:
*1e49577aSRod Evans	retl
*1e49577aSRod Evans	mov	%g1, %o0		! restore %o0
*1e49577aSRod Evans
*1e49577aSRod Evans/*
*1e49577aSRod Evans * Special case for handling when src and dest are both long word aligned
*1e49577aSRod Evans * and total data to move is between SMALL_MAX and ALIGNED8_FPCOPY_THRESHOLD
*1e49577aSRod Evans * bytes.
*1e49577aSRod Evans */
*1e49577aSRod Evans
*1e49577aSRod Evans	.align 16
*1e49577aSRod Evans	nop
*1e49577aSRod Evans.medlword:				! long word aligned
*1e49577aSRod Evans					! length > ALIGNED8_FPCOPY_THRESHOLD
*1e49577aSRod Evans	cmp	%o2, ALIGNED8_FPCOPY_THRESHOLD
*1e49577aSRod Evans	bgu,pt	%ncc, .mediumrejoin	! otherwise rejoin main loop
*1e49577aSRod Evans	prefetch [%o1 + (3 * BLOCK_SIZE)], #one_read
*1e49577aSRod Evans	prefetch [%o0 + (3 * BLOCK_SIZE)], #one_write
*1e49577aSRod Evans	subcc	%o2, 31, %o2		! adjust length to allow cc test
*1e49577aSRod Evans					! for end of loop
*1e49577aSRod Evans	ble,pt	%ncc, .medl31		! skip big loop if less than 32
*1e49577aSRod Evans	  .empty
*1e49577aSRod Evans.medl32:
*1e49577aSRod Evans	prefetch [%o1 + (4 * BLOCK_SIZE)], #one_read
*1e49577aSRod Evans	ldx	[%o1], %o4		! load
*1e49577aSRod Evans	subcc	%o2, 32, %o2		! decrement length count
*1e49577aSRod Evans	prefetch [%o0 + (4 * BLOCK_SIZE)], #one_read
*1e49577aSRod Evans	stx	%o4, [%o0]		! and store
*1e49577aSRod Evans	ldx	[%o1+8], %o3		! a block of 32 bytes
*1e49577aSRod Evans	add	%o1, 32, %o1		! increase src ptr by 32
*1e49577aSRod Evans	stx	%o3, [%o0+8]
*1e49577aSRod Evans	ldx	[%o1-16], %o4
*1e49577aSRod Evans	add	%o0, 32, %o0		! increase dst ptr by 32
*1e49577aSRod Evans	stx	%o4, [%o0-16]
*1e49577aSRod Evans	ldx	[%o1-8], %o3
*1e49577aSRod Evans	bgu,pt	%ncc, .medl32		! repeat if at least 32 bytes left
*1e49577aSRod Evans	stx	%o3, [%o0-8]
*1e49577aSRod Evans.medl31:
*1e49577aSRod Evans	addcc	%o2, 16, %o2		! adjust remaining count
*1e49577aSRod Evans	ble,pt	%ncc, .medl15		! skip if 15 or fewer bytes left
*1e49577aSRod Evans	nop				!
*1e49577aSRod Evans	ldx	[%o1], %o4		! load and store 16 bytes
*1e49577aSRod Evans	add	%o1, 16, %o1		! increase src ptr by 16
*1e49577aSRod Evans	stx	%o4, [%o0]		!
*1e49577aSRod Evans	sub	%o2, 16, %o2		! decrease count by 16
*1e49577aSRod Evans	ldx	[%o1-8], %o3		!
*1e49577aSRod Evans	add	%o0, 16, %o0		! increase dst ptr by 16
*1e49577aSRod Evans	stx	%o3, [%o0-8]
*1e49577aSRod Evans.medl15:
*1e49577aSRod Evans	addcc	%o2, 15, %o2		! restore count
*1e49577aSRod Evans	bz,pt	%ncc, .medwexit		! exit if finished
*1e49577aSRod Evans	nop
*1e49577aSRod Evans	cmp	%o2, 8
*1e49577aSRod Evans	blt,pt	%ncc, .medw7		! skip if 7 or fewer bytes left
*1e49577aSRod Evans	nop
*1e49577aSRod Evans	ldx	[%o1], %o4		! load 8 bytes
*1e49577aSRod Evans	add	%o1, 8, %o1		! increase src ptr by 8
*1e49577aSRod Evans	stx	%o4, [%o0]		! and store 8 bytes
*1e49577aSRod Evans	subcc	%o2, 8, %o2		! decrease count by 8
*1e49577aSRod Evans	bz	%ncc, .medwexit		! exit if finished
*1e49577aSRod Evans	add	%o0, 8, %o0		! increase dst ptr by 8
*1e49577aSRod Evans	ba	.medw7
*1e49577aSRod Evans	nop
*1e49577aSRod Evans
*1e49577aSRod Evans	.align 16
*1e49577aSRod Evans	nop
*1e49577aSRod Evans	nop
*1e49577aSRod Evans	nop
*1e49577aSRod Evans.mediumsetup:
*1e49577aSRod Evans	prefetch [%o1 + (2 * BLOCK_SIZE)], #one_read
*1e49577aSRod Evans	prefetch [%o1 + (3 * BLOCK_SIZE)], #one_read
*1e49577aSRod Evans.mediumrejoin:
*1e49577aSRod Evans	rd	%fprs, %o4		! check for unused FPU
*1e49577aSRod Evans
*1e49577aSRod Evans	add	%o1, 8, %o1		! prepare to round SRC upward
*1e49577aSRod Evans
*1e49577aSRod Evans	sethi	%hi(0x1234567f), %o5	! For GSR.MASK
*1e49577aSRod Evans	or	%o5, 0x67f, %o5
*1e49577aSRod Evans
*1e49577aSRod Evans	andcc	%o4, FPRS_FEF, %o4	! test FEF, fprs.du = fprs.dl = 0
*1e49577aSRod Evans	bz,a	%ncc, 3f
*1e49577aSRod Evans	wr	%g0, FPRS_FEF, %fprs	! fprs.fef = 1
*1e49577aSRod Evans3:
*1e49577aSRod Evans	cmp	%o2, MEDIUM_MAX
*1e49577aSRod Evans	bmask	%o5, %g0, %g0
*1e49577aSRod Evans
*1e49577aSRod Evans	! Compute o5 (number of bytes that need copying using the main loop).
*1e49577aSRod Evans	! First, compute for the medium case.
*1e49577aSRod Evans	! Then, if large case, o5 is replaced by count for block alignment.
*1e49577aSRod Evans	! Be careful not to read past end of SRC
*1e49577aSRod Evans	! Currently, o2 is the actual count remaining
*1e49577aSRod Evans	!            o3 is how much sooner we'll cross the alignment boundary
*1e49577aSRod Evans	!                in SRC compared to in DST
*1e49577aSRod Evans	!
*1e49577aSRod Evans	! Examples:  Let # denote bytes that should not be accessed
*1e49577aSRod Evans	!            Let x denote a byte already copied to align DST
*1e49577aSRod Evans	!            Let . and - denote bytes not yet copied
*1e49577aSRod Evans	!            Let | denote double alignment boundaries
*1e49577aSRod Evans	!
*1e49577aSRod Evans	!            DST:  ######xx|........|--------|..######   o2 = 18
*1e49577aSRod Evans	!                          o0
*1e49577aSRod Evans	!
*1e49577aSRod Evans	!  o3 = -3:  SRC:  ###xx...|.....---|-----..#|########   o5 = 8
*1e49577aSRod Evans	!                          o1
*1e49577aSRod Evans	!
*1e49577aSRod Evans	!  o3 =  0:  SRC:  ######xx|........|--------|..######   o5 = 16-8 = 8
*1e49577aSRod Evans	!                                   o1
*1e49577aSRod Evans	!
*1e49577aSRod Evans	!  o3 = +1:  SRC:  #######x|x.......|.-------|-..#####   o5 = 16-8 = 8
*1e49577aSRod Evans	!                                   o1
*1e49577aSRod Evans
*1e49577aSRod Evans	or	%g0, -8, %o5
*1e49577aSRod Evans	alignaddr %o1, %g0, %o1		! set GSR.ALIGN and align o1
*1e49577aSRod Evans
*1e49577aSRod Evans	movrlz	%o3, %g0, %o5		! subtract 8 from o2+o3 only if o3>=0
*1e49577aSRod Evans	add	%o5, %o2, %o5
*1e49577aSRod Evans	add	%o5, %o3, %o5
*1e49577aSRod Evans
*1e49577aSRod Evans	bleu	%ncc, 4f
*1e49577aSRod Evans	andn	%o5, 7, %o5		! 8 byte aligned count
*1e49577aSRod Evans	neg	%o0, %o5		! 'large' case
*1e49577aSRod Evans	and	%o5, BLOCK_SIZE-1, %o5  ! bytes till DST block aligned
*1e49577aSRod Evans4:
*1e49577aSRod Evans	brgez,a	%o3, .beginmedloop
*1e49577aSRod Evans	ldd	[%o1-8], %d0
*1e49577aSRod Evans
*1e49577aSRod Evans	add	%o1, %o3, %o1		! back up o1
*1e49577aSRod Evans5:
*1e49577aSRod Evans	ldda	[%o1]ASI_FL8_P, %d2
*1e49577aSRod Evans	inc	%o1
*1e49577aSRod Evans	andcc	%o1, 7, %g0
*1e49577aSRod Evans	bnz	%ncc, 5b
*1e49577aSRod Evans	bshuffle %d0, %d2, %d0		! shifts d0 left 1 byte and or's in d2
*1e49577aSRod Evans
*1e49577aSRod Evans.beginmedloop:
*1e49577aSRod Evans	tst	%o5
*1e49577aSRod Evans	bz	%ncc, .endmedloop
*1e49577aSRod Evans	sub	%o2, %o5, %o2		! update count for later
*1e49577aSRod Evans
*1e49577aSRod Evans	! Main loop to write out doubles.  Note: o5 & 7 == 0
*1e49577aSRod Evans
*1e49577aSRod Evans	ldd	[%o1], %d2
*1e49577aSRod Evans	subcc	%o5, 8, %o5		! update local count
*1e49577aSRod Evans	bz,pn	%ncc, 1f
*1e49577aSRod Evans	add	%o1, 8, %o1		! update SRC
*1e49577aSRod Evans
*1e49577aSRod Evans.medloop:
*1e49577aSRod Evans	faligndata %d0, %d2, %d4
*1e49577aSRod Evans	ldd	[%o1], %d0
*1e49577aSRod Evans	subcc	%o5, 8, %o5		! update local count
*1e49577aSRod Evans	add	%o1, 16, %o1		! update SRC
*1e49577aSRod Evans	std	%d4, [%o0]
*1e49577aSRod Evans	bz,pn	%ncc, 2f
*1e49577aSRod Evans	faligndata %d2, %d0, %d6
*1e49577aSRod Evans	ldd	[%o1 - 8], %d2
*1e49577aSRod Evans	subcc	%o5, 8, %o5		! update local count
*1e49577aSRod Evans	std	%d6, [%o0 + 8]
*1e49577aSRod Evans	bnz,pt	%ncc, .medloop
*1e49577aSRod Evans	add	%o0, 16, %o0		! update DST
*1e49577aSRod Evans
*1e49577aSRod Evans1:
*1e49577aSRod Evans	faligndata %d0, %d2, %d4
*1e49577aSRod Evans	fmovd	%d2, %d0
*1e49577aSRod Evans	std	%d4, [%o0]
*1e49577aSRod Evans	ba	.endmedloop
*1e49577aSRod Evans	add	%o0, 8, %o0
*1e49577aSRod Evans
*1e49577aSRod Evans2:
*1e49577aSRod Evans	std	%d6, [%o0 + 8]
*1e49577aSRod Evans	sub	%o1, 8, %o1
*1e49577aSRod Evans	add	%o0, 16, %o0
*1e49577aSRod Evans
*1e49577aSRod Evans
*1e49577aSRod Evans.endmedloop:
*1e49577aSRod Evans	! Currently, o1 is pointing to the next double-aligned byte in SRC
*1e49577aSRod Evans	! The 8 bytes starting at [o1-8] are available in d0
*1e49577aSRod Evans	! At least one, and possibly all, of these need to be written.
*1e49577aSRod Evans
*1e49577aSRod Evans	cmp	%o2, BLOCK_SIZE
*1e49577aSRod Evans	bgu	%ncc, .large		! otherwise, less than 16 bytes left
*1e49577aSRod Evans
*1e49577aSRod Evans#if 0
*1e49577aSRod Evans
*1e49577aSRod Evans	/* This code will use partial stores.  */
*1e49577aSRod Evans
*1e49577aSRod Evans	mov	%g0, %o5
*1e49577aSRod Evans	and	%o3, 7, %o3		! Number of bytes needed to completely
*1e49577aSRod Evans					! fill %d0 with good (unwritten) data.
*1e49577aSRod Evans
*1e49577aSRod Evans	subcc	%o2, 8, %o2		! update count (maybe too much)
*1e49577aSRod Evans	movl	%ncc, %o2, %o5
*1e49577aSRod Evans	addcc	%o3, %o5, %o5		! extra bytes we can stuff into %d0
*1e49577aSRod Evans	sub	%o3, %o5, %o3		! update o3 (# bad bytes in %d0)
*1e49577aSRod Evans
*1e49577aSRod Evans	bz	%ncc, 2f
*1e49577aSRod Evans	alignaddr %o3, %g0, %g0		! set GSR.ALIGN
*1e49577aSRod Evans
*1e49577aSRod Evans1:
*1e49577aSRod Evans	deccc	%o5
*1e49577aSRod Evans	ldda	[%o1]ASI_FL8_P, %d2
*1e49577aSRod Evans	inc	%o1
*1e49577aSRod Evans	bgu	%ncc, 1b
*1e49577aSRod Evans	bshuffle %d0, %d2, %d0		! shifts d0 left 1 byte and or's in d2
*1e49577aSRod Evans
*1e49577aSRod Evans2:
*1e49577aSRod Evans	not	%o3
*1e49577aSRod Evans	faligndata %d0, %d0, %d0	! shift bytes to the left
*1e49577aSRod Evans	and	%o3, 7, %o3		! last byte to be stored in [%o0+%o3]
*1e49577aSRod Evans	edge8n	%g0, %o3, %o5
*1e49577aSRod Evans	stda	%d0, [%o0]%o5, ASI_PST8_P
*1e49577aSRod Evans	brlez	%o2, .mediumexit
*1e49577aSRod Evans	add	%o0, %o3, %o0		! update DST to last stored byte
*1e49577aSRod Evans3:
*1e49577aSRod Evans	inc	%o0
*1e49577aSRod Evans	deccc	%o2
*1e49577aSRod Evans	ldub	[%o1], %o3
*1e49577aSRod Evans	stb	%o3, [%o0]
*1e49577aSRod Evans	bgu	%ncc, 3b
*1e49577aSRod Evans	inc	%o1
*1e49577aSRod Evans
*1e49577aSRod Evans#else
*1e49577aSRod Evans
*1e49577aSRod Evans	andcc	%o3, 7, %o5		! Number of bytes needed to completely
*1e49577aSRod Evans					! fill %d0 with good (unwritten) data.
*1e49577aSRod Evans	bz	%ncc, 2f
*1e49577aSRod Evans	sub	%o5, 8, %o3		! -(number of good bytes in %d0)
*1e49577aSRod Evans	cmp	%o2, 8
*1e49577aSRod Evans	bl,a	%ncc, 3f		! Not enough bytes to fill %d0
*1e49577aSRod Evans	add	%o1, %o3, %o1 		! Back up %o1
*1e49577aSRod Evans
*1e49577aSRod Evans1:
*1e49577aSRod Evans	deccc	%o5
*1e49577aSRod Evans	ldda	[%o1]ASI_FL8_P, %d2
*1e49577aSRod Evans	inc	%o1
*1e49577aSRod Evans	bgu	%ncc, 1b
*1e49577aSRod Evans	bshuffle %d0, %d2, %d0		! shifts d0 left 1 byte and or's in d2
*1e49577aSRod Evans
*1e49577aSRod Evans2:
*1e49577aSRod Evans	subcc	%o2, 8, %o2
*1e49577aSRod Evans	std	%d0, [%o0]
*1e49577aSRod Evans	bz	%ncc, .mediumexit
*1e49577aSRod Evans	add	%o0, 8, %o0
*1e49577aSRod Evans3:
*1e49577aSRod Evans	ldub	[%o1], %o3
*1e49577aSRod Evans	deccc	%o2
*1e49577aSRod Evans	inc	%o1
*1e49577aSRod Evans	stb	%o3, [%o0]
*1e49577aSRod Evans	bgu	%ncc, 3b
*1e49577aSRod Evans	inc	%o0
*1e49577aSRod Evans#endif
*1e49577aSRod Evans
*1e49577aSRod Evans.mediumexit:
*1e49577aSRod Evans        wr	%o4, %g0, %fprs		! fprs = o4   restore fprs
*1e49577aSRod Evans	retl
*1e49577aSRod Evans        mov	%g1, %o0
*1e49577aSRod Evans
*1e49577aSRod Evans
*1e49577aSRod Evans	.align ICACHE_LINE_SIZE
*1e49577aSRod Evans.large:
*1e49577aSRod Evans
*1e49577aSRod Evans	! %o0 I/O DST is 64-byte aligned
*1e49577aSRod Evans	! %o1 I/O 8-byte aligned (and we've set GSR.ALIGN)
*1e49577aSRod Evans	! %d0 I/O already loaded with SRC data from [%o1-8]
*1e49577aSRod Evans	! %o2 I/O count (number of bytes that need to be written)
*1e49577aSRod Evans	! %o3 I   Not written.  If zero, then SRC is double aligned.
*1e49577aSRod Evans	! %o4 I   Not written.  Holds fprs.
*1e49577aSRod Evans	! %o5   O The number of doubles that remain to be written.
*1e49577aSRod Evans
*1e49577aSRod Evans	! Load the rest of the current block
*1e49577aSRod Evans	! Recall that %o1 is further into SRC than %o0 is into DST
*1e49577aSRod Evans
*1e49577aSRod Evans	prefetch [%o1 + (4 * BLOCK_SIZE)], #one_read
*1e49577aSRod Evans	prefetch [%o1 + (8 * BLOCK_SIZE)], #one_read
*1e49577aSRod Evans
*1e49577aSRod Evans	set	BST_THRESHOLD, %o5
*1e49577aSRod Evans	cmp	%o2, %o5
*1e49577aSRod Evans	bgu,pn	%icc, .xlarge
*1e49577aSRod Evans	prefetch [%o1 + (12 * BLOCK_SIZE)], #one_read
*1e49577aSRod Evans
*1e49577aSRod Evans	ldd	[%o1], %f2
*1e49577aSRod Evans	ldd	[%o1 + 0x8], %f4
*1e49577aSRod Evans	faligndata %f0, %f2, %f32
*1e49577aSRod Evans	ldd	[%o1 + 0x10], %f6
*1e49577aSRod Evans	faligndata %f2, %f4, %f34
*1e49577aSRod Evans	ldd	[%o1 + 0x18], %f8
*1e49577aSRod Evans	faligndata %f4, %f6, %f36
*1e49577aSRod Evans	ldd	[%o1 + 0x20], %f10
*1e49577aSRod Evans	or	%g0, -8, %o5		! if %o3 >= 0, %o5 = -8
*1e49577aSRod Evans	faligndata %f6, %f8, %f38
*1e49577aSRod Evans	prefetch [%o1 + (16 * BLOCK_SIZE)], #one_read
*1e49577aSRod Evans	ldd	[%o1 + 0x28], %f12
*1e49577aSRod Evans	movrlz	%o3, %g0, %o5		! if %o3 < 0, %o5 = 0  (needed lter)
*1e49577aSRod Evans	faligndata %f8, %f10, %f40
*1e49577aSRod Evans	ldd	[%o1 + 0x30], %f14
*1e49577aSRod Evans	faligndata %f10, %f12, %f42
*1e49577aSRod Evans	ldd	[%o1 + 0x38], %f0
*1e49577aSRod Evans	sub	%o2, BLOCK_SIZE, %o2	! update count
*1e49577aSRod Evans	add	%o1, BLOCK_SIZE, %o1	! update SRC
*1e49577aSRod Evans
*1e49577aSRod Evans	! Main loop.  Write previous block.  Load rest of current block.
*1e49577aSRod Evans	! Some bytes will be loaded that won't yet be written.
*1e49577aSRod Evans1:
*1e49577aSRod Evans	ldd	[%o1], %f2
*1e49577aSRod Evans	faligndata %f12, %f14, %f44
*1e49577aSRod Evans	ldd	[%o1 + 0x8], %f4
*1e49577aSRod Evans	faligndata %f14, %f0, %f46
*1e49577aSRod Evans	std	%f32, [%o0]
*1e49577aSRod Evans	std	%f34, [%o0+8]
*1e49577aSRod Evans	std	%f36, [%o0+16]
*1e49577aSRod Evans	std	%f38, [%o0+24]
*1e49577aSRod Evans	std	%f40, [%o0+32]
*1e49577aSRod Evans	std	%f42, [%o0+40]
*1e49577aSRod Evans	std	%f44, [%o0+48]
*1e49577aSRod Evans	std	%f46, [%o0+56]
*1e49577aSRod Evans	sub	%o2, BLOCK_SIZE, %o2		! update count
*1e49577aSRod Evans	prefetch [%o1 + (24 * BLOCK_SIZE) + BLOCK_SIZE], #one_read
*1e49577aSRod Evans	add	%o0, BLOCK_SIZE, %o0		! update DST
*1e49577aSRod Evans	ldd	[%o1 + 0x10], %f6
*1e49577aSRod Evans	faligndata %f0, %f2, %f32
*1e49577aSRod Evans	ldd	[%o1 + 0x18], %f8
*1e49577aSRod Evans	faligndata %f2, %f4, %f34
*1e49577aSRod Evans	ldd	[%o1 + 0x20], %f10
*1e49577aSRod Evans	faligndata %f4, %f6, %f36
*1e49577aSRod Evans	ldd	[%o1 + 0x28], %f12
*1e49577aSRod Evans	faligndata %f6, %f8, %f38
*1e49577aSRod Evans	ldd	[%o1 + 0x30], %f14
*1e49577aSRod Evans	faligndata %f8, %f10, %f40
*1e49577aSRod Evans	ldd	[%o1 + 0x38], %f0
*1e49577aSRod Evans	faligndata %f10, %f12, %f42
*1e49577aSRod Evans	prefetch [%o1 + (18 * BLOCK_SIZE)], #one_read
*1e49577aSRod Evans	cmp	%o2, BLOCK_SIZE + 8
*1e49577aSRod Evans	prefetch [%o0 + (18 * BLOCK_SIZE)], #one_write
*1e49577aSRod Evans	bgu,pt	%ncc, 1b
*1e49577aSRod Evans	add	%o1, BLOCK_SIZE, %o1	! update SRC
*1e49577aSRod Evans	faligndata %f12, %f14, %f44
*1e49577aSRod Evans	faligndata %f14, %f0, %f46
*1e49577aSRod Evans	stda	%f32, [%o0]ASI_BLK_P		! store 64 bytes, bypass cache
*1e49577aSRod Evans	cmp	%o2, BLOCK_SIZE
*1e49577aSRod Evans	bne	%ncc, 2f		! exactly 1 block remaining?
*1e49577aSRod Evans	add	%o0, BLOCK_SIZE, %o0	! update DST
*1e49577aSRod Evans	brz,a	%o3, 3f			! is SRC double aligned?
*1e49577aSRod Evans	ldd	[%o1], %f2
*1e49577aSRod Evans
*1e49577aSRod Evans2:
*1e49577aSRod Evans	add	%o5, %o2, %o5		! %o5 was already set to 0 or -8
*1e49577aSRod Evans	add	%o5, %o3, %o5
*1e49577aSRod Evans
*1e49577aSRod Evans	membar	#StoreLoad|#StoreStore
*1e49577aSRod Evans
*1e49577aSRod Evans	ba	.beginmedloop
*1e49577aSRod Evans	andn	%o5, 7, %o5		! 8 byte aligned count
*1e49577aSRod Evans
*1e49577aSRod Evans
*1e49577aSRod Evans	! This is when there is exactly 1 block remaining and SRC is aligned
*1e49577aSRod Evans3:
*1e49577aSRod Evans	ldd	[%o1 + 0x8], %f4
*1e49577aSRod Evans	ldd	[%o1 + 0x10], %f6
*1e49577aSRod Evans	fsrc1	%f0, %f32
*1e49577aSRod Evans	ldd	[%o1 + 0x18], %f8
*1e49577aSRod Evans	fsrc1	%f2, %f34
*1e49577aSRod Evans	ldd	[%o1 + 0x20], %f10
*1e49577aSRod Evans	fsrc1	%f4, %f36
*1e49577aSRod Evans	ldd	[%o1 + 0x28], %f12
*1e49577aSRod Evans	fsrc1	%f6, %f38
*1e49577aSRod Evans	ldd	[%o1 + 0x30], %f14
*1e49577aSRod Evans	fsrc1	%f8, %f40
*1e49577aSRod Evans	fsrc1	%f10, %f42
*1e49577aSRod Evans	fsrc1	%f12, %f44
*1e49577aSRod Evans	fsrc1	%f14, %f46
*1e49577aSRod Evans	stda	%f32, [%o0]ASI_BLK_P
*1e49577aSRod Evans	membar	#StoreLoad|#StoreStore
*1e49577aSRod Evans	wr	%o4, 0, %fprs
*1e49577aSRod Evans	retl
*1e49577aSRod Evans	mov	%g1, %o0
*1e49577aSRod Evans
*1e49577aSRod Evans
*1e49577aSRod Evans	.align 16
*1e49577aSRod Evans	! two nops here causes loop starting at 1f below to be
*1e49577aSRod Evans	! on a cache line boundary, improving performance
*1e49577aSRod Evans	nop
*1e49577aSRod Evans	nop
*1e49577aSRod Evans.xlarge:
*1e49577aSRod Evans	! %o0 I/O DST is 64-byte aligned
*1e49577aSRod Evans	! %o1 I/O 8-byte aligned (and we've set GSR.ALIGN)
*1e49577aSRod Evans	! %d0 I/O already loaded with SRC data from [%o1-8]
*1e49577aSRod Evans	! %o2 I/O count (number of bytes that need to be written)
*1e49577aSRod Evans	! %o3 I   Not written.  If zero, then SRC is double aligned.
*1e49577aSRod Evans	! %o4 I   Not written.  Holds fprs.
*1e49577aSRod Evans	! %o5   O The number of doubles that remain to be written.
*1e49577aSRod Evans
*1e49577aSRod Evans	! Load the rest of the current block
*1e49577aSRod Evans	! Recall that %o1 is further into SRC than %o0 is into DST
*1e49577aSRod Evans
*1e49577aSRod Evans	ldd	[%o1], %f2
*1e49577aSRod Evans	ldd	[%o1 + 0x8], %f4
*1e49577aSRod Evans	faligndata %f0, %f2, %f32
*1e49577aSRod Evans	ldd	[%o1 + 0x10], %f6
*1e49577aSRod Evans	faligndata %f2, %f4, %f34
*1e49577aSRod Evans	ldd	[%o1 + 0x18], %f8
*1e49577aSRod Evans	faligndata %f4, %f6, %f36
*1e49577aSRod Evans	ldd	[%o1 + 0x20], %f10
*1e49577aSRod Evans	or	%g0, -8, %o5		! if %o3 >= 0, %o5 = -8
*1e49577aSRod Evans	faligndata %f6, %f8, %f38
*1e49577aSRod Evans	ldd	[%o1 + 0x28], %f12
*1e49577aSRod Evans	movrlz	%o3, %g0, %o5		! if %o3 < 0, %o5 = 0  (needed later)
*1e49577aSRod Evans	prefetch [%o1 + (16 * BLOCK_SIZE)], #one_read
*1e49577aSRod Evans	faligndata %f8, %f10, %f40
*1e49577aSRod Evans	ldd	[%o1 + 0x30], %f14
*1e49577aSRod Evans	faligndata %f10, %f12, %f42
*1e49577aSRod Evans	ldd	[%o1 + 0x38], %f0
*1e49577aSRod Evans	prefetch [%o1 + (17 * BLOCK_SIZE)], #one_read
*1e49577aSRod Evans	sub	%o2, BLOCK_SIZE, %o2	! update count
*1e49577aSRod Evans	add	%o1, BLOCK_SIZE, %o1	! update SRC
*1e49577aSRod Evans
*1e49577aSRod Evans	! This point is 32-byte aligned since 24 instructions appear since
*1e49577aSRod Evans	! the previous alignment directive.
*1e49577aSRod Evans
*1e49577aSRod Evans
*1e49577aSRod Evans	! Main loop.  Write previous block.  Load rest of current block.
*1e49577aSRod Evans	! Some bytes will be loaded that won't yet be written.
*1e49577aSRod Evans1:
*1e49577aSRod Evans	ldd	[%o1], %f2
*1e49577aSRod Evans	faligndata %f12, %f14, %f44
*1e49577aSRod Evans	ldd	[%o1 + 0x8], %f4
*1e49577aSRod Evans	faligndata %f14, %f0, %f46
*1e49577aSRod Evans	stda	%f32, [%o0]ASI_BLK_P
*1e49577aSRod Evans	sub	%o2, BLOCK_SIZE, %o2		! update count
*1e49577aSRod Evans	ldd	[%o1 + 0x10], %f6
*1e49577aSRod Evans	faligndata %f0, %f2, %f32
*1e49577aSRod Evans	ldd	[%o1 + 0x18], %f8
*1e49577aSRod Evans	faligndata %f2, %f4, %f34
*1e49577aSRod Evans	ldd	[%o1 + 0x20], %f10
*1e49577aSRod Evans	faligndata %f4, %f6, %f36
*1e49577aSRod Evans	ldd	[%o1 + 0x28], %f12
*1e49577aSRod Evans	faligndata %f6, %f8, %f38
*1e49577aSRod Evans	ldd	[%o1 + 0x30], %f14
*1e49577aSRod Evans	prefetch [%o1 + (2 * BLOCK_SIZE)], #n_reads
*1e49577aSRod Evans	faligndata %f8, %f10, %f40
*1e49577aSRod Evans	ldd	[%o1 + 0x38], %f0
*1e49577aSRod Evans	faligndata %f10, %f12, %f42
*1e49577aSRod Evans	prefetch [%o1 + (25 * BLOCK_SIZE)], #one_read
*1e49577aSRod Evans	add	%o0, BLOCK_SIZE, %o0		! update DST
*1e49577aSRod Evans	cmp	%o2, BLOCK_SIZE + 8
*1e49577aSRod Evans	! second prefetch important to correct for occasional dropped
*1e49577aSRod Evans	prefetch [%o1 + (18 * BLOCK_SIZE)], #one_read
*1e49577aSRod Evans	bgu,pt	%ncc, 1b
*1e49577aSRod Evans	add	%o1, BLOCK_SIZE, %o1		! update SRC
*1e49577aSRod Evans
*1e49577aSRod Evans	faligndata %f12, %f14, %f44
*1e49577aSRod Evans	faligndata %f14, %f0, %f46
*1e49577aSRod Evans	stda	%f32, [%o0]ASI_BLK_P		! store 64 bytes, bypass cache
*1e49577aSRod Evans	cmp	%o2, BLOCK_SIZE
*1e49577aSRod Evans	bne	%ncc, 2f		! exactly 1 block remaining?
*1e49577aSRod Evans	add	%o0, BLOCK_SIZE, %o0	! update DST
*1e49577aSRod Evans	brz,a	%o3, 3f			! is SRC double aligned?
*1e49577aSRod Evans	ldd	[%o1], %f2
*1e49577aSRod Evans
*1e49577aSRod Evans2:
*1e49577aSRod Evans	add	%o5, %o2, %o5		! %o5 was already set to 0 or -8
*1e49577aSRod Evans	add	%o5, %o3, %o5
*1e49577aSRod Evans
*1e49577aSRod Evans	membar	#StoreLoad|#StoreStore
*1e49577aSRod Evans
*1e49577aSRod Evans	ba	.beginmedloop
*1e49577aSRod Evans	andn	%o5, 7, %o5		! 8 byte aligned count
*1e49577aSRod Evans
*1e49577aSRod Evans
*1e49577aSRod Evans	! This is when there is exactly 1 block remaining and SRC is aligned
*1e49577aSRod Evans3:
*1e49577aSRod Evans	ldd	[%o1 + 0x8], %f4
*1e49577aSRod Evans	ldd	[%o1 + 0x10], %f6
*1e49577aSRod Evans	fsrc1	%f0, %f32
*1e49577aSRod Evans	ldd	[%o1 + 0x18], %f8
*1e49577aSRod Evans	fsrc1	%f2, %f34
*1e49577aSRod Evans	ldd	[%o1 + 0x20], %f10
*1e49577aSRod Evans	fsrc1	%f4, %f36
*1e49577aSRod Evans	ldd	[%o1 + 0x28], %f12
*1e49577aSRod Evans	fsrc1	%f6, %f38
*1e49577aSRod Evans	ldd	[%o1 + 0x30], %f14
*1e49577aSRod Evans	fsrc1	%f8, %f40
*1e49577aSRod Evans	fsrc1	%f10, %f42
*1e49577aSRod Evans	fsrc1	%f12, %f44
*1e49577aSRod Evans	fsrc1	%f14, %f46
*1e49577aSRod Evans	stda	%f32, [%o0]ASI_BLK_P
*1e49577aSRod Evans	membar	#StoreLoad|#StoreStore
*1e49577aSRod Evans	wr	%o4, 0, %fprs
*1e49577aSRod Evans	retl
*1e49577aSRod Evans	mov	%g1, %o0
*1e49577aSRod Evans
*1e49577aSRod Evans	SET_SIZE(memcpy)