sun4v/common/memcpy.S

*5d9d9091SRichard Lowe/*
*5d9d9091SRichard Lowe * CDDL HEADER START
*5d9d9091SRichard Lowe *
*5d9d9091SRichard Lowe * The contents of this file are subject to the terms of the
*5d9d9091SRichard Lowe * Common Development and Distribution License (the "License").
*5d9d9091SRichard Lowe * You may not use this file except in compliance with the License.
*5d9d9091SRichard Lowe *
*5d9d9091SRichard Lowe * You can obtain a copy of the license at usr/src/OPENSOLARIS.LICENSE
*5d9d9091SRichard Lowe * or http://www.opensolaris.org/os/licensing.
*5d9d9091SRichard Lowe * See the License for the specific language governing permissions
*5d9d9091SRichard Lowe * and limitations under the License.
*5d9d9091SRichard Lowe *
*5d9d9091SRichard Lowe * When distributing Covered Code, include this CDDL HEADER in each
*5d9d9091SRichard Lowe * file and include the License file at usr/src/OPENSOLARIS.LICENSE.
*5d9d9091SRichard Lowe * If applicable, add the following below this CDDL HEADER, with the
*5d9d9091SRichard Lowe * fields enclosed by brackets "[]" replaced with your own identifying
*5d9d9091SRichard Lowe * information: Portions Copyright [yyyy] [name of copyright owner]
*5d9d9091SRichard Lowe *
*5d9d9091SRichard Lowe * CDDL HEADER END
*5d9d9091SRichard Lowe */
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe/*
*5d9d9091SRichard Lowe * Copyright (c) 2005, 2010, Oracle and/or its affiliates. All rights reserved.
*5d9d9091SRichard Lowe */
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	.file	"memcpy.s"
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe/*
*5d9d9091SRichard Lowe * memcpy(s1, s2, len)
*5d9d9091SRichard Lowe *
*5d9d9091SRichard Lowe * Copy s2 to s1, always copy n bytes.
*5d9d9091SRichard Lowe * Note: this C code does not work for overlapped copies.
*5d9d9091SRichard Lowe *       Memmove() and bcopy() do.
*5d9d9091SRichard Lowe *
*5d9d9091SRichard Lowe * Added entry __align_cpy_1 is generally for use of the compilers.
*5d9d9091SRichard Lowe *
*5d9d9091SRichard Lowe * Fast assembler language version of the following C-program for memcpy
*5d9d9091SRichard Lowe * which represents the `standard' for the C-library.
*5d9d9091SRichard Lowe *
*5d9d9091SRichard Lowe *	void *
*5d9d9091SRichard Lowe *	memcpy(void *s, const void *s0, size_t n)
*5d9d9091SRichard Lowe *	{
*5d9d9091SRichard Lowe *		if (n != 0) {
*5d9d9091SRichard Lowe *		    char *s1 = s;
*5d9d9091SRichard Lowe *		    const char *s2 = s0;
*5d9d9091SRichard Lowe *		    do {
*5d9d9091SRichard Lowe *			*s1++ = *s2++;
*5d9d9091SRichard Lowe *		    } while (--n != 0);
*5d9d9091SRichard Lowe *		}
*5d9d9091SRichard Lowe *		return (s);
*5d9d9091SRichard Lowe *	}
*5d9d9091SRichard Lowe *
*5d9d9091SRichard Lowe *
*5d9d9091SRichard Lowe * N1 Flow :
*5d9d9091SRichard Lowe *
*5d9d9091SRichard Lowe * if (count < 17) {
*5d9d9091SRichard Lowe *	Do the byte copy
*5d9d9091SRichard Lowe *	Return destination address
*5d9d9091SRichard Lowe * }
*5d9d9091SRichard Lowe * if (count < 128) {
*5d9d9091SRichard Lowe *	Is source aligned on word boundary
*5d9d9091SRichard Lowe *	If no then align source on word boundary then goto .ald
*5d9d9091SRichard Lowe *	If yes goto .ald
*5d9d9091SRichard Lowe *	.ald:
*5d9d9091SRichard Lowe *		Is destination aligned on word boundary
*5d9d9091SRichard Lowe *		Depending on destination offset (last 2 bits of destination)
*5d9d9091SRichard Lowe *		copy data by shifting and merging.
*5d9d9091SRichard Lowe *		Copy residue bytes as byte copy
*5d9d9091SRichard Lowe *		Return destination address
*5d9d9091SRichard Lowe * } else {
*5d9d9091SRichard Lowe *	Align destination on block boundary
*5d9d9091SRichard Lowe *	Depending on the source offset (last 4 bits of source address) align
*5d9d9091SRichard Lowe *	the data and store to destination. Both the load and store are done
*5d9d9091SRichard Lowe *	using ASI_BLK_INIT_ST_QUAD_LDD_P.
*5d9d9091SRichard Lowe *	For remaining count copy as much data in 8-byte chunk from source to
*5d9d9091SRichard Lowe *	destination.
*5d9d9091SRichard Lowe *	Followed by trailing copy using byte copy.
*5d9d9091SRichard Lowe *	Return saved destination address
*5d9d9091SRichard Lowe * }
*5d9d9091SRichard Lowe *
*5d9d9091SRichard Lowe *
*5d9d9091SRichard Lowe * N2 Flow :
*5d9d9091SRichard Lowe * Flow :
*5d9d9091SRichard Lowe *
*5d9d9091SRichard Lowe * if (count < 128) {
*5d9d9091SRichard Lowe *   if count < 3
*5d9d9091SRichard Lowe *	copy bytes; exit with dst addr
*5d9d9091SRichard Lowe *   if src & dst aligned on word boundary but not long word boundary,
*5d9d9091SRichard Lowe *     copy with ldw/stw; branch to finish_up
*5d9d9091SRichard Lowe *   if src & dst aligned on long word boundary
*5d9d9091SRichard Lowe *     copy with ldx/stx; branch to finish_up
*5d9d9091SRichard Lowe *   if src & dst not aligned and length <= 14
*5d9d9091SRichard Lowe *     copy bytes; exit with dst addr
*5d9d9091SRichard Lowe *   move enough bytes to get src to word boundary
*5d9d9091SRichard Lowe *   if dst now on word boundary
*5d9d9091SRichard Lowe * move_words:
*5d9d9091SRichard Lowe *     copy words; branch to finish_up
*5d9d9091SRichard Lowe *   if dst now on half word boundary
*5d9d9091SRichard Lowe *     load words, shift half words, store words; branch to finish_up
*5d9d9091SRichard Lowe *   if dst on byte 1
*5d9d9091SRichard Lowe *     load words, shift 3 bytes, store words; branch to finish_up
*5d9d9091SRichard Lowe *   if dst on byte 3
*5d9d9091SRichard Lowe *     load words, shift 1 byte, store words; branch to finish_up
*5d9d9091SRichard Lowe * finish_up:
*5d9d9091SRichard Lowe *     copy bytes; exit with dst addr
*5d9d9091SRichard Lowe * } else {                                         More than 128 bytes
*5d9d9091SRichard Lowe *   move bytes until dst is on long word boundary
*5d9d9091SRichard Lowe *   if( src is on long word boundary ) {
*5d9d9091SRichard Lowe *     if (count < 512) {
*5d9d9091SRichard Lowe * finish_long:				           src/dst aligned on 8 bytes
*5d9d9091SRichard Lowe *       copy with ldx/stx in 8-way unrolled loop;
*5d9d9091SRichard Lowe *       copy final 0-63 bytes; exit with dst addr
*5d9d9091SRichard Lowe *     } else {                                 src/dst aligned; count > 512
*5d9d9091SRichard Lowe *       align dst on 64 byte boundary; use 8-way test for each of 8 possible
*5d9d9091SRichard Lowe *       src alignments relative to a 64 byte boundary to select the
*5d9d9091SRichard Lowe *       16-way unrolled loop to use for
*5d9d9091SRichard Lowe *       block load, fmovd, block-init-store, block-store, fmovd operations
*5d9d9091SRichard Lowe *       then go to finish_long.
*5d9d9091SRichard Lowe *     }
*5d9d9091SRichard Lowe *   } else {                                   src/dst not aligned on 8 bytes
*5d9d9091SRichard Lowe *     if src is word aligned and count < 512
*5d9d9091SRichard Lowe *       move words in 8-way unrolled loop
*5d9d9091SRichard Lowe *       move final 0-31 bytes; exit with dst addr
*5d9d9091SRichard Lowe *     if count < 512
*5d9d9091SRichard Lowe *       use alignaddr/faligndata combined with ldd/std in 8-way
*5d9d9091SRichard Lowe *       unrolled loop to move data.
*5d9d9091SRichard Lowe *       go to unalign_done
*5d9d9091SRichard Lowe *     else
*5d9d9091SRichard Lowe *       setup alignaddr for faligndata instructions
*5d9d9091SRichard Lowe *       align dst on 64 byte boundary; use 8-way test for each of 8 possible
*5d9d9091SRichard Lowe *       src alignments to nearest long word relative to 64 byte boundary to
*5d9d9091SRichard Lowe *       select the 8-way unrolled loop to use for
*5d9d9091SRichard Lowe *       block load, falign, fmovd, block-init-store, block-store loop
*5d9d9091SRichard Lowe *	 (only use block-init-store when src/dst on 8 byte boundaries.)
*5d9d9091SRichard Lowe * unalign_done:
*5d9d9091SRichard Lowe *       move remaining bytes for unaligned cases. exit with dst addr.
*5d9d9091SRichard Lowe * }
*5d9d9091SRichard Lowe *
*5d9d9091SRichard Lowe * Comment on N2 memmove and memcpy common code and block-store-init:
*5d9d9091SRichard Lowe *   In the man page for memmove, it specifies that copying will take place
*5d9d9091SRichard Lowe *   correctly between objects that overlap.  For memcpy, behavior is
*5d9d9091SRichard Lowe *   undefined for objects that overlap.
*5d9d9091SRichard Lowe *
*5d9d9091SRichard Lowe *   In rare cases, some multi-threaded applications may attempt to examine
*5d9d9091SRichard Lowe *   the copy destination buffer during the copy. Using the block-store-init
*5d9d9091SRichard Lowe *   instruction allows those applications to observe zeros in some
*5d9d9091SRichard Lowe *   cache lines of the destination buffer for narrow windows. But the
*5d9d9091SRichard Lowe *   the block-store-init provides memory throughput advantages for many
*5d9d9091SRichard Lowe *   common applications. To meet both needs, those applications which need
*5d9d9091SRichard Lowe *   the destination buffer to retain meaning during the copy should use
*5d9d9091SRichard Lowe *   memmove instead of memcpy.  The memmove version duplicates the memcpy
*5d9d9091SRichard Lowe *   algorithms except the memmove version does not use block-store-init
*5d9d9091SRichard Lowe *   in those cases where memcpy does use block-store-init. Otherwise, when
*5d9d9091SRichard Lowe *   memmove can determine the source and destination do not overlap,
*5d9d9091SRichard Lowe *   memmove shares the memcpy code.
*5d9d9091SRichard Lowe */
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe#include <sys/asm_linkage.h>
*5d9d9091SRichard Lowe#include <sys/niagaraasi.h>
*5d9d9091SRichard Lowe#include <sys/asi.h>
*5d9d9091SRichard Lowe#include <sys/trap.h>
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe/* documented name for primary block initializing store */
*5d9d9091SRichard Lowe#define	ASI_STBI_P	ASI_BLK_INIT_ST_QUAD_LDD_P
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe#define	BLOCK_SIZE	64
*5d9d9091SRichard Lowe#define	FPRS_FEF	0x4
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe#define	SHORTCOPY	3
*5d9d9091SRichard Lowe#define	SHORTCHECK	14
*5d9d9091SRichard Lowe#define	SHORT_LONG	64	/* max copy for short longword-aligned case */
*5d9d9091SRichard Lowe				/* must be at least 32 */
*5d9d9091SRichard Lowe#define	SMALL_MAX	128
*5d9d9091SRichard Lowe#define	MED_UMAX	512	/* max copy for medium un-aligned case */
*5d9d9091SRichard Lowe#define	MED_WMAX	512	/* max copy for medium word-aligned case */
*5d9d9091SRichard Lowe#define	MED_MAX		512	/* max copy for medium longword-aligned case */
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe#ifdef NIAGARA2_IMPL
*5d9d9091SRichard Lowe#include <sys/sun4asi.h>
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe#else	/* NIAGARA2_IMPL */
*5d9d9091SRichard Lowe/*
*5d9d9091SRichard Lowe * This define is to align data for the unaligned source cases.
*5d9d9091SRichard Lowe * The data1, data2 and data3 is merged into data1 and data2.
*5d9d9091SRichard Lowe * The data3 is preserved for next merge.
*5d9d9091SRichard Lowe */
*5d9d9091SRichard Lowe#define	ALIGN_DATA(data1, data2, data3, lshift, rshift, tmp)	\
*5d9d9091SRichard Lowe	sllx	data1, lshift, data1				;\
*5d9d9091SRichard Lowe	srlx	data2, rshift, tmp				;\
*5d9d9091SRichard Lowe	or	data1, tmp, data1				;\
*5d9d9091SRichard Lowe	sllx	data2, lshift, data2				;\
*5d9d9091SRichard Lowe	srlx	data3, rshift, tmp				;\
*5d9d9091SRichard Lowe	or	data2, tmp, data2
*5d9d9091SRichard Lowe/*
*5d9d9091SRichard Lowe * Align the data. Merge the data1 and data2 into data1.
*5d9d9091SRichard Lowe */
*5d9d9091SRichard Lowe#define	ALIGN_DATA_EW(data1, data2, lshift, rshift, tmp)	\
*5d9d9091SRichard Lowe	sllx	data1, lshift, data1				;\
*5d9d9091SRichard Lowe	srlx	data2, rshift, tmp				;\
*5d9d9091SRichard Lowe	or	data1, tmp, data1
*5d9d9091SRichard Lowe#endif	/* NIAGARA2_IMPL */
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	ANSI_PRAGMA_WEAK(memmove,function)
*5d9d9091SRichard Lowe	ANSI_PRAGMA_WEAK(memcpy,function)
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	ENTRY(memmove)
*5d9d9091SRichard Lowe	cmp	%o1, %o0	! if from address is >= to use forward copy
*5d9d9091SRichard Lowe	bgeu,pn	%ncc, .forcpy	! else use backward if ...
*5d9d9091SRichard Lowe	sub	%o0, %o1, %o4	! get difference of two addresses
*5d9d9091SRichard Lowe	cmp	%o2, %o4	! compare size and difference of addresses
*5d9d9091SRichard Lowe	bleu,pn	%ncc, .forcpy	! if size is bigger, do overlapped copy
*5d9d9091SRichard Lowe	add	%o1, %o2, %o5	! get to end of source space
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	!
*5d9d9091SRichard Lowe	! an overlapped copy that must be done "backwards"
*5d9d9091SRichard Lowe	!
*5d9d9091SRichard Lowe.chksize:
*5d9d9091SRichard Lowe	cmp	%o2, 8			! less than 8 byte do byte copy
*5d9d9091SRichard Lowe	blu,pt %ncc, 2f			! else continue
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	! Now size is bigger than 8
*5d9d9091SRichard Lowe.dbalign:
*5d9d9091SRichard Lowe	add	%o0, %o2, %g1		! get to end of dest space
*5d9d9091SRichard Lowe	andcc	%g1, 7, %o3		! %o3 has bytes till dst 8 bytes aligned
*5d9d9091SRichard Lowe	bz,a,pn	%ncc, .dbbck		! if dst is not 8 byte aligned: align it
*5d9d9091SRichard Lowe	andn	%o2, 7, %o3		! %o3 count is multiple of 8 bytes size
*5d9d9091SRichard Lowe	sub	%o2, %o3, %o2		! update o2 with new count
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe1:	dec	%o5			! decrement source
*5d9d9091SRichard Lowe	ldub	[%o5], %g1		! load one byte
*5d9d9091SRichard Lowe	deccc	%o3			! decrement count
*5d9d9091SRichard Lowe	bgu,pt	%ncc, 1b		! if not done keep copying
*5d9d9091SRichard Lowe	stb	%g1, [%o5+%o4]		! store one byte into dest
*5d9d9091SRichard Lowe	andncc	%o2, 7, %o3		! %o3 count is multiple of 8 bytes size
*5d9d9091SRichard Lowe	bz,pn	%ncc, 2f		! if size < 8, move to byte copy
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	! Now Destination is 8 byte aligned
*5d9d9091SRichard Lowe.dbbck:
*5d9d9091SRichard Lowe	andcc	%o5, 7, %o0		! %o0 has src offset
*5d9d9091SRichard Lowe	bz,a,pn	%ncc, .dbcopybc		! if src is aligned to fast mem move
*5d9d9091SRichard Lowe	sub	%o2, %o3, %o2		! Residue bytes in %o2
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.cpy_dbwdbc:				! alignment of src is needed
*5d9d9091SRichard Lowe	sub	%o2, 8, %o2		! set size one loop ahead
*5d9d9091SRichard Lowe	sll	%o0, 3, %g1		! %g1 is left shift
*5d9d9091SRichard Lowe	mov	64, %g5			! init %g5 to be 64
*5d9d9091SRichard Lowe	sub	%g5, %g1, %g5		! %g5 right shift = (64 - left shift)
*5d9d9091SRichard Lowe	sub	%o5, %o0, %o5		! align the src at 8 bytes.
*5d9d9091SRichard Lowe	add	%o4, %o0, %o4		! increase difference between src & dst
*5d9d9091SRichard Lowe	ldx	[%o5], %o1		! load first 8 bytes
*5d9d9091SRichard Lowe	srlx	%o1, %g5, %o1
*5d9d9091SRichard Lowe1:	sub	%o5, 8, %o5		! subtract 8 from src
*5d9d9091SRichard Lowe	ldx	[%o5], %o0		! load 8 byte
*5d9d9091SRichard Lowe	sllx	%o0, %g1, %o3		! shift loaded 8 bytes left into tmp reg
*5d9d9091SRichard Lowe	or	%o1, %o3, %o3		! align data
*5d9d9091SRichard Lowe	stx	%o3, [%o5+%o4]		! store 8 byte
*5d9d9091SRichard Lowe	subcc	%o2, 8, %o2		! subtract 8 byte from size
*5d9d9091SRichard Lowe	bg,pt	%ncc, 1b		! if size > 0 continue
*5d9d9091SRichard Lowe	srlx	%o0, %g5, %o1		! move extra byte for the next use
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	srl	%g1, 3, %o0		! retsote %o0 value for alignment
*5d9d9091SRichard Lowe	add	%o5, %o0, %o5		! restore src alignment
*5d9d9091SRichard Lowe	sub	%o4, %o0, %o4		! restore difference between src & dest
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	ba	2f			! branch to the trailing byte copy
*5d9d9091SRichard Lowe	add	%o2, 8, %o2		! restore size value
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.dbcopybc:				! alignment of src is not needed
*5d9d9091SRichard Lowe1:	sub	%o5, 8, %o5		! subtract from src
*5d9d9091SRichard Lowe	ldx	[%o5], %g1		! load 8 bytes
*5d9d9091SRichard Lowe	subcc	%o3, 8, %o3		! subtract from size
*5d9d9091SRichard Lowe	bgu,pt	%ncc, 1b		! if size is bigger 0 continue
*5d9d9091SRichard Lowe	stx	%g1, [%o5+%o4]		! store 8 bytes to destination
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	ba	2f
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.bcbyte:
*5d9d9091SRichard Lowe1:	ldub	[%o5], %g1		! load one byte
*5d9d9091SRichard Lowe	stb	%g1, [%o5+%o4]		! store one byte
*5d9d9091SRichard Lowe2:	deccc	%o2			! decrement size
*5d9d9091SRichard Lowe	bgeu,a,pt %ncc, 1b		! if size is >= 0 continue
*5d9d9091SRichard Lowe	dec	%o5			! decrement from address
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.exitbc:				! exit from backward copy
*5d9d9091SRichard Lowe	retl
*5d9d9091SRichard Lowe	add	%o5, %o4, %o0		! restore dest addr
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe#ifdef NIAGARA2_IMPL
*5d9d9091SRichard Lowe	!
*5d9d9091SRichard Lowe	! Check to see if memmove is large aligned copy
*5d9d9091SRichard Lowe	! If so, use special version of copy that avoids
*5d9d9091SRichard Lowe	! use of block store init
*5d9d9091SRichard Lowe	!
*5d9d9091SRichard Lowe.forcpy:
*5d9d9091SRichard Lowe	cmp	%o2, SMALL_MAX		! check for not small case
*5d9d9091SRichard Lowe	blt,pn	%ncc, .mv_short		! merge with memcpy
*5d9d9091SRichard Lowe	mov	%o0, %g1		! save %o0
*5d9d9091SRichard Lowe	neg	%o0, %o5
*5d9d9091SRichard Lowe	andcc	%o5, 7, %o5		! bytes till DST 8 byte aligned
*5d9d9091SRichard Lowe	brz,pt	%o5, .mv_dst_aligned_on_8
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	! %o5 has the bytes to be written in partial store.
*5d9d9091SRichard Lowe	sub	%o2, %o5, %o2
*5d9d9091SRichard Lowe	sub	%o1, %o0, %o1		! %o1 gets the difference
*5d9d9091SRichard Lowe7:					! dst aligning loop
*5d9d9091SRichard Lowe	ldub	[%o1+%o0], %o4		! load one byte
*5d9d9091SRichard Lowe	subcc	%o5, 1, %o5
*5d9d9091SRichard Lowe	stb	%o4, [%o0]
*5d9d9091SRichard Lowe	bgu,pt	%ncc, 7b
*5d9d9091SRichard Lowe	add	%o0, 1, %o0		! advance dst
*5d9d9091SRichard Lowe	add	%o1, %o0, %o1		! restore %o1
*5d9d9091SRichard Lowe.mv_dst_aligned_on_8:
*5d9d9091SRichard Lowe	andcc	%o1, 7, %o5
*5d9d9091SRichard Lowe	brnz,pt	%o5, .src_dst_unaligned_on_8
*5d9d9091SRichard Lowe	prefetch [%o1 + (1 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.mv_src_dst_aligned_on_8:
*5d9d9091SRichard Lowe	! check if we are copying MED_MAX or more bytes
*5d9d9091SRichard Lowe	cmp	%o2, MED_MAX		! limit to store buffer size
*5d9d9091SRichard Lowe	bleu,pt	%ncc, .medlong
*5d9d9091SRichard Lowe	prefetch [%o1 + (2 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe/*
*5d9d9091SRichard Lowe * The following memmove code mimics the memcpy code for large aligned copies,
*5d9d9091SRichard Lowe * but does not use the ASI_STBI_P (block initializing store) performance
*5d9d9091SRichard Lowe * optimization. See memmove rationale section in documentation
*5d9d9091SRichard Lowe */
*5d9d9091SRichard Lowe.mv_large_align8_copy:			! Src and dst share 8 byte alignment
*5d9d9091SRichard Lowe	rd	%fprs, %g5		! check for unused fp
*5d9d9091SRichard Lowe	! if fprs.fef == 0, set it.
*5d9d9091SRichard Lowe	! Setting it when already set costs more than checking
*5d9d9091SRichard Lowe	andcc	%g5, FPRS_FEF, %g5	! test FEF, fprs.du = fprs.dl = 0
*5d9d9091SRichard Lowe	bz,a	%ncc, 1f
*5d9d9091SRichard Lowe	wr	%g0, FPRS_FEF, %fprs	! fprs.fef = 1
*5d9d9091SRichard Lowe1:
*5d9d9091SRichard Lowe	! align dst to 64 byte boundary
*5d9d9091SRichard Lowe	andcc	%o0, 0x3f, %o3		! %o3 == 0 means dst is 64 byte aligned
*5d9d9091SRichard Lowe	brz,pn	%o3, .mv_aligned_on_64
*5d9d9091SRichard Lowe	sub	%o3, 64, %o3		! %o3 has negative bytes to move
*5d9d9091SRichard Lowe	add	%o2, %o3, %o2		! adjust remaining count
*5d9d9091SRichard Lowe.mv_align_to_64:
*5d9d9091SRichard Lowe	ldx	[%o1], %o4
*5d9d9091SRichard Lowe	add	%o1, 8, %o1		! increment src ptr
*5d9d9091SRichard Lowe	addcc	%o3, 8, %o3
*5d9d9091SRichard Lowe	stx	%o4, [%o0]
*5d9d9091SRichard Lowe	brnz,pt	%o3, .mv_align_to_64
*5d9d9091SRichard Lowe	add	%o0, 8, %o0		! increment dst ptr
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.mv_aligned_on_64:
*5d9d9091SRichard Lowe	prefetch [%o1 + (3 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe	mov	%asi,%o4		! save %asi
*5d9d9091SRichard Lowe	! Determine source alignment
*5d9d9091SRichard Lowe	! to correct 8 byte offset
*5d9d9091SRichard Lowe	andcc	%o1, 0x20, %o3
*5d9d9091SRichard Lowe	brnz,pn	%o3, .mv_align_1
*5d9d9091SRichard Lowe	mov	ASI_BLK_P, %asi		! setup %asi for block load/store
*5d9d9091SRichard Lowe	andcc	%o1, 0x10, %o3
*5d9d9091SRichard Lowe	brnz,pn	%o3, .mv_align_01
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe	andcc	%o1, 0x08, %o3
*5d9d9091SRichard Lowe	brz,pn	%o3, .mv_align_000
*5d9d9091SRichard Lowe	prefetch [%o1 + (4 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe	ba	.mv_align_001
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe.mv_align_01:
*5d9d9091SRichard Lowe	andcc	%o1, 0x08, %o3
*5d9d9091SRichard Lowe	brnz,pn	%o3, .mv_align_011
*5d9d9091SRichard Lowe	prefetch [%o1 + (4 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe	ba	.mv_align_010
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe.mv_align_1:
*5d9d9091SRichard Lowe	andcc	%o1, 0x10, %o3
*5d9d9091SRichard Lowe	brnz,pn	%o3, .mv_align_11
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe	andcc	%o1, 0x08, %o3
*5d9d9091SRichard Lowe	brnz,pn	%o3, .mv_align_101
*5d9d9091SRichard Lowe	prefetch [%o1 + (4 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe	ba	.mv_align_100
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe.mv_align_11:
*5d9d9091SRichard Lowe	andcc	%o1, 0x08, %o3
*5d9d9091SRichard Lowe	brz,pn	%o3, .mv_align_110
*5d9d9091SRichard Lowe	prefetch [%o1 + (4 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.mv_align_111:
*5d9d9091SRichard Lowe! Alignment off by 8 bytes
*5d9d9091SRichard Lowe	ldd	[%o1], %d0
*5d9d9091SRichard Lowe	add	%o1, 8, %o1
*5d9d9091SRichard Lowe	sub	%o2, 8, %o2
*5d9d9091SRichard Lowe	andn	%o2, 0x7f, %o5		! %o5 is multiple of 2*block size
*5d9d9091SRichard Lowe	and	%o2, 0x7f, %o2		! residue bytes in %o2
*5d9d9091SRichard Lowe.mv_align_111_loop:
*5d9d9091SRichard Lowe	subcc	%o5, 128, %o5
*5d9d9091SRichard Lowe	/* ---- copy line 1 of 2. ---- */
*5d9d9091SRichard Lowe	ldda	[%o1]%asi,%d16		! block load
*5d9d9091SRichard Lowe	fmovd	%d16, %d2
*5d9d9091SRichard Lowe	fmovd	%d18, %d4
*5d9d9091SRichard Lowe	fmovd	%d20, %d6
*5d9d9091SRichard Lowe	fmovd	%d22, %d8
*5d9d9091SRichard Lowe	fmovd	%d24, %d10
*5d9d9091SRichard Lowe	fmovd	%d26, %d12
*5d9d9091SRichard Lowe	fmovd	%d28, %d14
*5d9d9091SRichard Lowe	stda	%d0,[%o0]%asi
*5d9d9091SRichard Lowe	add	%o0, 64, %o0		! advance dst
*5d9d9091SRichard Lowe	prefetch [%o1 + (5 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe	fmovd	%d30, %d0
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	/* ---- copy line 2 of 2. ---- */
*5d9d9091SRichard Lowe	ldda	[%o1+64]%asi,%d16
*5d9d9091SRichard Lowe	fmovd	%d16, %d2
*5d9d9091SRichard Lowe	fmovd	%d18, %d4
*5d9d9091SRichard Lowe	fmovd	%d20, %d6
*5d9d9091SRichard Lowe	fmovd	%d22, %d8
*5d9d9091SRichard Lowe	fmovd	%d24, %d10
*5d9d9091SRichard Lowe	fmovd	%d26, %d12
*5d9d9091SRichard Lowe	fmovd	%d28, %d14
*5d9d9091SRichard Lowe	add	%o1, 128, %o1		! increment src
*5d9d9091SRichard Lowe	stda	%d0,[%o0]%asi
*5d9d9091SRichard Lowe	add	%o0, 64, %o0		! advance dst
*5d9d9091SRichard Lowe	fmovd	%d30, %d0
*5d9d9091SRichard Lowe	bgt,pt	%ncc, .mv_align_111_loop
*5d9d9091SRichard Lowe	prefetch [%o1 + (4 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	std	%d0, [%o0]
*5d9d9091SRichard Lowe	ba	.remain_stuff
*5d9d9091SRichard Lowe	add	%o0, 8, %o0
*5d9d9091SRichard Lowe	! END OF mv_align_111
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.mv_align_110:
*5d9d9091SRichard Lowe! Alignment off by 16 bytes
*5d9d9091SRichard Lowe	ldd	[%o1], %d0
*5d9d9091SRichard Lowe	ldd	[%o1+8], %d2
*5d9d9091SRichard Lowe	add	%o1, 16, %o1
*5d9d9091SRichard Lowe	sub	%o2, 16, %o2
*5d9d9091SRichard Lowe	andn	%o2, 0x7f, %o5		! %o5 is multiple of 2*block size
*5d9d9091SRichard Lowe	and	%o2, 0x7f, %o2		! residue bytes in %o2
*5d9d9091SRichard Lowe.mv_align_110_loop:
*5d9d9091SRichard Lowe	subcc	%o5, 128, %o5
*5d9d9091SRichard Lowe	/* ---- copy line 1 of 2. ---- */
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	ldda	[%o1]%asi,%d16		! block load
*5d9d9091SRichard Lowe	fmovd	%d16, %d4
*5d9d9091SRichard Lowe	fmovd	%d18, %d6
*5d9d9091SRichard Lowe	fmovd	%d20, %d8
*5d9d9091SRichard Lowe	fmovd	%d22, %d10
*5d9d9091SRichard Lowe	fmovd	%d24, %d12
*5d9d9091SRichard Lowe	fmovd	%d26, %d14
*5d9d9091SRichard Lowe	stda	%d0,[%o0]%asi
*5d9d9091SRichard Lowe	add	%o0, 64, %o0		! advance dst
*5d9d9091SRichard Lowe	fmovd	%d28, %d0
*5d9d9091SRichard Lowe	prefetch [%o1 + (5 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe	fmovd	%d30, %d2
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	/* ---- copy line 2 of 2. ---- */
*5d9d9091SRichard Lowe	ldda	[%o1+64]%asi,%d16
*5d9d9091SRichard Lowe	fmovd	%d16, %d4
*5d9d9091SRichard Lowe	fmovd	%d18, %d6
*5d9d9091SRichard Lowe	fmovd	%d20, %d8
*5d9d9091SRichard Lowe	fmovd	%d22, %d10
*5d9d9091SRichard Lowe	fmovd	%d24, %d12
*5d9d9091SRichard Lowe	fmovd	%d26, %d14
*5d9d9091SRichard Lowe	add	%o1, 128, %o1		! increment src
*5d9d9091SRichard Lowe	stda	%d0,[%o0]%asi
*5d9d9091SRichard Lowe	add	%o0, 64, %o0		! advance dst
*5d9d9091SRichard Lowe	fmovd	%d28, %d0
*5d9d9091SRichard Lowe	fmovd	%d30, %d2
*5d9d9091SRichard Lowe	bgt,pt	%ncc, .mv_align_110_loop
*5d9d9091SRichard Lowe	prefetch [%o1 + (4 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	std	%d0, [%o0]
*5d9d9091SRichard Lowe	std	%d2, [%o0+8]
*5d9d9091SRichard Lowe	ba	.remain_stuff
*5d9d9091SRichard Lowe	add	%o0, 16, %o0
*5d9d9091SRichard Lowe	! END OF mv_align_110
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.mv_align_101:
*5d9d9091SRichard Lowe! Alignment off by 24 bytes
*5d9d9091SRichard Lowe	ldd	[%o1], %d0
*5d9d9091SRichard Lowe	ldd	[%o1+8], %d2
*5d9d9091SRichard Lowe	ldd	[%o1+16], %d4
*5d9d9091SRichard Lowe	add	%o1, 24, %o1
*5d9d9091SRichard Lowe	sub	%o2, 24, %o2
*5d9d9091SRichard Lowe	andn	%o2, 0x7f, %o5		! %o5 is multiple of 2*block size
*5d9d9091SRichard Lowe	and	%o2, 0x7f, %o2		! residue bytes in %o2
*5d9d9091SRichard Lowe.mv_align_101_loop:
*5d9d9091SRichard Lowe	subcc	%o5, 128, %o5
*5d9d9091SRichard Lowe	/* ---- copy line 1 of 2. ---- */
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	ldda	[%o1]%asi,%d16		! block load
*5d9d9091SRichard Lowe	fmovd	%d16, %d6
*5d9d9091SRichard Lowe	fmovd	%d18, %d8
*5d9d9091SRichard Lowe	fmovd	%d20, %d10
*5d9d9091SRichard Lowe	fmovd	%d22, %d12
*5d9d9091SRichard Lowe	fmovd	%d24, %d14
*5d9d9091SRichard Lowe	stda	%d0,[%o0]%asi
*5d9d9091SRichard Lowe	add	%o0, 64, %o0		! advance dst
*5d9d9091SRichard Lowe	fmovd	%d26, %d0
*5d9d9091SRichard Lowe	fmovd	%d28, %d2
*5d9d9091SRichard Lowe	prefetch [%o1 + (5 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe	fmovd	%d30, %d4
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	/* ---- copy line 2 of 2. ---- */
*5d9d9091SRichard Lowe	ldda	[%o1+64]%asi,%d16
*5d9d9091SRichard Lowe	fmovd	%d16, %d6
*5d9d9091SRichard Lowe	fmovd	%d18, %d8
*5d9d9091SRichard Lowe	fmovd	%d20, %d10
*5d9d9091SRichard Lowe	fmovd	%d22, %d12
*5d9d9091SRichard Lowe	fmovd	%d24, %d14
*5d9d9091SRichard Lowe	add	%o1, 128, %o1		! increment src
*5d9d9091SRichard Lowe	stda	%d0,[%o0]%asi
*5d9d9091SRichard Lowe	add	%o0, 64, %o0		! advance dst
*5d9d9091SRichard Lowe	fmovd	%d26, %d0
*5d9d9091SRichard Lowe	fmovd	%d28, %d2
*5d9d9091SRichard Lowe	fmovd	%d30, %d4
*5d9d9091SRichard Lowe	bgt,pt	%ncc, .mv_align_101_loop
*5d9d9091SRichard Lowe	prefetch [%o1 + (4 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	std	%d0, [%o0]
*5d9d9091SRichard Lowe	std	%d2, [%o0+8]
*5d9d9091SRichard Lowe	std	%d4, [%o0+16]
*5d9d9091SRichard Lowe	ba	.remain_stuff
*5d9d9091SRichard Lowe	add	%o0, 24, %o0
*5d9d9091SRichard Lowe	! END OF mv_align_101
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.mv_align_100:
*5d9d9091SRichard Lowe! Alignment off by 32 bytes
*5d9d9091SRichard Lowe	ldd	[%o1], %d0
*5d9d9091SRichard Lowe	ldd	[%o1+8], %d2
*5d9d9091SRichard Lowe	ldd	[%o1+16],%d4
*5d9d9091SRichard Lowe	ldd	[%o1+24],%d6
*5d9d9091SRichard Lowe	add	%o1, 32, %o1
*5d9d9091SRichard Lowe	sub	%o2, 32, %o2
*5d9d9091SRichard Lowe	andn	%o2, 0x7f, %o5		! %o5 is multiple of 2*block size
*5d9d9091SRichard Lowe	and	%o2, 0x7f, %o2		! residue bytes in %o2
*5d9d9091SRichard Lowe.mv_align_100_loop:
*5d9d9091SRichard Lowe	subcc	%o5, 128, %o5
*5d9d9091SRichard Lowe	/* ---- copy line 1 of 2. ---- */
*5d9d9091SRichard Lowe	ldda	[%o1]%asi,%d16		! block load
*5d9d9091SRichard Lowe	fmovd	%d16, %d8
*5d9d9091SRichard Lowe	fmovd	%d18, %d10
*5d9d9091SRichard Lowe	fmovd	%d20, %d12
*5d9d9091SRichard Lowe	fmovd	%d22, %d14
*5d9d9091SRichard Lowe	stda	%d0,[%o0]%asi
*5d9d9091SRichard Lowe	add	%o0, 64, %o0		! advance dst
*5d9d9091SRichard Lowe	fmovd	%d24, %d0
*5d9d9091SRichard Lowe	fmovd	%d26, %d2
*5d9d9091SRichard Lowe	fmovd	%d28, %d4
*5d9d9091SRichard Lowe	prefetch [%o1 + (5 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe	fmovd	%d30, %d6
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	/* ---- copy line 2 of 2. ---- */
*5d9d9091SRichard Lowe	ldda	[%o1+64]%asi,%d16
*5d9d9091SRichard Lowe	fmovd	%d16, %d8
*5d9d9091SRichard Lowe	fmovd	%d18, %d10
*5d9d9091SRichard Lowe	fmovd	%d20, %d12
*5d9d9091SRichard Lowe	fmovd	%d22, %d14
*5d9d9091SRichard Lowe	add	%o1, 128, %o1		! increment src
*5d9d9091SRichard Lowe	stda	%d0,[%o0]%asi
*5d9d9091SRichard Lowe	add	%o0, 64, %o0		! advance dst
*5d9d9091SRichard Lowe	fmovd	%d24, %d0
*5d9d9091SRichard Lowe	fmovd	%d26, %d2
*5d9d9091SRichard Lowe	fmovd	%d28, %d4
*5d9d9091SRichard Lowe	fmovd	%d30, %d6
*5d9d9091SRichard Lowe	bgt,pt	%ncc, .mv_align_100_loop
*5d9d9091SRichard Lowe	prefetch [%o1 + (4 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	std	%d0, [%o0]
*5d9d9091SRichard Lowe	std	%d2, [%o0+8]
*5d9d9091SRichard Lowe	std	%d4, [%o0+16]
*5d9d9091SRichard Lowe	std	%d6, [%o0+24]
*5d9d9091SRichard Lowe	ba	.remain_stuff
*5d9d9091SRichard Lowe	add	%o0, 32, %o0
*5d9d9091SRichard Lowe	! END OF mv_align_100
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.mv_align_011:
*5d9d9091SRichard Lowe! Alignment off by 40 bytes
*5d9d9091SRichard Lowe	ldd	[%o1], %d0
*5d9d9091SRichard Lowe	ldd	[%o1+8], %d2
*5d9d9091SRichard Lowe	ldd	[%o1+16], %d4
*5d9d9091SRichard Lowe	ldd	[%o1+24], %d6
*5d9d9091SRichard Lowe	ldd	[%o1+32], %d8
*5d9d9091SRichard Lowe	add	%o1, 40, %o1
*5d9d9091SRichard Lowe	sub	%o2, 40, %o2
*5d9d9091SRichard Lowe	andn	%o2, 0x7f, %o5		! %o5 is multiple of 2*block size
*5d9d9091SRichard Lowe	and	%o2, 0x7f, %o2		! residue bytes in %o2
*5d9d9091SRichard Lowe.mv_align_011_loop:
*5d9d9091SRichard Lowe	subcc	%o5, 128, %o5
*5d9d9091SRichard Lowe	/* ---- copy line 1 of 2. ---- */
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	ldda	[%o1]%asi,%d16		! block load
*5d9d9091SRichard Lowe	fmovd	%d16, %d10
*5d9d9091SRichard Lowe	fmovd	%d18, %d12
*5d9d9091SRichard Lowe	fmovd	%d20, %d14
*5d9d9091SRichard Lowe	stda	%d0,[%o0]%asi
*5d9d9091SRichard Lowe	add	%o0, 64, %o0		! advance dst
*5d9d9091SRichard Lowe	fmovd	%d22, %d0
*5d9d9091SRichard Lowe	fmovd	%d24, %d2
*5d9d9091SRichard Lowe	fmovd	%d26, %d4
*5d9d9091SRichard Lowe	fmovd	%d28, %d6
*5d9d9091SRichard Lowe	prefetch [%o1 + (5 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe	fmovd	%d30, %d8
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	/* ---- copy line 2 of 2. ---- */
*5d9d9091SRichard Lowe	ldda	[%o1+64]%asi,%d16
*5d9d9091SRichard Lowe	fmovd	%d16, %d10
*5d9d9091SRichard Lowe	fmovd	%d18, %d12
*5d9d9091SRichard Lowe	fmovd	%d20, %d14
*5d9d9091SRichard Lowe	add	%o1, 128, %o1		! increment src
*5d9d9091SRichard Lowe	stda	%d0,[%o0]%asi
*5d9d9091SRichard Lowe	add	%o0, 64, %o0		! advance dst
*5d9d9091SRichard Lowe	fmovd	%d22, %d0
*5d9d9091SRichard Lowe	fmovd	%d24, %d2
*5d9d9091SRichard Lowe	fmovd	%d26, %d4
*5d9d9091SRichard Lowe	fmovd	%d28, %d6
*5d9d9091SRichard Lowe	fmovd	%d30, %d8
*5d9d9091SRichard Lowe	bgt,pt	%ncc, .mv_align_011_loop
*5d9d9091SRichard Lowe	prefetch [%o1 + (4 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	std	%d0, [%o0]
*5d9d9091SRichard Lowe	std	%d2, [%o0+8]
*5d9d9091SRichard Lowe	std	%d4, [%o0+16]
*5d9d9091SRichard Lowe	std	%d6, [%o0+24]
*5d9d9091SRichard Lowe	std	%d8, [%o0+32]
*5d9d9091SRichard Lowe	ba	.remain_stuff
*5d9d9091SRichard Lowe	add	%o0, 40, %o0
*5d9d9091SRichard Lowe	! END OF mv_align_011
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.mv_align_010:
*5d9d9091SRichard Lowe! Alignment off by 48 bytes
*5d9d9091SRichard Lowe	ldd	[%o1], %d0
*5d9d9091SRichard Lowe	ldd	[%o1+8], %d2
*5d9d9091SRichard Lowe	ldd	[%o1+16], %d4
*5d9d9091SRichard Lowe	ldd	[%o1+24], %d6
*5d9d9091SRichard Lowe	ldd	[%o1+32], %d8
*5d9d9091SRichard Lowe	ldd	[%o1+40], %d10
*5d9d9091SRichard Lowe	add	%o1, 48, %o1
*5d9d9091SRichard Lowe	sub	%o2, 48, %o2
*5d9d9091SRichard Lowe	andn	%o2, 0x7f, %o5		! %o5 is multiple of 2*block size
*5d9d9091SRichard Lowe	and	%o2, 0x7f, %o2		! residue bytes in %o2
*5d9d9091SRichard Lowe.mv_align_010_loop:
*5d9d9091SRichard Lowe	subcc	%o5, 128, %o5
*5d9d9091SRichard Lowe	/* ---- copy line 1 of 2. ---- */
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	ldda	[%o1]%asi,%d16		! block load
*5d9d9091SRichard Lowe	fmovd	%d16, %d12
*5d9d9091SRichard Lowe	fmovd	%d18, %d14
*5d9d9091SRichard Lowe	stda	%d0,[%o0]%asi
*5d9d9091SRichard Lowe	add	%o0, 64, %o0		! advance dst
*5d9d9091SRichard Lowe	fmovd	%d20, %d0
*5d9d9091SRichard Lowe	fmovd	%d22, %d2
*5d9d9091SRichard Lowe	fmovd	%d24, %d4
*5d9d9091SRichard Lowe	fmovd	%d26, %d6
*5d9d9091SRichard Lowe	fmovd	%d28, %d8
*5d9d9091SRichard Lowe	prefetch [%o1 + (5 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe	fmovd	%d30, %d10
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	/* ---- copy line 2 of 2. ---- */
*5d9d9091SRichard Lowe	ldda	[%o1+64]%asi,%d16
*5d9d9091SRichard Lowe	fmovd	%d16, %d12
*5d9d9091SRichard Lowe	fmovd	%d18, %d14
*5d9d9091SRichard Lowe	add	%o1, 128, %o1	! increment src
*5d9d9091SRichard Lowe	stda	%d0,[%o0]%asi
*5d9d9091SRichard Lowe	add	%o0, 64, %o0		! advance dst
*5d9d9091SRichard Lowe	fmovd	%d20, %d0
*5d9d9091SRichard Lowe	fmovd	%d22, %d2
*5d9d9091SRichard Lowe	fmovd	%d24, %d4
*5d9d9091SRichard Lowe	fmovd	%d26, %d6
*5d9d9091SRichard Lowe	fmovd	%d28, %d8
*5d9d9091SRichard Lowe	fmovd	%d30, %d10
*5d9d9091SRichard Lowe	bgt,pt	%ncc, .mv_align_010_loop
*5d9d9091SRichard Lowe	prefetch [%o1 + (4 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	std	%d0, [%o0]
*5d9d9091SRichard Lowe	std	%d2, [%o0+8]
*5d9d9091SRichard Lowe	std	%d4, [%o0+16]
*5d9d9091SRichard Lowe	std	%d6, [%o0+24]
*5d9d9091SRichard Lowe	std	%d8, [%o0+32]
*5d9d9091SRichard Lowe	std	%d10, [%o0+40]
*5d9d9091SRichard Lowe	ba	.remain_stuff
*5d9d9091SRichard Lowe	add	%o0, 48, %o0
*5d9d9091SRichard Lowe	! END OF mv_align_010
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.mv_align_001:
*5d9d9091SRichard Lowe! Alignment off by 56 bytes
*5d9d9091SRichard Lowe	ldd	[%o1], %d0
*5d9d9091SRichard Lowe	ldd	[%o1+8], %d2
*5d9d9091SRichard Lowe	ldd	[%o1+16], %d4
*5d9d9091SRichard Lowe	ldd	[%o1+24], %d6
*5d9d9091SRichard Lowe	ldd	[%o1+32], %d8
*5d9d9091SRichard Lowe	ldd	[%o1+40], %d10
*5d9d9091SRichard Lowe	ldd	[%o1+48], %d12
*5d9d9091SRichard Lowe	add	%o1, 56, %o1
*5d9d9091SRichard Lowe	sub	%o2, 56, %o2
*5d9d9091SRichard Lowe	andn	%o2, 0x7f, %o5		! %o5 is multiple of 2*block size
*5d9d9091SRichard Lowe	and	%o2, 0x7f, %o2		! residue bytes in %o2
*5d9d9091SRichard Lowe.mv_align_001_loop:
*5d9d9091SRichard Lowe	subcc	%o5, 128, %o5
*5d9d9091SRichard Lowe	/* ---- copy line 1 of 2. ---- */
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	ldda	[%o1]%asi,%d16		! block load
*5d9d9091SRichard Lowe	fmovd	%d16, %d14
*5d9d9091SRichard Lowe	stda	%d0,[%o0]%asi
*5d9d9091SRichard Lowe	add	%o0, 64, %o0		! advance dst
*5d9d9091SRichard Lowe	fmovd	%d18, %d0
*5d9d9091SRichard Lowe	fmovd	%d20, %d2
*5d9d9091SRichard Lowe	fmovd	%d22, %d4
*5d9d9091SRichard Lowe	fmovd	%d24, %d6
*5d9d9091SRichard Lowe	fmovd	%d26, %d8
*5d9d9091SRichard Lowe	fmovd	%d28, %d10
*5d9d9091SRichard Lowe	prefetch [%o1 + (5 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe	fmovd	%d30, %d12
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	/* ---- copy line 2 of 2. ---- */
*5d9d9091SRichard Lowe	ldda	[%o1+64]%asi,%d16
*5d9d9091SRichard Lowe	fmovd	%d16, %d14
*5d9d9091SRichard Lowe	add	%o1, 128, %o1		! increment src
*5d9d9091SRichard Lowe	stda	%d0,[%o0]%asi
*5d9d9091SRichard Lowe	add	%o0, 64, %o0		! advance dst
*5d9d9091SRichard Lowe	fmovd	%d18, %d0
*5d9d9091SRichard Lowe	fmovd	%d20, %d2
*5d9d9091SRichard Lowe	fmovd	%d22, %d4
*5d9d9091SRichard Lowe	fmovd	%d24, %d6
*5d9d9091SRichard Lowe	fmovd	%d26, %d8
*5d9d9091SRichard Lowe	fmovd	%d28, %d10
*5d9d9091SRichard Lowe	fmovd	%d30, %d12
*5d9d9091SRichard Lowe	bgt,pt	%ncc, .mv_align_001_loop
*5d9d9091SRichard Lowe	prefetch [%o1 + (4 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	std	%d0, [%o0]
*5d9d9091SRichard Lowe	std	%d2, [%o0+8]
*5d9d9091SRichard Lowe	std	%d4, [%o0+16]
*5d9d9091SRichard Lowe	std	%d6, [%o0+24]
*5d9d9091SRichard Lowe	std	%d8, [%o0+32]
*5d9d9091SRichard Lowe	std	%d10, [%o0+40]
*5d9d9091SRichard Lowe	std	%d12, [%o0+48]
*5d9d9091SRichard Lowe	ba	.remain_stuff
*5d9d9091SRichard Lowe	add	%o0, 56, %o0
*5d9d9091SRichard Lowe	! END OF mv_align_001
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.mv_align_000:
*5d9d9091SRichard Lowe	andn	%o2, 0x7f, %o5		! %o5 is multiple of 2*block size
*5d9d9091SRichard Lowe	and	%o2, 0x7f, %o2		! residue bytes in %o2
*5d9d9091SRichard Lowe.mv_align_000_loop:
*5d9d9091SRichard Lowe	/* ---- copy line 1 of 2. ---- */
*5d9d9091SRichard Lowe	subcc	%o5, 128, %o5
*5d9d9091SRichard Lowe	ldda	[%o1]%asi,%d0
*5d9d9091SRichard Lowe	stda	%d0,[%o0]%asi
*5d9d9091SRichard Lowe	prefetch [%o1 + (5 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	/* ---- copy line 2 of 2. ---- */
*5d9d9091SRichard Lowe	add	%o0, 64, %o0
*5d9d9091SRichard Lowe	ldda	[%o1+64]%asi,%d0
*5d9d9091SRichard Lowe	add	%o1, 128, %o1		! increment src
*5d9d9091SRichard Lowe	stda	%d0,[%o0]%asi
*5d9d9091SRichard Lowe	add	%o0, 64, %o0		! increment dst
*5d9d9091SRichard Lowe	bgt,pt	%ncc, .mv_align_000_loop
*5d9d9091SRichard Lowe	prefetch [%o1 + (4 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe	ba	.remain_stuff
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	! END OF mv_align_000
*5d9d9091SRichard Lowe#else	/* NIAGARA2_IMPL */
*5d9d9091SRichard Lowe#endif	/* NIAGARA2_IMPL */
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	SET_SIZE(memmove)
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	ENTRY(memcpy)
*5d9d9091SRichard Lowe	ENTRY(__align_cpy_1)
*5d9d9091SRichard Lowe#ifdef NIAGARA2_IMPL
*5d9d9091SRichard Lowe	cmp	%o2, SMALL_MAX		! check for not small case
*5d9d9091SRichard Lowe	bgeu,pn	%ncc, .medium		! go to larger cases
*5d9d9091SRichard Lowe	mov	%o0, %g1		! save %o0
*5d9d9091SRichard Lowe.mv_short:
*5d9d9091SRichard Lowe	cmp	%o2, SHORTCOPY		! check for really short case
*5d9d9091SRichard Lowe	ble,pt	%ncc, .smallfin
*5d9d9091SRichard Lowe	or	%o0, %o1, %o4		! prepare alignment check
*5d9d9091SRichard Lowe	andcc	%o4, 0x3, %o5		! test for alignment
*5d9d9091SRichard Lowe	bz,pt	%ncc, .smallword	! branch to word aligned case
*5d9d9091SRichard Lowe	cmp	%o2, SHORTCHECK
*5d9d9091SRichard Lowe	ble,pt	%ncc, .smallrest
*5d9d9091SRichard Lowe	andcc	%o1, 0x3, %o5		! is src word aligned
*5d9d9091SRichard Lowe	bz,pn	%ncc, .aldst
*5d9d9091SRichard Lowe	cmp	%o5, 2			! is src half-word aligned
*5d9d9091SRichard Lowe	be,pt	%ncc, .s2algn
*5d9d9091SRichard Lowe	cmp	%o5, 3			! src is byte aligned
*5d9d9091SRichard Lowe.s1algn:ldub	[%o1], %o3		! move 1 or 3 bytes to align it
*5d9d9091SRichard Lowe	inc	1, %o1
*5d9d9091SRichard Lowe	stb	%o3, [%o0]		! move a byte to align src
*5d9d9091SRichard Lowe	inc	1, %o0
*5d9d9091SRichard Lowe	bne,pt	%ncc, .s2algn
*5d9d9091SRichard Lowe	dec	%o2
*5d9d9091SRichard Lowe	b	.ald			! now go align dest
*5d9d9091SRichard Lowe	andcc	%o0, 0x3, %o5
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.s2algn:lduh	[%o1], %o3		! know src is 2 byte aligned
*5d9d9091SRichard Lowe	inc	2, %o1
*5d9d9091SRichard Lowe	srl	%o3, 8, %o4
*5d9d9091SRichard Lowe	stb	%o4, [%o0]		! have to do bytes,
*5d9d9091SRichard Lowe	stb	%o3, [%o0 + 1]		! don't know dst alignment
*5d9d9091SRichard Lowe	inc	2, %o0
*5d9d9091SRichard Lowe	dec	2, %o2
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.aldst:	andcc	%o0, 0x3, %o5		! align the destination address
*5d9d9091SRichard Lowe.ald:	bz,pn	%ncc, .w4cp
*5d9d9091SRichard Lowe	cmp	%o5, 2
*5d9d9091SRichard Lowe	be,pn	%ncc, .w2cp
*5d9d9091SRichard Lowe	cmp	%o5, 3
*5d9d9091SRichard Lowe.w3cp:	lduw	[%o1], %o4
*5d9d9091SRichard Lowe	inc	4, %o1
*5d9d9091SRichard Lowe	srl	%o4, 24, %o5
*5d9d9091SRichard Lowe	stb	%o5, [%o0]
*5d9d9091SRichard Lowe	bne,pt	%ncc, .w1cp
*5d9d9091SRichard Lowe	inc	%o0
*5d9d9091SRichard Lowe	dec	1, %o2
*5d9d9091SRichard Lowe	andn	%o2, 3, %o3		! %o3 is aligned word count
*5d9d9091SRichard Lowe	dec	4, %o3			! avoid reading beyond tail of src
*5d9d9091SRichard Lowe	sub	%o1, %o0, %o1		! %o1 gets the difference
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe1:	sll	%o4, 8, %g5		! save residual bytes
*5d9d9091SRichard Lowe	lduw	[%o1+%o0], %o4
*5d9d9091SRichard Lowe	deccc	4, %o3
*5d9d9091SRichard Lowe	srl	%o4, 24, %o5		! merge with residual
*5d9d9091SRichard Lowe	or	%o5, %g5, %g5
*5d9d9091SRichard Lowe	st	%g5, [%o0]
*5d9d9091SRichard Lowe	bnz,pt	%ncc, 1b
*5d9d9091SRichard Lowe	inc	4, %o0
*5d9d9091SRichard Lowe	sub	%o1, 3, %o1		! used one byte of last word read
*5d9d9091SRichard Lowe	and	%o2, 3, %o2
*5d9d9091SRichard Lowe	b	7f
*5d9d9091SRichard Lowe	inc	4, %o2
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.w1cp:	srl	%o4, 8, %o5
*5d9d9091SRichard Lowe	sth	%o5, [%o0]
*5d9d9091SRichard Lowe	inc	2, %o0
*5d9d9091SRichard Lowe	dec	3, %o2
*5d9d9091SRichard Lowe	andn	%o2, 3, %o3		! %o3 is aligned word count
*5d9d9091SRichard Lowe	dec	4, %o3			! avoid reading beyond tail of src
*5d9d9091SRichard Lowe	sub	%o1, %o0, %o1		! %o1 gets the difference
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe2:	sll	%o4, 24, %g5		! save residual bytes
*5d9d9091SRichard Lowe	lduw	[%o1+%o0], %o4
*5d9d9091SRichard Lowe	deccc	4, %o3
*5d9d9091SRichard Lowe	srl	%o4, 8, %o5		! merge with residual
*5d9d9091SRichard Lowe	or	%o5, %g5, %g5
*5d9d9091SRichard Lowe	st	%g5, [%o0]
*5d9d9091SRichard Lowe	bnz,pt	%ncc, 2b
*5d9d9091SRichard Lowe	inc	4, %o0
*5d9d9091SRichard Lowe	sub	%o1, 1, %o1		! used three bytes of last word read
*5d9d9091SRichard Lowe	and	%o2, 3, %o2
*5d9d9091SRichard Lowe	b	7f
*5d9d9091SRichard Lowe	inc	4, %o2
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.w2cp:	lduw	[%o1], %o4
*5d9d9091SRichard Lowe	inc	4, %o1
*5d9d9091SRichard Lowe	srl	%o4, 16, %o5
*5d9d9091SRichard Lowe	sth	%o5, [%o0]
*5d9d9091SRichard Lowe	inc	2, %o0
*5d9d9091SRichard Lowe	dec	2, %o2
*5d9d9091SRichard Lowe	andn	%o2, 3, %o3		! %o3 is aligned word count
*5d9d9091SRichard Lowe	dec	4, %o3			! avoid reading beyond tail of src
*5d9d9091SRichard Lowe	sub	%o1, %o0, %o1		! %o1 gets the difference
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe3:	sll	%o4, 16, %g5		! save residual bytes
*5d9d9091SRichard Lowe	lduw	[%o1+%o0], %o4
*5d9d9091SRichard Lowe	deccc	4, %o3
*5d9d9091SRichard Lowe	srl	%o4, 16, %o5		! merge with residual
*5d9d9091SRichard Lowe	or	%o5, %g5, %g5
*5d9d9091SRichard Lowe	st	%g5, [%o0]
*5d9d9091SRichard Lowe	bnz,pt	%ncc, 3b
*5d9d9091SRichard Lowe	inc	4, %o0
*5d9d9091SRichard Lowe	sub	%o1, 2, %o1		! used two bytes of last word read
*5d9d9091SRichard Lowe	and	%o2, 3, %o2
*5d9d9091SRichard Lowe	b	7f
*5d9d9091SRichard Lowe	inc	4, %o2
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.w4cp:	andn	%o2, 3, %o3		! %o3 is aligned word count
*5d9d9091SRichard Lowe	sub	%o1, %o0, %o1		! %o1 gets the difference
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe1:	lduw	[%o1+%o0], %o4		! read from address
*5d9d9091SRichard Lowe	deccc	4, %o3			! decrement count
*5d9d9091SRichard Lowe	st	%o4, [%o0]		! write at destination address
*5d9d9091SRichard Lowe	bgu,pt	%ncc, 1b
*5d9d9091SRichard Lowe	inc	4, %o0			! increment to address
*5d9d9091SRichard Lowe	and	%o2, 3, %o2		! number of leftover bytes, if any
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	! simple finish up byte copy, works with any alignment
*5d9d9091SRichard Lowe7:
*5d9d9091SRichard Lowe	add	%o1, %o0, %o1		! restore %o1
*5d9d9091SRichard Lowe.smallrest:
*5d9d9091SRichard Lowe	tst	%o2
*5d9d9091SRichard Lowe	bz,pt	%ncc, .smallx
*5d9d9091SRichard Lowe	cmp	%o2, 4
*5d9d9091SRichard Lowe	blt,pt	%ncc, .smallleft3
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe	sub	%o2, 3, %o2
*5d9d9091SRichard Lowe.smallnotalign4:
*5d9d9091SRichard Lowe	ldub	[%o1], %o3		! read byte
*5d9d9091SRichard Lowe	subcc	%o2, 4, %o2		! reduce count by 4
*5d9d9091SRichard Lowe	stb	%o3, [%o0]		! write byte
*5d9d9091SRichard Lowe	ldub	[%o1+1], %o3		! repeat for total of 4 bytes
*5d9d9091SRichard Lowe	add	%o1, 4, %o1		! advance SRC by 4
*5d9d9091SRichard Lowe	stb	%o3, [%o0+1]
*5d9d9091SRichard Lowe	ldub	[%o1-2], %o3
*5d9d9091SRichard Lowe	add	%o0, 4, %o0		! advance DST by 4
*5d9d9091SRichard Lowe	stb	%o3, [%o0-2]
*5d9d9091SRichard Lowe	ldub	[%o1-1], %o3
*5d9d9091SRichard Lowe	bgu,pt	%ncc, .smallnotalign4	! loop til 3 or fewer bytes remain
*5d9d9091SRichard Lowe	stb	%o3, [%o0-1]
*5d9d9091SRichard Lowe	addcc	%o2, 3, %o2		! restore count
*5d9d9091SRichard Lowe	bz,pt	%ncc, .smallx
*5d9d9091SRichard Lowe.smallleft3:				! 1, 2, or 3 bytes remain
*5d9d9091SRichard Lowe	subcc	%o2, 1, %o2
*5d9d9091SRichard Lowe	ldub	[%o1], %o3		! load one byte
*5d9d9091SRichard Lowe	bz,pt	%ncc, .smallx
*5d9d9091SRichard Lowe	stb	%o3, [%o0]		! store one byte
*5d9d9091SRichard Lowe	ldub	[%o1+1], %o3		! load second byte
*5d9d9091SRichard Lowe	subcc	%o2, 1, %o2
*5d9d9091SRichard Lowe	bz,pt	%ncc, .smallx
*5d9d9091SRichard Lowe	stb	%o3, [%o0+1]		! store second byte
*5d9d9091SRichard Lowe	ldub	[%o1+2], %o3		! load third byte
*5d9d9091SRichard Lowe	stb	%o3, [%o0+2]		! store third byte
*5d9d9091SRichard Lowe.smallx:
*5d9d9091SRichard Lowe	retl
*5d9d9091SRichard Lowe	mov	%g1, %o0		! restore %o0
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.smallfin:
*5d9d9091SRichard Lowe	tst	%o2
*5d9d9091SRichard Lowe	bnz,pt	%ncc, .smallleft3
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe	retl
*5d9d9091SRichard Lowe	mov	%g1, %o0		! restore %o0
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	.align 16
*5d9d9091SRichard Lowe.smallwords:
*5d9d9091SRichard Lowe	lduw	[%o1], %o3		! read word
*5d9d9091SRichard Lowe.smallwordx:
*5d9d9091SRichard Lowe	subcc	%o2, 8, %o2		! update count
*5d9d9091SRichard Lowe	stw	%o3, [%o0]		! write word
*5d9d9091SRichard Lowe	add	%o1, 8, %o1		! update SRC
*5d9d9091SRichard Lowe	lduw	[%o1-4], %o3		! read word
*5d9d9091SRichard Lowe	add	%o0, 8, %o0		! update DST
*5d9d9091SRichard Lowe	bgu,pt	%ncc, .smallwords	! loop until done
*5d9d9091SRichard Lowe	stw	%o3, [%o0-4]		! write word
*5d9d9091SRichard Lowe	addcc	%o2, 7, %o2		! restore count
*5d9d9091SRichard Lowe	bz,pt	%ncc, .smallexit	! check for completion
*5d9d9091SRichard Lowe	cmp	%o2, 4			! check for 4 or more bytes left
*5d9d9091SRichard Lowe	blt	%ncc, .smallleft3	! if not, go to finish up
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe	lduw	[%o1], %o3
*5d9d9091SRichard Lowe	add	%o1, 4, %o1
*5d9d9091SRichard Lowe	subcc	%o2, 4, %o2
*5d9d9091SRichard Lowe	add	%o0, 4, %o0
*5d9d9091SRichard Lowe	bnz,pt	%ncc, .smallleft3
*5d9d9091SRichard Lowe	stw	%o3, [%o0-4]
*5d9d9091SRichard Lowe	retl
*5d9d9091SRichard Lowe	mov	%g1, %o0		! restore %o0
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe! 8 or more bytes, src and dest start on word boundary
*5d9d9091SRichard Lowe! %o4 contains or %o0, %o1; %o3 contains first four bytes of src
*5d9d9091SRichard Lowe.smalllong:
*5d9d9091SRichard Lowe	andcc	%o4, 0x7, %o5		! test for long alignment
*5d9d9091SRichard Lowe	bnz,pt	%ncc, .smallwordx	! branch to word aligned case
*5d9d9091SRichard Lowe	cmp	%o2, SHORT_LONG-7
*5d9d9091SRichard Lowe	bge,a	%ncc, .medl64		! if we branch
*5d9d9091SRichard Lowe	sub	%o2,56,%o2		! adjust %o2 to -31 off count
*5d9d9091SRichard Lowe	sub	%o1, %o0, %o1		! %o1 gets the difference
*5d9d9091SRichard Lowe.small_long_l:
*5d9d9091SRichard Lowe	ldx	[%o1+%o0], %o3
*5d9d9091SRichard Lowe	subcc	%o2, 8, %o2
*5d9d9091SRichard Lowe	add	%o0, 8, %o0
*5d9d9091SRichard Lowe	bgu,pt	%ncc, .small_long_l	! loop until done
*5d9d9091SRichard Lowe	stx	%o3, [%o0-8]		! write word
*5d9d9091SRichard Lowe	add	%o1, %o0, %o1		! restore %o1
*5d9d9091SRichard Lowe	addcc	%o2, 7, %o2		! restore %o2 to correct count
*5d9d9091SRichard Lowe	bz,pt	%ncc, .smallexit	! check for completion
*5d9d9091SRichard Lowe	cmp	%o2, 4			! check for 4 or more bytes left
*5d9d9091SRichard Lowe	blt,pt	%ncc, .smallleft3	! if not, go to finish up
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe	lduw	[%o1], %o3
*5d9d9091SRichard Lowe	add	%o1, 4, %o1
*5d9d9091SRichard Lowe	subcc	%o2, 4, %o2
*5d9d9091SRichard Lowe	stw	%o3, [%o0]
*5d9d9091SRichard Lowe	add	%o0, 4, %o0
*5d9d9091SRichard Lowe	bnz,pt	%ncc, .smallleft3
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe	retl
*5d9d9091SRichard Lowe	mov	%g1, %o0		! restore %o0
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	.align 16
*5d9d9091SRichard Lowe! src and dest start on word boundary
*5d9d9091SRichard Lowe.smallword:
*5d9d9091SRichard Lowe	subcc	%o2, 7, %o2		! adjust count
*5d9d9091SRichard Lowe	bgu,pt	%ncc, .smalllong
*5d9d9091SRichard Lowe	lduw	[%o1], %o3		! read word
*5d9d9091SRichard Lowe	addcc	%o2, 3, %o2		! restore count
*5d9d9091SRichard Lowe	bz,pt	%ncc, .smallexit
*5d9d9091SRichard Lowe	stw	%o3, [%o0]		! write word
*5d9d9091SRichard Lowe	deccc	%o2			! reduce count for cc test
*5d9d9091SRichard Lowe	ldub	[%o1+4], %o3		! load one byte
*5d9d9091SRichard Lowe	bz,pt	%ncc, .smallexit
*5d9d9091SRichard Lowe	stb	%o3, [%o0+4]		! store one byte
*5d9d9091SRichard Lowe	ldub	[%o1+5], %o3		! load second byte
*5d9d9091SRichard Lowe	deccc	%o2
*5d9d9091SRichard Lowe	bz,pt	%ncc, .smallexit
*5d9d9091SRichard Lowe	stb	%o3, [%o0+5]		! store second byte
*5d9d9091SRichard Lowe	ldub	[%o1+6], %o3		! load third byte
*5d9d9091SRichard Lowe	stb	%o3, [%o0+6]		! store third byte
*5d9d9091SRichard Lowe.smallexit:
*5d9d9091SRichard Lowe	retl
*5d9d9091SRichard Lowe	mov	%g1, %o0		! restore %o0
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	.align 16
*5d9d9091SRichard Lowe.medium:
*5d9d9091SRichard Lowe	neg	%o0, %o5
*5d9d9091SRichard Lowe	andcc	%o5, 7, %o5		! bytes till DST 8 byte aligned
*5d9d9091SRichard Lowe	brz,pt	%o5, .dst_aligned_on_8
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	! %o5 has the bytes to be written in partial store.
*5d9d9091SRichard Lowe	sub	%o2, %o5, %o2
*5d9d9091SRichard Lowe	sub	%o1, %o0, %o1		! %o1 gets the difference
*5d9d9091SRichard Lowe7:					! dst aligning loop
*5d9d9091SRichard Lowe	ldub	[%o1+%o0], %o4		! load one byte
*5d9d9091SRichard Lowe	subcc	%o5, 1, %o5
*5d9d9091SRichard Lowe	stb	%o4, [%o0]
*5d9d9091SRichard Lowe	bgu,pt	%ncc, 7b
*5d9d9091SRichard Lowe	add	%o0, 1, %o0		! advance dst
*5d9d9091SRichard Lowe	add	%o1, %o0, %o1		! restore %o1
*5d9d9091SRichard Lowe.dst_aligned_on_8:
*5d9d9091SRichard Lowe	andcc	%o1, 7, %o5
*5d9d9091SRichard Lowe	brnz,pt	%o5, .src_dst_unaligned_on_8
*5d9d9091SRichard Lowe	prefetch [%o1 + (1 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.src_dst_aligned_on_8:
*5d9d9091SRichard Lowe	! check if we are copying MED_MAX or more bytes
*5d9d9091SRichard Lowe	cmp	%o2, MED_MAX		! limit to store buffer size
*5d9d9091SRichard Lowe	bgu,pt	%ncc, .large_align8_copy
*5d9d9091SRichard Lowe	prefetch [%o1 + (2 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe/*
*5d9d9091SRichard Lowe * Special case for handling when src and dest are both long word aligned
*5d9d9091SRichard Lowe * and total data to move is less than MED_MAX bytes
*5d9d9091SRichard Lowe */
*5d9d9091SRichard Lowe.medlong:
*5d9d9091SRichard Lowe	subcc	%o2, 63, %o2		! adjust length to allow cc test
*5d9d9091SRichard Lowe	ble,pt	%ncc, .medl63		! skip big loop if less than 64 bytes
*5d9d9091SRichard Lowe.medl64:
*5d9d9091SRichard Lowe	prefetch [%o1 + (3 * BLOCK_SIZE)], #one_read ! into the l2 cache
*5d9d9091SRichard Lowe	ldx	[%o1], %o4		! load
*5d9d9091SRichard Lowe	subcc	%o2, 64, %o2		! decrement length count
*5d9d9091SRichard Lowe	stx	%o4, [%o0]		! and store
*5d9d9091SRichard Lowe	ldx	[%o1+8], %o3		! a block of 64 bytes
*5d9d9091SRichard Lowe	stx	%o3, [%o0+8]
*5d9d9091SRichard Lowe	ldx	[%o1+16], %o4
*5d9d9091SRichard Lowe	stx	%o4, [%o0+16]
*5d9d9091SRichard Lowe	ldx	[%o1+24], %o3
*5d9d9091SRichard Lowe	stx	%o3, [%o0+24]
*5d9d9091SRichard Lowe	ldx	[%o1+32], %o4		! load
*5d9d9091SRichard Lowe	stx	%o4, [%o0+32]		! and store
*5d9d9091SRichard Lowe	ldx	[%o1+40], %o3		! a block of 64 bytes
*5d9d9091SRichard Lowe	add	%o1, 64, %o1		! increase src ptr by 64
*5d9d9091SRichard Lowe	stx	%o3, [%o0+40]
*5d9d9091SRichard Lowe	ldx	[%o1-16], %o4
*5d9d9091SRichard Lowe	add	%o0, 64, %o0		! increase dst ptr by 64
*5d9d9091SRichard Lowe	stx	%o4, [%o0-16]
*5d9d9091SRichard Lowe	ldx	[%o1-8], %o3
*5d9d9091SRichard Lowe	bgu,pt	%ncc, .medl64		! repeat if at least 64 bytes left
*5d9d9091SRichard Lowe	stx	%o3, [%o0-8]
*5d9d9091SRichard Lowe.medl63:
*5d9d9091SRichard Lowe	addcc	%o2, 32, %o2		! adjust remaining count
*5d9d9091SRichard Lowe	ble,pt	%ncc, .medl31		! to skip if 31 or fewer bytes left
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe	ldx	[%o1], %o4		! load
*5d9d9091SRichard Lowe	sub	%o2, 32, %o2		! decrement length count
*5d9d9091SRichard Lowe	stx	%o4, [%o0]		! and store
*5d9d9091SRichard Lowe	ldx	[%o1+8], %o3		! a block of 32 bytes
*5d9d9091SRichard Lowe	add	%o1, 32, %o1		! increase src ptr by 32
*5d9d9091SRichard Lowe	stx	%o3, [%o0+8]
*5d9d9091SRichard Lowe	ldx	[%o1-16], %o4
*5d9d9091SRichard Lowe	add	%o0, 32, %o0		! increase dst ptr by 32
*5d9d9091SRichard Lowe	stx	%o4, [%o0-16]
*5d9d9091SRichard Lowe	ldx	[%o1-8], %o3
*5d9d9091SRichard Lowe	stx	%o3, [%o0-8]
*5d9d9091SRichard Lowe.medl31:
*5d9d9091SRichard Lowe	addcc	%o2, 16, %o2		! adjust remaining count
*5d9d9091SRichard Lowe	ble,pt	%ncc, .medl15		! skip if 15 or fewer bytes left
*5d9d9091SRichard Lowe	nop				!
*5d9d9091SRichard Lowe	ldx	[%o1], %o4		! load and store 16 bytes
*5d9d9091SRichard Lowe	add	%o1, 16, %o1		! increase src ptr by 16
*5d9d9091SRichard Lowe	stx	%o4, [%o0]		!
*5d9d9091SRichard Lowe	sub	%o2, 16, %o2		! decrease count by 16
*5d9d9091SRichard Lowe	ldx	[%o1-8], %o3		!
*5d9d9091SRichard Lowe	add	%o0, 16, %o0		! increase dst ptr by 16
*5d9d9091SRichard Lowe	stx	%o3, [%o0-8]
*5d9d9091SRichard Lowe.medl15:
*5d9d9091SRichard Lowe	addcc	%o2, 15, %o2		! restore count
*5d9d9091SRichard Lowe	bz,pt	%ncc, .smallexit	! exit if finished
*5d9d9091SRichard Lowe	cmp	%o2, 8
*5d9d9091SRichard Lowe	blt,pt	%ncc, .medw7		! skip if 7 or fewer bytes left
*5d9d9091SRichard Lowe	tst	%o2
*5d9d9091SRichard Lowe	ldx	[%o1], %o4		! load 8 bytes
*5d9d9091SRichard Lowe	add	%o1, 8, %o1		! increase src ptr by 8
*5d9d9091SRichard Lowe	add	%o0, 8, %o0		! increase dst ptr by 8
*5d9d9091SRichard Lowe	subcc	%o2, 8, %o2		! decrease count by 8
*5d9d9091SRichard Lowe	bnz,pt	%ncc, .medw7
*5d9d9091SRichard Lowe	stx	%o4, [%o0-8]		! and store 8 bytes
*5d9d9091SRichard Lowe	retl
*5d9d9091SRichard Lowe	mov	%g1, %o0		! restore %o0
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	.align 16
*5d9d9091SRichard Lowe.src_dst_unaligned_on_8:
*5d9d9091SRichard Lowe	! DST is 8-byte aligned, src is not
*5d9d9091SRichard Lowe2:
*5d9d9091SRichard Lowe	andcc	%o1, 0x3, %o5		! test word alignment
*5d9d9091SRichard Lowe	bnz,pt	%ncc, .unalignsetup	! branch to skip if not word aligned
*5d9d9091SRichard Lowe	prefetch [%o1 + (2 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe/*
*5d9d9091SRichard Lowe * Handle all cases where src and dest are aligned on word
*5d9d9091SRichard Lowe * boundaries. Use unrolled loops for better performance.
*5d9d9091SRichard Lowe * This option wins over standard large data move when
*5d9d9091SRichard Lowe * source and destination is in cache for medium
*5d9d9091SRichard Lowe * to short data moves.
*5d9d9091SRichard Lowe */
*5d9d9091SRichard Lowe	cmp	%o2, MED_WMAX		! limit to store buffer size
*5d9d9091SRichard Lowe	bge,pt	%ncc, .unalignrejoin	! otherwise rejoin main loop
*5d9d9091SRichard Lowe	prefetch [%o1 + (3 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	subcc	%o2, 31, %o2		! adjust length to allow cc test
*5d9d9091SRichard Lowe					! for end of loop
*5d9d9091SRichard Lowe	ble,pt	%ncc, .medw31		! skip big loop if less than 16
*5d9d9091SRichard Lowe	prefetch [%o1 + (4 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe.medw32:
*5d9d9091SRichard Lowe	ld	[%o1], %o4		! move a block of 32 bytes
*5d9d9091SRichard Lowe	stw	%o4, [%o0]
*5d9d9091SRichard Lowe	ld	[%o1+4], %o3
*5d9d9091SRichard Lowe	stw	%o3, [%o0+4]
*5d9d9091SRichard Lowe	ld	[%o1+8], %o4
*5d9d9091SRichard Lowe	stw	%o4, [%o0+8]
*5d9d9091SRichard Lowe	ld	[%o1+12], %o3
*5d9d9091SRichard Lowe	stw	%o3, [%o0+12]
*5d9d9091SRichard Lowe	ld	[%o1+16], %o4
*5d9d9091SRichard Lowe	subcc	%o2, 32, %o2		! decrement length count
*5d9d9091SRichard Lowe	stw	%o4, [%o0+16]
*5d9d9091SRichard Lowe	ld	[%o1+20], %o3
*5d9d9091SRichard Lowe	add	%o1, 32, %o1		! increase src ptr by 32
*5d9d9091SRichard Lowe	stw	%o3, [%o0+20]
*5d9d9091SRichard Lowe	ld	[%o1-8], %o4
*5d9d9091SRichard Lowe	add	%o0, 32, %o0		! increase dst ptr by 32
*5d9d9091SRichard Lowe	stw	%o4, [%o0-8]
*5d9d9091SRichard Lowe	ld	[%o1-4], %o3
*5d9d9091SRichard Lowe	bgu,pt	%ncc, .medw32		! repeat if at least 32 bytes left
*5d9d9091SRichard Lowe	stw	%o3, [%o0-4]
*5d9d9091SRichard Lowe.medw31:
*5d9d9091SRichard Lowe	addcc	%o2, 31, %o2		! restore count
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	bz,pt	%ncc, .smallexit	! exit if finished
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe	cmp	%o2, 16
*5d9d9091SRichard Lowe	blt,pt	%ncc, .medw15
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe	ld	[%o1], %o4		! move a block of 16 bytes
*5d9d9091SRichard Lowe	subcc	%o2, 16, %o2		! decrement length count
*5d9d9091SRichard Lowe	stw	%o4, [%o0]
*5d9d9091SRichard Lowe	ld	[%o1+4], %o3
*5d9d9091SRichard Lowe	add	%o1, 16, %o1		! increase src ptr by 16
*5d9d9091SRichard Lowe	stw	%o3, [%o0+4]
*5d9d9091SRichard Lowe	ld	[%o1-8], %o4
*5d9d9091SRichard Lowe	add	%o0, 16, %o0		! increase dst ptr by 16
*5d9d9091SRichard Lowe	stw	%o4, [%o0-8]
*5d9d9091SRichard Lowe	ld	[%o1-4], %o3
*5d9d9091SRichard Lowe	stw	%o3, [%o0-4]
*5d9d9091SRichard Lowe.medw15:
*5d9d9091SRichard Lowe	bz,pt	%ncc, .smallexit	! exit if finished
*5d9d9091SRichard Lowe	cmp	%o2, 8
*5d9d9091SRichard Lowe	blt,pt	%ncc, .medw7		! skip if 7 or fewer bytes left
*5d9d9091SRichard Lowe	tst	%o2
*5d9d9091SRichard Lowe	ld	[%o1], %o4		! load 4 bytes
*5d9d9091SRichard Lowe	subcc	%o2, 8, %o2		! decrease count by 8
*5d9d9091SRichard Lowe	stw	%o4, [%o0]		! and store 4 bytes
*5d9d9091SRichard Lowe	add	%o1, 8, %o1		! increase src ptr by 8
*5d9d9091SRichard Lowe	ld	[%o1-4], %o3		! load 4 bytes
*5d9d9091SRichard Lowe	add	%o0, 8, %o0		! increase dst ptr by 8
*5d9d9091SRichard Lowe	stw	%o3, [%o0-4]		! and store 4 bytes
*5d9d9091SRichard Lowe	bz,pt	%ncc, .smallexit	! exit if finished
*5d9d9091SRichard Lowe.medw7:					! count is ge 1, less than 8
*5d9d9091SRichard Lowe	cmp	%o2, 4			! check for 4 bytes left
*5d9d9091SRichard Lowe	blt,pt	%ncc, .smallleft3	! skip if 3 or fewer bytes left
*5d9d9091SRichard Lowe	nop				!
*5d9d9091SRichard Lowe	ld	[%o1], %o4		! load 4 bytes
*5d9d9091SRichard Lowe	add	%o1, 4, %o1		! increase src ptr by 4
*5d9d9091SRichard Lowe	add	%o0, 4, %o0		! increase dst ptr by 4
*5d9d9091SRichard Lowe	subcc	%o2, 4, %o2		! decrease count by 4
*5d9d9091SRichard Lowe	bnz	.smallleft3
*5d9d9091SRichard Lowe	stw	%o4, [%o0-4]		! and store 4 bytes
*5d9d9091SRichard Lowe	retl
*5d9d9091SRichard Lowe	mov	%g1, %o0		! restore %o0
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	.align	16
*5d9d9091SRichard Lowe.large_align8_copy:			! Src and dst share 8 byte alignment
*5d9d9091SRichard Lowe	rd	%fprs, %g5		! check for unused fp
*5d9d9091SRichard Lowe	! if fprs.fef == 0, set it.
*5d9d9091SRichard Lowe	! Setting it when already set costs more than checking
*5d9d9091SRichard Lowe	andcc	%g5, FPRS_FEF, %g5	! test FEF, fprs.du = fprs.dl = 0
*5d9d9091SRichard Lowe	bz,a	%ncc, 1f
*5d9d9091SRichard Lowe	wr	%g0, FPRS_FEF, %fprs	! fprs.fef = 1
*5d9d9091SRichard Lowe1:
*5d9d9091SRichard Lowe	! align dst to 64 byte boundary
*5d9d9091SRichard Lowe	andcc	%o0, 0x3f, %o3		! %o3 == 0 means dst is 64 byte aligned
*5d9d9091SRichard Lowe	brz,pn	%o3, .aligned_to_64
*5d9d9091SRichard Lowe	andcc	%o0, 8, %o3		! odd long words to move?
*5d9d9091SRichard Lowe	brz,pt	%o3, .aligned_to_16
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe	ldx	[%o1], %o4
*5d9d9091SRichard Lowe	sub	%o2, 8, %o2
*5d9d9091SRichard Lowe	add	%o1, 8, %o1		! increment src ptr
*5d9d9091SRichard Lowe	add	%o0, 8, %o0		! increment dst ptr
*5d9d9091SRichard Lowe	stx	%o4, [%o0-8]
*5d9d9091SRichard Lowe.aligned_to_16:
*5d9d9091SRichard Lowe	andcc	%o0, 16, %o3		! pair of long words to move?
*5d9d9091SRichard Lowe	brz,pt	%o3, .aligned_to_32
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe	ldx	[%o1], %o4
*5d9d9091SRichard Lowe	sub	%o2, 16, %o2
*5d9d9091SRichard Lowe	stx	%o4, [%o0]
*5d9d9091SRichard Lowe	add	%o1, 16, %o1		! increment src ptr
*5d9d9091SRichard Lowe	ldx	[%o1-8], %o4
*5d9d9091SRichard Lowe	add	%o0, 16, %o0		! increment dst ptr
*5d9d9091SRichard Lowe	stx	%o4, [%o0-8]
*5d9d9091SRichard Lowe.aligned_to_32:
*5d9d9091SRichard Lowe	andcc	%o0, 32, %o3		! four long words to move?
*5d9d9091SRichard Lowe	brz,pt	%o3, .aligned_to_64
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe	ldx	[%o1], %o4
*5d9d9091SRichard Lowe	sub	%o2, 32, %o2
*5d9d9091SRichard Lowe	stx	%o4, [%o0]
*5d9d9091SRichard Lowe	ldx	[%o1+8], %o4
*5d9d9091SRichard Lowe	stx	%o4, [%o0+8]
*5d9d9091SRichard Lowe	ldx	[%o1+16], %o4
*5d9d9091SRichard Lowe	stx	%o4, [%o0+16]
*5d9d9091SRichard Lowe	add	%o1, 32, %o1		! increment src ptr
*5d9d9091SRichard Lowe	ldx	[%o1-8], %o4
*5d9d9091SRichard Lowe	add	%o0, 32, %o0		! increment dst ptr
*5d9d9091SRichard Lowe	stx	%o4, [%o0-8]
*5d9d9091SRichard Lowe.aligned_to_64:
*5d9d9091SRichard Lowe	prefetch [%o1 + (3 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe	mov	%asi,%o4		! save %asi
*5d9d9091SRichard Lowe	! Determine source alignment
*5d9d9091SRichard Lowe	! to correct 8 byte offset
*5d9d9091SRichard Lowe	andcc	%o1, 0x20, %o3
*5d9d9091SRichard Lowe	brnz,pn	%o3, .align_1
*5d9d9091SRichard Lowe	mov	ASI_BLK_P, %asi		! setup %asi for block load/store
*5d9d9091SRichard Lowe	andcc	%o1, 0x10, %o3
*5d9d9091SRichard Lowe	brnz,pn	%o3, .align_01
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe	andcc	%o1, 0x08, %o3
*5d9d9091SRichard Lowe	brz,pn	%o3, .align_000
*5d9d9091SRichard Lowe	prefetch [%o1 + (4 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe	ba	.align_001
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe.align_01:
*5d9d9091SRichard Lowe	andcc	%o1, 0x08, %o3
*5d9d9091SRichard Lowe	brnz,pn	%o3, .align_011
*5d9d9091SRichard Lowe	prefetch [%o1 + (4 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe	ba	.align_010
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe.align_1:
*5d9d9091SRichard Lowe	andcc	%o1, 0x10, %o3
*5d9d9091SRichard Lowe	brnz,pn	%o3, .align_11
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe	andcc	%o1, 0x08, %o3
*5d9d9091SRichard Lowe	brnz,pn	%o3, .align_101
*5d9d9091SRichard Lowe	prefetch [%o1 + (4 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe	ba	.align_100
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe.align_11:
*5d9d9091SRichard Lowe	andcc	%o1, 0x08, %o3
*5d9d9091SRichard Lowe	brz,pn	%o3, .align_110
*5d9d9091SRichard Lowe	prefetch [%o1 + (4 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.align_111:
*5d9d9091SRichard Lowe! Alignment off by 8 bytes
*5d9d9091SRichard Lowe	ldd	[%o1], %d0
*5d9d9091SRichard Lowe	add	%o1, 8, %o1
*5d9d9091SRichard Lowe	sub	%o2, 8, %o2
*5d9d9091SRichard Lowe	andn	%o2, 0x7f, %o5		! %o5 is multiple of 2*block size
*5d9d9091SRichard Lowe	and	%o2, 0x7f, %o2		! residue bytes in %o2
*5d9d9091SRichard Lowe.align_111_loop:
*5d9d9091SRichard Lowe	subcc	%o5, 128, %o5
*5d9d9091SRichard Lowe	/* ---- copy line 1 of 2. ---- */
*5d9d9091SRichard Lowe	ldda	[%o1]%asi,%d16		! block load
*5d9d9091SRichard Lowe	fmovd	%d16, %d2
*5d9d9091SRichard Lowe	fmovd	%d18, %d4
*5d9d9091SRichard Lowe	fmovd	%d20, %d6
*5d9d9091SRichard Lowe	fmovd	%d22, %d8
*5d9d9091SRichard Lowe	fmovd	%d24, %d10
*5d9d9091SRichard Lowe	fmovd	%d26, %d12
*5d9d9091SRichard Lowe	fmovd	%d28, %d14
*5d9d9091SRichard Lowe	stxa	%g0,[%o0]ASI_STBI_P	! block initializing store
*5d9d9091SRichard Lowe	stda	%d0,[%o0]%asi
*5d9d9091SRichard Lowe	add	%o0, 64, %o0		! advance dst
*5d9d9091SRichard Lowe	prefetch [%o1 + (5 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe	fmovd	%d30, %d0
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	/* ---- copy line 2 of 2. ---- */
*5d9d9091SRichard Lowe	ldda	[%o1+64]%asi,%d16
*5d9d9091SRichard Lowe	fmovd	%d16, %d2
*5d9d9091SRichard Lowe	fmovd	%d18, %d4
*5d9d9091SRichard Lowe	fmovd	%d20, %d6
*5d9d9091SRichard Lowe	fmovd	%d22, %d8
*5d9d9091SRichard Lowe	fmovd	%d24, %d10
*5d9d9091SRichard Lowe	fmovd	%d26, %d12
*5d9d9091SRichard Lowe	fmovd	%d28, %d14
*5d9d9091SRichard Lowe	add	%o1, 128, %o1		! increment src
*5d9d9091SRichard Lowe	stxa	%g0,[%o0]ASI_STBI_P	! block initializing store
*5d9d9091SRichard Lowe	stda	%d0,[%o0]%asi
*5d9d9091SRichard Lowe	add	%o0, 64, %o0		! advance dst
*5d9d9091SRichard Lowe	fmovd	%d30, %d0
*5d9d9091SRichard Lowe	bgt,pt	%ncc, .align_111_loop
*5d9d9091SRichard Lowe	prefetch [%o1 + (4 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	std	%d0, [%o0]
*5d9d9091SRichard Lowe	ba	.remain_stuff
*5d9d9091SRichard Lowe	add	%o0, 8, %o0
*5d9d9091SRichard Lowe	! END OF align_111
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.align_110:
*5d9d9091SRichard Lowe! Alignment off by 16 bytes
*5d9d9091SRichard Lowe	ldd	[%o1], %d0
*5d9d9091SRichard Lowe	ldd	[%o1+8], %d2
*5d9d9091SRichard Lowe	add	%o1, 16, %o1
*5d9d9091SRichard Lowe	sub	%o2, 16, %o2
*5d9d9091SRichard Lowe	andn	%o2, 0x7f, %o5		! %o5 is multiple of 2*block size
*5d9d9091SRichard Lowe	and	%o2, 0x7f, %o2		! residue bytes in %o2
*5d9d9091SRichard Lowe.align_110_loop:
*5d9d9091SRichard Lowe	subcc	%o5, 128, %o5
*5d9d9091SRichard Lowe	/* ---- copy line 1 of 2. ---- */
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	ldda	[%o1]%asi,%d16		! block load
*5d9d9091SRichard Lowe	fmovd	%d16, %d4
*5d9d9091SRichard Lowe	fmovd	%d18, %d6
*5d9d9091SRichard Lowe	fmovd	%d20, %d8
*5d9d9091SRichard Lowe	fmovd	%d22, %d10
*5d9d9091SRichard Lowe	fmovd	%d24, %d12
*5d9d9091SRichard Lowe	fmovd	%d26, %d14
*5d9d9091SRichard Lowe	stxa	%g0,[%o0]ASI_STBI_P	! block initializing store
*5d9d9091SRichard Lowe	stda	%d0,[%o0]%asi
*5d9d9091SRichard Lowe	add	%o0, 64, %o0		! advance dst
*5d9d9091SRichard Lowe	fmovd	%d28, %d0
*5d9d9091SRichard Lowe	prefetch [%o1 + (5 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe	fmovd	%d30, %d2
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	/* ---- copy line 2 of 2. ---- */
*5d9d9091SRichard Lowe	ldda	[%o1+64]%asi,%d16
*5d9d9091SRichard Lowe	fmovd	%d16, %d4
*5d9d9091SRichard Lowe	fmovd	%d18, %d6
*5d9d9091SRichard Lowe	fmovd	%d20, %d8
*5d9d9091SRichard Lowe	fmovd	%d22, %d10
*5d9d9091SRichard Lowe	fmovd	%d24, %d12
*5d9d9091SRichard Lowe	fmovd	%d26, %d14
*5d9d9091SRichard Lowe	add	%o1, 128, %o1		! increment src
*5d9d9091SRichard Lowe	stxa	%g0,[%o0]ASI_STBI_P	! block initializing store
*5d9d9091SRichard Lowe	stda	%d0,[%o0]%asi
*5d9d9091SRichard Lowe	add	%o0, 64, %o0		! advance dst
*5d9d9091SRichard Lowe	fmovd	%d28, %d0
*5d9d9091SRichard Lowe	fmovd	%d30, %d2
*5d9d9091SRichard Lowe	bgt,pt	%ncc, .align_110_loop
*5d9d9091SRichard Lowe	prefetch [%o1 + (4 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	std	%d0, [%o0]
*5d9d9091SRichard Lowe	std	%d2, [%o0+8]
*5d9d9091SRichard Lowe	ba	.remain_stuff
*5d9d9091SRichard Lowe	add	%o0, 16, %o0
*5d9d9091SRichard Lowe	! END OF align_110
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.align_101:
*5d9d9091SRichard Lowe! Alignment off by 24 bytes
*5d9d9091SRichard Lowe	ldd	[%o1], %d0
*5d9d9091SRichard Lowe	ldd	[%o1+8], %d2
*5d9d9091SRichard Lowe	ldd	[%o1+16], %d4
*5d9d9091SRichard Lowe	add	%o1, 24, %o1
*5d9d9091SRichard Lowe	sub	%o2, 24, %o2
*5d9d9091SRichard Lowe	andn	%o2, 0x7f, %o5		! %o5 is multiple of 2*block size
*5d9d9091SRichard Lowe	and	%o2, 0x7f, %o2		! residue bytes in %o2
*5d9d9091SRichard Lowe.align_101_loop:
*5d9d9091SRichard Lowe	subcc	%o5, 128, %o5
*5d9d9091SRichard Lowe	/* ---- copy line 1 of 2. ---- */
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	ldda	[%o1]%asi,%d16		! block load
*5d9d9091SRichard Lowe	fmovd	%d16, %d6
*5d9d9091SRichard Lowe	fmovd	%d18, %d8
*5d9d9091SRichard Lowe	fmovd	%d20, %d10
*5d9d9091SRichard Lowe	fmovd	%d22, %d12
*5d9d9091SRichard Lowe	fmovd	%d24, %d14
*5d9d9091SRichard Lowe	stxa	%g0,[%o0]ASI_STBI_P	! block initializing store
*5d9d9091SRichard Lowe	stda	%d0,[%o0]%asi
*5d9d9091SRichard Lowe	add	%o0, 64, %o0		! advance dst
*5d9d9091SRichard Lowe	fmovd	%d26, %d0
*5d9d9091SRichard Lowe	fmovd	%d28, %d2
*5d9d9091SRichard Lowe	prefetch [%o1 + (5 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe	fmovd	%d30, %d4
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	/* ---- copy line 2 of 2. ---- */
*5d9d9091SRichard Lowe	ldda	[%o1+64]%asi,%d16
*5d9d9091SRichard Lowe	fmovd	%d16, %d6
*5d9d9091SRichard Lowe	fmovd	%d18, %d8
*5d9d9091SRichard Lowe	fmovd	%d20, %d10
*5d9d9091SRichard Lowe	fmovd	%d22, %d12
*5d9d9091SRichard Lowe	fmovd	%d24, %d14
*5d9d9091SRichard Lowe	add	%o1, 128, %o1		! increment src
*5d9d9091SRichard Lowe	stxa	%g0,[%o0]ASI_STBI_P	! block initializing store
*5d9d9091SRichard Lowe	stda	%d0,[%o0]%asi
*5d9d9091SRichard Lowe	add	%o0, 64, %o0		! advance dst
*5d9d9091SRichard Lowe	fmovd	%d26, %d0
*5d9d9091SRichard Lowe	fmovd	%d28, %d2
*5d9d9091SRichard Lowe	fmovd	%d30, %d4
*5d9d9091SRichard Lowe	bgt,pt	%ncc, .align_101_loop
*5d9d9091SRichard Lowe	prefetch [%o1 + (4 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	std	%d0, [%o0]
*5d9d9091SRichard Lowe	std	%d2, [%o0+8]
*5d9d9091SRichard Lowe	std	%d4, [%o0+16]
*5d9d9091SRichard Lowe	ba	.remain_stuff
*5d9d9091SRichard Lowe	add	%o0, 24, %o0
*5d9d9091SRichard Lowe	! END OF align_101
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.align_100:
*5d9d9091SRichard Lowe! Alignment off by 32 bytes
*5d9d9091SRichard Lowe	ldd	[%o1], %d0
*5d9d9091SRichard Lowe	ldd	[%o1+8], %d2
*5d9d9091SRichard Lowe	ldd	[%o1+16],%d4
*5d9d9091SRichard Lowe	ldd	[%o1+24],%d6
*5d9d9091SRichard Lowe	add	%o1, 32, %o1
*5d9d9091SRichard Lowe	sub	%o2, 32, %o2
*5d9d9091SRichard Lowe	andn	%o2, 0x7f, %o5		! %o5 is multiple of 2*block size
*5d9d9091SRichard Lowe	and	%o2, 0x7f, %o2		! residue bytes in %o2
*5d9d9091SRichard Lowe.align_100_loop:
*5d9d9091SRichard Lowe	subcc	%o5, 128, %o5
*5d9d9091SRichard Lowe	/* ---- copy line 1 of 2. ---- */
*5d9d9091SRichard Lowe	ldda	[%o1]%asi,%d16		! block load
*5d9d9091SRichard Lowe	fmovd	%d16, %d8
*5d9d9091SRichard Lowe	fmovd	%d18, %d10
*5d9d9091SRichard Lowe	fmovd	%d20, %d12
*5d9d9091SRichard Lowe	fmovd	%d22, %d14
*5d9d9091SRichard Lowe	stxa	%g0,[%o0]ASI_STBI_P	! block initializing store
*5d9d9091SRichard Lowe	stda	%d0,[%o0]%asi
*5d9d9091SRichard Lowe	add	%o0, 64, %o0		! advance dst
*5d9d9091SRichard Lowe	fmovd	%d24, %d0
*5d9d9091SRichard Lowe	fmovd	%d26, %d2
*5d9d9091SRichard Lowe	fmovd	%d28, %d4
*5d9d9091SRichard Lowe	prefetch [%o1 + (5 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe	fmovd	%d30, %d6
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	/* ---- copy line 2 of 2. ---- */
*5d9d9091SRichard Lowe	ldda	[%o1+64]%asi,%d16
*5d9d9091SRichard Lowe	fmovd	%d16, %d8
*5d9d9091SRichard Lowe	fmovd	%d18, %d10
*5d9d9091SRichard Lowe	fmovd	%d20, %d12
*5d9d9091SRichard Lowe	fmovd	%d22, %d14
*5d9d9091SRichard Lowe	add	%o1, 128, %o1		! increment src
*5d9d9091SRichard Lowe	stxa	%g0,[%o0]ASI_STBI_P	! block initializing store
*5d9d9091SRichard Lowe	stda	%d0,[%o0]%asi
*5d9d9091SRichard Lowe	add	%o0, 64, %o0		! advance dst
*5d9d9091SRichard Lowe	fmovd	%d24, %d0
*5d9d9091SRichard Lowe	fmovd	%d26, %d2
*5d9d9091SRichard Lowe	fmovd	%d28, %d4
*5d9d9091SRichard Lowe	fmovd	%d30, %d6
*5d9d9091SRichard Lowe	bgt,pt	%ncc, .align_100_loop
*5d9d9091SRichard Lowe	prefetch [%o1 + (4 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	std	%d0, [%o0]
*5d9d9091SRichard Lowe	std	%d2, [%o0+8]
*5d9d9091SRichard Lowe	std	%d4, [%o0+16]
*5d9d9091SRichard Lowe	std	%d6, [%o0+24]
*5d9d9091SRichard Lowe	ba	.remain_stuff
*5d9d9091SRichard Lowe	add	%o0, 32, %o0
*5d9d9091SRichard Lowe	! END OF align_100
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.align_011:
*5d9d9091SRichard Lowe! Alignment off by 40 bytes
*5d9d9091SRichard Lowe	ldd	[%o1], %d0
*5d9d9091SRichard Lowe	ldd	[%o1+8], %d2
*5d9d9091SRichard Lowe	ldd	[%o1+16], %d4
*5d9d9091SRichard Lowe	ldd	[%o1+24], %d6
*5d9d9091SRichard Lowe	ldd	[%o1+32], %d8
*5d9d9091SRichard Lowe	add	%o1, 40, %o1
*5d9d9091SRichard Lowe	sub	%o2, 40, %o2
*5d9d9091SRichard Lowe	andn	%o2, 0x7f, %o5		! %o5 is multiple of 2*block size
*5d9d9091SRichard Lowe	and	%o2, 0x7f, %o2		! residue bytes in %o2
*5d9d9091SRichard Lowe.align_011_loop:
*5d9d9091SRichard Lowe	subcc	%o5, 128, %o5
*5d9d9091SRichard Lowe	/* ---- copy line 1 of 2. ---- */
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	ldda	[%o1]%asi,%d16		! block load
*5d9d9091SRichard Lowe	fmovd	%d16, %d10
*5d9d9091SRichard Lowe	fmovd	%d18, %d12
*5d9d9091SRichard Lowe	fmovd	%d20, %d14
*5d9d9091SRichard Lowe	stxa	%g0,[%o0]ASI_STBI_P	! block initializing store
*5d9d9091SRichard Lowe	stda	%d0,[%o0]%asi
*5d9d9091SRichard Lowe	add	%o0, 64, %o0		! advance dst
*5d9d9091SRichard Lowe	fmovd	%d22, %d0
*5d9d9091SRichard Lowe	fmovd	%d24, %d2
*5d9d9091SRichard Lowe	fmovd	%d26, %d4
*5d9d9091SRichard Lowe	fmovd	%d28, %d6
*5d9d9091SRichard Lowe	prefetch [%o1 + (5 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe	fmovd	%d30, %d8
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	/* ---- copy line 2 of 2. ---- */
*5d9d9091SRichard Lowe	ldda	[%o1+64]%asi,%d16
*5d9d9091SRichard Lowe	fmovd	%d16, %d10
*5d9d9091SRichard Lowe	fmovd	%d18, %d12
*5d9d9091SRichard Lowe	fmovd	%d20, %d14
*5d9d9091SRichard Lowe	add	%o1, 128, %o1		! increment src
*5d9d9091SRichard Lowe	stxa	%g0,[%o0]ASI_STBI_P	! block initializing store
*5d9d9091SRichard Lowe	stda	%d0,[%o0]%asi
*5d9d9091SRichard Lowe	add	%o0, 64, %o0		! advance dst
*5d9d9091SRichard Lowe	fmovd	%d22, %d0
*5d9d9091SRichard Lowe	fmovd	%d24, %d2
*5d9d9091SRichard Lowe	fmovd	%d26, %d4
*5d9d9091SRichard Lowe	fmovd	%d28, %d6
*5d9d9091SRichard Lowe	fmovd	%d30, %d8
*5d9d9091SRichard Lowe	bgt,pt	%ncc, .align_011_loop
*5d9d9091SRichard Lowe	prefetch [%o1 + (4 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	std	%d0, [%o0]
*5d9d9091SRichard Lowe	std	%d2, [%o0+8]
*5d9d9091SRichard Lowe	std	%d4, [%o0+16]
*5d9d9091SRichard Lowe	std	%d6, [%o0+24]
*5d9d9091SRichard Lowe	std	%d8, [%o0+32]
*5d9d9091SRichard Lowe	ba	.remain_stuff
*5d9d9091SRichard Lowe	add	%o0, 40, %o0
*5d9d9091SRichard Lowe	! END OF align_011
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.align_010:
*5d9d9091SRichard Lowe! Alignment off by 48 bytes
*5d9d9091SRichard Lowe	ldd	[%o1], %d0
*5d9d9091SRichard Lowe	ldd	[%o1+8], %d2
*5d9d9091SRichard Lowe	ldd	[%o1+16], %d4
*5d9d9091SRichard Lowe	ldd	[%o1+24], %d6
*5d9d9091SRichard Lowe	ldd	[%o1+32], %d8
*5d9d9091SRichard Lowe	ldd	[%o1+40], %d10
*5d9d9091SRichard Lowe	add	%o1, 48, %o1
*5d9d9091SRichard Lowe	sub	%o2, 48, %o2
*5d9d9091SRichard Lowe	andn	%o2, 0x7f, %o5		! %o5 is multiple of 2*block size
*5d9d9091SRichard Lowe	and	%o2, 0x7f, %o2		! residue bytes in %o2
*5d9d9091SRichard Lowe.align_010_loop:
*5d9d9091SRichard Lowe	subcc	%o5, 128, %o5
*5d9d9091SRichard Lowe	/* ---- copy line 1 of 2. ---- */
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	ldda	[%o1]%asi,%d16		! block load
*5d9d9091SRichard Lowe	fmovd	%d16, %d12
*5d9d9091SRichard Lowe	fmovd	%d18, %d14
*5d9d9091SRichard Lowe	stxa	%g0,[%o0]ASI_STBI_P	! block initializing store
*5d9d9091SRichard Lowe	stda	%d0,[%o0]%asi
*5d9d9091SRichard Lowe	add	%o0, 64, %o0		! advance dst
*5d9d9091SRichard Lowe	fmovd	%d20, %d0
*5d9d9091SRichard Lowe	fmovd	%d22, %d2
*5d9d9091SRichard Lowe	fmovd	%d24, %d4
*5d9d9091SRichard Lowe	fmovd	%d26, %d6
*5d9d9091SRichard Lowe	fmovd	%d28, %d8
*5d9d9091SRichard Lowe	prefetch [%o1 + (5 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe	fmovd	%d30, %d10
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	/* ---- copy line 2 of 2. ---- */
*5d9d9091SRichard Lowe	ldda	[%o1+64]%asi,%d16
*5d9d9091SRichard Lowe	fmovd	%d16, %d12
*5d9d9091SRichard Lowe	fmovd	%d18, %d14
*5d9d9091SRichard Lowe	add	%o1, 128, %o1	! increment src
*5d9d9091SRichard Lowe	stxa	%g0,[%o0]ASI_STBI_P	! block initializing store
*5d9d9091SRichard Lowe	stda	%d0,[%o0]%asi
*5d9d9091SRichard Lowe	add	%o0, 64, %o0		! advance dst
*5d9d9091SRichard Lowe	fmovd	%d20, %d0
*5d9d9091SRichard Lowe	fmovd	%d22, %d2
*5d9d9091SRichard Lowe	fmovd	%d24, %d4
*5d9d9091SRichard Lowe	fmovd	%d26, %d6
*5d9d9091SRichard Lowe	fmovd	%d28, %d8
*5d9d9091SRichard Lowe	fmovd	%d30, %d10
*5d9d9091SRichard Lowe	bgt,pt	%ncc, .align_010_loop
*5d9d9091SRichard Lowe	prefetch [%o1 + (4 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	std	%d0, [%o0]
*5d9d9091SRichard Lowe	std	%d2, [%o0+8]
*5d9d9091SRichard Lowe	std	%d4, [%o0+16]
*5d9d9091SRichard Lowe	std	%d6, [%o0+24]
*5d9d9091SRichard Lowe	std	%d8, [%o0+32]
*5d9d9091SRichard Lowe	std	%d10, [%o0+40]
*5d9d9091SRichard Lowe	ba	.remain_stuff
*5d9d9091SRichard Lowe	add	%o0, 48, %o0
*5d9d9091SRichard Lowe	! END OF align_010
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.align_001:
*5d9d9091SRichard Lowe! Alignment off by 56 bytes
*5d9d9091SRichard Lowe	ldd	[%o1], %d0
*5d9d9091SRichard Lowe	ldd	[%o1+8], %d2
*5d9d9091SRichard Lowe	ldd	[%o1+16], %d4
*5d9d9091SRichard Lowe	ldd	[%o1+24], %d6
*5d9d9091SRichard Lowe	ldd	[%o1+32], %d8
*5d9d9091SRichard Lowe	ldd	[%o1+40], %d10
*5d9d9091SRichard Lowe	ldd	[%o1+48], %d12
*5d9d9091SRichard Lowe	add	%o1, 56, %o1
*5d9d9091SRichard Lowe	sub	%o2, 56, %o2
*5d9d9091SRichard Lowe	andn	%o2, 0x7f, %o5		! %o5 is multiple of 2*block size
*5d9d9091SRichard Lowe	and	%o2, 0x7f, %o2		! residue bytes in %o2
*5d9d9091SRichard Lowe.align_001_loop:
*5d9d9091SRichard Lowe	subcc	%o5, 128, %o5
*5d9d9091SRichard Lowe	/* ---- copy line 1 of 2. ---- */
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	ldda	[%o1]%asi,%d16		! block load
*5d9d9091SRichard Lowe	fmovd	%d16, %d14
*5d9d9091SRichard Lowe	stxa	%g0,[%o0]ASI_STBI_P	! block initializing store
*5d9d9091SRichard Lowe	stda	%d0,[%o0]%asi
*5d9d9091SRichard Lowe	add	%o0, 64, %o0		! advance dst
*5d9d9091SRichard Lowe	fmovd	%d18, %d0
*5d9d9091SRichard Lowe	fmovd	%d20, %d2
*5d9d9091SRichard Lowe	fmovd	%d22, %d4
*5d9d9091SRichard Lowe	fmovd	%d24, %d6
*5d9d9091SRichard Lowe	fmovd	%d26, %d8
*5d9d9091SRichard Lowe	fmovd	%d28, %d10
*5d9d9091SRichard Lowe	prefetch [%o1 + (5 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe	fmovd	%d30, %d12
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	/* ---- copy line 2 of 2. ---- */
*5d9d9091SRichard Lowe	ldda	[%o1+64]%asi,%d16
*5d9d9091SRichard Lowe	fmovd	%d16, %d14
*5d9d9091SRichard Lowe	add	%o1, 128, %o1		! increment src
*5d9d9091SRichard Lowe	stxa	%g0,[%o0]ASI_STBI_P	! block initializing store
*5d9d9091SRichard Lowe	stda	%d0,[%o0]%asi
*5d9d9091SRichard Lowe	add	%o0, 64, %o0		! advance dst
*5d9d9091SRichard Lowe	fmovd	%d18, %d0
*5d9d9091SRichard Lowe	fmovd	%d20, %d2
*5d9d9091SRichard Lowe	fmovd	%d22, %d4
*5d9d9091SRichard Lowe	fmovd	%d24, %d6
*5d9d9091SRichard Lowe	fmovd	%d26, %d8
*5d9d9091SRichard Lowe	fmovd	%d28, %d10
*5d9d9091SRichard Lowe	fmovd	%d30, %d12
*5d9d9091SRichard Lowe	bgt,pt	%ncc, .align_001_loop
*5d9d9091SRichard Lowe	prefetch [%o1 + (4 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	std	%d0, [%o0]
*5d9d9091SRichard Lowe	std	%d2, [%o0+8]
*5d9d9091SRichard Lowe	std	%d4, [%o0+16]
*5d9d9091SRichard Lowe	std	%d6, [%o0+24]
*5d9d9091SRichard Lowe	std	%d8, [%o0+32]
*5d9d9091SRichard Lowe	std	%d10, [%o0+40]
*5d9d9091SRichard Lowe	std	%d12, [%o0+48]
*5d9d9091SRichard Lowe	ba	.remain_stuff
*5d9d9091SRichard Lowe	add	%o0, 56, %o0
*5d9d9091SRichard Lowe	! END OF align_001
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.align_000:
*5d9d9091SRichard Lowe	andn	%o2, 0x7f, %o5		! %o5 is multiple of 2*block size
*5d9d9091SRichard Lowe	and	%o2, 0x7f, %o2		! residue bytes in %o2
*5d9d9091SRichard Lowe.align_000_loop:
*5d9d9091SRichard Lowe	/* ---- copy line 1 of 2. ---- */
*5d9d9091SRichard Lowe	subcc	%o5, 128, %o5
*5d9d9091SRichard Lowe	ldda	[%o1]%asi,%d0
*5d9d9091SRichard Lowe	stxa	%g0,[%o0]ASI_STBI_P	! block initializing store
*5d9d9091SRichard Lowe	stda	%d0,[%o0]%asi
*5d9d9091SRichard Lowe	prefetch [%o1 + (5 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	/* ---- copy line 2 of 2. ---- */
*5d9d9091SRichard Lowe	add	%o0, 64, %o0
*5d9d9091SRichard Lowe	ldda	[%o1+64]%asi,%d0
*5d9d9091SRichard Lowe	add	%o1, 128, %o1		! increment src
*5d9d9091SRichard Lowe	stxa	%g0,[%o0]ASI_STBI_P	! block initializing store
*5d9d9091SRichard Lowe	stda	%d0,[%o0]%asi
*5d9d9091SRichard Lowe	add	%o0, 64, %o0		! increment dst
*5d9d9091SRichard Lowe	bgt,pt	%ncc, .align_000_loop
*5d9d9091SRichard Lowe	prefetch [%o1 + (4 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	! END OF align_000
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.remain_stuff:
*5d9d9091SRichard Lowe	mov	%o4, %asi		! restore %asi
*5d9d9091SRichard Lowe	brnz	%g5, .medlong
*5d9d9091SRichard Lowe	membar	#Sync
*5d9d9091SRichard Lowe	ba	.medlong
*5d9d9091SRichard Lowe	wr	%g5, %g0, %fprs
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	.align 16
*5d9d9091SRichard Lowe	! Dst is on 8 byte boundary; src is not; remaining count > SMALL_MAX
*5d9d9091SRichard Lowe.unalignsetup:
*5d9d9091SRichard Lowe	prefetch [%o1 + (3 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe.unalignrejoin:
*5d9d9091SRichard Lowe	rd	%fprs, %g5		! check for unused fp
*5d9d9091SRichard Lowe	! if fprs.fef == 0, set it.
*5d9d9091SRichard Lowe	! Setting it when already set costs more than checking
*5d9d9091SRichard Lowe	andcc	%g5, FPRS_FEF, %g5	! test FEF, fprs.du = fprs.dl = 0
*5d9d9091SRichard Lowe	bz,a	%ncc, 1f
*5d9d9091SRichard Lowe	wr	%g0, FPRS_FEF, %fprs	! fprs.fef = 1
*5d9d9091SRichard Lowe1:
*5d9d9091SRichard Lowe	cmp	%o2, MED_UMAX		! check for medium unaligned limit
*5d9d9091SRichard Lowe	bge,pt	%ncc,.unalign_large
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe	andn	%o2, 0x3f, %o5		! %o5 is multiple of block size
*5d9d9091SRichard Lowe	and	%o2, 0x3f, %o2		! residue bytes in %o2
*5d9d9091SRichard Lowe	cmp	%o2, 8			! Insure we don't load beyond
*5d9d9091SRichard Lowe	bgt	.unalign_adjust		! end of source buffer
*5d9d9091SRichard Lowe	andn	%o1, 0x7, %o4		! %o4 has long word aligned src address
*5d9d9091SRichard Lowe	add	%o2, 64, %o2		! adjust to leave loop
*5d9d9091SRichard Lowe	sub	%o5, 64, %o5		! early if necessary
*5d9d9091SRichard Lowe.unalign_adjust:
*5d9d9091SRichard Lowe	alignaddr %o1, %g0, %g0		! generate %gsr
*5d9d9091SRichard Lowe	add	%o1, %o5, %o1		! advance %o1 to after blocks
*5d9d9091SRichard Lowe	ldd	[%o4], %d0
*5d9d9091SRichard Lowe.unalign_loop:
*5d9d9091SRichard Lowe	ldd	[%o4+8], %d2
*5d9d9091SRichard Lowe	faligndata %d0, %d2, %d16
*5d9d9091SRichard Lowe	ldd	[%o4+16], %d4
*5d9d9091SRichard Lowe	std	%d16, [%o0]
*5d9d9091SRichard Lowe	faligndata %d2, %d4, %d18
*5d9d9091SRichard Lowe	ldd	[%o4+24], %d6
*5d9d9091SRichard Lowe	std	%d18, [%o0+8]
*5d9d9091SRichard Lowe	faligndata %d4, %d6, %d20
*5d9d9091SRichard Lowe	ldd	[%o4+32], %d8
*5d9d9091SRichard Lowe	std	%d20, [%o0+16]
*5d9d9091SRichard Lowe	faligndata %d6, %d8, %d22
*5d9d9091SRichard Lowe	ldd	[%o4+40], %d10
*5d9d9091SRichard Lowe	std	%d22, [%o0+24]
*5d9d9091SRichard Lowe	faligndata %d8, %d10, %d24
*5d9d9091SRichard Lowe	ldd	[%o4+48], %d12
*5d9d9091SRichard Lowe	std	%d24, [%o0+32]
*5d9d9091SRichard Lowe	faligndata %d10, %d12, %d26
*5d9d9091SRichard Lowe	ldd	[%o4+56], %d14
*5d9d9091SRichard Lowe	std	%d26, [%o0+40]
*5d9d9091SRichard Lowe	faligndata %d12, %d14, %d28
*5d9d9091SRichard Lowe	ldd	[%o4+64], %d0
*5d9d9091SRichard Lowe	std	%d28, [%o0+48]
*5d9d9091SRichard Lowe	faligndata %d14, %d0, %d30
*5d9d9091SRichard Lowe	add	%o4, BLOCK_SIZE, %o4
*5d9d9091SRichard Lowe	std	%d30, [%o0+56]
*5d9d9091SRichard Lowe	add	%o0, BLOCK_SIZE, %o0
*5d9d9091SRichard Lowe	subcc	%o5, BLOCK_SIZE, %o5
*5d9d9091SRichard Lowe	bgu,pt	%ncc, .unalign_loop
*5d9d9091SRichard Lowe	prefetch [%o4 + (4 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe	ba	.unalign_done
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.unalign_large:
*5d9d9091SRichard Lowe	andcc	%o0, 0x3f, %o3		! is dst 64-byte block aligned?
*5d9d9091SRichard Lowe	bz	%ncc, .unalignsrc
*5d9d9091SRichard Lowe	sub	%o3, 64, %o3		! %o3 will be multiple of 8
*5d9d9091SRichard Lowe	neg	%o3			! bytes until dest is 64 byte aligned
*5d9d9091SRichard Lowe	sub	%o2, %o3, %o2		! update cnt with bytes to be moved
*5d9d9091SRichard Lowe	! Move bytes according to source alignment
*5d9d9091SRichard Lowe	andcc	%o1, 0x1, %o5
*5d9d9091SRichard Lowe	bnz	%ncc, .unalignbyte	! check for byte alignment
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe	andcc	%o1, 2, %o5		! check for half word alignment
*5d9d9091SRichard Lowe	bnz	%ncc, .unalignhalf
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe	! Src is word aligned
*5d9d9091SRichard Lowe.unalignword:
*5d9d9091SRichard Lowe	ld	[%o1], %o4		! load 4 bytes
*5d9d9091SRichard Lowe	stw	%o4, [%o0]		! and store 4 bytes
*5d9d9091SRichard Lowe	ld	[%o1+4], %o4		! load 4 bytes
*5d9d9091SRichard Lowe	add	%o1, 8, %o1		! increase src ptr by 8
*5d9d9091SRichard Lowe	stw	%o4, [%o0+4]		! and store 4 bytes
*5d9d9091SRichard Lowe	subcc	%o3, 8, %o3		! decrease count by 8
*5d9d9091SRichard Lowe	bnz	%ncc, .unalignword
*5d9d9091SRichard Lowe	add	%o0, 8, %o0		! increase dst ptr by 8
*5d9d9091SRichard Lowe	ba	.unalignsrc
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	! Src is half-word aligned
*5d9d9091SRichard Lowe.unalignhalf:
*5d9d9091SRichard Lowe	lduh	[%o1], %o4		! load 2 bytes
*5d9d9091SRichard Lowe	sllx	%o4, 32, %o5		! shift left
*5d9d9091SRichard Lowe	lduw	[%o1+2], %o4
*5d9d9091SRichard Lowe	or	%o4, %o5, %o5
*5d9d9091SRichard Lowe	sllx	%o5, 16, %o5
*5d9d9091SRichard Lowe	lduh	[%o1+6], %o4
*5d9d9091SRichard Lowe	or	%o4, %o5, %o5
*5d9d9091SRichard Lowe	stx	%o5, [%o0]
*5d9d9091SRichard Lowe	add	%o1, 8, %o1
*5d9d9091SRichard Lowe	subcc	%o3, 8, %o3
*5d9d9091SRichard Lowe	bnz	%ncc, .unalignhalf
*5d9d9091SRichard Lowe	add	%o0, 8, %o0
*5d9d9091SRichard Lowe	ba	.unalignsrc
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	! Src is Byte aligned
*5d9d9091SRichard Lowe.unalignbyte:
*5d9d9091SRichard Lowe	sub	%o0, %o1, %o0		! share pointer advance
*5d9d9091SRichard Lowe.unalignbyte_loop:
*5d9d9091SRichard Lowe	ldub	[%o1], %o4
*5d9d9091SRichard Lowe	sllx	%o4, 56, %o5
*5d9d9091SRichard Lowe	lduh	[%o1+1], %o4
*5d9d9091SRichard Lowe	sllx	%o4, 40, %o4
*5d9d9091SRichard Lowe	or	%o4, %o5, %o5
*5d9d9091SRichard Lowe	lduh	[%o1+3], %o4
*5d9d9091SRichard Lowe	sllx	%o4, 24, %o4
*5d9d9091SRichard Lowe	or	%o4, %o5, %o5
*5d9d9091SRichard Lowe	lduh	[%o1+5], %o4
*5d9d9091SRichard Lowe	sllx	%o4,  8, %o4
*5d9d9091SRichard Lowe	or	%o4, %o5, %o5
*5d9d9091SRichard Lowe	ldub	[%o1+7], %o4
*5d9d9091SRichard Lowe	or	%o4, %o5, %o5
*5d9d9091SRichard Lowe	stx	%o5, [%o0+%o1]
*5d9d9091SRichard Lowe	subcc	%o3, 8, %o3
*5d9d9091SRichard Lowe	bnz	%ncc, .unalignbyte_loop
*5d9d9091SRichard Lowe	add	%o1, 8, %o1
*5d9d9091SRichard Lowe	add	%o0,%o1, %o0 		! restore pointer
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	! Destination is now block (64 byte aligned)
*5d9d9091SRichard Lowe.unalignsrc:
*5d9d9091SRichard Lowe	andn	%o2, 0x3f, %o5		! %o5 is multiple of block size
*5d9d9091SRichard Lowe	and	%o2, 0x3f, %o2		! residue bytes in %o2
*5d9d9091SRichard Lowe	add	%o2, 64, %o2		! Insure we don't load beyond
*5d9d9091SRichard Lowe	sub	%o5, 64, %o5		! end of source buffer
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	andn	%o1, 0x3f, %o4		! %o4 has block aligned src address
*5d9d9091SRichard Lowe	prefetch [%o4 + (3 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe	alignaddr %o1, %g0, %g0		! generate %gsr
*5d9d9091SRichard Lowe	add	%o1, %o5, %o1		! advance %o1 to after blocks
*5d9d9091SRichard Lowe	!
*5d9d9091SRichard Lowe	! Determine source alignment to correct 8 byte offset
*5d9d9091SRichard Lowe	andcc	%o1, 0x20, %o3
*5d9d9091SRichard Lowe	brnz,pn	%o3, .unalign_1
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe	andcc	%o1, 0x10, %o3
*5d9d9091SRichard Lowe	brnz,pn	%o3, .unalign_01
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe	andcc	%o1, 0x08, %o3
*5d9d9091SRichard Lowe	brz,a	%o3, .unalign_000
*5d9d9091SRichard Lowe	prefetch [%o4 + (4 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe	ba	.unalign_001
*5d9d9091SRichard Lowe	prefetch [%o4 + (4 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe.unalign_01:
*5d9d9091SRichard Lowe	andcc	%o1, 0x08, %o3
*5d9d9091SRichard Lowe	brnz,a	%o3, .unalign_011
*5d9d9091SRichard Lowe	prefetch [%o4 + (4 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe	ba	.unalign_010
*5d9d9091SRichard Lowe	prefetch [%o4 + (4 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe.unalign_1:
*5d9d9091SRichard Lowe	andcc	%o1, 0x10, %o3
*5d9d9091SRichard Lowe	brnz,pn	%o3, .unalign_11
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe	andcc	%o1, 0x08, %o3
*5d9d9091SRichard Lowe	brnz,a	%o3, .unalign_101
*5d9d9091SRichard Lowe	prefetch [%o4 + (4 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe	ba	.unalign_100
*5d9d9091SRichard Lowe	prefetch [%o4 + (4 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe.unalign_11:
*5d9d9091SRichard Lowe	andcc	%o1, 0x08, %o3
*5d9d9091SRichard Lowe	brz,pn	%o3, .unalign_110
*5d9d9091SRichard Lowe	prefetch [%o4 + (4 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.unalign_111:
*5d9d9091SRichard Lowe	ldd	[%o4+56], %d14
*5d9d9091SRichard Lowe.unalign_111_loop:
*5d9d9091SRichard Lowe	add	%o4, 64, %o4
*5d9d9091SRichard Lowe	ldda	[%o4]ASI_BLK_P, %d16
*5d9d9091SRichard Lowe	faligndata %d14, %d16, %d48
*5d9d9091SRichard Lowe	faligndata %d16, %d18, %d50
*5d9d9091SRichard Lowe	faligndata %d18, %d20, %d52
*5d9d9091SRichard Lowe	faligndata %d20, %d22, %d54
*5d9d9091SRichard Lowe	faligndata %d22, %d24, %d56
*5d9d9091SRichard Lowe	faligndata %d24, %d26, %d58
*5d9d9091SRichard Lowe	faligndata %d26, %d28, %d60
*5d9d9091SRichard Lowe	faligndata %d28, %d30, %d62
*5d9d9091SRichard Lowe	fmovd	%d30, %d14
*5d9d9091SRichard Lowe	stda	%d48, [%o0]ASI_BLK_P
*5d9d9091SRichard Lowe	subcc	%o5, 64, %o5
*5d9d9091SRichard Lowe	add	%o0, 64, %o0
*5d9d9091SRichard Lowe	bgu,pt	%ncc, .unalign_111_loop
*5d9d9091SRichard Lowe	prefetch [%o4 + (4 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe	ba	.unalign_done
*5d9d9091SRichard Lowe	membar	#Sync
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.unalign_110:
*5d9d9091SRichard Lowe	ldd	[%o4+48], %d12
*5d9d9091SRichard Lowe	ldd	[%o4+56], %d14
*5d9d9091SRichard Lowe.unalign_110_loop:
*5d9d9091SRichard Lowe	add	%o4, 64, %o4
*5d9d9091SRichard Lowe	ldda	[%o4]ASI_BLK_P, %d16
*5d9d9091SRichard Lowe	faligndata %d12, %d14, %d48
*5d9d9091SRichard Lowe	faligndata %d14, %d16, %d50
*5d9d9091SRichard Lowe	faligndata %d16, %d18, %d52
*5d9d9091SRichard Lowe	faligndata %d18, %d20, %d54
*5d9d9091SRichard Lowe	faligndata %d20, %d22, %d56
*5d9d9091SRichard Lowe	faligndata %d22, %d24, %d58
*5d9d9091SRichard Lowe	faligndata %d24, %d26, %d60
*5d9d9091SRichard Lowe	faligndata %d26, %d28, %d62
*5d9d9091SRichard Lowe	fmovd	%d28, %d12
*5d9d9091SRichard Lowe	fmovd	%d30, %d14
*5d9d9091SRichard Lowe	stda	%d48, [%o0]ASI_BLK_P
*5d9d9091SRichard Lowe	subcc	%o5, 64, %o5
*5d9d9091SRichard Lowe	add	%o0, 64, %o0
*5d9d9091SRichard Lowe	bgu,pt	%ncc, .unalign_110_loop
*5d9d9091SRichard Lowe	prefetch [%o4 + (4 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe	ba	.unalign_done
*5d9d9091SRichard Lowe	membar	#Sync
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.unalign_101:
*5d9d9091SRichard Lowe	ldd	[%o4+40], %d10
*5d9d9091SRichard Lowe	ldd	[%o4+48], %d12
*5d9d9091SRichard Lowe	ldd	[%o4+56], %d14
*5d9d9091SRichard Lowe.unalign_101_loop:
*5d9d9091SRichard Lowe	add	%o4, 64, %o4
*5d9d9091SRichard Lowe	ldda	[%o4]ASI_BLK_P, %d16
*5d9d9091SRichard Lowe	faligndata %d10, %d12, %d48
*5d9d9091SRichard Lowe	faligndata %d12, %d14, %d50
*5d9d9091SRichard Lowe	faligndata %d14, %d16, %d52
*5d9d9091SRichard Lowe	faligndata %d16, %d18, %d54
*5d9d9091SRichard Lowe	faligndata %d18, %d20, %d56
*5d9d9091SRichard Lowe	faligndata %d20, %d22, %d58
*5d9d9091SRichard Lowe	faligndata %d22, %d24, %d60
*5d9d9091SRichard Lowe	faligndata %d24, %d26, %d62
*5d9d9091SRichard Lowe	fmovd	%d26, %d10
*5d9d9091SRichard Lowe	fmovd	%d28, %d12
*5d9d9091SRichard Lowe	fmovd	%d30, %d14
*5d9d9091SRichard Lowe	stda	%d48, [%o0]ASI_BLK_P
*5d9d9091SRichard Lowe	subcc	%o5, 64, %o5
*5d9d9091SRichard Lowe	add	%o0, 64, %o0
*5d9d9091SRichard Lowe	bgu,pt	%ncc, .unalign_101_loop
*5d9d9091SRichard Lowe	prefetch [%o4 + (4 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe	ba	.unalign_done
*5d9d9091SRichard Lowe	membar	#Sync
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.unalign_100:
*5d9d9091SRichard Lowe	ldd	[%o4+32], %d8
*5d9d9091SRichard Lowe	ldd	[%o4+40], %d10
*5d9d9091SRichard Lowe	ldd	[%o4+48], %d12
*5d9d9091SRichard Lowe	ldd	[%o4+56], %d14
*5d9d9091SRichard Lowe.unalign_100_loop:
*5d9d9091SRichard Lowe	add	%o4, 64, %o4
*5d9d9091SRichard Lowe	ldda	[%o4]ASI_BLK_P, %d16
*5d9d9091SRichard Lowe	faligndata %d8, %d10, %d48
*5d9d9091SRichard Lowe	faligndata %d10, %d12, %d50
*5d9d9091SRichard Lowe	faligndata %d12, %d14, %d52
*5d9d9091SRichard Lowe	faligndata %d14, %d16, %d54
*5d9d9091SRichard Lowe	faligndata %d16, %d18, %d56
*5d9d9091SRichard Lowe	faligndata %d18, %d20, %d58
*5d9d9091SRichard Lowe	faligndata %d20, %d22, %d60
*5d9d9091SRichard Lowe	faligndata %d22, %d24, %d62
*5d9d9091SRichard Lowe	fmovd	%d24, %d8
*5d9d9091SRichard Lowe	fmovd	%d26, %d10
*5d9d9091SRichard Lowe	fmovd	%d28, %d12
*5d9d9091SRichard Lowe	fmovd	%d30, %d14
*5d9d9091SRichard Lowe	stda	%d48, [%o0]ASI_BLK_P
*5d9d9091SRichard Lowe	subcc	%o5, 64, %o5
*5d9d9091SRichard Lowe	add	%o0, 64, %o0
*5d9d9091SRichard Lowe	bgu,pt	%ncc, .unalign_100_loop
*5d9d9091SRichard Lowe	prefetch [%o4 + (4 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe	ba	.unalign_done
*5d9d9091SRichard Lowe	membar	#Sync
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.unalign_011:
*5d9d9091SRichard Lowe	ldd	[%o4+24], %d6
*5d9d9091SRichard Lowe	ldd	[%o4+32], %d8
*5d9d9091SRichard Lowe	ldd	[%o4+40], %d10
*5d9d9091SRichard Lowe	ldd	[%o4+48], %d12
*5d9d9091SRichard Lowe	ldd	[%o4+56], %d14
*5d9d9091SRichard Lowe.unalign_011_loop:
*5d9d9091SRichard Lowe	add	%o4, 64, %o4
*5d9d9091SRichard Lowe	ldda	[%o4]ASI_BLK_P, %d16
*5d9d9091SRichard Lowe	faligndata %d6, %d8, %d48
*5d9d9091SRichard Lowe	faligndata %d8, %d10, %d50
*5d9d9091SRichard Lowe	faligndata %d10, %d12, %d52
*5d9d9091SRichard Lowe	faligndata %d12, %d14, %d54
*5d9d9091SRichard Lowe	faligndata %d14, %d16, %d56
*5d9d9091SRichard Lowe	faligndata %d16, %d18, %d58
*5d9d9091SRichard Lowe	faligndata %d18, %d20, %d60
*5d9d9091SRichard Lowe	faligndata %d20, %d22, %d62
*5d9d9091SRichard Lowe	fmovd	%d22, %d6
*5d9d9091SRichard Lowe	fmovd	%d24, %d8
*5d9d9091SRichard Lowe	fmovd	%d26, %d10
*5d9d9091SRichard Lowe	fmovd	%d28, %d12
*5d9d9091SRichard Lowe	fmovd	%d30, %d14
*5d9d9091SRichard Lowe	stda	%d48, [%o0]ASI_BLK_P
*5d9d9091SRichard Lowe	subcc	%o5, 64, %o5
*5d9d9091SRichard Lowe	add	%o0, 64, %o0
*5d9d9091SRichard Lowe	bgu,pt	%ncc, .unalign_011_loop
*5d9d9091SRichard Lowe	prefetch [%o4 + (4 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe	ba	.unalign_done
*5d9d9091SRichard Lowe	membar	#Sync
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.unalign_010:
*5d9d9091SRichard Lowe	ldd	[%o4+16], %d4
*5d9d9091SRichard Lowe	ldd	[%o4+24], %d6
*5d9d9091SRichard Lowe	ldd	[%o4+32], %d8
*5d9d9091SRichard Lowe	ldd	[%o4+40], %d10
*5d9d9091SRichard Lowe	ldd	[%o4+48], %d12
*5d9d9091SRichard Lowe	ldd	[%o4+56], %d14
*5d9d9091SRichard Lowe.unalign_010_loop:
*5d9d9091SRichard Lowe	add	%o4, 64, %o4
*5d9d9091SRichard Lowe	ldda	[%o4]ASI_BLK_P, %d16
*5d9d9091SRichard Lowe	faligndata %d4, %d6, %d48
*5d9d9091SRichard Lowe	faligndata %d6, %d8, %d50
*5d9d9091SRichard Lowe	faligndata %d8, %d10, %d52
*5d9d9091SRichard Lowe	faligndata %d10, %d12, %d54
*5d9d9091SRichard Lowe	faligndata %d12, %d14, %d56
*5d9d9091SRichard Lowe	faligndata %d14, %d16, %d58
*5d9d9091SRichard Lowe	faligndata %d16, %d18, %d60
*5d9d9091SRichard Lowe	faligndata %d18, %d20, %d62
*5d9d9091SRichard Lowe	fmovd	%d20, %d4
*5d9d9091SRichard Lowe	fmovd	%d22, %d6
*5d9d9091SRichard Lowe	fmovd	%d24, %d8
*5d9d9091SRichard Lowe	fmovd	%d26, %d10
*5d9d9091SRichard Lowe	fmovd	%d28, %d12
*5d9d9091SRichard Lowe	fmovd	%d30, %d14
*5d9d9091SRichard Lowe	stda	%d48, [%o0]ASI_BLK_P
*5d9d9091SRichard Lowe	subcc	%o5, 64, %o5
*5d9d9091SRichard Lowe	add	%o0, 64, %o0
*5d9d9091SRichard Lowe	bgu,pt	%ncc, .unalign_010_loop
*5d9d9091SRichard Lowe	prefetch [%o4 + (4 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe	ba	.unalign_done
*5d9d9091SRichard Lowe	membar	#Sync
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.unalign_001:
*5d9d9091SRichard Lowe	ldd	[%o4+8], %d2
*5d9d9091SRichard Lowe	ldd	[%o4+16], %d4
*5d9d9091SRichard Lowe	ldd	[%o4+24], %d6
*5d9d9091SRichard Lowe	ldd	[%o4+32], %d8
*5d9d9091SRichard Lowe	ldd	[%o4+40], %d10
*5d9d9091SRichard Lowe	ldd	[%o4+48], %d12
*5d9d9091SRichard Lowe	ldd	[%o4+56], %d14
*5d9d9091SRichard Lowe.unalign_001_loop:
*5d9d9091SRichard Lowe	add	%o4, 64, %o4
*5d9d9091SRichard Lowe	ldda	[%o4]ASI_BLK_P, %d16
*5d9d9091SRichard Lowe	faligndata %d2, %d4, %d48
*5d9d9091SRichard Lowe	faligndata %d4, %d6, %d50
*5d9d9091SRichard Lowe	faligndata %d6, %d8, %d52
*5d9d9091SRichard Lowe	faligndata %d8, %d10, %d54
*5d9d9091SRichard Lowe	faligndata %d10, %d12, %d56
*5d9d9091SRichard Lowe	faligndata %d12, %d14, %d58
*5d9d9091SRichard Lowe	faligndata %d14, %d16, %d60
*5d9d9091SRichard Lowe	faligndata %d16, %d18, %d62
*5d9d9091SRichard Lowe	fmovd	%d18, %d2
*5d9d9091SRichard Lowe	fmovd	%d20, %d4
*5d9d9091SRichard Lowe	fmovd	%d22, %d6
*5d9d9091SRichard Lowe	fmovd	%d24, %d8
*5d9d9091SRichard Lowe	fmovd	%d26, %d10
*5d9d9091SRichard Lowe	fmovd	%d28, %d12
*5d9d9091SRichard Lowe	fmovd	%d30, %d14
*5d9d9091SRichard Lowe	stda	%d48, [%o0]ASI_BLK_P
*5d9d9091SRichard Lowe	subcc	%o5, 64, %o5
*5d9d9091SRichard Lowe	add	%o0, 64, %o0
*5d9d9091SRichard Lowe	bgu,pt	%ncc, .unalign_001_loop
*5d9d9091SRichard Lowe	prefetch [%o4 + (4 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe	ba	.unalign_done
*5d9d9091SRichard Lowe	membar	#Sync
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.unalign_000:
*5d9d9091SRichard Lowe	ldda	[%o4]ASI_BLK_P, %d0
*5d9d9091SRichard Lowe.unalign_000_loop:
*5d9d9091SRichard Lowe	add	%o4, 64, %o4
*5d9d9091SRichard Lowe	ldda	[%o4]ASI_BLK_P, %d16
*5d9d9091SRichard Lowe	faligndata %d0, %d2, %d48
*5d9d9091SRichard Lowe	faligndata %d2, %d4, %d50
*5d9d9091SRichard Lowe	faligndata %d4, %d6, %d52
*5d9d9091SRichard Lowe	faligndata %d6, %d8, %d54
*5d9d9091SRichard Lowe	faligndata %d8, %d10, %d56
*5d9d9091SRichard Lowe	faligndata %d10, %d12, %d58
*5d9d9091SRichard Lowe	faligndata %d12, %d14, %d60
*5d9d9091SRichard Lowe	faligndata %d14, %d16, %d62
*5d9d9091SRichard Lowe	fmovd	%d16, %d0
*5d9d9091SRichard Lowe	fmovd	%d18, %d2
*5d9d9091SRichard Lowe	fmovd	%d20, %d4
*5d9d9091SRichard Lowe	fmovd	%d22, %d6
*5d9d9091SRichard Lowe	fmovd	%d24, %d8
*5d9d9091SRichard Lowe	fmovd	%d26, %d10
*5d9d9091SRichard Lowe	fmovd	%d28, %d12
*5d9d9091SRichard Lowe	fmovd	%d30, %d14
*5d9d9091SRichard Lowe	stda	%d48, [%o0]ASI_BLK_P
*5d9d9091SRichard Lowe	subcc	%o5, 64, %o5
*5d9d9091SRichard Lowe	add	%o0, 64, %o0
*5d9d9091SRichard Lowe	bgu,pt	%ncc, .unalign_000_loop
*5d9d9091SRichard Lowe	prefetch [%o4 + (4 * BLOCK_SIZE)], #one_read
*5d9d9091SRichard Lowe	membar	#Sync
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.unalign_done:
*5d9d9091SRichard Lowe	! Handle trailing bytes, 64 to 127
*5d9d9091SRichard Lowe	! Dest long word aligned, Src not long word aligned
*5d9d9091SRichard Lowe	cmp	%o2, 15
*5d9d9091SRichard Lowe	bleu	%ncc, .unalign_short
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	andn	%o2, 0x7, %o5		! %o5 is multiple of 8
*5d9d9091SRichard Lowe	and	%o2, 0x7, %o2		! residue bytes in %o2
*5d9d9091SRichard Lowe	add	%o2, 8, %o2
*5d9d9091SRichard Lowe	sub	%o5, 8, %o5		! insure we don't load past end of src
*5d9d9091SRichard Lowe	andn	%o1, 0x7, %o4		! %o4 has long word aligned src address
*5d9d9091SRichard Lowe	add	%o1, %o5, %o1		! advance %o1 to after multiple of 8
*5d9d9091SRichard Lowe	ldd	[%o4], %d0		! fetch partial word
*5d9d9091SRichard Lowe.unalign_by8:
*5d9d9091SRichard Lowe	ldd	[%o4+8], %d2
*5d9d9091SRichard Lowe	add	%o4, 8, %o4
*5d9d9091SRichard Lowe	faligndata %d0, %d2, %d16
*5d9d9091SRichard Lowe	subcc	%o5, 8, %o5
*5d9d9091SRichard Lowe	std	%d16, [%o0]
*5d9d9091SRichard Lowe	fmovd	%d2, %d0
*5d9d9091SRichard Lowe	bgu,pt	%ncc, .unalign_by8
*5d9d9091SRichard Lowe	add	%o0, 8, %o0
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.unalign_short:
*5d9d9091SRichard Lowe	brnz	%g5, .smallrest
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe	ba	.smallrest
*5d9d9091SRichard Lowe	wr	%g5, %g0, %fprs
*5d9d9091SRichard Lowe#else	/* NIAGARA2_IMPL */
*5d9d9091SRichard Lowe.forcpy:
*5d9d9091SRichard Lowe	mov	%o0, %g5		! save des address for return val
*5d9d9091SRichard Lowe	cmp	%o2, 17			! for small counts copy bytes
*5d9d9091SRichard Lowe	bleu,pt	%ncc, .dbytecp
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	cmp	%o2, 0x80		! For lengths less than 128 bytes no
*5d9d9091SRichard Lowe	bleu,pn	%ncc, .no_blkcpy	! copy using ASI_BLK_INIT_ST_QUAD_LDD_P
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	/*
*5d9d9091SRichard Lowe	 * Make sure that source and destination buffers are 64 bytes apart.
*5d9d9091SRichard Lowe	 * If they are not, do not use ASI_BLK_INIT_ST_QUAD_LDD_P asi to copy
*5d9d9091SRichard Lowe	 * the data.
*5d9d9091SRichard Lowe	 */
*5d9d9091SRichard Lowe	subcc	%o1, %o0, %o3
*5d9d9091SRichard Lowe	blu	%ncc, .blkalgndst
*5d9d9091SRichard Lowe	cmp	%o3, 0x40		! if src - dst >= 0x40
*5d9d9091SRichard Lowe	bgeu,pt	%ncc, .blkalgndst	! then use ASI_BLK_INIT_ST_QUAD_LDD_P
*5d9d9091SRichard Lowe.no_blkcpy:
*5d9d9091SRichard Lowe	andcc	%o1, 3, %o5		! is src word aligned
*5d9d9091SRichard Lowe	bz,pn	%ncc, .aldst
*5d9d9091SRichard Lowe	cmp	%o5, 2			! is src half-word aligned
*5d9d9091SRichard Lowe	be,pt	%ncc, .s2algn
*5d9d9091SRichard Lowe	cmp	%o5, 3			! src is byte aligned
*5d9d9091SRichard Lowe.s1algn:ldub	[%o1], %o3		! move 1 or 3 bytes to align it
*5d9d9091SRichard Lowe	inc	1, %o1
*5d9d9091SRichard Lowe	stb	%o3, [%g5]		! move a byte to align src
*5d9d9091SRichard Lowe	inc	1, %g5
*5d9d9091SRichard Lowe	bne,pt	%ncc, .s2algn
*5d9d9091SRichard Lowe	dec	%o2
*5d9d9091SRichard Lowe	b	.ald			! now go align dest
*5d9d9091SRichard Lowe	andcc	%g5, 3, %o5
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.s2algn:lduh	[%o1], %o3		! know src is 2 byte alinged
*5d9d9091SRichard Lowe	inc	2, %o1
*5d9d9091SRichard Lowe	srl	%o3, 8, %o4
*5d9d9091SRichard Lowe	stb	%o4, [%g5]		! have to do bytes,
*5d9d9091SRichard Lowe	stb	%o3, [%g5 + 1]		! don't know dst alingment
*5d9d9091SRichard Lowe	inc	2, %g5
*5d9d9091SRichard Lowe	dec	2, %o2
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.aldst:	andcc	%g5, 3, %o5		! align the destination address
*5d9d9091SRichard Lowe.ald:	bz,pn	%ncc, .w4cp
*5d9d9091SRichard Lowe	cmp	%o5, 2
*5d9d9091SRichard Lowe	bz,pn	%ncc, .w2cp
*5d9d9091SRichard Lowe	cmp	%o5, 3
*5d9d9091SRichard Lowe.w3cp:	lduw	[%o1], %o4
*5d9d9091SRichard Lowe	inc	4, %o1
*5d9d9091SRichard Lowe	srl	%o4, 24, %o5
*5d9d9091SRichard Lowe	stb	%o5, [%g5]
*5d9d9091SRichard Lowe	bne,pt	%ncc, .w1cp
*5d9d9091SRichard Lowe	inc	%g5
*5d9d9091SRichard Lowe	dec	1, %o2
*5d9d9091SRichard Lowe	andn	%o2, 3, %o3		! o3 is aligned word count
*5d9d9091SRichard Lowe	dec	4, %o3			! avoid reading beyond tail of src
*5d9d9091SRichard Lowe	sub	%o1, %g5, %o1		! o1 gets the difference
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe1:	sll	%o4, 8, %g1		! save residual bytes
*5d9d9091SRichard Lowe	lduw	[%o1+%g5], %o4
*5d9d9091SRichard Lowe	deccc	4, %o3
*5d9d9091SRichard Lowe	srl	%o4, 24, %o5		! merge with residual
*5d9d9091SRichard Lowe	or	%o5, %g1, %g1
*5d9d9091SRichard Lowe	st	%g1, [%g5]
*5d9d9091SRichard Lowe	bnz,pt	%ncc, 1b
*5d9d9091SRichard Lowe	inc	4, %g5
*5d9d9091SRichard Lowe	sub	%o1, 3, %o1		! used one byte of last word read
*5d9d9091SRichard Lowe	and	%o2, 3, %o2
*5d9d9091SRichard Lowe	b	7f
*5d9d9091SRichard Lowe	inc	4, %o2
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.w1cp:	srl	%o4, 8, %o5
*5d9d9091SRichard Lowe	sth	%o5, [%g5]
*5d9d9091SRichard Lowe	inc	2, %g5
*5d9d9091SRichard Lowe	dec	3, %o2
*5d9d9091SRichard Lowe	andn	%o2, 3, %o3		! o3 is aligned word count
*5d9d9091SRichard Lowe	dec	4, %o3			! avoid reading beyond tail of src
*5d9d9091SRichard Lowe	sub	%o1, %g5, %o1		! o1 gets the difference
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe2:	sll	%o4, 24, %g1		! save residual bytes
*5d9d9091SRichard Lowe	lduw	[%o1+%g5], %o4
*5d9d9091SRichard Lowe	deccc	4, %o3
*5d9d9091SRichard Lowe	srl	%o4, 8, %o5		! merge with residual
*5d9d9091SRichard Lowe	or	%o5, %g1, %g1
*5d9d9091SRichard Lowe	st	%g1, [%g5]
*5d9d9091SRichard Lowe	bnz,pt	%ncc, 2b
*5d9d9091SRichard Lowe	inc	4, %g5
*5d9d9091SRichard Lowe	sub	%o1, 1, %o1		! used three bytes of last word read
*5d9d9091SRichard Lowe	and	%o2, 3, %o2
*5d9d9091SRichard Lowe	b	7f
*5d9d9091SRichard Lowe	inc	4, %o2
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.w2cp:	lduw	[%o1], %o4
*5d9d9091SRichard Lowe	inc	4, %o1
*5d9d9091SRichard Lowe	srl	%o4, 16, %o5
*5d9d9091SRichard Lowe	sth	%o5, [%g5]
*5d9d9091SRichard Lowe	inc	2, %g5
*5d9d9091SRichard Lowe	dec	2, %o2
*5d9d9091SRichard Lowe	andn	%o2, 3, %o3		! o3 is aligned word count
*5d9d9091SRichard Lowe	dec	4, %o3			! avoid reading beyond tail of src
*5d9d9091SRichard Lowe	sub	%o1, %g5, %o1		! o1 gets the difference
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe3:	sll	%o4, 16, %g1		! save residual bytes
*5d9d9091SRichard Lowe	lduw	[%o1+%g5], %o4
*5d9d9091SRichard Lowe	deccc	4, %o3
*5d9d9091SRichard Lowe	srl	%o4, 16, %o5		! merge with residual
*5d9d9091SRichard Lowe	or	%o5, %g1, %g1
*5d9d9091SRichard Lowe	st	%g1, [%g5]
*5d9d9091SRichard Lowe	bnz,pt	%ncc, 3b
*5d9d9091SRichard Lowe	inc	4, %g5
*5d9d9091SRichard Lowe	sub	%o1, 2, %o1		! used two bytes of last word read
*5d9d9091SRichard Lowe	and	%o2, 3, %o2
*5d9d9091SRichard Lowe	b	7f
*5d9d9091SRichard Lowe	inc	4, %o2
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.w4cp:	andn	%o2, 3, %o3		! o3 is aligned word count
*5d9d9091SRichard Lowe	sub	%o1, %g5, %o1		! o1 gets the difference
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe1:	lduw	[%o1+%g5], %o4		! read from address
*5d9d9091SRichard Lowe	deccc	4, %o3			! decrement count
*5d9d9091SRichard Lowe	st	%o4, [%g5]		! write at destination address
*5d9d9091SRichard Lowe	bgu,pt	%ncc, 1b
*5d9d9091SRichard Lowe	inc	4, %g5			! increment to address
*5d9d9091SRichard Lowe	b	7f
*5d9d9091SRichard Lowe	and	%o2, 3, %o2		! number of leftover bytes, if any
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	!
*5d9d9091SRichard Lowe	! differenced byte copy, works with any alignment
*5d9d9091SRichard Lowe	!
*5d9d9091SRichard Lowe.dbytecp:
*5d9d9091SRichard Lowe	b	7f
*5d9d9091SRichard Lowe	sub	%o1, %g5, %o1		! o1 gets the difference
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe4:	stb	%o4, [%g5]		! write to address
*5d9d9091SRichard Lowe	inc	%g5			! inc to address
*5d9d9091SRichard Lowe7:	deccc	%o2			! decrement count
*5d9d9091SRichard Lowe	bgeu,a,pt %ncc,4b		! loop till done
*5d9d9091SRichard Lowe	ldub	[%o1+%g5], %o4		! read from address
*5d9d9091SRichard Lowe	retl				! %o0 was preserved
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.blkalgndst:
*5d9d9091SRichard Lowe	save	%sp, -SA(MINFRAME), %sp
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	! Block (64 bytes) align the destination.
*5d9d9091SRichard Lowe	andcc	%i0, 0x3f, %i3		! is dst block aligned
*5d9d9091SRichard Lowe	bz	%ncc, .chksrc		! dst already block aligned
*5d9d9091SRichard Lowe	sub	%i3, 0x40, %i3
*5d9d9091SRichard Lowe	neg	%i3			! bytes till dst 64 bytes aligned
*5d9d9091SRichard Lowe	sub	%i2, %i3, %i2		! update i2 with new count
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	! Based on source and destination alignment do
*5d9d9091SRichard Lowe	! either 8 bytes, 4 bytes, 2 bytes or byte copy.
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	! Is dst & src 8B aligned
*5d9d9091SRichard Lowe	or	%i0, %i1, %o2
*5d9d9091SRichard Lowe	andcc	%o2, 0x7, %g0
*5d9d9091SRichard Lowe	bz	%ncc, .alewdcp
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	! Is dst & src 4B aligned
*5d9d9091SRichard Lowe	andcc	%o2, 0x3, %g0
*5d9d9091SRichard Lowe	bz	%ncc, .alwdcp
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	! Is dst & src 2B aligned
*5d9d9091SRichard Lowe	andcc	%o2, 0x1, %g0
*5d9d9091SRichard Lowe	bz	%ncc, .alhlfwdcp
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	! 1B aligned
*5d9d9091SRichard Lowe1:	ldub	[%i1], %o2
*5d9d9091SRichard Lowe	stb	%o2, [%i0]
*5d9d9091SRichard Lowe	inc	%i1
*5d9d9091SRichard Lowe	deccc	%i3
*5d9d9091SRichard Lowe	bgu,pt	%ncc, 1b
*5d9d9091SRichard Lowe	inc	%i0
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	ba	.chksrc
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	! dst & src 4B aligned
*5d9d9091SRichard Lowe.alwdcp:
*5d9d9091SRichard Lowe	ld	[%i1], %o2
*5d9d9091SRichard Lowe	st	%o2, [%i0]
*5d9d9091SRichard Lowe	add	%i1, 0x4, %i1
*5d9d9091SRichard Lowe	subcc	%i3, 0x4, %i3
*5d9d9091SRichard Lowe	bgu,pt	%ncc, .alwdcp
*5d9d9091SRichard Lowe	add	%i0, 0x4, %i0
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	ba	.chksrc
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	! dst & src 2B aligned
*5d9d9091SRichard Lowe.alhlfwdcp:
*5d9d9091SRichard Lowe	lduh	[%i1], %o2
*5d9d9091SRichard Lowe	stuh	%o2, [%i0]
*5d9d9091SRichard Lowe	add	%i1, 0x2, %i1
*5d9d9091SRichard Lowe	subcc	%i3, 0x2, %i3
*5d9d9091SRichard Lowe	bgu,pt	%ncc, .alhlfwdcp
*5d9d9091SRichard Lowe	add	%i0, 0x2, %i0
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	ba	.chksrc
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	! dst & src 8B aligned
*5d9d9091SRichard Lowe.alewdcp:
*5d9d9091SRichard Lowe	ldx	[%i1], %o2
*5d9d9091SRichard Lowe	stx	%o2, [%i0]
*5d9d9091SRichard Lowe	add	%i1, 0x8, %i1
*5d9d9091SRichard Lowe	subcc	%i3, 0x8, %i3
*5d9d9091SRichard Lowe	bgu,pt	%ncc, .alewdcp
*5d9d9091SRichard Lowe	add	%i0, 0x8, %i0
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	! Now Destination is block (64 bytes) aligned
*5d9d9091SRichard Lowe.chksrc:
*5d9d9091SRichard Lowe	andn	%i2, 0x3f, %i3		! %i3 count is multiple of block size
*5d9d9091SRichard Lowe	sub	%i2, %i3, %i2		! Residue bytes in %i2
*5d9d9091SRichard Lowe	mov	ASI_BLK_INIT_ST_QUAD_LDD_P, %asi
*5d9d9091SRichard Lowe	andcc	%i1, 0xf, %l1		! is src quadword aligned
*5d9d9091SRichard Lowe	bz,pn	%ncc, .blkcpy		! src offset in %l1
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe	cmp	%l1, 0x8
*5d9d9091SRichard Lowe	bgu	%ncc, .cpy_upper_double
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe	blu	%ncc, .cpy_lower_double
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	! Falls through when source offset is equal to 8 i.e.
*5d9d9091SRichard Lowe	! source is double word aligned.
*5d9d9091SRichard Lowe	! In this case no shift/merge of data is required
*5d9d9091SRichard Lowe	sub	%i1, %l1, %i1		! align the src at 16 bytes.
*5d9d9091SRichard Lowe	andn	%i1, 0x3f, %o0		! %o0 has block aligned source
*5d9d9091SRichard Lowe	prefetch [%o0+0x0], #one_read
*5d9d9091SRichard Lowe	ldda	[%i1+0x0]%asi, %o2
*5d9d9091SRichard Loweloop0:
*5d9d9091SRichard Lowe	ldda	[%i1+0x10]%asi, %o4
*5d9d9091SRichard Lowe	prefetch [%o0+0x40], #one_read
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	stxa	%o3, [%i0+0x0]%asi
*5d9d9091SRichard Lowe	stxa	%o4, [%i0+0x8]%asi
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	ldda	[%i1+0x20]%asi, %o2
*5d9d9091SRichard Lowe	stxa	%o5, [%i0+0x10]%asi
*5d9d9091SRichard Lowe	stxa	%o2, [%i0+0x18]%asi
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	ldda	[%i1+0x30]%asi, %o4
*5d9d9091SRichard Lowe	stxa	%o3, [%i0+0x20]%asi
*5d9d9091SRichard Lowe	stxa	%o4, [%i0+0x28]%asi
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	ldda	[%i1+0x40]%asi, %o2
*5d9d9091SRichard Lowe	stxa	%o5, [%i0+0x30]%asi
*5d9d9091SRichard Lowe	stxa	%o2, [%i0+0x38]%asi
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	add	%o0, 0x40, %o0
*5d9d9091SRichard Lowe	add	%i1, 0x40, %i1
*5d9d9091SRichard Lowe	subcc	%i3, 0x40, %i3
*5d9d9091SRichard Lowe	bgu,pt	%ncc, loop0
*5d9d9091SRichard Lowe	add	%i0, 0x40, %i0
*5d9d9091SRichard Lowe	ba	.blkdone
*5d9d9091SRichard Lowe	add	%i1, %l1, %i1		! increment the source by src offset
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.cpy_lower_double:
*5d9d9091SRichard Lowe	sub	%i1, %l1, %i1		! align the src at 16 bytes.
*5d9d9091SRichard Lowe	sll	%l1, 3, %l2		! %l2 left shift
*5d9d9091SRichard Lowe	mov	0x40, %l3
*5d9d9091SRichard Lowe	sub	%l3, %l2, %l3		! %l3 right shift = (64 - left shift)
*5d9d9091SRichard Lowe	andn	%i1, 0x3f, %o0		! %o0 has block aligned source
*5d9d9091SRichard Lowe	prefetch [%o0+0x0], #one_read
*5d9d9091SRichard Lowe	ldda	[%i1+0x0]%asi, %o2	! partial data in %o2 and %o3 has
*5d9d9091SRichard Lowe					! complete data
*5d9d9091SRichard Loweloop1:
*5d9d9091SRichard Lowe	ldda	[%i1+0x10]%asi, %o4	! %o4 has partial data for this read.
*5d9d9091SRichard Lowe	ALIGN_DATA(%o2, %o3, %o4, %l2, %l3, %g1)	! merge %o2, %o3 and %o4
*5d9d9091SRichard Lowe							! into %o2 and %o3
*5d9d9091SRichard Lowe	prefetch [%o0+0x40], #one_read
*5d9d9091SRichard Lowe	stxa	%o2, [%i0+0x0]%asi
*5d9d9091SRichard Lowe	stxa	%o3, [%i0+0x8]%asi
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	ldda	[%i1+0x20]%asi, %o2
*5d9d9091SRichard Lowe	ALIGN_DATA(%o4, %o5, %o2, %l2, %l3, %g1)	! merge %o2 with %o5 and
*5d9d9091SRichard Lowe	stxa	%o4, [%i0+0x10]%asi			! %o4 from previous read
*5d9d9091SRichard Lowe	stxa	%o5, [%i0+0x18]%asi			! into %o4 and %o5
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	! Repeat the same for next 32 bytes.
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	ldda	[%i1+0x30]%asi, %o4
*5d9d9091SRichard Lowe	ALIGN_DATA(%o2, %o3, %o4, %l2, %l3, %g1)
*5d9d9091SRichard Lowe	stxa	%o2, [%i0+0x20]%asi
*5d9d9091SRichard Lowe	stxa	%o3, [%i0+0x28]%asi
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	ldda	[%i1+0x40]%asi, %o2
*5d9d9091SRichard Lowe	ALIGN_DATA(%o4, %o5, %o2, %l2, %l3, %g1)
*5d9d9091SRichard Lowe	stxa	%o4, [%i0+0x30]%asi
*5d9d9091SRichard Lowe	stxa	%o5, [%i0+0x38]%asi
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	add	%o0, 0x40, %o0
*5d9d9091SRichard Lowe	add	%i1, 0x40, %i1
*5d9d9091SRichard Lowe	subcc	%i3, 0x40, %i3
*5d9d9091SRichard Lowe	bgu,pt	%ncc, loop1
*5d9d9091SRichard Lowe	add	%i0, 0x40, %i0
*5d9d9091SRichard Lowe	ba	.blkdone
*5d9d9091SRichard Lowe	add	%i1, %l1, %i1		! increment the source by src offset
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.cpy_upper_double:
*5d9d9091SRichard Lowe	sub	%i1, %l1, %i1		! align the src at 16 bytes.
*5d9d9091SRichard Lowe	mov	0x8, %l2
*5d9d9091SRichard Lowe	sub	%l1, %l2, %l2
*5d9d9091SRichard Lowe	sll	%l2, 3, %l2		! %l2 left shift
*5d9d9091SRichard Lowe	mov	0x40, %l3
*5d9d9091SRichard Lowe	sub	%l3, %l2, %l3		! %l3 right shift = (64 - left shift)
*5d9d9091SRichard Lowe	andn	%i1, 0x3f, %o0		! %o0 has block aligned source
*5d9d9091SRichard Lowe	prefetch [%o0+0x0], #one_read
*5d9d9091SRichard Lowe	ldda	[%i1+0x0]%asi, %o2	! partial data in %o3 for this read and
*5d9d9091SRichard Lowe					! no data in %o2
*5d9d9091SRichard Loweloop2:
*5d9d9091SRichard Lowe	ldda	[%i1+0x10]%asi, %o4	! %o4 has complete data and %o5 has
*5d9d9091SRichard Lowe					! partial
*5d9d9091SRichard Lowe	ALIGN_DATA(%o3, %o4, %o5, %l2, %l3, %g1)	! merge %o3, %o4 and %o5
*5d9d9091SRichard Lowe							! into %o3 and %o4
*5d9d9091SRichard Lowe	prefetch [%o0+0x40], #one_read
*5d9d9091SRichard Lowe	stxa	%o3, [%i0+0x0]%asi
*5d9d9091SRichard Lowe	stxa	%o4, [%i0+0x8]%asi
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	ldda	[%i1+0x20]%asi, %o2
*5d9d9091SRichard Lowe	ALIGN_DATA(%o5, %o2, %o3, %l2, %l3, %g1)	! merge %o2 and %o3 with
*5d9d9091SRichard Lowe	stxa	%o5, [%i0+0x10]%asi			! %o5 from previous read
*5d9d9091SRichard Lowe	stxa	%o2, [%i0+0x18]%asi			! into %o5 and %o2
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	! Repeat the same for next 32 bytes.
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	ldda	[%i1+0x30]%asi, %o4
*5d9d9091SRichard Lowe	ALIGN_DATA(%o3, %o4, %o5, %l2, %l3, %g1)
*5d9d9091SRichard Lowe	stxa	%o3, [%i0+0x20]%asi
*5d9d9091SRichard Lowe	stxa	%o4, [%i0+0x28]%asi
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	ldda	[%i1+0x40]%asi, %o2
*5d9d9091SRichard Lowe	ALIGN_DATA(%o5, %o2, %o3, %l2, %l3, %g1)
*5d9d9091SRichard Lowe	stxa	%o5, [%i0+0x30]%asi
*5d9d9091SRichard Lowe	stxa	%o2, [%i0+0x38]%asi
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	add	%o0, 0x40, %o0
*5d9d9091SRichard Lowe	add	%i1, 0x40, %i1
*5d9d9091SRichard Lowe	subcc	%i3, 0x40, %i3
*5d9d9091SRichard Lowe	bgu,pt	%ncc, loop2
*5d9d9091SRichard Lowe	add	%i0, 0x40, %i0
*5d9d9091SRichard Lowe	ba	.blkdone
*5d9d9091SRichard Lowe	add	%i1, %l1, %i1		! increment the source by src offset
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	! Do fast copy using ASI_BLK_INIT_ST_QUAD_LDD_P
*5d9d9091SRichard Lowe.blkcpy:
*5d9d9091SRichard Lowe	andn	%i1, 0x3f, %o0		! %o0 has block aligned source
*5d9d9091SRichard Lowe	prefetch [%o0+0x0], #one_read
*5d9d9091SRichard Lowe1:
*5d9d9091SRichard Lowe	prefetch [%o0+0x40], #one_read
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	ldda	[%i1+0x0]%asi, %o2
*5d9d9091SRichard Lowe	ldda	[%i1+0x10]%asi, %o4
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	stxa	%o2, [%i0+0x0]%asi
*5d9d9091SRichard Lowe	stxa	%o3, [%i0+0x8]%asi
*5d9d9091SRichard Lowe	stxa	%o4, [%i0+0x10]%asi
*5d9d9091SRichard Lowe	stxa	%o5, [%i0+0x18]%asi
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	ldda	[%i1+0x20]%asi, %o2
*5d9d9091SRichard Lowe	ldda	[%i1+0x30]%asi, %o4
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	stxa	%o2, [%i0+0x20]%asi
*5d9d9091SRichard Lowe	stxa	%o3, [%i0+0x28]%asi
*5d9d9091SRichard Lowe	stxa	%o4, [%i0+0x30]%asi
*5d9d9091SRichard Lowe	stxa	%o5, [%i0+0x38]%asi
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	add	%o0, 0x40, %o0
*5d9d9091SRichard Lowe	add	%i1, 0x40, %i1
*5d9d9091SRichard Lowe	subcc	%i3, 0x40, %i3
*5d9d9091SRichard Lowe	bgu,pt	%ncc, 1b
*5d9d9091SRichard Lowe	add	%i0, 0x40, %i0
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.blkdone:
*5d9d9091SRichard Lowe	membar	#Sync
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	mov	ASI_PNF, %asi		! restore %asi to default
*5d9d9091SRichard Lowe					! ASI_PRIMARY_NOFAULT value
*5d9d9091SRichard Lowe	tst	%i2
*5d9d9091SRichard Lowe	bz,pt	%ncc, .blkexit
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	! Handle trailing bytes
*5d9d9091SRichard Lowe	cmp	%i2, 0x8
*5d9d9091SRichard Lowe	blu,pt	%ncc, .residue
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	! Can we do some 8B ops
*5d9d9091SRichard Lowe	or	%i1, %i0, %o2
*5d9d9091SRichard Lowe	andcc	%o2, 0x7, %g0
*5d9d9091SRichard Lowe	bnz	%ncc, .last4
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	! Do 8byte ops as long as possible
*5d9d9091SRichard Lowe.last8:
*5d9d9091SRichard Lowe	ldx	[%i1], %o2
*5d9d9091SRichard Lowe	stx	%o2, [%i0]
*5d9d9091SRichard Lowe	add	%i1, 0x8, %i1
*5d9d9091SRichard Lowe	sub	%i2, 0x8, %i2
*5d9d9091SRichard Lowe	cmp	%i2, 0x8
*5d9d9091SRichard Lowe	bgu,pt	%ncc, .last8
*5d9d9091SRichard Lowe	add	%i0, 0x8, %i0
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	tst	%i2
*5d9d9091SRichard Lowe	bz,pt	%ncc, .blkexit
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	ba	.residue
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.last4:
*5d9d9091SRichard Lowe	! Can we do 4B ops
*5d9d9091SRichard Lowe	andcc	%o2, 0x3, %g0
*5d9d9091SRichard Lowe	bnz	%ncc, .last2
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe1:
*5d9d9091SRichard Lowe	ld	[%i1], %o2
*5d9d9091SRichard Lowe	st	%o2, [%i0]
*5d9d9091SRichard Lowe	add	%i1, 0x4, %i1
*5d9d9091SRichard Lowe	sub	%i2, 0x4, %i2
*5d9d9091SRichard Lowe	cmp	%i2, 0x4
*5d9d9091SRichard Lowe	bgu,pt	%ncc, 1b
*5d9d9091SRichard Lowe	add	%i0, 0x4, %i0
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	cmp	%i2, 0
*5d9d9091SRichard Lowe	bz,pt	%ncc, .blkexit
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	ba	.residue
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.last2:
*5d9d9091SRichard Lowe	! Can we do 2B ops
*5d9d9091SRichard Lowe	andcc	%o2, 0x1, %g0
*5d9d9091SRichard Lowe	bnz	%ncc, .residue
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe1:
*5d9d9091SRichard Lowe	lduh	[%i1], %o2
*5d9d9091SRichard Lowe	stuh	%o2, [%i0]
*5d9d9091SRichard Lowe	add	%i1, 0x2, %i1
*5d9d9091SRichard Lowe	sub	%i2, 0x2, %i2
*5d9d9091SRichard Lowe	cmp	%i2, 0x2
*5d9d9091SRichard Lowe	bgu,pt	%ncc, 1b
*5d9d9091SRichard Lowe	add	%i0, 0x2, %i0
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	cmp	%i2, 0
*5d9d9091SRichard Lowe	bz,pt	%ncc, .blkexit
*5d9d9091SRichard Lowe	nop
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.residue:
*5d9d9091SRichard Lowe	ldub	[%i1], %o2
*5d9d9091SRichard Lowe	stb	%o2, [%i0]
*5d9d9091SRichard Lowe	inc	%i1
*5d9d9091SRichard Lowe	deccc	%i2
*5d9d9091SRichard Lowe	bgu,pt	%ncc, .residue
*5d9d9091SRichard Lowe	inc	%i0
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe.blkexit:
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe	ret
*5d9d9091SRichard Lowe	restore	%g5, %g0, %o0
*5d9d9091SRichard Lowe
*5d9d9091SRichard Lowe#endif	/* NIAGARA2_IMPL */
*5d9d9091SRichard Lowe	SET_SIZE(memcpy)
*5d9d9091SRichard Lowe	SET_SIZE(__align_cpy_1)