lvm/raid/raid.c

/*
 * CDDL HEADER START
 *
 * The contents of this file are subject to the terms of the
 * Common Development and Distribution License (the "License").
 * You may not use this file except in compliance with the License.
 *
 * You can obtain a copy of the license at usr/src/OPENSOLARIS.LICENSE
 * or http://www.opensolaris.org/os/licensing.
 * See the License for the specific language governing permissions
 * and limitations under the License.
 *
 * When distributing Covered Code, include this CDDL HEADER in each
 * file and include the License file at usr/src/OPENSOLARIS.LICENSE.
 * If applicable, add the following below this CDDL HEADER, with the
 * fields enclosed by brackets "[]" replaced with your own identifying
 * information: Portions Copyright [yyyy] [name of copyright owner]
 *
 * CDDL HEADER END
 */

/*
 * Copyright 2009 Sun Microsystems, Inc.  All rights reserved.
 * Use is subject to license terms.
 * Copyright (c) 2011 Bayard G. Bell. All rights reserved.
 */

/*
 * NAME:	raid.c
 *
 * DESCRIPTION: Main RAID driver source file containing open, close and I/O
 *		operations.
 *
 * ROUTINES PROVIDED FOR EXTERNAL USE:
 *  raid_open()			- open the RAID metadevice for access.
 *  raid_internal_open()	- internal open routine of RAID metdevice.
 *  md_raid_strategy()		- perform normal I/O operations,
 *				    such as read and write.
 *  raid_close()		- close the RAID metadevice.
 *  raid_internal_close()	- internal close routine of RAID metadevice.
 *  raid_snarf()		- initialize and clean up MDD records.
 *  raid_halt()			- reset the RAID metadevice
 *  raid_line()			- return the line # of this segment
 *  raid_dcolumn()		- return the data column # of this segment
 *  raid_pcolumn()		- return the parity column # of this segment
 */

#include <sys/param.h>
#include <sys/systm.h>
#include <sys/conf.h>
#include <sys/file.h>
#include <sys/user.h>
#include <sys/uio.h>
#include <sys/t_lock.h>
#include <sys/buf.h>
#include <sys/dkio.h>
#include <sys/vtoc.h>
#include <sys/kmem.h>
#include <vm/page.h>
#include <sys/cmn_err.h>
#include <sys/sysmacros.h>
#include <sys/types.h>
#include <sys/mkdev.h>
#include <sys/stat.h>
#include <sys/open.h>
#include <sys/modctl.h>
#include <sys/ddi.h>
#include <sys/sunddi.h>
#include <sys/debug.h>
#include <sys/lvm/md_raid.h>
#include <sys/lvm/mdvar.h>
#include <sys/lvm/md_convert.h>

#include <sys/sysevent/eventdefs.h>
#include <sys/sysevent/svm.h>

md_ops_t		raid_md_ops;
#ifndef lint
md_ops_t		*md_interface_ops = &raid_md_ops;
#endif	/* lint */

extern unit_t		md_nunits;
extern unit_t		md_nsets;
extern md_set_t		md_set[];
extern int		md_status;
extern major_t		md_major;
extern mdq_anchor_t	md_done_daemon;
extern mdq_anchor_t	md_mstr_daemon;
extern int		md_sleep_for_test;
extern clock_t		md_hz;

extern md_event_queue_t	*md_event_queue;


int pchunks		= 16;
int phigh		= 1024;
int plow		= 128;
int cchunks		= 64;
int chigh		= 1024;
int clow		= 512;
int bchunks		= 32;
int bhigh		= 256;
int blow		= 128;

int raid_total_io		= 0;
int raid_reads			= 0;
int raid_writes			= 0;
int raid_no_bpmaps		= 0;
int raid_512			= 0;
int raid_1024			= 0;
int raid_1024_8192		= 0;
int raid_8192			= 0;
int raid_8192_bigger		= 0;
int raid_line_lock_wait	= 0;

int data_buffer_waits		= 0;
int parity_buffer_waits	= 0;

/* writer line locks */
int raid_writer_locks		= 0; /* total writer locks */
int raid_write_waits		= 0; /* total writer locks that waited */
int raid_full_line_writes	= 0; /* total full line writes */
int raid_write_queue_length	= 0; /* wait queue length */
int raid_max_write_q_length	= 0; /* maximum queue length */
int raid_write_locks_active	= 0; /* writer locks at any time */
int raid_max_write_locks	= 0; /* maximum writer locks active */

/* read line locks */
int raid_reader_locks		= 0; /* total reader locks held */
int raid_reader_locks_active	= 0; /* reader locks held */
int raid_max_reader_locks	= 0; /* maximum reader locks held in run */
int raid_read_overlaps		= 0; /* number of times 2 reads hit same line */
int raid_read_waits		= 0; /* times a reader waited on writer */

/* prewrite stats */
int raid_prewrite_waits		= 0; /* number of waits for a pw slot */
int raid_pw			= 0; /* number of pw slots in use */
int raid_prewrite_max		= 0; /* maximum number of pw slots in use */
int raid_pw_invalidates		= 0;

static clock_t md_wr_wait	= 0;

int nv_available	= 0; /* presence of nv-ram support in device */
int nv_prewrite		= 1; /* mark prewrites with nv_available */
int nv_parity		= 1; /* mark parity with nv_available */

kmem_cache_t	*raid_parent_cache = NULL;
kmem_cache_t	*raid_child_cache = NULL;
kmem_cache_t	*raid_cbuf_cache = NULL;

int			raid_internal_open(minor_t mnum, int flag, int otyp,
			    int md_oflags);

static void		freebuffers(md_raidcs_t *cs);
static int		raid_read(mr_unit_t *un, md_raidcs_t *cs);
static void		raid_read_io(mr_unit_t *un, md_raidcs_t *cs);
static int		raid_write(mr_unit_t *un, md_raidcs_t *cs);
static void		raid_write_io(mr_unit_t *un, md_raidcs_t *cs);
static void		raid_stage(md_raidcs_t *cs);
static void		raid_enqueue(md_raidcs_t *cs);
static diskaddr_t	raid_line(diskaddr_t segment, mr_unit_t *un);
uint_t			raid_dcolumn(diskaddr_t segment, mr_unit_t *un);
static void		getpbuffer(md_raidcs_t *cs);
static void		getdbuffer(md_raidcs_t *cs);
static void		raid_done(buf_t *bp);
static void		raid_io_startup(mr_unit_t *un);

static rus_state_t
raid_col2unit(rcs_state_t state, rus_state_t unitstate)
{
	switch (state) {
	case RCS_INIT:
		return (RUS_INIT);
	case RCS_OKAY:
		return (RUS_OKAY);
	case RCS_RESYNC:
		if (unitstate & RUS_LAST_ERRED)
			return (RUS_LAST_ERRED);
		else
			return (RUS_ERRED);
	case RCS_ERRED:
		return (RUS_ERRED);
	case RCS_LAST_ERRED:
		return (RUS_ERRED);
	default:
		break;
	}
	panic("raid_col2unit");
	/*NOTREACHED*/
}

void
raid_set_state(mr_unit_t *un, int col, rcs_state_t newstate, int force)
{

	rus_state_t	unitstate, origstate;
	rcs_state_t	colstate;
	rcs_state_t	orig_colstate;
	int		errcnt = 0, okaycnt = 0, resynccnt = 0;
	int		i;
	char		*devname;

	ASSERT(un);
	ASSERT(col < un->un_totalcolumncnt);
	ASSERT(newstate &
	    (RCS_INIT | RCS_INIT_ERRED | RCS_OKAY | RCS_RESYNC | RCS_ERRED |
	    RCS_LAST_ERRED | RCS_REGEN));
	ASSERT((newstate &
	    ~(RCS_INIT | RCS_INIT_ERRED | RCS_OKAY | RCS_RESYNC | RCS_ERRED |
	    RCS_LAST_ERRED | RCS_REGEN))
	    == 0);

	ASSERT(MDI_UNIT(MD_SID(un)) ? UNIT_WRITER_HELD(un) : 1);

	unitstate = un->un_state;
	origstate = unitstate;

	if (force) {
		un->un_column[col].un_devstate = newstate;
		un->un_state = raid_col2unit(newstate, unitstate);
		uniqtime32(&un->un_column[col].un_devtimestamp);
		uniqtime32(&un->un_timestamp);
		return;
	}

	ASSERT(un->un_state &
	    (RUS_INIT | RUS_OKAY | RUS_ERRED | RUS_DOI | RUS_LAST_ERRED |
	    RUS_REGEN));
	ASSERT((un->un_state & ~(RUS_INIT |
	    RUS_OKAY | RUS_ERRED | RUS_DOI | RUS_LAST_ERRED | RUS_REGEN)) == 0);

	if (un->un_column[col].un_devstate == newstate)
		return;

	if (newstate == RCS_REGEN) {
		if (raid_state_cnt(un, RCS_OKAY) != un->un_totalcolumncnt)
			return;
		un->un_state = RUS_REGEN;
		return;
	}

	orig_colstate = un->un_column[col].un_devstate;

	/*
	 * if there is another column in the error state then this
	 * column should go to the last errored state
	 */
	for (i = 0; i < un->un_totalcolumncnt; i++) {
		if (i == col)
			colstate = newstate;
		else
			colstate = un->un_column[i].un_devstate;
		if (colstate & (RCS_ERRED | RCS_LAST_ERRED | RCS_INIT_ERRED))
			errcnt++;
		if (colstate & RCS_OKAY)
			okaycnt++;
		if (colstate & RCS_RESYNC)
			resynccnt++;
	}
	ASSERT(resynccnt < 2);

	if (okaycnt == un->un_totalcolumncnt)
		unitstate = RUS_OKAY;
	else if (errcnt > 1) {
		unitstate = RUS_LAST_ERRED;
		if (newstate & RCS_ERRED)
			newstate = RCS_LAST_ERRED;
	} else if (errcnt == 1)
		if (!(unitstate & RUS_LAST_ERRED))
			unitstate = RUS_ERRED;

	if (un->un_state == RUS_DOI)
		unitstate = RUS_DOI;

	un->un_column[col].un_devstate = newstate;
	uniqtime32(&un->un_column[col].un_devtimestamp);
	/*
	 * if there are last errored column being brought back online
	 * by open or snarf, then be sure to clear the RUS_LAST_ERRED
	 * bit to allow writes.  If there is a real error then the
	 * column will go back into last erred.
	 */
	if ((raid_state_cnt(un, RCS_LAST_ERRED) == 0) &&
	    (raid_state_cnt(un, RCS_ERRED) == 1))
		unitstate = RUS_ERRED;

	un->un_state = unitstate;
	uniqtime32(&un->un_timestamp);

	if ((! (origstate & (RUS_ERRED|RUS_LAST_ERRED|RUS_DOI))) &&
	    (unitstate & (RUS_ERRED|RUS_LAST_ERRED|RUS_DOI))) {
		devname = md_devname(MD_UN2SET(un),
		    un->un_column[col].un_dev, NULL, 0);

		cmn_err(CE_WARN, "md: %s: %s needs maintenance",
		    md_shortname(MD_SID(un)), devname);

		if (unitstate & RUS_LAST_ERRED) {
			cmn_err(CE_WARN, "md: %s: %s last erred",
			    md_shortname(MD_SID(un)), devname);

		} else if (un->un_column[col].un_devflags &
		    MD_RAID_DEV_ISOPEN) {
			/*
			 * Close the broken device and clear the open flag on
			 * it.  We have to check that the device is open,
			 * otherwise the first open on it has resulted in the
			 * error that is being processed and the actual un_dev
			 * will be NODEV64.
			 */
			md_layered_close(un->un_column[col].un_dev,
			    MD_OFLG_NULL);
			un->un_column[col].un_devflags &= ~MD_RAID_DEV_ISOPEN;
		}
	} else if (orig_colstate == RCS_LAST_ERRED && newstate == RCS_ERRED &&
	    un->un_column[col].un_devflags & MD_RAID_DEV_ISOPEN) {
		/*
		 * Similar to logic above except no log messages since we
		 * are just transitioning from Last Erred to Erred.
		 */
		md_layered_close(un->un_column[col].un_dev, MD_OFLG_NULL);
		un->un_column[col].un_devflags &= ~MD_RAID_DEV_ISOPEN;
	}

	/*
	 * If a resync has completed, see if there is a Last Erred
	 * component that we can change to the Erred state.
	 */
	if ((orig_colstate == RCS_RESYNC) && (newstate == RCS_OKAY)) {
		for (i = 0; i < un->un_totalcolumncnt; i++) {
			if (i != col &&
			    (un->un_column[i].un_devstate & RCS_LAST_ERRED)) {
				raid_set_state(un, i, RCS_ERRED, 0);
				break;
			}
		}
	}
}

/*
 * NAME:	erred_check_line
 *
 * DESCRIPTION: Return the type of write to perform on an erred column based
 *		upon any resync activity.
 *
 *		if a column is being resynced and the write is above the
 *		resync point may have to write to the target being resynced.
 *
 *		Column state may make it impossible to do the write
 *		in which case RCL_EIO or RCL_ENXIO is returned.
 *
 *		If a column cannot be written directly, RCL_ERRED is
 *		returned and processing should proceed accordingly.
 *
 * PARAMETERS:	minor_t		 mnum - minor number identity of metadevice
 *		md_raidcs_t	 *cs - child save structure
 *		mr_column_t	 *dcolumn - pointer to data column structure
 *		mr_column_t	 *pcolumn - pointer to parity column structure
 *
 * RETURNS:	RCL_OKAY, RCL_ERRED
 *
 * LOCKS:	Expects Line Writer Lock and Unit Resource Lock to be held
 *		across call.
 */

static int
erred_check_line(mr_unit_t *un, md_raidcs_t *cs, mr_column_t *column)
{

	ASSERT(un != NULL);
	ASSERT(cs->cs_flags & MD_RCS_LLOCKD);

	if (column->un_devstate & RCS_OKAY)
		return (RCL_OKAY);

	if (column->un_devstate & RCS_ERRED)
		return (RCL_ERRED);  /* do not read from errored disk */

	/*
	 * for the last errored case their are two considerations.
	 * When the last errored column is the only errored column then
	 * do treat it like a maintenance column, not doing I/O from
	 * it.   When it there are other failures then just attempt
	 * to use it.
	 */
	if (column->un_devstate & RCS_LAST_ERRED)
		return (RCL_ERRED);

	ASSERT(column->un_devstate & RCS_RESYNC);

	/*
	 * When a resync from a hotspare is being done (copy resync)
	 * then always treat it as an OKAY column, since no regen
	 * is required.
	 */
	if (column->un_devflags & MD_RAID_COPY_RESYNC) {
		return (RCL_OKAY);
	}

	mutex_enter(&un->un_mx);
	if (cs->cs_line < un->un_resync_line_index) {
		mutex_exit(&un->un_mx);
		return (RCL_OKAY);
	}
	mutex_exit(&un->un_mx);
	return (RCL_ERRED);

}

/*
 * NAMES:	raid_state_cnt
 *
 * DESCRIPTION: counts number of column in a specific state
 *
 * PARAMETERS:	md_raid_t *un
 *		rcs_state state
 */
int
raid_state_cnt(mr_unit_t *un, rcs_state_t state)
{
	int	i, retval = 0;

	for (i = 0; i < un->un_totalcolumncnt; i++)
		if (un->un_column[i].un_devstate & state)
			retval++;
	return (retval);
}

/*
 * NAMES:	raid_io_overlaps
 *
 * DESCRIPTION: checkst for overlap of 2 child save structures
 *
 * PARAMETERS:	md_raidcs_t cs1
 *		md_raidcs_t cs2
 *
 * RETURNS:	0 - no overlap
 *		1 - overlap
 */
int
raid_io_overlaps(md_raidcs_t *cs1, md_raidcs_t *cs2)
{
	if (cs1->cs_blkno > cs2->cs_lastblk)
		return (0);
	if (cs1->cs_lastblk < cs2->cs_blkno)
		return (0);
	return (1);
}

/*
 * NAMES:	raid_parent_constructor
 * DESCRIPTION: parent structure constructor routine
 * PARAMETERS:
 */
/*ARGSUSED1*/
static int
raid_parent_constructor(void *p, void *d1, int d2)
{
	mutex_init(&((md_raidps_t *)p)->ps_mx,
	    NULL, MUTEX_DEFAULT, NULL);
	mutex_init(&((md_raidps_t *)p)->ps_mapin_mx,
	    NULL, MUTEX_DEFAULT, NULL);
	return (0);
}

void
raid_parent_init(md_raidps_t *ps)
{
	bzero(ps, offsetof(md_raidps_t, ps_mx));
	((md_raidps_t *)ps)->ps_flags = MD_RPS_INUSE;
	((md_raidps_t *)ps)->ps_magic = RAID_PSMAGIC;
}

/*ARGSUSED1*/
static void
raid_parent_destructor(void *p, void *d)
{
	mutex_destroy(&((md_raidps_t *)p)->ps_mx);
	mutex_destroy(&((md_raidps_t *)p)->ps_mapin_mx);
}

/*
 * NAMES:	raid_child_constructor
 * DESCRIPTION: child structure constructor routine
 * PARAMETERS:
 */
/*ARGSUSED1*/
static int
raid_child_constructor(void *p, void *d1, int d2)
{
	md_raidcs_t	*cs = (md_raidcs_t *)p;
	mutex_init(&cs->cs_mx, NULL, MUTEX_DEFAULT, NULL);
	bioinit(&cs->cs_dbuf);
	bioinit(&cs->cs_pbuf);
	bioinit(&cs->cs_hbuf);
	return (0);
}

void
raid_child_init(md_raidcs_t *cs)
{
	bzero(cs, offsetof(md_raidcs_t, cs_mx));

	md_bioreset(&cs->cs_dbuf);
	md_bioreset(&cs->cs_pbuf);
	md_bioreset(&cs->cs_hbuf);

	((md_raidcs_t *)cs)->cs_dbuf.b_chain =
	    ((md_raidcs_t *)cs)->cs_pbuf.b_chain =
	    ((md_raidcs_t *)cs)->cs_hbuf.b_chain =
	    (struct buf *)(cs);

	cs->cs_magic = RAID_CSMAGIC;
	cs->cs_line = MD_DISKADDR_ERROR;
	cs->cs_dpwslot = -1;
	cs->cs_ppwslot = -1;
}

/*ARGSUSED1*/
static void
raid_child_destructor(void *p, void *d)
{
	biofini(&((md_raidcs_t *)p)->cs_dbuf);
	biofini(&((md_raidcs_t *)p)->cs_hbuf);
	biofini(&((md_raidcs_t *)p)->cs_pbuf);
	mutex_destroy(&((md_raidcs_t *)p)->cs_mx);
}

/*ARGSUSED1*/
static int
raid_cbuf_constructor(void *p, void *d1, int d2)
{
	bioinit(&((md_raidcbuf_t *)p)->cbuf_bp);
	return (0);
}

static void
raid_cbuf_init(md_raidcbuf_t *cb)
{
	bzero(cb, offsetof(md_raidcbuf_t, cbuf_bp));
	md_bioreset(&cb->cbuf_bp);
	cb->cbuf_magic = RAID_BUFMAGIC;
	cb->cbuf_pwslot = -1;
	cb->cbuf_flags = CBUF_WRITE;
}

/*ARGSUSED1*/
static void
raid_cbuf_destructor(void *p, void *d)
{
	biofini(&((md_raidcbuf_t *)p)->cbuf_bp);
}

/*
 * NAMES:	raid_run_queue
 * DESCRIPTION: spawn a backend processing daemon for RAID metadevice.
 * PARAMETERS:
 */
/*ARGSUSED*/
static void
raid_run_queue(void *d)
{
	if (!(md_status & MD_GBL_DAEMONS_LIVE))
		md_daemon(1, &md_done_daemon);
}

/*
 * NAME:	raid_build_pwslot
 * DESCRIPTION: builds mr_pw_reserve for the column
 * PARAMETERS:	un is the pointer to the unit structure
 *		colindex is the column to create the structure for
 */
int
raid_build_pw_reservation(mr_unit_t *un, int colindex)
{
	mr_pw_reserve_t	*pw;
	mr_scoreboard_t	*sb;
	int		i;

	pw = (mr_pw_reserve_t *) kmem_zalloc(sizeof (mr_pw_reserve_t) +
	    (sizeof (mr_scoreboard_t) * un->un_pwcnt), KM_SLEEP);
	pw->pw_magic = RAID_PWMAGIC;
	pw->pw_column = colindex;
	pw->pw_free = un->un_pwcnt;
	sb = &pw->pw_sb[0];
	for (i = 0; i < un->un_pwcnt; i++) {
		sb[i].sb_column = colindex;
		sb[i].sb_flags = SB_UNUSED;
		sb[i].sb_start_blk = 0;
		sb[i].sb_last_blk = 0;
		sb[i].sb_cs = NULL;
	}
	un->un_column_ic[colindex].un_pw_reserve = pw;
	return (0);
}
/*
 * NAME:	raid_free_pw_reservation
 * DESCRIPTION: RAID metadevice pre-write slot structure destroy routine
 * PARAMETERS:	mr_unit_t *un - pointer to a unit structure
 *		int colindex  - index of the column whose pre-write slot struct
 *			is to be destroyed.
 */
void
raid_free_pw_reservation(mr_unit_t *un, int colindex)
{
	mr_pw_reserve_t	*pw = un->un_column_ic[colindex].un_pw_reserve;

	kmem_free(pw, sizeof (mr_pw_reserve_t) +
	    (sizeof (mr_scoreboard_t) * un->un_pwcnt));
}

/*
 * NAME:	raid_cancel_pwslot
 * DESCRIPTION: RAID metadevice write routine
 * PARAMETERS:	md_raidcs_t *cs - pointer to a child structure
 */
static void
raid_cancel_pwslot(md_raidcs_t *cs)
{
	mr_unit_t		*un = cs->cs_un;
	mr_pw_reserve_t		*pw;
	mr_scoreboard_t		*sb;
	mr_column_ic_t		*col;
	md_raidcbuf_t		*cbuf;
	int			broadcast = 0;

	if (cs->cs_ps->ps_flags & MD_RPS_READ)
		return;
	if (cs->cs_dpwslot != -1) {
		col = &un->un_column_ic[cs->cs_dcolumn];
		pw = col->un_pw_reserve;
		sb = &pw->pw_sb[cs->cs_dpwslot];
		sb->sb_flags = SB_AVAIL;
		if ((pw->pw_free++ == 0) || (un->un_rflags & MD_RFLAG_NEEDPW))
			broadcast++;
		sb->sb_cs = NULL;
	}

	if (cs->cs_ppwslot != -1) {
		col = &un->un_column_ic[cs->cs_pcolumn];
		pw = col->un_pw_reserve;
		sb = &pw->pw_sb[cs->cs_ppwslot];
		sb->sb_flags = SB_AVAIL;
		if ((pw->pw_free++ == 0) || (un->un_rflags & MD_RFLAG_NEEDPW))
			broadcast++;
		sb->sb_cs = NULL;
	}

	for (cbuf = cs->cs_buflist; cbuf; cbuf = cbuf->cbuf_next) {
		if (cbuf->cbuf_pwslot == -1)
			continue;
		col = &un->un_column_ic[cbuf->cbuf_column];
		pw = col->un_pw_reserve;
		sb = &pw->pw_sb[cbuf->cbuf_pwslot];
		sb->sb_flags = SB_AVAIL;
		if ((pw->pw_free++ == 0) || (un->un_rflags & MD_RFLAG_NEEDPW))
			broadcast++;
		sb->sb_cs = NULL;
	}
	if (broadcast) {
		cv_broadcast(&un->un_cv);
		return;
	}
	mutex_enter(&un->un_mx);
	if (un->un_rflags & MD_RFLAG_NEEDPW)
		cv_broadcast(&un->un_cv);
	mutex_exit(&un->un_mx);
}

static void
raid_free_pwinvalidate(md_raidcs_t *cs)
{
	md_raidcbuf_t		*cbuf;
	md_raidcbuf_t		*cbuf_to_free;
	mr_unit_t		*un = cs->cs_un;
	mdi_unit_t		*ui = MDI_UNIT(MD_SID(un));
	mr_pw_reserve_t		*pw;
	mr_scoreboard_t		*sb;
	int			broadcast = 0;

	cbuf = cs->cs_pw_inval_list;
	ASSERT(cbuf);
	mutex_enter(&un->un_linlck_mx);
	while (cbuf) {
		pw = un->un_column_ic[cbuf->cbuf_column].un_pw_reserve;
		sb = &pw->pw_sb[0];
		ASSERT(sb[cbuf->cbuf_pwslot].sb_flags & SB_INVAL_PEND);
		sb[cbuf->cbuf_pwslot].sb_flags = SB_UNUSED;
		sb[cbuf->cbuf_pwslot].sb_cs = NULL;
		if ((pw->pw_free++ == 0) || (un->un_rflags & MD_RFLAG_NEEDPW))
			broadcast++;
		cbuf_to_free = cbuf;
		cbuf = cbuf->cbuf_next;
		kmem_free(cbuf_to_free->cbuf_buffer, dbtob(un->un_iosize));
		kmem_cache_free(raid_cbuf_cache, cbuf_to_free);
	}
	cs->cs_pw_inval_list = (md_raidcbuf_t *)NULL;
	/*
	 * now that there is a free prewrite slot, check to see if there
	 * are any io operations waiting first wake up the raid_io_startup
	 * then signal the the processes waiting in raid_write.
	 */
	if (ui->ui_io_lock->io_list_front)
		raid_io_startup(un);
	mutex_exit(&un->un_linlck_mx);
	if (broadcast) {
		cv_broadcast(&un->un_cv);
		return;
	}
	mutex_enter(&un->un_mx);
	if (un->un_rflags & MD_RFLAG_NEEDPW)
		cv_broadcast(&un->un_cv);
	mutex_exit(&un->un_mx);
}


static int
raid_get_pwslot(md_raidcs_t *cs, int column)
{
	mr_scoreboard_t	*sb;
	mr_pw_reserve_t	*pw;
	mr_unit_t	*un = cs->cs_un;
	diskaddr_t	start_blk = cs->cs_blkno;
	diskaddr_t	last_blk = cs->cs_lastblk;
	int		i;
	int		pwcnt = un->un_pwcnt;
	int		avail = -1;
	int		use = -1;
	int		flags;


	/* start with the data column */
	pw = cs->cs_un->un_column_ic[column].un_pw_reserve;
	sb = &pw->pw_sb[0];
	ASSERT(pw->pw_free > 0);
	for (i = 0; i < pwcnt; i++) {
		flags = sb[i].sb_flags;
		if (flags & SB_INVAL_PEND)
			continue;

		if ((avail == -1) && (flags & (SB_AVAIL | SB_UNUSED)))
			avail = i;

		if ((start_blk > sb[i].sb_last_blk) ||
		    (last_blk < sb[i].sb_start_blk))
			continue;

		/* OVERLAP */
		ASSERT(! (sb[i].sb_flags & SB_INUSE));

		/*
		 * raid_invalidate_pwslot attempts to zero out prewrite entry
		 * in parallel with other disk reads/writes related to current
		 * transaction. however cs_frags accounting for this case is
		 * broken because raid_write_io resets cs_frags i.e. ignoring
		 * that it could have been been set to > 0 value by
		 * raid_invalidate_pwslot. While this can be fixed an
		 * additional problem is that we don't seem to handle
		 * correctly the case of getting a disk error for prewrite
		 * entry invalidation.
		 * It does not look like we really need
		 * to invalidate prewrite slots because raid_replay sorts
		 * prewrite id's in ascending order and during recovery the
		 * latest prewrite entry for the same block will be replay
		 * last. That's why i ifdef'd out the call to
		 * raid_invalidate_pwslot. --aguzovsk@east
		 */

		if (use == -1) {
			use = i;
		}
	}

	ASSERT(avail != -1);
	pw->pw_free--;
	if (use == -1)
		use = avail;

	ASSERT(! (sb[use].sb_flags & SB_INUSE));
	sb[use].sb_flags = SB_INUSE;
	sb[use].sb_cs = cs;
	sb[use].sb_start_blk = start_blk;
	sb[use].sb_last_blk = last_blk;
	ASSERT((use >= 0) && (use < un->un_pwcnt));
	return (use);
}

static int
raid_check_pw(md_raidcs_t *cs)
{

	mr_unit_t	*un = cs->cs_un;
	int		i;

	ASSERT(! (cs->cs_flags & MD_RCS_HAVE_PW_SLOTS));
	/*
	 * check to be sure there is a prewrite slot available
	 * if not just return.
	 */
	if (cs->cs_flags & MD_RCS_LINE) {
		for (i = 0; i < un->un_totalcolumncnt; i++)
			if (un->un_column_ic[i].un_pw_reserve->pw_free <= 0)
				return (1);
		return (0);
	}

	if (un->un_column_ic[cs->cs_dcolumn].un_pw_reserve->pw_free <= 0)
		return (1);
	if (un->un_column_ic[cs->cs_pcolumn].un_pw_reserve->pw_free <= 0)
		return (1);
	return (0);
}
static int
raid_alloc_pwslot(md_raidcs_t *cs)
{
	mr_unit_t	*un = cs->cs_un;
	md_raidcbuf_t	*cbuf;

	ASSERT(! (cs->cs_flags & MD_RCS_HAVE_PW_SLOTS));
	if (raid_check_pw(cs))
		return (1);

	mutex_enter(&un->un_mx);
	un->un_pwid++;
	cs->cs_pwid = un->un_pwid;
	mutex_exit(&un->un_mx);

	cs->cs_dpwslot = raid_get_pwslot(cs, cs->cs_dcolumn);
	for (cbuf = cs->cs_buflist; cbuf; cbuf = cbuf->cbuf_next) {
		cbuf->cbuf_pwslot = raid_get_pwslot(cs, cbuf->cbuf_column);
	}
	cs->cs_ppwslot = raid_get_pwslot(cs, cs->cs_pcolumn);

	cs->cs_flags |= MD_RCS_HAVE_PW_SLOTS;

	return (0);
}

/*
 * NAMES:	raid_build_incore
 * DESCRIPTION: RAID metadevice incore structure building routine
 * PARAMETERS:	void *p - pointer to a unit structure
 *		int snarfing - a flag to indicate snarfing is required
 */
int
raid_build_incore(void *p, int snarfing)
{
	mr_unit_t	*un = (mr_unit_t *)p;
	minor_t		mnum = MD_SID(un);
	mddb_recid_t	hs_recid = 0;
	int		i;
	int		preserve_flags;
	mr_column_t	*column;
	int		iosize;
	md_dev64_t	hs, dev;
	int		resync_cnt = 0, error_cnt = 0;

	hs = NODEV64;
	dev = NODEV64;

	/* clear out bogus pointer incase we return(1) prior to alloc */
	un->mr_ic = NULL;

	if (MD_STATUS(un) & MD_UN_BEING_RESET) {
		mddb_setrecprivate(un->c.un_record_id, MD_PRV_PENDCLEAN);
		return (1);
	}

	if (MD_UNIT(mnum) != NULL)
		return (0);

	if (snarfing)
		MD_STATUS(un) = 0;

	un->mr_ic = (mr_unit_ic_t *)kmem_zalloc(sizeof (*un->mr_ic),
	    KM_SLEEP);

	un->un_column_ic = (mr_column_ic_t *)
	    kmem_zalloc(sizeof (mr_column_ic_t) *
	    un->un_totalcolumncnt, KM_SLEEP);

	for (i = 0; i < un->un_totalcolumncnt; i++) {

		column	= &un->un_column[i];
		preserve_flags = column->un_devflags &
		    (MD_RAID_COPY_RESYNC | MD_RAID_REGEN_RESYNC);
		column->un_devflags &=
		    ~(MD_RAID_ALT_ISOPEN | MD_RAID_DEV_ISOPEN |
		    MD_RAID_WRITE_ALT);
		if (raid_build_pw_reservation(un, i) != 0) {
			/* could not build pwslot */
			return (1);
		}

		if (snarfing) {
			set_t		setno = MD_MIN2SET(mnum);
			dev =  md_getdevnum(setno, mddb_getsidenum(setno),
			    column->un_orig_key, MD_NOTRUST_DEVT);
			/*
			 * Comment out instead of remove so we have history
			 * In the pre-SVM releases stored devt is used so
			 * as long as there is one snarf is always happy
			 * even the component is powered off.  This is not
			 * the case in current SVM implementation.  NODEV64
			 * can be returned and in this case since we resolve
			 * the devt at 'open' time (first use of metadevice)
			 * we will allow snarf continue.
			 *
			 * if (dev == NODEV64)
			 *	return (1);
			 */

			/*
			 * Setup un_orig_dev from device id info if the device
			 * is valid (not NODEV64).
			 */
			if (dev != NODEV64)
				column->un_orig_dev = dev;

			if (column->un_devstate & RCS_RESYNC)
				resync_cnt++;
			if (column->un_devstate & (RCS_ERRED | RCS_LAST_ERRED))
				error_cnt++;

			if (HOTSPARED(un, i)) {
				(void) md_hot_spare_ifc(HS_MKDEV,
				    0, 0, 0, &column->un_hs_id, NULL,
				    &hs, NULL);
				/*
				 * Same here
				 *
				 * if (hs == NODEV64)
				 *	return (1);
				 */
			}

			if (HOTSPARED(un, i)) {
				if (column->un_devstate &
				    (RCS_OKAY | RCS_LAST_ERRED)) {
					column->un_dev = hs;
					column->un_pwstart =
					    column->un_hs_pwstart;
					column->un_devstart =
					    column->un_hs_devstart;
					preserve_flags &=
					    ~(MD_RAID_COPY_RESYNC |
					    MD_RAID_REGEN_RESYNC);
				} else  if (column->un_devstate & RCS_RESYNC) {
					/*
					 * if previous system was 4.0 set
					 * the direction flags
					 */
					if ((preserve_flags &
					    (MD_RAID_COPY_RESYNC |
					    MD_RAID_REGEN_RESYNC)) == 0) {
						if (column->un_alt_dev !=
						    NODEV64)
							preserve_flags |=
							    MD_RAID_COPY_RESYNC;
						else
							preserve_flags |=
							/* CSTYLED */
							    MD_RAID_REGEN_RESYNC;
					}
				}
			} else { /* no hot spares */
				column->un_dev = dev;
				column->un_pwstart = column->un_orig_pwstart;
				column->un_devstart = column->un_orig_devstart;
				if (column->un_devstate & RCS_RESYNC) {
					preserve_flags |= MD_RAID_REGEN_RESYNC;
					preserve_flags &= ~MD_RAID_COPY_RESYNC;
				}
			}
			if (! (column->un_devstate & RCS_RESYNC)) {
				preserve_flags &=
				    ~(MD_RAID_REGEN_RESYNC |
				    MD_RAID_COPY_RESYNC);
			}

			column->un_devflags = preserve_flags;
			column->un_alt_dev = NODEV64;
			column->un_alt_pwstart = 0;
			column->un_alt_devstart = 0;
			un->un_resync_line_index = 0;
			un->un_resync_index = 0;
			un->un_percent_done = 0;
		}
	}

	if (resync_cnt && error_cnt) {
		for (i = 0; i < un->un_totalcolumncnt; i++) {
			column  = &un->un_column[i];
			if (HOTSPARED(un, i) &&
			    (column->un_devstate & RCS_RESYNC) &&
			    (column->un_devflags & MD_RAID_COPY_RESYNC))
				/* hotspare has data */
				continue;

			if (HOTSPARED(un, i) &&
			    (column->un_devstate & RCS_RESYNC)) {
				/* hotspare does not have data */
				raid_hs_release(HS_FREE, un, &hs_recid, i);
				column->un_dev = column->un_orig_dev;
				column->un_pwstart = column->un_orig_pwstart;
				column->un_devstart = column->un_orig_devstart;
				mddb_setrecprivate(hs_recid, MD_PRV_PENDCOM);
			}

			if (column->un_devstate & RCS_ERRED)
				column->un_devstate = RCS_LAST_ERRED;

			if (column->un_devstate & RCS_RESYNC)
				column->un_devstate = RCS_ERRED;
		}
	}
	mddb_setrecprivate(un->c.un_record_id, MD_PRV_PENDCOM);

	un->un_pwid = 1; /* or some other possible value */
	un->un_magic = RAID_UNMAGIC;
	iosize = un->un_iosize;
	un->un_pbuffer = kmem_alloc(dbtob(iosize), KM_SLEEP);
	un->un_dbuffer = kmem_alloc(dbtob(iosize), KM_SLEEP);
	mutex_init(&un->un_linlck_mx, NULL, MUTEX_DEFAULT, NULL);
	cv_init(&un->un_linlck_cv, NULL, CV_DEFAULT, NULL);
	un->un_linlck_chn = NULL;

	/* place various information in the in-core data structures */
	md_nblocks_set(mnum, un->c.un_total_blocks);
	MD_UNIT(mnum) = un;

	return (0);
}

/*
 * NAMES:	reset_raid
 * DESCRIPTION: RAID metadevice reset routine
 * PARAMETERS:	mr_unit_t *un - pointer to a unit structure
 *		minor_t mnum - RAID metadevice minor number
 *		int removing - a flag to imply removing device name from
 *			MDDB database.
 */
void
reset_raid(mr_unit_t *un, minor_t mnum, int removing)
{
	int		i, n = 0;
	sv_dev_t	*sv;
	mr_column_t	*column;
	int		column_cnt = un->un_totalcolumncnt;
	mddb_recid_t	*recids, vtoc_id;
	int		hserr;

	ASSERT((MDI_UNIT(mnum)->ui_io_lock->io_list_front == NULL) &&
	    (MDI_UNIT(mnum)->ui_io_lock->io_list_back == NULL));

	md_destroy_unit_incore(mnum, &raid_md_ops);

	md_nblocks_set(mnum, -1ULL);
	MD_UNIT(mnum) = NULL;

	if (un->un_pbuffer) {
		kmem_free(un->un_pbuffer, dbtob(un->un_iosize));
		un->un_pbuffer = NULL;
	}
	if (un->un_dbuffer) {
		kmem_free(un->un_dbuffer, dbtob(un->un_iosize));
		un->un_dbuffer = NULL;
	}

	/* free all pre-write slots created during build incore */
	for (i = 0; i < un->un_totalcolumncnt; i++)
		raid_free_pw_reservation(un, i);

	kmem_free(un->un_column_ic, sizeof (mr_column_ic_t) *
	    un->un_totalcolumncnt);

	kmem_free(un->mr_ic, sizeof (*un->mr_ic));

	/*
	 * Attempt release of its minor node
	 */
	md_remove_minor_node(mnum);

	if (!removing)
		return;

	sv = (sv_dev_t *)kmem_zalloc((column_cnt + 1) * sizeof (sv_dev_t),
	    KM_SLEEP);

	recids = (mddb_recid_t *)
	    kmem_zalloc((column_cnt + 2) * sizeof (mddb_recid_t), KM_SLEEP);

	for (i = 0; i < column_cnt; i++) {
		md_unit_t	*comp_un;
		md_dev64_t	comp_dev;

		column = &un->un_column[i];
		sv[i].setno = MD_MIN2SET(mnum);
		sv[i].key = column->un_orig_key;
		if (HOTSPARED(un, i)) {
			if (column->un_devstate & (RCS_ERRED | RCS_LAST_ERRED))
				hserr = HS_BAD;
			else
				hserr = HS_FREE;
			raid_hs_release(hserr, un, &recids[n++], i);
		}
		/*
		 * deparent any metadevices.
		 * NOTE: currently soft partitions are the only metadevices
		 * allowed in RAID metadevices.
		 */
		comp_dev = column->un_dev;
		if (md_getmajor(comp_dev) == md_major) {
			comp_un = MD_UNIT(md_getminor(comp_dev));
			recids[n++] = MD_RECID(comp_un);
			md_reset_parent(comp_dev);
		}
	}
	/* decrement the reference count of the old hsp */
	if (un->un_hsp_id != -1)
		(void) md_hot_spare_ifc(HSP_DECREF, un->un_hsp_id, 0, 0,
		    &recids[n++], NULL, NULL, NULL);
	recids[n] = 0;
	MD_STATUS(un) |= MD_UN_BEING_RESET;
	vtoc_id = un->c.un_vtoc_id;

	raid_commit(un, recids);

	/*
	 * Remove self from the namespace
	 */
	if (un->c.un_revision & MD_FN_META_DEV) {
		(void) md_rem_selfname(un->c.un_self_id);
	}

	/* Remove the unit structure */
	mddb_deleterec_wrapper(un->c.un_record_id);

	/* Remove the vtoc, if present */
	if (vtoc_id)
		mddb_deleterec_wrapper(vtoc_id);
	md_rem_names(sv, column_cnt);
	kmem_free(sv, (column_cnt + 1) * sizeof (sv_dev_t));
	kmem_free(recids, (column_cnt + 2) * sizeof (mddb_recid_t));

	SE_NOTIFY(EC_SVM_CONFIG, ESC_SVM_DELETE, SVM_TAG_METADEVICE,
	    MD_MIN2SET(mnum), mnum);
}

/*
 * NAMES:	raid_error_parent
 * DESCRIPTION: mark a parent structure in error
 * PARAMETERS:	md_raidcs_t *cs - pointer to child structure
 *		int	error - error value to set
 * NOTE:	(TBR) - this routine currently is not in use.
 */
static void
raid_error_parent(md_raidps_t *ps, int error)
{
	mutex_enter(&ps->ps_mx);
	ps->ps_flags |= MD_RPS_ERROR;
	ps->ps_error = error;
	mutex_exit(&ps->ps_mx);
}

/*
 * The following defines tell raid_free_parent
 *	RFP_RLS_LOCK		release the unit reader lock when done.
 *	RFP_DECR_PWFRAGS	decrement ps_pwfrags
 *	RFP_DECR_FRAGS		decrement ps_frags
 *	RFP_DECR_READFRAGS	read keeps FRAGS and PWFRAGS in lockstep
 */
#define	RFP_RLS_LOCK		0x00001
#define	RFP_DECR_PWFRAGS	0x00002
#define	RFP_DECR_FRAGS		0x00004
#define	RFP_DECR_READFRAGS	(RFP_DECR_PWFRAGS | RFP_DECR_FRAGS)

/*
 * NAMES:	raid_free_parent
 * DESCRIPTION: free a parent structure
 * PARAMETERS:	md_raidcs_t *cs - pointer to child structure
 *		int	todo - indicates what needs to be done
 */
static void
raid_free_parent(md_raidps_t *ps, int todo)
{
	mdi_unit_t	*ui = ps->ps_ui;

	ASSERT(ps->ps_magic == RAID_PSMAGIC);
	ASSERT(ps->ps_flags & MD_RPS_INUSE);
	mutex_enter(&ps->ps_mx);
	if (todo & RFP_DECR_PWFRAGS) {
		ASSERT(ps->ps_pwfrags);
		ps->ps_pwfrags--;
		if (ps->ps_pwfrags == 0 && (! (ps->ps_flags & MD_RPS_IODONE))) {
			if (ps->ps_flags & MD_RPS_ERROR) {
				ps->ps_bp->b_flags |= B_ERROR;
				ps->ps_bp->b_error = ps->ps_error;
			}
			md_kstat_done(ui, ps->ps_bp, 0);
			biodone(ps->ps_bp);
			ps->ps_flags |= MD_RPS_IODONE;
		}
	}

	if (todo & RFP_DECR_FRAGS) {
		ASSERT(ps->ps_frags);
		ps->ps_frags--;
	}

	if (ps->ps_frags != 0) {
		mutex_exit(&ps->ps_mx);
		return;
	}

	ASSERT((ps->ps_frags == 0) && (ps->ps_pwfrags == 0));
	mutex_exit(&ps->ps_mx);

	if (todo & RFP_RLS_LOCK)
		md_io_readerexit(ui);

	if (panicstr) {
		ps->ps_flags |= MD_RPS_DONE;
		return;
	}

	if (ps->ps_flags & MD_RPS_HSREQ)
		(void) raid_hotspares();

	ASSERT(todo & RFP_RLS_LOCK);
	ps->ps_flags &= ~MD_RPS_INUSE;

	md_dec_iocount(MD_MIN2SET(ps->ps_un->c.un_self_id));

	kmem_cache_free(raid_parent_cache, ps);
}

/*
 * NAMES:	raid_free_child
 * DESCRIPTION: free a parent structure
 * PARAMETERS:	md_raidcs_t *cs - pointer to child structure
 *		int drop_locks	- 0 for no locks held
 * NOTE:	(TBR) - this routine currently is not in use.
 */
static void
raid_free_child(md_raidcs_t *cs, int drop_locks)
{
	mr_unit_t	*un = cs->cs_un;
	md_raidcbuf_t	*cbuf, *cbuf1;

	if (cs->cs_pw_inval_list)
		raid_free_pwinvalidate(cs);

	if (drop_locks) {
		ASSERT(cs->cs_flags & MD_RCS_LLOCKD &&
		    (cs->cs_flags & (MD_RCS_READER | MD_RCS_WRITER)));
		md_unit_readerexit(MDI_UNIT(MD_SID(un)));
		raid_line_exit(cs);
	} else {
		ASSERT(!(cs->cs_flags & MD_RCS_LLOCKD));
	}

	freebuffers(cs);
	cbuf = cs->cs_buflist;
	while (cbuf) {
		cbuf1 = cbuf->cbuf_next;
		kmem_cache_free(raid_cbuf_cache, cbuf);
		cbuf = cbuf1;
	}
	if (cs->cs_dbuf.b_flags & B_REMAPPED)
		bp_mapout(&cs->cs_dbuf);
	kmem_cache_free(raid_child_cache, cs);
}

/*
 * NAME:	raid_regen_parity
 *
 * DESCRIPTION:	This routine is used to regenerate the parity blocks
 *		for the entire raid device.  It is called from
 *		both the regen thread and the IO path.
 *
 *		On error the entire device is marked as in error by
 *		placing the erroring device in error and all other
 *		devices in last_errored.
 *
 * PARAMETERS:	md_raidcs_t	*cs
 */
void
raid_regen_parity(md_raidcs_t *cs)
{
	mr_unit_t	*un = cs->cs_un;
	mdi_unit_t	*ui = MDI_UNIT(un->c.un_self_id);
	caddr_t		buffer;
	caddr_t		parity_buffer;
	buf_t		*bp;
	uint_t		*dbuf, *pbuf;
	uint_t		colcnt = un->un_totalcolumncnt;
	int		column;
	int		parity_column = cs->cs_pcolumn;
	size_t		bcount;
	int		j;

	/*
	 * This routine uses the data and parity buffers allocated to a
	 * write.  In the case of a read the buffers are allocated and
	 * freed at the end.
	 */

	ASSERT(IO_READER_HELD(un));
	ASSERT(cs->cs_flags & MD_RCS_LLOCKD);
	ASSERT(UNIT_READER_HELD(un));

	if (raid_state_cnt(un, RCS_OKAY) != colcnt)
		return;

	if (cs->cs_flags & MD_RCS_READER) {
		getpbuffer(cs);
		getdbuffer(cs);
	}
	ASSERT(cs->cs_dbuffer && cs->cs_pbuffer);
	bcount = cs->cs_bcount;
	buffer = cs->cs_dbuffer;
	parity_buffer = cs->cs_pbuffer;
	bzero(parity_buffer, bcount);
	bp = &cs->cs_dbuf;
	for (column = 0; column < colcnt; column++) {
		if (column == parity_column)
			continue;
		reset_buf(bp, B_READ | B_BUSY, bcount);
		bp->b_un.b_addr = buffer;
		bp->b_edev = md_dev64_to_dev(un->un_column[column].un_dev);
		bp->b_lblkno = cs->cs_blkno + un->un_column[column].un_devstart;
		bp->b_bcount = bcount;
		bp->b_bufsize = bcount;
		(void) md_call_strategy(bp, MD_STR_NOTTOP, NULL);
		if (biowait(bp))
			goto bail;
		pbuf = (uint_t *)(void *)parity_buffer;
		dbuf = (uint_t *)(void *)buffer;
		for (j = 0; j < (bcount / (sizeof (uint_t))); j++) {
			*pbuf = *pbuf ^ *dbuf;
			pbuf++;
			dbuf++;
		}
	}

	reset_buf(bp, B_WRITE | B_BUSY, cs->cs_bcount);
	bp->b_un.b_addr = parity_buffer;
	bp->b_edev = md_dev64_to_dev(un->un_column[parity_column].un_dev);
	bp->b_lblkno = cs->cs_blkno + un->un_column[parity_column].un_devstart;
	bp->b_bcount = bcount;
	bp->b_bufsize = bcount;
	(void) md_call_strategy(bp, MD_STR_NOTTOP, NULL);
	if (biowait(bp))
		goto bail;

	if (cs->cs_flags & MD_RCS_READER) {
		freebuffers(cs);
		cs->cs_pbuffer = NULL;
		cs->cs_dbuffer = NULL;
	}
	bp->b_chain = (struct buf *)cs;
	return;
bail:
	if (cs->cs_flags & MD_RCS_READER) {
		freebuffers(cs);
		cs->cs_pbuffer = NULL;
		cs->cs_dbuffer = NULL;
	}
	md_unit_readerexit(ui);
	un = md_unit_writerlock(ui);
	raid_set_state(un, column, RCS_ERRED, 0);
	for (column = 0; column < colcnt; column++)
		raid_set_state(un, column, RCS_ERRED, 0);
	raid_commit(un, NULL);
	md_unit_writerexit(ui);
	un = md_unit_readerlock(ui);
	bp->b_chain = (struct buf *)cs;
}

/*
 * NAMES:	raid_error_state
 * DESCRIPTION: check unit and column states' impact on I/O error
 *		NOTE:	the state now may not be the state when the
 *			I/O completed due to race conditions.
 * PARAMETERS:	mr_unit_t *un - pointer to raid unit structure
 *		md_raidcs_t *cs - pointer to child structure
 *		buf_t	  *bp - pointer to buffer structure
 */
static int
raid_error_state(mr_unit_t *un, buf_t *bp)
{
	int		column;
	int		i;

	ASSERT(IO_READER_HELD(un));
	ASSERT(UNIT_WRITER_HELD(un));

	column = -1;
	for (i = 0; i < un->un_totalcolumncnt; i++) {
		if (un->un_column[i].un_dev == md_expldev(bp->b_edev)) {
			column = i;
			break;
		}
		if (un->un_column[i].un_alt_dev == md_expldev(bp->b_edev)) {
			column = i;
			break;
		}
	}

	/* in case a replace snuck in while waiting on unit writer lock */

	if (column == -1) {
		return (0);
	}

	(void) raid_set_state(un, column, RCS_ERRED, 0);
	ASSERT(un->un_state & (RUS_ERRED | RUS_LAST_ERRED));

	raid_commit(un, NULL);
	if (un->un_state & RUS_ERRED) {
		SE_NOTIFY(EC_SVM_STATE, ESC_SVM_ERRED, SVM_TAG_METADEVICE,
		    MD_UN2SET(un), MD_SID(un));
	} else if (un->un_state & RUS_LAST_ERRED) {
		SE_NOTIFY(EC_SVM_STATE, ESC_SVM_LASTERRED, SVM_TAG_METADEVICE,
		    MD_UN2SET(un), MD_SID(un));
	}

	return (EIO);
}

/*
 * NAME:	raid_mapin_buf
 * DESCRIPTION:	wait for the input buffer header to be maped in
 * PARAMETERS:	md_raidps_t *ps
 */
static void
raid_mapin_buf(md_raidcs_t *cs)
{
	md_raidps_t	*ps = cs->cs_ps;

	/*
	 * check to see if the buffer is maped.  If all is ok return the
	 * offset of the data and return.  Since it is expensive to grab
	 * a mutex this is only done if the mapin is not complete.
	 * Once the mutex is aquired it is possible that the mapin was
	 * not done so recheck and if necessary do the mapin.
	 */
	if (ps->ps_mapin > 0) {
		cs->cs_addr = ps->ps_addr + cs->cs_offset;
		return;
	}
	mutex_enter(&ps->ps_mapin_mx);
	if (ps->ps_mapin > 0) {
		cs->cs_addr = ps->ps_addr + cs->cs_offset;
		mutex_exit(&ps->ps_mapin_mx);
		return;
	}
	bp_mapin(ps->ps_bp);
	/*
	 * get the new b_addr out of the parent since bp_mapin just changed it
	 */
	ps->ps_addr = ps->ps_bp->b_un.b_addr;
	cs->cs_addr = ps->ps_addr + cs->cs_offset;
	ps->ps_mapin++;
	mutex_exit(&ps->ps_mapin_mx);
}

/*
 * NAMES:	raid_read_no_retry
 * DESCRIPTION: I/O retry routine for a RAID metadevice read
 *		read failed attempting to regenerate the data,
 *		no retry possible, error occured in raid_raidregenloop().
 * PARAMETERS:	mr_unit_t   *un - pointer to raid unit structure
 *		md_raidcs_t *cs - pointer to child structure
 */
/*ARGSUSED*/
static void
raid_read_no_retry(mr_unit_t *un, md_raidcs_t *cs)
{
	md_raidps_t	*ps = cs->cs_ps;

	raid_error_parent(ps, EIO);
	raid_free_child(cs, 1);

	/* decrement readfrags */
	raid_free_parent(ps, RFP_DECR_READFRAGS | RFP_RLS_LOCK);
}

/*
 * NAMES:	raid_read_retry
 * DESCRIPTION: I/O retry routine for a RAID metadevice read
 * PARAMETERS:	md_raidcs_t *cs - pointer to child structure
 */
static void
raid_read_retry(mr_unit_t *un, md_raidcs_t *cs)
{
	/* re-initialize the buf_t structure for raid_read() */
	cs->cs_dbuf.b_chain = (struct buf *)cs;
	cs->cs_dbuf.b_back = &cs->cs_dbuf;
	cs->cs_dbuf.b_forw = &cs->cs_dbuf;
	cs->cs_dbuf.b_flags = B_BUSY;	/* initialize flags */
	cs->cs_dbuf.b_error = 0;	/* initialize error */
	cs->cs_dbuf.b_offset = -1;
	/* Initialize semaphores */
	sema_init(&cs->cs_dbuf.b_io, 0, NULL,
	    SEMA_DEFAULT, NULL);
	sema_init(&cs->cs_dbuf.b_sem, 0, NULL,
	    SEMA_DEFAULT, NULL);

	cs->cs_pbuf.b_chain = (struct buf *)cs;
	cs->cs_pbuf.b_back = &cs->cs_pbuf;
	cs->cs_pbuf.b_forw = &cs->cs_pbuf;
	cs->cs_pbuf.b_flags = B_BUSY;	/* initialize flags */
	cs->cs_pbuf.b_error = 0;	/* initialize error */
	cs->cs_pbuf.b_offset = -1;
	sema_init(&cs->cs_pbuf.b_io, 0, NULL,
	    SEMA_DEFAULT, NULL);
	sema_init(&cs->cs_pbuf.b_sem, 0, NULL,
	    SEMA_DEFAULT, NULL);

	cs->cs_flags &= ~MD_RCS_ERROR;	/* reset child error flag */
	cs->cs_flags |= MD_RCS_RECOVERY;  /* set RECOVERY flag */

	/*
	 * re-scheduling I/O with raid_read_io() is simpler. basically,
	 * raid_read_io() is invoked again with same child structure.
	 * (NOTE: we aren`t supposed to do any error recovery when an I/O
	 * error occured in raid_raidregenloop().
	 */
	raid_mapin_buf(cs);
	raid_read_io(un, cs);
}

/*
 * NAMES:	raid_rderr
 * DESCRIPTION: I/O error handling routine for a RAID metadevice read
 * PARAMETERS:	md_raidcs_t *cs - pointer to child structure
 * LOCKS:	must obtain unit writer lock while calling raid_error_state
 *		since a unit or column state transition may take place.
 *		must obtain unit reader lock to retry I/O.
 */
/*ARGSUSED*/
static void
raid_rderr(md_raidcs_t *cs)
{
	md_raidps_t	*ps;
	mdi_unit_t	*ui;
	mr_unit_t	*un;
	int		error = 0;

	ps = cs->cs_ps;
	ui = ps->ps_ui;
	un = (mr_unit_t *)md_unit_writerlock(ui);
	ASSERT(un != 0);

	if (cs->cs_dbuf.b_flags & B_ERROR)
		error = raid_error_state(un, &cs->cs_dbuf);
	if (cs->cs_pbuf.b_flags & B_ERROR)
		error |= raid_error_state(un, &cs->cs_pbuf);

	md_unit_writerexit(ui);

	ps->ps_flags |= MD_RPS_HSREQ;

	un = (mr_unit_t *)md_unit_readerlock(ui);
	ASSERT(un != 0);
	/* now attempt the appropriate retry routine */
	(*(cs->cs_retry_call))(un, cs);
}


/*
 * NAMES:	raid_read_error
 * DESCRIPTION: I/O error handling routine for a RAID metadevice read
 * PARAMETERS:	md_raidcs_t *cs - pointer to child structure
 */
/*ARGSUSED*/
static void
raid_read_error(md_raidcs_t *cs)
{
	md_raidps_t	*ps;
	mdi_unit_t	*ui;
	mr_unit_t	*un;
	set_t		setno;

	ps = cs->cs_ps;
	ui = ps->ps_ui;
	un = cs->cs_un;

	setno = MD_UN2SET(un);

	if ((cs->cs_dbuf.b_flags & B_ERROR) &&
	    (COLUMN_STATE(un, cs->cs_dcolumn) != RCS_ERRED) &&
	    (COLUMN_STATE(un, cs->cs_dcolumn) != RCS_LAST_ERRED))
		cmn_err(CE_WARN, "md %s: read error on %s",
		    md_shortname(MD_SID(un)),
		    md_devname(setno, md_expldev(cs->cs_dbuf.b_edev), NULL, 0));

	if ((cs->cs_pbuf.b_flags & B_ERROR) &&
	    (COLUMN_STATE(un, cs->cs_pcolumn) != RCS_ERRED) &&
	    (COLUMN_STATE(un, cs->cs_pcolumn) != RCS_LAST_ERRED))
		cmn_err(CE_WARN, "md %s: read error on %s",
		    md_shortname(MD_SID(un)),
		    md_devname(setno, md_expldev(cs->cs_pbuf.b_edev), NULL, 0));

	md_unit_readerexit(ui);

	ASSERT(cs->cs_frags == 0);

	/* now schedule processing for possible state change */
	daemon_request(&md_mstr_daemon, raid_rderr,
	    (daemon_queue_t *)cs, REQ_OLD);

}

/*
 * NAMES:	getdbuffer
 * DESCRIPTION: data buffer allocation for a child structure
 * PARAMETERS:	md_raidcs_t *cs - pointer to child structure
 *
 * NOTE: always get dbuffer before pbuffer
 *	 and get both buffers before pwslot
 *	 otherwise a deadlock could be introduced.
 */
static void
getdbuffer(md_raidcs_t *cs)
{
	mr_unit_t	*un;

	cs->cs_dbuffer = kmem_alloc(cs->cs_bcount + DEV_BSIZE, KM_NOSLEEP);
	if (cs->cs_dbuffer != NULL)
		return;
	un = cs->cs_ps->ps_un;
	mutex_enter(&un->un_mx);
	while (un->un_dbuffer == NULL) {
		STAT_INC(data_buffer_waits);
		un->un_rflags |= MD_RFLAG_NEEDBUF;
		cv_wait(&un->un_cv, &un->un_mx);
	}
	cs->cs_dbuffer = un->un_dbuffer;
	cs->cs_flags |= MD_RCS_UNDBUF;
	un->un_dbuffer = NULL;
	mutex_exit(&un->un_mx);
}

/*
 * NAMES:	getpbuffer
 * DESCRIPTION: parity buffer allocation for a child structure
 * PARAMETERS:	md_raidcs_t *cs - pointer to child structure
 *
 * NOTE: always get dbuffer before pbuffer
 *	 and get both buffers before pwslot
 *	 otherwise a deadlock could be introduced.
 */
static void
getpbuffer(md_raidcs_t *cs)
{
	mr_unit_t *un;

	cs->cs_pbuffer = kmem_alloc(cs->cs_bcount + DEV_BSIZE, KM_NOSLEEP);
	if (cs->cs_pbuffer != NULL)
		return;
	un = cs->cs_ps->ps_un;
	mutex_enter(&un->un_mx);
	while (un->un_pbuffer == NULL) {
		STAT_INC(parity_buffer_waits);
		un->un_rflags |= MD_RFLAG_NEEDBUF;
		cv_wait(&un->un_cv, &un->un_mx);
	}
	cs->cs_pbuffer = un->un_pbuffer;
	cs->cs_flags |= MD_RCS_UNPBUF;
	un->un_pbuffer = NULL;
	mutex_exit(&un->un_mx);
}
static void
getresources(md_raidcs_t *cs)
{
	md_raidcbuf_t	*cbuf;
	/*
	 * NOTE: always get dbuffer before pbuffer
	 *	 and get both buffers before pwslot
	 *	 otherwise a deadlock could be introduced.
	 */
	getdbuffer(cs);
	getpbuffer(cs);
	for (cbuf = cs->cs_buflist; cbuf; cbuf = cbuf->cbuf_next)
		cbuf->cbuf_buffer =
		    kmem_alloc(cs->cs_bcount + DEV_BSIZE, KM_SLEEP);
}
/*
 * NAMES:	freebuffers
 * DESCRIPTION: child structure buffer freeing routine
 * PARAMETERS:	md_raidcs_t *cs - pointer to child structure
 */
static void
freebuffers(md_raidcs_t *cs)
{
	mr_unit_t	*un;
	md_raidcbuf_t	*cbuf;

	/* free buffers used for full line write */
	for (cbuf = cs->cs_buflist; cbuf; cbuf = cbuf->cbuf_next) {
		if (cbuf->cbuf_buffer == NULL)
			continue;
		kmem_free(cbuf->cbuf_buffer, cbuf->cbuf_bcount + DEV_BSIZE);
		cbuf->cbuf_buffer = NULL;
		cbuf->cbuf_bcount = 0;
	}

	if (cs->cs_flags & (MD_RCS_UNDBUF | MD_RCS_UNPBUF)) {
		un = cs->cs_un;
		mutex_enter(&un->un_mx);
	}
	if (cs->cs_dbuffer) {
		if (cs->cs_flags & MD_RCS_UNDBUF)
			un->un_dbuffer = cs->cs_dbuffer;
		else
			kmem_free(cs->cs_dbuffer, cs->cs_bcount + DEV_BSIZE);
	}
	if (cs->cs_pbuffer) {
		if (cs->cs_flags & MD_RCS_UNPBUF)
			un->un_pbuffer = cs->cs_pbuffer;
		else
			kmem_free(cs->cs_pbuffer, cs->cs_bcount + DEV_BSIZE);
	}
	if (cs->cs_flags & (MD_RCS_UNDBUF | MD_RCS_UNPBUF)) {
		un->un_rflags &= ~MD_RFLAG_NEEDBUF;
		cv_broadcast(&un->un_cv);
		mutex_exit(&un->un_mx);
	}
}

/*
 * NAMES:	raid_line_reader_lock, raid_line_writer_lock
 * DESCRIPTION: RAID metadevice line reader and writer lock routines
 *		data column # and parity column #.
 * PARAMETERS:	md_raidcs_t *cs - pointer to child structure
 */

void
raid_line_reader_lock(md_raidcs_t *cs, int resync_thread)
{
	mr_unit_t	*un;
	md_raidcs_t	*cs1;

	ASSERT(cs->cs_line != MD_DISKADDR_ERROR);
	un = cs->cs_un;
	cs->cs_flags |= MD_RCS_READER;
	STAT_CHECK(raid_line_lock_wait, MUTEX_HELD(&un->un_linlck_mx));
	if (!panicstr)
		mutex_enter(&un->un_linlck_mx);
	cs1 = un->un_linlck_chn;
	while (cs1 != NULL) {
		for (cs1 = un->un_linlck_chn; cs1; cs1 = cs1->cs_linlck_next)
			if (raid_io_overlaps(cs, cs1) == 1)
				if (cs1->cs_flags & MD_RCS_WRITER)
					break;

		if (cs1 != NULL) {
			if (panicstr)
				panic("md; raid line write lock held");
			un->un_linlck_flg = 1;
			cv_wait(&un->un_linlck_cv, &un->un_linlck_mx);
			STAT_INC(raid_read_waits);
		}
	}
	STAT_MAX(raid_max_reader_locks, raid_reader_locks_active);
	STAT_INC(raid_reader_locks);
	cs1 = un->un_linlck_chn;
	if (cs1 != NULL)
		cs1->cs_linlck_prev = cs;
	cs->cs_linlck_next = cs1;
	cs->cs_linlck_prev = NULL;
	un->un_linlck_chn = cs;
	cs->cs_flags |= MD_RCS_LLOCKD;
	if (resync_thread) {
		diskaddr_t lastblk = cs->cs_blkno + cs->cs_blkcnt - 1;
		diskaddr_t line = (lastblk + 1) / un->un_segsize;
		ASSERT(raid_state_cnt(un, RCS_RESYNC));
		mutex_enter(&un->un_mx);
		un->un_resync_line_index = line;
		mutex_exit(&un->un_mx);
	}
	if (!panicstr)
		mutex_exit(&un->un_linlck_mx);
}

int
raid_line_writer_lock(md_raidcs_t *cs, int lock)
{
	mr_unit_t	*un;
	md_raidcs_t	*cs1;

	ASSERT(cs->cs_line != MD_DISKADDR_ERROR);
	cs->cs_flags |= MD_RCS_WRITER;
	un = cs->cs_ps->ps_un;

	STAT_CHECK(raid_line_lock_wait, MUTEX_HELD(&un->un_linlck_mx));
	if (lock && !panicstr)
		mutex_enter(&un->un_linlck_mx);
	ASSERT(MUTEX_HELD(&un->un_linlck_mx));

	cs1 = un->un_linlck_chn;
	for (cs1 = un->un_linlck_chn; cs1; cs1 = cs1->cs_linlck_next)
		if (raid_io_overlaps(cs, cs1))
			break;

	if (cs1 != NULL) {
		if (panicstr)
			panic("md: line writer lock inaccessible");
		goto no_lock_exit;
	}

	if (raid_alloc_pwslot(cs)) {
		if (panicstr)
			panic("md: no prewrite slots");
		STAT_INC(raid_prewrite_waits);
		goto no_lock_exit;
	}

	cs1 = un->un_linlck_chn;
	if (cs1 != NULL)
		cs1->cs_linlck_prev = cs;
	cs->cs_linlck_next = cs1;
	cs->cs_linlck_prev = NULL;
	un->un_linlck_chn = cs;
	cs->cs_flags |= MD_RCS_LLOCKD;
	cs->cs_flags &= ~MD_RCS_WAITING;
	STAT_INC(raid_writer_locks);
	STAT_MAX(raid_max_write_locks, raid_write_locks_active);
	if (lock && !panicstr)
		mutex_exit(&un->un_linlck_mx);
	return (0);

no_lock_exit:
	/* if this is already queued then do not requeue it */
	ASSERT(! (cs->cs_flags & MD_RCS_LLOCKD));
	if (!lock || (cs->cs_flags & MD_RCS_WAITING))
		return (1);
	cs->cs_flags |= MD_RCS_WAITING;
	cs->cs_un = un;
	raid_enqueue(cs);
	if (lock && !panicstr)
		mutex_exit(&un->un_linlck_mx);
	return (1);
}

static void
raid_startio(md_raidcs_t *cs)
{
	mdi_unit_t	*ui = cs->cs_ps->ps_ui;
	mr_unit_t	*un = cs->cs_un;

	un = md_unit_readerlock(ui);
	raid_write_io(un, cs);
}

void
raid_io_startup(mr_unit_t *un)
{
	md_raidcs_t	*waiting_list, *cs1;
	md_raidcs_t	*previous = NULL, *next = NULL;
	mdi_unit_t	*ui =  MDI_UNIT(un->c.un_self_id);
	kmutex_t	*io_list_mutex = &ui->ui_io_lock->io_list_mutex;

	ASSERT(MUTEX_HELD(&un->un_linlck_mx));
	mutex_enter(io_list_mutex);

	/*
	 * check to be sure there are no reader locks outstanding.  If
	 * there are not then pass on the writer lock.
	 */
	waiting_list = ui->ui_io_lock->io_list_front;
	while (waiting_list) {
		ASSERT(waiting_list->cs_flags & MD_RCS_WAITING);
		ASSERT(! (waiting_list->cs_flags & MD_RCS_LLOCKD));
		for (cs1 = un->un_linlck_chn; cs1; cs1 = cs1->cs_linlck_next)
			if (raid_io_overlaps(waiting_list, cs1) == 1)
				break;
		/*
		 * there was an IOs that overlaps this io so go onto
		 * the next io in the waiting list
		 */
		if (cs1) {
			previous = waiting_list;
			waiting_list = waiting_list->cs_linlck_next;
			continue;
		}

		/*
		 * There are no IOs that overlap this, so remove it from
		 * the waiting queue, and start it
		 */

		if (raid_check_pw(waiting_list)) {
			ASSERT(waiting_list->cs_flags & MD_RCS_WAITING);
			previous = waiting_list;
			waiting_list = waiting_list->cs_linlck_next;
			continue;
		}
		ASSERT(waiting_list->cs_flags & MD_RCS_WAITING);

		next = waiting_list->cs_linlck_next;
		if (previous)
			previous->cs_linlck_next = next;
		else
			ui->ui_io_lock->io_list_front = next;

		if (ui->ui_io_lock->io_list_front == NULL)
			ui->ui_io_lock->io_list_back = NULL;

		if (ui->ui_io_lock->io_list_back == waiting_list)
			ui->ui_io_lock->io_list_back = previous;

		waiting_list->cs_linlck_next = NULL;
		waiting_list->cs_flags &= ~MD_RCS_WAITING;
		STAT_DEC(raid_write_queue_length);
		if (raid_line_writer_lock(waiting_list, 0))
			panic("region locking corrupted");

		ASSERT(waiting_list->cs_flags & MD_RCS_LLOCKD);
		daemon_request(&md_mstr_daemon, raid_startio,
		    (daemon_queue_t *)waiting_list, REQ_OLD);
		waiting_list = next;

	}
	mutex_exit(io_list_mutex);
}

void
raid_line_exit(md_raidcs_t *cs)
{
	mr_unit_t	*un;

	un = cs->cs_ps->ps_un;
	STAT_CHECK(raid_line_lock_wait, MUTEX_HELD(&un->un_linlck_mx));
	mutex_enter(&un->un_linlck_mx);
	if (cs->cs_flags & MD_RCS_READER)
		STAT_DEC(raid_reader_locks_active);
	else
		STAT_DEC(raid_write_locks_active);

	if (cs->cs_linlck_prev)
		cs->cs_linlck_prev->cs_linlck_next = cs->cs_linlck_next;
	else
		un->un_linlck_chn = cs->cs_linlck_next;
	if (cs->cs_linlck_next)
		cs->cs_linlck_next->cs_linlck_prev = cs->cs_linlck_prev;

	cs->cs_flags &= ~MD_RCS_LLOCKD;

	if (un->un_linlck_flg)
		cv_broadcast(&un->un_linlck_cv);

	un->un_linlck_flg = 0;
	cs->cs_line = MD_DISKADDR_ERROR;

	raid_cancel_pwslot(cs);
	/*
	 * now that the lock is droped go ahead and see if there are any
	 * other writes that can be started up
	 */
	raid_io_startup(un);

	mutex_exit(&un->un_linlck_mx);
}

/*
 * NAMES:	raid_line, raid_pcolumn, raid_dcolumn
 * DESCRIPTION: RAID metadevice APIs for mapping segment # to line #,
 *		data column # and parity column #.
 * PARAMETERS:	int segment - segment number
 *		mr_unit_t *un - pointer to an unit structure
 * RETURNS:	raid_line returns line #
 *		raid_dcolumn returns data column #
 *		raid_pcolumn returns parity column #
 */
static diskaddr_t
raid_line(diskaddr_t segment, mr_unit_t *un)
{
	diskaddr_t	adj_seg;
	diskaddr_t	line;
	diskaddr_t	max_orig_segment;

	max_orig_segment = (un->un_origcolumncnt - 1) * un->un_segsincolumn;
	if (segment >= max_orig_segment) {
		adj_seg = segment - max_orig_segment;
		line = adj_seg % un->un_segsincolumn;
	} else {
		line = segment / (un->un_origcolumncnt - 1);
	}
	return (line);
}

uint_t
raid_dcolumn(diskaddr_t segment, mr_unit_t *un)
{
	diskaddr_t	adj_seg;
	diskaddr_t	line;
	diskaddr_t	max_orig_segment;
	uint_t		column;

	max_orig_segment = (un->un_origcolumncnt - 1) * un->un_segsincolumn;
	if (segment >= max_orig_segment) {
		adj_seg = segment - max_orig_segment;
		column = un->un_origcolumncnt  +
		    (uint_t)(adj_seg / un->un_segsincolumn);
	} else {
		line = segment / (un->un_origcolumncnt - 1);
		column = (uint_t)((segment %
		    (un->un_origcolumncnt - 1) + line) % un->un_origcolumncnt);
	}
	return (column);
}

uint_t
raid_pcolumn(diskaddr_t segment, mr_unit_t *un)
{
	diskaddr_t	adj_seg;
	diskaddr_t	line;
	diskaddr_t	max_orig_segment;
	uint_t		column;

	max_orig_segment = (un->un_origcolumncnt - 1) * un->un_segsincolumn;
	if (segment >= max_orig_segment) {
		adj_seg = segment - max_orig_segment;
		line = adj_seg % un->un_segsincolumn;
	} else {
		line = segment / (un->un_origcolumncnt - 1);
	}
	column = (uint_t)((line + (un->un_origcolumncnt - 1)) %
	    un->un_origcolumncnt);
	return (column);
}


/*
 * Is called in raid_iosetup to probe each column to insure
 * that all the columns are in 'okay' state and meet the
 * 'full line' requirement.  If any column is in error,
 * we don't want to enable the 'full line' flag.  Previously,
 * we would do so and disable it only when a error is
 * detected after the first 'full line' io which is too late
 * and leads to the potential data corruption.
 */
static int
raid_check_cols(mr_unit_t *un)
{
	buf_t		bp;
	char		*buf;
	mr_column_t	*colptr;
	minor_t		mnum = MD_SID(un);
	int		i;
	int		err = 0;

	buf = kmem_zalloc((uint_t)DEV_BSIZE, KM_SLEEP);

	for (i = 0; i < un->un_totalcolumncnt; i++) {
		md_dev64_t tmpdev;

		colptr = &un->un_column[i];

		tmpdev = colptr->un_dev;
		/*
		 * Open by device id
		 * If this device is hotspared
		 * use the hotspare key
		 */
		tmpdev = md_resolve_bydevid(mnum, tmpdev, HOTSPARED(un, i) ?
		    colptr->un_hs_key : colptr->un_orig_key);

		if (tmpdev == NODEV64) {
			err = 1;
			break;
		}

		colptr->un_dev = tmpdev;

		bzero((caddr_t)&bp, sizeof (buf_t));
		bp.b_back = &bp;
		bp.b_forw = &bp;
		bp.b_flags = (B_READ | B_BUSY);
		sema_init(&bp.b_io, 0, NULL,
		    SEMA_DEFAULT, NULL);
		sema_init(&bp.b_sem, 0, NULL,
		    SEMA_DEFAULT, NULL);
		bp.b_edev = md_dev64_to_dev(colptr->un_dev);
		bp.b_lblkno = colptr->un_pwstart;
		bp.b_bcount = DEV_BSIZE;
		bp.b_bufsize = DEV_BSIZE;
		bp.b_un.b_addr = (caddr_t)buf;
		(void) md_call_strategy(&bp, 0, NULL);
		if (biowait(&bp)) {
			err = 1;
			break;
		}
	}

	kmem_free(buf, DEV_BSIZE);
	return (err);
}

/*
 * NAME:	raid_iosetup
 * DESCRIPTION: RAID metadevice specific I/O set up routine which does
 *		all the necessary calculations to determine the location
 *		of the segement for the I/O.
 * PARAMETERS:	mr_unit_t *un - unit number of RAID metadevice
 *		diskaddr_t	blkno - block number of the I/O attempt
 *		size_t		blkcnt - block count for this I/O
 *		md_raidcs_t *cs - child structure for each segmented I/O
 *
 * NOTE:	The following is an example of a raid disk layer out:
 *
 *		Total Column = 5
 *		Original Column = 4
 *		Segment Per Column = 10
 *
 *			Col#0	Col#1	Col#2	Col#3	Col#4	Col#5	Col#6
 *		-------------------------------------------------------------
 *		line#0	Seg#0	Seg#1	Seg#2	Parity	Seg#30	Seg#40
 *		line#1	Parity	Seg#3	Seg#4	Seg#5	Seg#31
 *		line#2	Seg#8	Parity	Seg#6	Seg#7	Seg#32
 *		line#3	Seg#10	Seg#11	Parity	Seg#9	Seg#33
 *		line#4	Seg#12	Seg#13	Seg#14	Parity	Seg#34
 *		line#5	Parity	Seg#15	Seg#16	Seg#17	Seg#35
 *		line#6	Seg#20	Parity	Seg#18	Seg#19	Seg#36
 *		line#7	Seg#22	Seg#23	Parity	Seg#21	Seg#37
 *		line#8	Seg#24	Seg#25	Seg#26	Parity	Seg#38
 *		line#9	Parity	Seg#27	Seg#28	Seg#29	Seg#39
 */
static size_t
raid_iosetup(
	mr_unit_t	*un,
	diskaddr_t	blkno,
	size_t		blkcnt,
	md_raidcs_t	*cs
)
{
	diskaddr_t	segment;
	diskaddr_t	segstart;
	diskaddr_t	segoff;
	size_t		leftover;
	diskaddr_t	line;
	uint_t		iosize;
	uint_t		colcnt;

	/* caculate the segment# and offset for the block */
	segment = blkno / un->un_segsize;
	segstart = segment * un->un_segsize;
	segoff = blkno - segstart;
	iosize = un->un_iosize - 1;
	colcnt = un->un_totalcolumncnt - 1;
	line = raid_line(segment, un);
	cs->cs_dcolumn = raid_dcolumn(segment, un);
	cs->cs_pcolumn = raid_pcolumn(segment, un);
	cs->cs_dflags = un->un_column[cs->cs_dcolumn].un_devflags;
	cs->cs_pflags = un->un_column[cs->cs_pcolumn].un_devflags;
	cs->cs_line = line;

	if ((cs->cs_ps->ps_flags & MD_RPS_WRITE) &&
	    (UNIT_STATE(un) & RCS_OKAY) &&
	    (segoff == 0) &&
	    (un->un_totalcolumncnt == un->un_origcolumncnt) &&
	    (un->un_segsize < un->un_iosize) &&
	    (un->un_iosize <= un->un_maxio) &&
	    (blkno == line * un->un_segsize * colcnt) &&
	    (blkcnt >= ((un->un_totalcolumncnt -1) * un->un_segsize)) &&
	    (raid_state_cnt(un, RCS_OKAY) == un->un_origcolumncnt) &&
	    (raid_check_cols(un) == 0)) {

		md_raidcbuf_t	**cbufp;
		md_raidcbuf_t	*cbuf;
		int		i, j;

		STAT_INC(raid_full_line_writes);
		leftover = blkcnt - (un->un_segsize * colcnt);
		ASSERT(blkcnt >= (un->un_segsize * colcnt));
		cs->cs_blkno = line * un->un_segsize;
		cs->cs_blkcnt = un->un_segsize;
		cs->cs_lastblk = cs->cs_blkno + cs->cs_blkcnt - 1;
		cs->cs_bcount = dbtob(cs->cs_blkcnt);
		cs->cs_flags |= MD_RCS_LINE;

		cbufp = &cs->cs_buflist;
		for (i = 0; i < un->un_totalcolumncnt; i++) {
			j = cs->cs_dcolumn + i;
			j = j % un->un_totalcolumncnt;

			if ((j == cs->cs_dcolumn) || (j == cs->cs_pcolumn))
				continue;
			cbuf = kmem_cache_alloc(raid_cbuf_cache,
			    MD_ALLOCFLAGS);
			raid_cbuf_init(cbuf);
			cbuf->cbuf_un = cs->cs_un;
			cbuf->cbuf_ps = cs->cs_ps;
			cbuf->cbuf_column = j;
			cbuf->cbuf_bcount = dbtob(un->un_segsize);
			*cbufp = cbuf;
			cbufp = &cbuf->cbuf_next;
		}
		return (leftover);
	}

	leftover = blkcnt - (un->un_segsize - segoff);
	if (blkcnt > (un->un_segsize - segoff))
		blkcnt -= leftover;
	else
		leftover = 0;

	if (blkcnt > (size_t)iosize) {
		leftover += (blkcnt - iosize);
		blkcnt = iosize;
	}

	/* calculate the line# and column# for the segment */
	cs->cs_flags &= ~MD_RCS_LINE;
	cs->cs_blkno = line * un->un_segsize + segoff;
	cs->cs_blkcnt = (uint_t)blkcnt;
	cs->cs_lastblk = cs->cs_blkno + cs->cs_blkcnt - 1;
	cs->cs_bcount = dbtob((uint_t)blkcnt);
	return (leftover);
}

/*
 * NAME:	raid_done
 * DESCRIPTION: RAID metadevice I/O done interrupt routine
 * PARAMETERS:	struct buf *bp - pointer to a buffer structure
 */
static void
raid_done(struct buf *bp)
{
	md_raidcs_t	*cs;
	int		flags, frags;

	sema_v(&bp->b_io);
	cs = (md_raidcs_t *)bp->b_chain;

	ASSERT(cs != NULL);

	mutex_enter(&cs->cs_mx);
	if (bp->b_flags & B_ERROR) {
		cs->cs_flags |= MD_RCS_ERROR;
		cs->cs_flags &= ~(MD_RCS_ISCALL);
	}

	flags = cs->cs_flags;
	frags = --cs->cs_frags;
	mutex_exit(&cs->cs_mx);
	if (frags != 0) {
		return;
	}

	if (flags & MD_RCS_ERROR) {
		if (cs->cs_error_call) {
			daemon_request(&md_done_daemon, cs->cs_error_call,
			    (daemon_queue_t *)cs, REQ_OLD);
		}
		return;
	}

	if (flags & MD_RCS_ISCALL) {
		cs->cs_flags &= ~(MD_RCS_ISCALL);
		(*(cs->cs_call))(cs);
		return;
	}
	daemon_request(&md_done_daemon, cs->cs_call,
	    (daemon_queue_t *)cs, REQ_OLD);
}
/*
 * the flag RIO_EXTRA is used when dealing with a column in the process
 * of being resynced. During the resync, writes may have to take place
 * on both the original component and a hotspare component.
 */
#define	RIO_DATA	0x00100		/* use data buffer & data column */
#define	RIO_PARITY	0x00200		/* use parity buffer & parity column */
#define	RIO_WRITE	0x00400		/* issue a write */
#define	RIO_READ	0x00800		/* issue a read */
#define	RIO_PWIO	0x01000		/* do the I/O to the prewrite entry */
#define	RIO_ALT		0x02000		/* do write to alternate device */
#define	RIO_EXTRA	0x04000		/* use extra buffer */

#define	RIO_COLMASK	0x000ff

#define	RIO_PREWRITE	RIO_WRITE | RIO_PWIO

/*
 * NAME:	raidio
 * DESCRIPTION: RAID metadevice write routine
 * PARAMETERS:	md_raidcs_t *cs - pointer to a child structure
 */
static void
raidio(md_raidcs_t *cs, int flags)
{
	buf_t		*bp;
	int		column;
	int		flag;
	void		*private;
	mr_unit_t	*un;
	int		iosize;
	diskaddr_t	pwstart;
	diskaddr_t	devstart;
	md_dev64_t	dev;

	un = cs->cs_un;

	ASSERT(IO_READER_HELD(un));
	ASSERT(UNIT_READER_HELD(un));

	if (flags & RIO_DATA) {
		if (flags & RIO_EXTRA)
			bp = &cs->cs_hbuf;
		else
			bp = &cs->cs_dbuf;
		bp->b_un.b_addr = cs->cs_dbuffer;
		column = cs->cs_dcolumn;
	} else {
		if (flags & RIO_EXTRA)
			bp = &cs->cs_hbuf;
		else
			bp = &cs->cs_pbuf;
		bp->b_un.b_addr = cs->cs_pbuffer;
		column = cs->cs_pcolumn;
	}
	if (flags & RIO_COLMASK)
		column = (flags & RIO_COLMASK) - 1;

	bp->b_bcount = cs->cs_bcount;
	bp->b_bufsize = cs->cs_bcount;
	iosize = un->un_iosize;

	/* check if the hotspared device will be used */
	if (flags & RIO_ALT && (flags & RIO_WRITE)) {
		pwstart = un->un_column[column].un_alt_pwstart;
		devstart = un->un_column[column].un_alt_devstart;
		dev = un->un_column[column].un_alt_dev;
	} else {
		pwstart = un->un_column[column].un_pwstart;
		devstart = un->un_column[column].un_devstart;
		dev = un->un_column[column].un_dev;
	}

	/* if not writing to log skip log header */
	if ((flags & RIO_PWIO) == 0) {
		bp->b_lblkno = devstart + cs->cs_blkno;
		bp->b_un.b_addr += DEV_BSIZE;
	} else {
		bp->b_bcount += DEV_BSIZE;
		bp->b_bufsize = bp->b_bcount;
		if (flags & RIO_DATA) {
			bp->b_lblkno = cs->cs_dpwslot * iosize + pwstart;
		} else { /* not DATA -> PARITY */
			bp->b_lblkno = cs->cs_ppwslot * iosize + pwstart;
		}
	}

	bp->b_flags &= ~(B_READ | B_WRITE | B_ERROR | nv_available);
	bp->b_flags |= B_BUSY;
	if (flags & RIO_READ) {
		bp->b_flags |= B_READ;
	} else {
		bp->b_flags |= B_WRITE;
		if ((nv_available && nv_parity && (flags & RIO_PARITY)) ||
		    (nv_available && nv_prewrite && (flags & RIO_PWIO)))
			bp->b_flags |= nv_available;
	}
	bp->b_iodone = (int (*)())raid_done;
	bp->b_edev = md_dev64_to_dev(dev);

	ASSERT((bp->b_edev != 0) && (bp->b_edev != NODEV));

	private = cs->cs_strategy_private;
	flag = cs->cs_strategy_flag;

	md_call_strategy(bp, flag, private);
}

/*
 * NAME:	genstandardparity
 * DESCRIPTION: This routine
 * PARAMETERS:	md_raidcs_t *cs - pointer to a child structure
 */
static void
genstandardparity(md_raidcs_t *cs)
{
	uint_t		*dbuf, *pbuf;
	size_t		wordcnt;
	uint_t		dsum = 0;
	uint_t		psum = 0;

	ASSERT((cs->cs_bcount & 0x3) == 0);

	wordcnt = cs->cs_bcount / sizeof (uint_t);

	dbuf = (uint_t *)(void *)(cs->cs_dbuffer + DEV_BSIZE);
	pbuf = (uint_t *)(void *)(cs->cs_pbuffer + DEV_BSIZE);

	/* Word aligned */
	if (((uintptr_t)cs->cs_addr & 0x3) == 0) {
		uint_t	*uwbuf = (uint_t *)(void *)(cs->cs_addr);
		uint_t	uval;

		while (wordcnt--) {
			uval = *uwbuf++;
			psum ^= (*pbuf = ((*pbuf ^ *dbuf) ^ uval));
			++pbuf;
			*dbuf = uval;
			dsum ^= uval;
			++dbuf;
		}
	} else {
		uchar_t	*ubbuf = (uchar_t *)(cs->cs_addr);
		union {
			uint_t	wb;
			uchar_t	bb[4];
		} cb;

		while (wordcnt--) {
			cb.bb[0] = *ubbuf++;
			cb.bb[1] = *ubbuf++;
			cb.bb[2] = *ubbuf++;
			cb.bb[3] = *ubbuf++;
			psum ^= (*pbuf = ((*pbuf ^ *dbuf) ^ cb.wb));
			++pbuf;
			*dbuf = cb.wb;
			dsum ^= cb.wb;
			++dbuf;
		}
	}

	RAID_FILLIN_RPW(cs->cs_dbuffer, cs->cs_un, dsum, cs->cs_pcolumn,
	    cs->cs_blkno, cs->cs_blkcnt, cs->cs_pwid,
	    2, cs->cs_dcolumn, RAID_PWMAGIC);

	RAID_FILLIN_RPW(cs->cs_pbuffer, cs->cs_un, psum, cs->cs_dcolumn,
	    cs->cs_blkno, cs->cs_blkcnt, cs->cs_pwid,
	    2, cs->cs_pcolumn, RAID_PWMAGIC);
}

static void
genlineparity(md_raidcs_t *cs)
{

	mr_unit_t	*un = cs->cs_un;
	md_raidcbuf_t	*cbuf;
	uint_t		*pbuf, *dbuf;
	uint_t		*uwbuf;
	uchar_t		*ubbuf;
	size_t		wordcnt;
	uint_t		psum = 0, dsum = 0;
	size_t		count = un->un_segsize * DEV_BSIZE;
	uint_t		col;
	buf_t		*bp;

	ASSERT((cs->cs_bcount & 0x3) == 0);

	pbuf = (uint_t *)(void *)(cs->cs_pbuffer + DEV_BSIZE);
	dbuf = (uint_t *)(void *)(cs->cs_dbuffer + DEV_BSIZE);
	uwbuf = (uint_t *)(void *)(cs->cs_addr);
	ubbuf = (uchar_t *)(void *)(cs->cs_addr);

	wordcnt = count / sizeof (uint_t);

	/* Word aligned */
	if (((uintptr_t)cs->cs_addr & 0x3) == 0) {
		uint_t	 uval;

		while (wordcnt--) {
			uval = *uwbuf++;
			*dbuf = uval;
			*pbuf = uval;
			dsum ^= uval;
			++pbuf;
			++dbuf;
		}
	} else {
		union {
			uint_t	wb;
			uchar_t	bb[4];
		} cb;

		while (wordcnt--) {
			cb.bb[0] = *ubbuf++;
			cb.bb[1] = *ubbuf++;
			cb.bb[2] = *ubbuf++;
			cb.bb[3] = *ubbuf++;
			*dbuf = cb.wb;
			*pbuf = cb.wb;
			dsum ^= cb.wb;
			++pbuf;
			++dbuf;
		}
	}

	RAID_FILLIN_RPW(cs->cs_dbuffer, un, dsum, cs->cs_pcolumn,
	    cs->cs_blkno, cs->cs_blkcnt, cs->cs_pwid,
	    un->un_totalcolumncnt, cs->cs_dcolumn, RAID_PWMAGIC);

	raidio(cs, RIO_PREWRITE | RIO_DATA);

	for (cbuf = cs->cs_buflist; cbuf; cbuf = cbuf->cbuf_next) {

		dsum = 0;
		pbuf = (uint_t *)(void *)(cs->cs_pbuffer + DEV_BSIZE);
		dbuf = (uint_t *)(void *)(cbuf->cbuf_buffer + DEV_BSIZE);

		wordcnt = count / sizeof (uint_t);

		col = cbuf->cbuf_column;

		/* Word aligned */
		if (((uintptr_t)cs->cs_addr & 0x3) == 0) {
			uint_t	uval;

			/*
			 * Only calculate psum when working on the last
			 * data buffer.
			 */
			if (cbuf->cbuf_next == NULL) {
				psum = 0;
				while (wordcnt--) {
					uval = *uwbuf++;
					*dbuf = uval;
					psum ^= (*pbuf ^= uval);
					dsum ^= uval;
					++dbuf;
					++pbuf;
				}
			} else {
				while (wordcnt--) {
					uval = *uwbuf++;
					*dbuf = uval;
					*pbuf ^= uval;
					dsum ^= uval;
					++dbuf;
					++pbuf;
				}
			}
		} else {
			union {
				uint_t	wb;
				uchar_t	bb[4];
			} cb;

			/*
			 * Only calculate psum when working on the last
			 * data buffer.
			 */
			if (cbuf->cbuf_next == NULL) {
				psum = 0;
				while (wordcnt--) {
					cb.bb[0] = *ubbuf++;
					cb.bb[1] = *ubbuf++;
					cb.bb[2] = *ubbuf++;
					cb.bb[3] = *ubbuf++;
					*dbuf = cb.wb;
					psum ^= (*pbuf ^= cb.wb);
					dsum ^= cb.wb;
					++dbuf;
					++pbuf;
				}
			} else {
				while (wordcnt--) {
					cb.bb[0] = *ubbuf++;
					cb.bb[1] = *ubbuf++;
					cb.bb[2] = *ubbuf++;
					cb.bb[3] = *ubbuf++;
					*dbuf = cb.wb;
					*pbuf ^= cb.wb;
					dsum ^= cb.wb;
					++dbuf;
					++pbuf;
				}
			}
		}
		RAID_FILLIN_RPW(cbuf->cbuf_buffer, un, dsum, cs->cs_pcolumn,
		    cs->cs_blkno, cs->cs_blkcnt, cs->cs_pwid,
		    un->un_totalcolumncnt, col, RAID_PWMAGIC);

		/*
		 * fill in buffer for write to prewrite area
		 */
		bp = &cbuf->cbuf_bp;
		bp->b_un.b_addr = cbuf->cbuf_buffer;
		bp->b_bcount = cbuf->cbuf_bcount + DEV_BSIZE;
		bp->b_bufsize = bp->b_bcount;
		bp->b_lblkno = (cbuf->cbuf_pwslot * un->un_iosize) +
		    un->un_column[col].un_pwstart;
		bp->b_flags = B_WRITE | B_BUSY;
		if (nv_available && nv_prewrite)
			bp->b_flags |= nv_available;
		bp->b_iodone = (int (*)())raid_done;
		bp->b_edev = md_dev64_to_dev(un->un_column[col].un_dev);
		bp->b_chain = (struct buf *)cs;
		md_call_strategy(bp,
		    cs->cs_strategy_flag, cs->cs_strategy_private);
	}

	RAID_FILLIN_RPW(cs->cs_pbuffer, un, psum, cs->cs_dcolumn,
	    cs->cs_blkno, cs->cs_blkcnt, cs->cs_pwid,
	    un->un_totalcolumncnt, cs->cs_pcolumn, RAID_PWMAGIC);

	raidio(cs, RIO_PREWRITE | RIO_PARITY);
}

/*
 * NAME:	raid_readregenloop
 * DESCRIPTION: RAID metadevice write routine
 * PARAMETERS:	md_raidcs_t *cs - pointer to a child structure
 */
static void
raid_readregenloop(md_raidcs_t *cs)
{
	mr_unit_t	*un;
	md_raidps_t	*ps;
	uint_t		*dbuf;
	uint_t		*pbuf;
	size_t		wordcnt;

	un = cs->cs_un;

	/*
	 * XOR the parity with data bytes, must skip the
	 * pre-write entry header in all data/parity buffers
	 */
	wordcnt = cs->cs_bcount / sizeof (uint_t);
	dbuf = (uint_t *)(void *)(cs->cs_dbuffer + DEV_BSIZE);
	pbuf = (uint_t *)(void *)(cs->cs_pbuffer + DEV_BSIZE);
	while (wordcnt--)
		*dbuf++ ^= *pbuf++;

	/* bump up the loop count */
	cs->cs_loop++;

	/* skip the errored component */
	if (cs->cs_loop == cs->cs_dcolumn)
		cs->cs_loop++;

	if (cs->cs_loop != un->un_totalcolumncnt) {
		cs->cs_frags = 1;
		raidio(cs, RIO_PARITY | RIO_READ | (cs->cs_loop + 1));
		return;
	}
	/* reaching the end sof loop */
	ps = cs->cs_ps;
	bcopy(cs->cs_dbuffer + DEV_BSIZE, cs->cs_addr, cs->cs_bcount);
	raid_free_child(cs, 1);

	/* decrement readfrags */
	raid_free_parent(ps, RFP_DECR_READFRAGS | RFP_RLS_LOCK);
}

/*
 * NAME:	raid_read_io
 * DESCRIPTION: RAID metadevice read I/O routine
 * PARAMETERS:	mr_unit_t *un - pointer to a unit structure
 *		md_raidcs_t *cs - pointer to a child structure
 */
static void
raid_read_io(mr_unit_t *un, md_raidcs_t *cs)
{
	int	flag;
	void	*private;
	buf_t	*bp;
	buf_t	*pb = cs->cs_ps->ps_bp;
	mr_column_t	*column;

	flag = cs->cs_strategy_flag;
	private = cs->cs_strategy_private;
	column = &un->un_column[cs->cs_dcolumn];

	/*
	 * The component to be read is good, simply set up bp structure
	 * and call low level md routine doing the read.
	 */

	if (COLUMN_ISOKAY(un, cs->cs_dcolumn) ||
	    (COLUMN_ISLASTERR(un, cs->cs_dcolumn) &&
	    (cs->cs_flags & MD_RCS_RECOVERY) == 0)) {
		dev_t ddi_dev; /* needed for bioclone, so not md_dev64_t */
		ddi_dev = md_dev64_to_dev(column->un_dev);

		bp = &cs->cs_dbuf;
		bp = md_bioclone(pb, cs->cs_offset, cs->cs_bcount, ddi_dev,
		    column->un_devstart + cs->cs_blkno,
		    (int (*)())raid_done, bp, KM_NOSLEEP);

		bp->b_chain = (buf_t *)cs;

		cs->cs_frags = 1;
		cs->cs_error_call = raid_read_error;
		cs->cs_retry_call = raid_read_retry;
		cs->cs_flags |= MD_RCS_ISCALL;
		cs->cs_stage = RAID_READ_DONE;
		cs->cs_call = raid_stage;

		ASSERT(bp->b_edev != 0);

		md_call_strategy(bp, flag, private);
		return;
	}

	/*
	 * The component to be read is bad, have to go through
	 * raid specific method to read data from other members.
	 */
	cs->cs_loop = 0;
	/*
	 * NOTE: always get dbuffer before pbuffer
	 *	 and get both buffers before pwslot
	 *	 otherwise a deadlock could be introduced.
	 */
	raid_mapin_buf(cs);
	getdbuffer(cs);
	getpbuffer(cs);
	if (cs->cs_loop == cs->cs_dcolumn)
		cs->cs_loop++;

	/* zero out data buffer for use as a data sink */
	bzero(cs->cs_dbuffer + DEV_BSIZE, cs->cs_bcount);
	cs->cs_stage = RAID_NONE;
	cs->cs_call = raid_readregenloop;
	cs->cs_error_call = raid_read_error;
	cs->cs_retry_call = raid_read_no_retry;
	cs->cs_frags = 1;

	/* use parity buffer to read other columns */
	raidio(cs, RIO_PARITY | RIO_READ | (cs->cs_loop + 1));
}

/*
 * NAME:	raid_read
 * DESCRIPTION: RAID metadevice write routine
 * PARAMETERS:	mr_unit_t *un - pointer to a unit structure
 *		md_raidcs_t *cs - pointer to a child structure
 */
static int
raid_read(mr_unit_t *un, md_raidcs_t *cs)
{
	int		error = 0;
	md_raidps_t	*ps;
	mdi_unit_t	*ui;
	minor_t		mnum;

	ASSERT(IO_READER_HELD(un));
	ps = cs->cs_ps;
	ui = ps->ps_ui;
	raid_line_reader_lock(cs, 0);
	un = (mr_unit_t *)md_unit_readerlock(ui);
	ASSERT(UNIT_STATE(un) != RUS_INIT);
	mnum = MD_SID(un);
	cs->cs_un = un;

	/* make sure the read doesn't go beyond the end of the column */
	if (cs->cs_blkno + cs->cs_blkcnt >
	    un->un_segsize * un->un_segsincolumn) {
		error = ENXIO;
	}
	if (error)
		goto rerror;

	if (un->un_state & RUS_REGEN) {
		raid_regen_parity(cs);
		un = MD_UNIT(mnum);
		cs->cs_un = un;
	}

	raid_read_io(un, cs);
	return (0);

rerror:
	raid_error_parent(ps, error);
	raid_free_child(cs, 1);
	/* decrement readfrags */
	raid_free_parent(ps, RFP_DECR_READFRAGS | RFP_RLS_LOCK);
	return (0);
}

/*
 * NAME:	raid_write_err_retry
 * DESCRIPTION: RAID metadevice write retry routine
 *		write was for parity or data only;
 *		complete write with error, no recovery possible
 * PARAMETERS:	mr_unit_t *un - pointer to a unit structure
 *		md_raidcs_t *cs - pointer to a child structure
 */
/*ARGSUSED*/
static void
raid_write_err_retry(mr_unit_t *un, md_raidcs_t *cs)
{
	md_raidps_t	*ps = cs->cs_ps;
	int		flags = RFP_DECR_FRAGS | RFP_RLS_LOCK;

	/* decrement pwfrags if needed, and frags */
	if (!(cs->cs_flags & MD_RCS_PWDONE))
		flags |= RFP_DECR_PWFRAGS;
	raid_error_parent(ps, EIO);
	raid_free_child(cs, 1);
	raid_free_parent(ps, flags);
}

/*
 * NAME:	raid_write_err_retry
 * DESCRIPTION: RAID metadevice write retry routine
 *		 write is too far along to retry and parent
 *		 has already been signaled with iodone.
 * PARAMETERS:	mr_unit_t *un - pointer to a unit structure
 *		md_raidcs_t *cs - pointer to a child structure
 */
/*ARGSUSED*/
static void
raid_write_no_retry(mr_unit_t *un, md_raidcs_t *cs)
{
	md_raidps_t	*ps = cs->cs_ps;
	int		flags = RFP_DECR_FRAGS | RFP_RLS_LOCK;

	/* decrement pwfrags if needed, and frags */
	if (!(cs->cs_flags & MD_RCS_PWDONE))
		flags |= RFP_DECR_PWFRAGS;
	raid_free_child(cs, 1);
	raid_free_parent(ps, flags);
}

/*
 * NAME:	raid_write_retry
 * DESCRIPTION: RAID metadevice write retry routine
 * PARAMETERS:	mr_unit_t *un - pointer to a unit structure
 *		md_raidcs_t *cs - pointer to a child structure
 */
static void
raid_write_retry(mr_unit_t *un, md_raidcs_t *cs)
{
	md_raidps_t	*ps;

	ps = cs->cs_ps;

	/* re-initialize the buf_t structure for raid_write() */
	cs->cs_dbuf.b_chain = (struct buf *)cs;
	cs->cs_dbuf.b_back = &cs->cs_dbuf;
	cs->cs_dbuf.b_forw = &cs->cs_dbuf;
	cs->cs_dbuf.b_flags = B_BUSY;	/* initialize flags */
	cs->cs_dbuf.b_error = 0;	/* initialize error */
	cs->cs_dbuf.b_offset = -1;
	/* Initialize semaphores */
	sema_init(&cs->cs_dbuf.b_io, 0, NULL,
	    SEMA_DEFAULT, NULL);
	sema_init(&cs->cs_dbuf.b_sem, 0, NULL,
	    SEMA_DEFAULT, NULL);

	cs->cs_pbuf.b_chain = (struct buf *)cs;
	cs->cs_pbuf.b_back = &cs->cs_pbuf;
	cs->cs_pbuf.b_forw = &cs->cs_pbuf;
	cs->cs_pbuf.b_flags = B_BUSY;	/* initialize flags */
	cs->cs_pbuf.b_error = 0;	/* initialize error */
	cs->cs_pbuf.b_offset = -1;
	sema_init(&cs->cs_pbuf.b_io, 0, NULL,
	    SEMA_DEFAULT, NULL);
	sema_init(&cs->cs_pbuf.b_sem, 0, NULL,
	    SEMA_DEFAULT, NULL);

	cs->cs_hbuf.b_chain = (struct buf *)cs;
	cs->cs_hbuf.b_back = &cs->cs_hbuf;
	cs->cs_hbuf.b_forw = &cs->cs_hbuf;
	cs->cs_hbuf.b_flags = B_BUSY;	/* initialize flags */
	cs->cs_hbuf.b_error = 0;	/* initialize error */
	cs->cs_hbuf.b_offset = -1;
	sema_init(&cs->cs_hbuf.b_io, 0, NULL,
	    SEMA_DEFAULT, NULL);
	sema_init(&cs->cs_hbuf.b_sem, 0, NULL,
	    SEMA_DEFAULT, NULL);

	cs->cs_flags &= ~(MD_RCS_ERROR);
	/*
	 * If we have already done'ed the i/o but have done prewrite
	 * on this child, then reset PWDONE flag and bump pwfrags before
	 * restarting i/o.
	 * If pwfrags is zero, we have already 'iodone'd the i/o so
	 * leave things alone.  We don't want to re-'done' it.
	 */
	mutex_enter(&ps->ps_mx);
	if (cs->cs_flags & MD_RCS_PWDONE) {
		cs->cs_flags &= ~MD_RCS_PWDONE;
		ps->ps_pwfrags++;
	}
	mutex_exit(&ps->ps_mx);
	raid_write_io(un, cs);
}

/*
 * NAME:	raid_wrerr
 * DESCRIPTION: RAID metadevice write routine
 * PARAMETERS:	md_raidcs_t *cs - pointer to a child structure
 * LOCKS:	must obtain unit writer lock while calling raid_error_state
 *		since a unit or column state transition may take place.
 *		must obtain unit reader lock to retry I/O.
 */
static void
raid_wrerr(md_raidcs_t *cs)
{
	md_raidps_t	*ps;
	mdi_unit_t	*ui;
	mr_unit_t	*un;
	md_raidcbuf_t	*cbuf;

	ps = cs->cs_ps;
	ui = ps->ps_ui;

	un = (mr_unit_t *)md_unit_writerlock(ui);
	ASSERT(un != 0);

	if (cs->cs_dbuf.b_flags & B_ERROR)
		(void) raid_error_state(un, &cs->cs_dbuf);
	if (cs->cs_pbuf.b_flags & B_ERROR)
		(void) raid_error_state(un, &cs->cs_pbuf);
	if (cs->cs_hbuf.b_flags & B_ERROR)
		(void) raid_error_state(un, &cs->cs_hbuf);
	for (cbuf = cs->cs_buflist; cbuf; cbuf = cbuf->cbuf_next)
		if (cbuf->cbuf_bp.b_flags & B_ERROR)
			(void) raid_error_state(un, &cbuf->cbuf_bp);

	md_unit_writerexit(ui);

	ps->ps_flags |= MD_RPS_HSREQ;

	un = (mr_unit_t *)md_unit_readerlock(ui);

	/* now attempt the appropriate retry routine */
	(*(cs->cs_retry_call))(un, cs);
}
/*
 * NAMES:	raid_write_error
 * DESCRIPTION: I/O error handling routine for a RAID metadevice write
 * PARAMETERS:	md_raidcs_t *cs - pointer to child structure
 */
/*ARGSUSED*/
static void
raid_write_error(md_raidcs_t *cs)
{
	md_raidps_t	*ps;
	mdi_unit_t	*ui;
	mr_unit_t	*un;
	md_raidcbuf_t	*cbuf;
	set_t		setno;

	ps = cs->cs_ps;
	ui = ps->ps_ui;
	un = cs->cs_un;

	setno = MD_UN2SET(un);

	/*
	 * locate each buf that is in error on this io and then
	 * output an error message
	 */
	if ((cs->cs_dbuf.b_flags & B_ERROR) &&
	    (COLUMN_STATE(un, cs->cs_dcolumn) != RCS_ERRED) &&
	    (COLUMN_STATE(un, cs->cs_dcolumn) != RCS_LAST_ERRED))
		cmn_err(CE_WARN, "md %s: write error on %s",
		    md_shortname(MD_SID(un)),
		    md_devname(setno, md_expldev(cs->cs_dbuf.b_edev), NULL, 0));

	if ((cs->cs_pbuf.b_flags & B_ERROR) &&
	    (COLUMN_STATE(un, cs->cs_pcolumn) != RCS_ERRED) &&
	    (COLUMN_STATE(un, cs->cs_pcolumn) != RCS_LAST_ERRED))
		cmn_err(CE_WARN, "md %s: write error on %s",
		    md_shortname(MD_SID(un)),
		    md_devname(setno, md_expldev(cs->cs_pbuf.b_edev), NULL, 0));

	for (cbuf = cs->cs_buflist; cbuf; cbuf = cbuf->cbuf_next)
		if ((cbuf->cbuf_bp.b_flags & B_ERROR) &&
		    (COLUMN_STATE(un, cbuf->cbuf_column) != RCS_ERRED) &&
		    (COLUMN_STATE(un, cbuf->cbuf_column) != RCS_LAST_ERRED))
			cmn_err(CE_WARN, "md %s: write error on %s",
			    md_shortname(MD_SID(un)),
			    md_devname(setno, md_expldev(cbuf->cbuf_bp.b_edev),
			    NULL, 0));

	md_unit_readerexit(ui);

	ASSERT(cs->cs_frags == 0);

	/* now schedule processing for possible state change */
	daemon_request(&md_mstr_daemon, raid_wrerr,
	    (daemon_queue_t *)cs, REQ_OLD);

}

/*
 * NAME:	raid_write_ponly
 * DESCRIPTION: RAID metadevice write routine
 *		in the case where only the parity column can be written
 * PARAMETERS:	md_raidcs_t *cs - pointer to a child structure
 */
static void
raid_write_ponly(md_raidcs_t *cs)
{
	md_raidps_t	*ps;
	mr_unit_t	*un = cs->cs_un;

	ps = cs->cs_ps;
	/* decrement pwfrags if needed, but not frags */
	ASSERT(!(cs->cs_flags & MD_RCS_PWDONE));
	raid_free_parent(ps, RFP_DECR_PWFRAGS);
	cs->cs_flags |= MD_RCS_PWDONE;
	cs->cs_frags = 1;
	cs->cs_stage = RAID_WRITE_PONLY_DONE;
	cs->cs_call = raid_stage;
	cs->cs_error_call = raid_write_error;
	cs->cs_retry_call = raid_write_no_retry;
	if (WRITE_ALT(un, cs->cs_pcolumn)) {
		cs->cs_frags++;
		raidio(cs, RIO_ALT | RIO_EXTRA | RIO_PARITY | RIO_WRITE);
	}
	raidio(cs, RIO_PARITY | RIO_WRITE);
}

/*
 * NAME:	raid_write_ploop
 * DESCRIPTION: RAID metadevice write routine, constructs parity from
 *		data in other columns.
 * PARAMETERS:	md_raidcs_t *cs - pointer to a child structure
 */
static void
raid_write_ploop(md_raidcs_t *cs)
{
	mr_unit_t *un = cs->cs_un;
	uint_t *dbuf;
	uint_t *pbuf;
	size_t wordcnt;
	uint_t psum = 0;

	wordcnt = cs->cs_bcount / sizeof (uint_t);
	dbuf = (uint_t *)(void *)(cs->cs_dbuffer + DEV_BSIZE);
	pbuf = (uint_t *)(void *)(cs->cs_pbuffer + DEV_BSIZE);
	while (wordcnt--)
		*pbuf++ ^= *dbuf++;
	cs->cs_loop++;

	/*
	 * build parity from scratch using new data,
	 * skip reading the data and parity columns.
	 */
	while (cs->cs_loop == cs->cs_dcolumn || cs->cs_loop == cs->cs_pcolumn)
		cs->cs_loop++;

	if (cs->cs_loop != un->un_totalcolumncnt) {
		cs->cs_frags = 1;
		raidio(cs, RIO_DATA | RIO_READ | (cs->cs_loop + 1));
		return;
	}

	/* construct checksum for parity buffer */
	wordcnt = cs->cs_bcount / sizeof (uint_t);
	pbuf = (uint_t *)(void *)(cs->cs_pbuffer + DEV_BSIZE);
	while (wordcnt--) {
		psum ^= *pbuf;
		pbuf++;
	}
	RAID_FILLIN_RPW(cs->cs_pbuffer, un, psum, -1,
	    cs->cs_blkno, cs->cs_blkcnt, cs->cs_pwid,
	    1, cs->cs_pcolumn, RAID_PWMAGIC);

	cs->cs_stage = RAID_NONE;
	cs->cs_call = raid_write_ponly;
	cs->cs_error_call = raid_write_error;
	cs->cs_retry_call = raid_write_err_retry;
	cs->cs_frags = 1;
	if (WRITE_ALT(un, cs->cs_pcolumn)) {
		cs->cs_frags++;
		raidio(cs, RIO_ALT | RIO_EXTRA | RIO_PARITY | RIO_PREWRITE);
	}
	raidio(cs, RIO_PARITY | RIO_PREWRITE);
}

/*
 * NAME:	raid_write_donly
 * DESCRIPTION: RAID metadevice write routine
 *		Completed writing data to prewrite entry
 *		in the case where only the data column can be written
 * PARAMETERS:	md_raidcs_t *cs - pointer to a child structure
 */
static void
raid_write_donly(md_raidcs_t *cs)
{
	md_raidps_t	*ps;
	mr_unit_t	*un = cs->cs_un;

	ps = cs->cs_ps;
	/* WARNING: don't release unit reader lock here... */
	/* decrement pwfrags if needed, but not frags */
	ASSERT(!(cs->cs_flags & MD_RCS_PWDONE));
	raid_free_parent(ps, RFP_DECR_PWFRAGS);
	cs->cs_flags |= MD_RCS_PWDONE;
	cs->cs_frags = 1;
	cs->cs_stage = RAID_WRITE_DONLY_DONE;
	cs->cs_call = raid_stage;
	cs->cs_error_call = raid_write_error;
	cs->cs_retry_call = raid_write_err_retry;
	if (WRITE_ALT(un, cs->cs_dcolumn)) {
		cs->cs_frags++;
		raidio(cs, RIO_ALT | RIO_EXTRA | RIO_DATA | RIO_WRITE);
	}
	raidio(cs, RIO_DATA | RIO_WRITE);
}

/*
 * NAME:	raid_write_got_old
 * DESCRIPTION: RAID metadevice write routine
 *		completed read of old data and old parity
 * PARAMETERS:	md_raidcs_t *cs - pointer to a child structure
 */
static void
raid_write_got_old(md_raidcs_t *cs)
{
	mr_unit_t *un = cs->cs_un;

	ASSERT(IO_READER_HELD(cs->cs_un));
	ASSERT(UNIT_READER_HELD(cs->cs_un));

	raid_mapin_buf(cs);
	genstandardparity(cs);
	cs->cs_frags = 2;
	cs->cs_call = raid_stage;
	cs->cs_stage = RAID_PREWRITE_DONE;
	cs->cs_error_call = raid_write_error;
	cs->cs_retry_call = raid_write_retry;

	if (WRITE_ALT(un, cs->cs_dcolumn)) {
		cs->cs_frags++;
		raidio(cs, RIO_ALT | RIO_EXTRA | RIO_DATA | RIO_PREWRITE);
	}

	if (WRITE_ALT(un, cs->cs_pcolumn)) {
		cs->cs_frags++;
		raidio(cs, RIO_ALT | RIO_EXTRA | RIO_PARITY | RIO_PREWRITE);
	}
	ASSERT(cs->cs_frags < 4);
	raidio(cs,  RIO_DATA | RIO_PREWRITE);
	raidio(cs,  RIO_PARITY | RIO_PREWRITE);
}

/*
 * NAME:	raid_write_io
 * DESCRIPTION: RAID metadevice write I/O routine
 * PARAMETERS:	mr_unit_t *un -  pointer to a unit structure
 *		md_raidcs_t *cs - pointer to a child structure
 */

/*ARGSUSED*/
static void
raid_write_io(mr_unit_t *un, md_raidcs_t *cs)
{
	md_raidps_t	*ps = cs->cs_ps;
	uint_t		*dbuf;
	uint_t		*ubuf;
	size_t		wordcnt;
	uint_t		dsum = 0;
	int		pcheck;
	int		dcheck;

	ASSERT((un->un_column[cs->cs_pcolumn].un_devstate &
	    RCS_INIT) == 0);
	ASSERT((un->un_column[cs->cs_dcolumn].un_devstate &
	    RCS_INIT) == 0);
	ASSERT(IO_READER_HELD(un));
	ASSERT(UNIT_READER_HELD(un));
	ASSERT(cs->cs_flags & MD_RCS_HAVE_PW_SLOTS);
	if (cs->cs_flags & MD_RCS_LINE) {

		mr_unit_t	*un = cs->cs_un;

		ASSERT(un->un_origcolumncnt == un->un_totalcolumncnt);
		raid_mapin_buf(cs);
		cs->cs_frags = un->un_origcolumncnt;
		cs->cs_call = raid_stage;
		cs->cs_error_call = raid_write_error;
		cs->cs_retry_call = raid_write_no_retry;
		cs->cs_stage = RAID_LINE_PWDONE;
		genlineparity(cs);
		return;
	}

	pcheck = erred_check_line(un, cs, &un->un_column[cs->cs_pcolumn]);
	dcheck = erred_check_line(un, cs, &un->un_column[cs->cs_dcolumn]);
	cs->cs_resync_check = pcheck << RCL_PARITY_OFFSET || dcheck;

	if (pcheck == RCL_ERRED && dcheck == RCL_ERRED) {
		int err = EIO;

		if ((un->un_column[cs->cs_pcolumn].un_devstate ==
		    RCS_LAST_ERRED) ||
		    (un->un_column[cs->cs_dcolumn].un_devstate ==
		    RCS_LAST_ERRED))
			err = ENXIO;
		raid_error_parent(ps, err);
		ASSERT(!(cs->cs_flags & MD_RCS_PWDONE));
		raid_free_child(cs, 1);
		raid_free_parent(ps,  RFP_DECR_FRAGS
		    | RFP_RLS_LOCK | RFP_DECR_PWFRAGS);
		return;
	}

	if (pcheck & RCL_ERRED) {
		/*
		 * handle case of only having data drive
		 */
		raid_mapin_buf(cs);
		wordcnt = cs->cs_bcount / sizeof (uint_t);

		dbuf = (uint_t *)(void *)(cs->cs_dbuffer + DEV_BSIZE);
		ubuf = (uint_t *)(void *)(cs->cs_addr);

		while (wordcnt--) {
			*dbuf = *ubuf;
			dsum ^= *ubuf;
			dbuf++;
			ubuf++;
		}
		RAID_FILLIN_RPW(cs->cs_dbuffer, un, dsum, -1,
		    cs->cs_blkno, cs->cs_blkcnt, cs->cs_pwid,
		    1, cs->cs_dcolumn, RAID_PWMAGIC);
		cs->cs_frags = 1;
		cs->cs_stage = RAID_NONE;
		cs->cs_call = raid_write_donly;
		cs->cs_error_call = raid_write_error;
		cs->cs_retry_call = raid_write_err_retry;
		if (WRITE_ALT(un, cs->cs_dcolumn)) {
			cs->cs_frags++;
			raidio(cs, RIO_DATA | RIO_ALT | RIO_EXTRA |
			    RIO_PREWRITE);
		}
		raidio(cs, RIO_DATA | RIO_PREWRITE);
		return;
	}

	if (dcheck & RCL_ERRED) {
		/*
		 * handle case of only having parity drive
		 * build parity from scratch using new data,
		 * skip reading the data and parity columns.
		 */
		raid_mapin_buf(cs);
		cs->cs_loop = 0;
		while (cs->cs_loop == cs->cs_dcolumn ||
		    cs->cs_loop == cs->cs_pcolumn)
			cs->cs_loop++;

		/* copy new data in to begin building parity */
		bcopy(cs->cs_addr, cs->cs_pbuffer + DEV_BSIZE, cs->cs_bcount);
		cs->cs_stage = RAID_NONE;
		cs->cs_call = raid_write_ploop;
		cs->cs_error_call = raid_write_error;
		cs->cs_retry_call = raid_write_err_retry;
		cs->cs_frags = 1;
		raidio(cs, RIO_DATA | RIO_READ | (cs->cs_loop + 1));
		return;
	}
	/*
	 * handle normal cases
	 * read old data and old parity
	 */
	cs->cs_frags = 2;
	cs->cs_stage = RAID_NONE;
	cs->cs_call = raid_write_got_old;
	cs->cs_error_call = raid_write_error;
	cs->cs_retry_call = raid_write_retry;
	ASSERT(ps->ps_magic == RAID_PSMAGIC);
	raidio(cs, RIO_DATA | RIO_READ);
	raidio(cs, RIO_PARITY | RIO_READ);
}

static void
raid_enqueue(md_raidcs_t *cs)
{
	mdi_unit_t	*ui = cs->cs_ps->ps_ui;
	kmutex_t	*io_list_mutex = &ui->ui_io_lock->io_list_mutex;
	md_raidcs_t	*cs1;

	mutex_enter(io_list_mutex);
	ASSERT(! (cs->cs_flags & MD_RCS_LLOCKD));
	if (ui->ui_io_lock->io_list_front == NULL) {
		ui->ui_io_lock->io_list_front = cs;
		ui->ui_io_lock->io_list_back = cs;
	} else {
		cs1 = ui->ui_io_lock->io_list_back;
		cs1->cs_linlck_next = cs;
		ui->ui_io_lock->io_list_back = cs;
	}
	STAT_INC(raid_write_waits);
	STAT_MAX(raid_max_write_q_length, raid_write_queue_length);
	cs->cs_linlck_next = NULL;
	mutex_exit(io_list_mutex);
}

/*
 * NAME:	raid_write
 * DESCRIPTION: RAID metadevice write routine
 * PARAMETERS:	mr_unit_t *un -  pointer to a unit structure
 *		md_raidcs_t *cs - pointer to a child structure
 */

/*ARGSUSED*/
static int
raid_write(mr_unit_t *un, md_raidcs_t *cs)
{
	int		error = 0;
	md_raidps_t	*ps;
	mdi_unit_t	*ui;
	minor_t		mnum;

	ASSERT(IO_READER_HELD(un));
	ps = cs->cs_ps;
	ui = ps->ps_ui;

	ASSERT(UNIT_STATE(un) != RUS_INIT);
	if (UNIT_STATE(un) == RUS_LAST_ERRED)
		error = EIO;

	/* make sure the write doesn't go beyond the column */
	if (cs->cs_blkno + cs->cs_blkcnt > un->un_segsize * un->un_segsincolumn)
		error = ENXIO;
	if (error)
		goto werror;

	getresources(cs);

	/*
	 * this is an advisory loop that keeps the waiting lists short
	 * to reduce cpu time.  Since there is a race introduced by not
	 * aquiring all the correct mutexes, use a cv_timedwait to be
	 * sure the write always will wake up and start.
	 */
	while (raid_check_pw(cs)) {
		mutex_enter(&un->un_mx);
		un->un_rflags |= MD_RFLAG_NEEDPW;
		STAT_INC(raid_prewrite_waits);
		(void) cv_reltimedwait(&un->un_cv, &un->un_mx, md_wr_wait,
		    TR_CLOCK_TICK);
		un->un_rflags &= ~MD_RFLAG_NEEDPW;
		mutex_exit(&un->un_mx);
	}

	if (raid_line_writer_lock(cs, 1))
		return (0);

	un = (mr_unit_t *)md_unit_readerlock(ui);
	cs->cs_un = un;
	mnum = MD_SID(un);

	if (un->un_state & RUS_REGEN) {
		raid_regen_parity(cs);
		un = MD_UNIT(mnum);
		cs->cs_un = un;
	}

	raid_write_io(un, cs);
	return (0);
werror:
	/* aquire unit reader lock sinc raid_free_child always drops it */
	raid_error_parent(ps, error);
	raid_free_child(cs, 0);
	/* decrement both pwfrags and frags */
	raid_free_parent(ps, RFP_DECR_PWFRAGS | RFP_DECR_FRAGS | RFP_RLS_LOCK);
	return (0);
}


/*
 * NAMES:	raid_stage
 * DESCRIPTION: post-processing routine for a RAID metadevice
 * PARAMETERS:	md_raidcs_t *cs - pointer to child structure
 */
static void
raid_stage(md_raidcs_t *cs)
{
	md_raidps_t	*ps = cs->cs_ps;
	mr_unit_t	*un = cs->cs_un;
	md_raidcbuf_t	*cbuf;
	buf_t		*bp;
	void		*private;
	int		flag;

	switch (cs->cs_stage) {
	case RAID_READ_DONE:
		raid_free_child(cs, 1);
		/* decrement readfrags */
		raid_free_parent(ps, RFP_DECR_READFRAGS | RFP_RLS_LOCK);
		return;

	case RAID_WRITE_DONE:
	case RAID_WRITE_PONLY_DONE:
	case RAID_WRITE_DONLY_DONE:
		/*
		 *  Completed writing real parity and/or data.
		 */
		ASSERT(cs->cs_flags & MD_RCS_PWDONE);
		raid_free_child(cs, 1);
		/* decrement frags but not pwfrags */
		raid_free_parent(ps, RFP_DECR_FRAGS | RFP_RLS_LOCK);
		return;

	case RAID_PREWRITE_DONE:
		/*
		 * completed writing data and parity to prewrite entries
		 */
		/*
		 * WARNING: don't release unit reader lock here..
		 * decrement pwfrags but not frags
		 */
		raid_free_parent(ps, RFP_DECR_PWFRAGS);
		cs->cs_flags |= MD_RCS_PWDONE;
		cs->cs_frags = 2;
		cs->cs_stage = RAID_WRITE_DONE;
		cs->cs_call = raid_stage;
		cs->cs_error_call = raid_write_error;
		cs->cs_retry_call = raid_write_no_retry;
		if (WRITE_ALT(un, cs->cs_pcolumn)) {
			cs->cs_frags++;
			raidio(cs, RIO_ALT | RIO_EXTRA | RIO_PARITY |
			    RIO_WRITE);
		}
		if (WRITE_ALT(un, cs->cs_dcolumn)) {
			cs->cs_frags++;
			raidio(cs, RIO_ALT | RIO_EXTRA | RIO_DATA | RIO_WRITE);
		}
		ASSERT(cs->cs_frags < 4);
		raidio(cs, RIO_DATA | RIO_WRITE);
		raidio(cs, RIO_PARITY | RIO_WRITE);
		if (cs->cs_pw_inval_list) {
			raid_free_pwinvalidate(cs);
		}
		return;

	case RAID_LINE_PWDONE:
		ASSERT(cs->cs_frags == 0);
		raid_free_parent(ps, RFP_DECR_PWFRAGS);
		cs->cs_flags |= MD_RCS_PWDONE;
		cs->cs_frags = un->un_origcolumncnt;
		cs->cs_call = raid_stage;
		cs->cs_error_call = raid_write_error;
		cs->cs_retry_call = raid_write_no_retry;
		cs->cs_stage = RAID_WRITE_DONE;
		for (cbuf = cs->cs_buflist; cbuf; cbuf = cbuf->cbuf_next) {
			/*
			 * fill in buffer for write to prewrite area
			 */
			bp = &cbuf->cbuf_bp;
			bp->b_back = bp;
			bp->b_forw = bp;
			bp->b_un.b_addr = cbuf->cbuf_buffer + DEV_BSIZE;
			bp->b_bcount = cbuf->cbuf_bcount;
			bp->b_bufsize = cbuf->cbuf_bcount;
			bp->b_lblkno =
			    un->un_column[cbuf->cbuf_column].un_devstart +
			    cs->cs_blkno;
			bp->b_flags &= ~(B_READ | B_WRITE | B_ERROR);
			bp->b_flags &= ~nv_available;
			bp->b_flags |= B_WRITE | B_BUSY;
			bp->b_iodone = (int (*)())raid_done;
			bp->b_edev = md_dev64_to_dev(
			    un->un_column[cbuf->cbuf_column].un_dev);
			bp->b_chain = (struct buf *)cs;
			private = cs->cs_strategy_private;
			flag = cs->cs_strategy_flag;
			md_call_strategy(bp, flag, private);
		}
		raidio(cs, RIO_DATA | RIO_WRITE);
		raidio(cs, RIO_PARITY | RIO_WRITE);
		if (cs->cs_pw_inval_list) {
			raid_free_pwinvalidate(cs);
		}
		return;

	default:
		ASSERT(0);
		break;
	}
}
/*
 * NAME:	md_raid_strategy
 * DESCRIPTION: RAID metadevice I/O oprations entry point.
 * PARAMETERS:	buf_t	  *pb - pointer to a user I/O buffer
 *		int	 flag - metadevice specific flag
 *		void *private - carry over flag ??
 *
 */

void
md_raid_strategy(buf_t *pb, int flag, void *private)
{
	md_raidps_t	*ps;
	md_raidcs_t	*cs;
	int		doing_writes;
	int		err;
	mr_unit_t	*un;
	mdi_unit_t	*ui;
	size_t		count;
	diskaddr_t	blkno;
	caddr_t		addr;
	off_t		offset;
	int		colcnt;
	minor_t		mnum;
	set_t		setno;

	ui = MDI_UNIT(getminor(pb->b_edev));
	md_kstat_waitq_enter(ui);
	un = (mr_unit_t *)md_io_readerlock(ui);
	setno = MD_MIN2SET(getminor(pb->b_edev));

	if ((flag & MD_NOBLOCK) == 0) {
		if (md_inc_iocount(setno) != 0) {
			pb->b_flags |= B_ERROR;
			pb->b_error = ENXIO;
			pb->b_resid = pb->b_bcount;
			md_kstat_waitq_exit(ui);
			md_io_readerexit(ui);
			biodone(pb);
			return;
		}
	} else {
		md_inc_iocount_noblock(setno);
	}

	mnum = MD_SID(un);
	colcnt = un->un_totalcolumncnt - 1;
	count = pb->b_bcount;

	STAT_CHECK(raid_512, count == 512);
	STAT_CHECK(raid_1024, count == 1024);
	STAT_CHECK(raid_1024_8192, count > 1024 && count < 8192);
	STAT_CHECK(raid_8192, count == 8192);
	STAT_CHECK(raid_8192_bigger, count > 8192);

	(void *) md_unit_readerlock(ui);
	if (!(flag & MD_STR_NOTTOP)) {
		err = md_checkbuf(ui, (md_unit_t *)un, pb); /* check and map */
		if (err != 0) {
			md_kstat_waitq_exit(ui);
			md_io_readerexit(ui);
			return;
		}
	}
	md_unit_readerexit(ui);

	STAT_INC(raid_total_io);

	/* allocate a parent structure for the user I/O */
	ps = kmem_cache_alloc(raid_parent_cache, MD_ALLOCFLAGS);
	raid_parent_init(ps);

	/*
	 * Save essential information from the original buffhdr
	 * in the md_save structure.
	 */
	ps->ps_un = un;
	ps->ps_ui = ui;
	ps->ps_bp = pb;
	ps->ps_addr = pb->b_un.b_addr;

	if ((pb->b_flags & B_READ) == 0) {
		ps->ps_flags |= MD_RPS_WRITE;
		doing_writes = 1;
		STAT_INC(raid_writes);
	} else {
		ps->ps_flags |= MD_RPS_READ;
		doing_writes = 0;
		STAT_INC(raid_reads);
	}

	count = lbtodb(pb->b_bcount);	/* transfer count (in blocks) */
	blkno = pb->b_lblkno;		/* block number on device */
	addr  = 0;
	offset = 0;
	ps->ps_pwfrags = 1;
	ps->ps_frags = 1;
	md_kstat_waitq_to_runq(ui);

	do {
		cs = kmem_cache_alloc(raid_child_cache, MD_ALLOCFLAGS);
		raid_child_init(cs);
		cs->cs_ps = ps;
		cs->cs_un = un;
		cs->cs_mdunit = mnum;
		cs->cs_strategy_flag = flag;
		cs->cs_strategy_private = private;
		cs->cs_addr = addr;
		cs->cs_offset = offset;
		count = raid_iosetup(un, blkno, count, cs);
		if (cs->cs_flags & MD_RCS_LINE) {
			blkno += (cs->cs_blkcnt * colcnt);
			offset += (cs->cs_bcount * colcnt);
		} else {
			blkno +=  cs->cs_blkcnt;
			offset += cs->cs_bcount;
		}
		/* for each cs bump up the ps_pwfrags and ps_frags fields */
		if (count) {
			mutex_enter(&ps->ps_mx);
			ps->ps_pwfrags++;
			ps->ps_frags++;
			mutex_exit(&ps->ps_mx);
			if (doing_writes)
				(void) raid_write(un, cs);
			else
				(void) raid_read(un, cs);
		}
	} while (count);
	if (doing_writes) {
		(void) raid_write(un, cs);
	} else
		(void) raid_read(un, cs);

	if (! (flag & MD_STR_NOTTOP) && panicstr) {
		while (! (ps->ps_flags & MD_RPS_DONE)) {
			md_daemon(1, &md_done_daemon);
			drv_usecwait(10);
		}
		kmem_cache_free(raid_parent_cache, ps);
	}
}

/*
 * NAMES:	raid_snarf
 * DESCRIPTION: RAID metadevice SNARF entry point
 * PARAMETERS:	md_snarfcmd_t cmd,
 *		set_t setno
 * RETURNS:
 */
static int
raid_snarf(md_snarfcmd_t cmd, set_t setno)
{
	mr_unit_t	*un;
	mddb_recid_t	recid;
	int		gotsomething;
	int		all_raid_gotten;
	mddb_type_t	typ1;
	uint_t		ncol;
	mddb_de_ic_t	*dep;
	mddb_rb32_t	*rbp;
	size_t		newreqsize;
	mr_unit_t	*big_un;
	mr_unit32_od_t	*small_un;


	if (cmd == MD_SNARF_CLEANUP)
		return (0);

	all_raid_gotten = 1;
	gotsomething = 0;
	typ1 = (mddb_type_t)md_getshared_key(setno,
	    raid_md_ops.md_driver.md_drivername);
	recid = mddb_makerecid(setno, 0);

	while ((recid = mddb_getnextrec(recid, typ1, 0)) > 0) {
		if (mddb_getrecprivate(recid) & MD_PRV_GOTIT) {
			continue;
		}

		dep = mddb_getrecdep(recid);
		dep->de_flags = MDDB_F_RAID;
		rbp = dep->de_rb;
		switch (rbp->rb_revision) {
		case MDDB_REV_RB:
		case MDDB_REV_RBFN:
			if ((rbp->rb_private & MD_PRV_CONVD) == 0) {
				/*
				 * This means, we have an old and small record
				 * and this record hasn't already been
				 * converted.  Before we create an incore
				 * metadevice from this we have to convert it to
				 * a big record.
				 */
				small_un =
				    (mr_unit32_od_t *)mddb_getrecaddr(recid);
				ncol = small_un->un_totalcolumncnt;
				newreqsize = sizeof (mr_unit_t) +
				    ((ncol - 1) * sizeof (mr_column_t));
				big_un = (mr_unit_t *)kmem_zalloc(newreqsize,
				    KM_SLEEP);
				raid_convert((caddr_t)small_un, (caddr_t)big_un,
				    SMALL_2_BIG);
				kmem_free(small_un, dep->de_reqsize);
				dep->de_rb_userdata = big_un;
				dep->de_reqsize = newreqsize;
				un = big_un;
				rbp->rb_private |= MD_PRV_CONVD;
			} else {
				/*
				 * Record has already been converted.  Just
				 * get its address.
				 */
				un = (mr_unit_t *)mddb_getrecaddr(recid);
			}
			un->c.un_revision &= ~MD_64BIT_META_DEV;
			break;
		case MDDB_REV_RB64:
		case MDDB_REV_RB64FN:
			/* Big device */
			un = (mr_unit_t *)mddb_getrecaddr(recid);
			un->c.un_revision |= MD_64BIT_META_DEV;
			un->c.un_flag |= MD_EFILABEL;
			break;
		}
		MDDB_NOTE_FN(rbp->rb_revision, un->c.un_revision);

		/*
		 * Create minor device node for snarfed entry.
		 */
		(void) md_create_minor_node(MD_MIN2SET(MD_SID(un)), MD_SID(un));

		if (MD_UNIT(MD_SID(un)) != NULL) {
			mddb_setrecprivate(recid, MD_PRV_PENDDEL);
			continue;
		}
		all_raid_gotten = 0;
		if (raid_build_incore((void *)un, 1) == 0) {
			mddb_setrecprivate(recid, MD_PRV_GOTIT);
			md_create_unit_incore(MD_SID(un), &raid_md_ops, 1);
			gotsomething = 1;
		} else if (un->mr_ic) {
			kmem_free(un->un_column_ic, sizeof (mr_column_ic_t) *
			    un->un_totalcolumncnt);
			kmem_free(un->mr_ic, sizeof (*un->mr_ic));
		}
	}

	if (!all_raid_gotten) {
		return (gotsomething);
	}

	recid = mddb_makerecid(setno, 0);
	while ((recid = mddb_getnextrec(recid, typ1, 0)) > 0)
		if (!(mddb_getrecprivate(recid) & MD_PRV_GOTIT))
			mddb_setrecprivate(recid, MD_PRV_PENDDEL);

	return (0);
}

/*
 * NAMES:	raid_halt
 * DESCRIPTION: RAID metadevice HALT entry point
 * PARAMETERS:	md_haltcmd_t cmd -
 *		set_t	setno -
 * RETURNS:
 */
static int
raid_halt(md_haltcmd_t cmd, set_t setno)
{
	set_t		i;
	mdi_unit_t	*ui;
	minor_t		mnum;

	if (cmd == MD_HALT_CLOSE)
		return (0);

	if (cmd == MD_HALT_OPEN)
		return (0);

	if (cmd == MD_HALT_UNLOAD)
		return (0);

	if (cmd == MD_HALT_CHECK) {
		for (i = 0; i < md_nunits; i++) {
			mnum = MD_MKMIN(setno, i);
			if ((ui = MDI_UNIT(mnum)) == NULL)
				continue;
			if (ui->ui_opsindex != raid_md_ops.md_selfindex)
				continue;
			if (md_unit_isopen(ui))
				return (1);
		}
		return (0);
	}

	if (cmd != MD_HALT_DOIT)
		return (1);

	for (i = 0; i < md_nunits; i++) {
		mnum = MD_MKMIN(setno, i);
		if ((ui = MDI_UNIT(mnum)) == NULL)
			continue;
		if (ui->ui_opsindex != raid_md_ops.md_selfindex)
			continue;
		reset_raid((mr_unit_t *)MD_UNIT(mnum), mnum, 0);
	}
	return (0);
}

/*
 * NAMES:	raid_close_all_devs
 * DESCRIPTION: Close all the devices of the unit.
 * PARAMETERS:	mr_unit_t *un - pointer to unit structure
 * RETURNS:
 */
void
raid_close_all_devs(mr_unit_t *un, int init_pw, int md_cflags)
{
	int		i;
	mr_column_t	*device;

	for (i = 0; i < un->un_totalcolumncnt; i++) {
		device = &un->un_column[i];
		if (device->un_devflags & MD_RAID_DEV_ISOPEN) {
			ASSERT((device->un_dev != (md_dev64_t)0) &&
			    (device->un_dev != NODEV64));
			if ((device->un_devstate & RCS_OKAY) && init_pw)
				(void) init_pw_area(un, device->un_dev,
				    device->un_pwstart, i);
			md_layered_close(device->un_dev, md_cflags);
			device->un_devflags &= ~MD_RAID_DEV_ISOPEN;
		}
	}
}

/*
 * NAMES:	raid_open_all_devs
 * DESCRIPTION: Open all the components (columns) of the device unit.
 * PARAMETERS:	mr_unit_t *un - pointer to unit structure
 * RETURNS:
 */
static int
raid_open_all_devs(mr_unit_t *un, int md_oflags)
{
	minor_t		mnum = MD_SID(un);
	int		i;
	int		not_opened = 0;
	int		commit = 0;
	int		col = -1;
	mr_column_t	*device;
	set_t		setno = MD_MIN2SET(MD_SID(un));
	side_t		side = mddb_getsidenum(setno);
	mdkey_t		key;
	mdi_unit_t	*ui = MDI_UNIT(mnum);

	ui->ui_tstate &= ~MD_INACCESSIBLE;

	for (i = 0; i < un->un_totalcolumncnt; i++) {
		md_dev64_t tmpdev;

		device = &un->un_column[i];

		if (COLUMN_STATE(un, i) & RCS_ERRED) {
			not_opened++;
			continue;
		}

		if (device->un_devflags & MD_RAID_DEV_ISOPEN)
			continue;

		tmpdev = device->un_dev;
		/*
		 * Open by device id
		 */
		key = HOTSPARED(un, i) ?
		    device->un_hs_key : device->un_orig_key;
		if ((md_getmajor(tmpdev) != md_major) &&
		    md_devid_found(setno, side, key) == 1) {
			tmpdev = md_resolve_bydevid(mnum, tmpdev, key);
		}
		if (md_layered_open(mnum, &tmpdev, md_oflags)) {
			device->un_dev = tmpdev;
			not_opened++;
			continue;
		}
		device->un_dev = tmpdev;
		device->un_devflags |= MD_RAID_DEV_ISOPEN;
	}

	/* if open errors and errored devices are 1 then device can run */
	if (not_opened > 1) {
		cmn_err(CE_WARN,
		    "md: %s failed to open. open error on %s\n",
		    md_shortname(MD_SID(un)),
		    md_devname(MD_UN2SET(un), device->un_orig_dev, NULL, 0));

		ui->ui_tstate |= MD_INACCESSIBLE;

		SE_NOTIFY(EC_SVM_STATE, ESC_SVM_OPEN_FAIL, SVM_TAG_METADEVICE,
		    MD_UN2SET(un), MD_SID(un));

		return (not_opened > 1);
	}

	for (i = 0; i < un->un_totalcolumncnt; i++) {
		device = &un->un_column[i];
		if (device->un_devflags & MD_RAID_DEV_ISOPEN) {
			if (device->un_devstate & RCS_LAST_ERRED) {
			/*
			 * At this point in time there is a possibility
			 * that errors were the result of a controller
			 * failure with more than a single column on it
			 * so clear out last errored columns and let errors
			 * re-occur is necessary.
			 */
				raid_set_state(un, i, RCS_OKAY, 0);
				commit++;
			}
			continue;
		}
		ASSERT(col == -1);
		col = i;
	}

	if (col != -1) {
		raid_set_state(un, col, RCS_ERRED, 0);
		commit++;
	}

	if (commit)
		raid_commit(un, NULL);

	if (col != -1) {
		if (COLUMN_STATE(un, col) & RCS_ERRED) {
			SE_NOTIFY(EC_SVM_STATE, ESC_SVM_ERRED,
			    SVM_TAG_METADEVICE, MD_UN2SET(un), MD_SID(un));
		} else if (COLUMN_STATE(un, col) & RCS_LAST_ERRED) {
			SE_NOTIFY(EC_SVM_STATE, ESC_SVM_LASTERRED,
			    SVM_TAG_METADEVICE, MD_UN2SET(un), MD_SID(un));
		}
	}

	return (0);
}

/*
 * NAMES:	raid_internal_open
 * DESCRIPTION: Do the actual RAID open
 * PARAMETERS:	minor_t mnum - minor number of the RAID device
 *		int flag -
 *		int otyp -
 *		int md_oflags - RAID open flags
 * RETURNS:	0 if successful, nonzero otherwise
 */
int
raid_internal_open(minor_t mnum, int flag, int otyp, int md_oflags)
{
	mr_unit_t	*un;
	mdi_unit_t	*ui;
	int		err = 0;
	int		replay_error = 0;

	ui = MDI_UNIT(mnum);
	ASSERT(ui != NULL);

	un = (mr_unit_t *)md_unit_openclose_enter(ui);
	/*
	 * this MUST be checked before md_unit_isopen is checked.
	 * raid_init_columns sets md_unit_isopen to block reset, halt.
	 */
	if ((UNIT_STATE(un) & (RUS_INIT | RUS_DOI)) &&
	    !(md_oflags & MD_OFLG_ISINIT)) {
		md_unit_openclose_exit(ui);
		return (EAGAIN);
	}

	if ((md_oflags & MD_OFLG_ISINIT) || md_unit_isopen(ui)) {
		err = md_unit_incopen(mnum, flag, otyp);
		goto out;
	}

	md_unit_readerexit(ui);

	un = (mr_unit_t *)md_unit_writerlock(ui);
	if (raid_open_all_devs(un, md_oflags) == 0) {
		if ((err = md_unit_incopen(mnum, flag, otyp)) != 0) {
			md_unit_writerexit(ui);
			un = (mr_unit_t *)md_unit_readerlock(ui);
			raid_close_all_devs(un, 0, md_oflags);
			goto out;
		}
	} else {
		/*
		 * if this unit contains more than two errored components
		 * should return error and close all opened devices
		 */

		md_unit_writerexit(ui);
		un = (mr_unit_t *)md_unit_readerlock(ui);
		raid_close_all_devs(un, 0, md_oflags);
		md_unit_openclose_exit(ui);
		SE_NOTIFY(EC_SVM_STATE, ESC_SVM_OPEN_FAIL, SVM_TAG_METADEVICE,
		    MD_UN2SET(un), MD_SID(un));
		return (ENXIO);
	}

	if (!(MD_STATUS(un) & MD_UN_REPLAYED)) {
		replay_error = raid_replay(un);
		MD_STATUS(un) |= MD_UN_REPLAYED;
	}

	md_unit_writerexit(ui);
	un = (mr_unit_t *)md_unit_readerlock(ui);

	if ((replay_error == RAID_RPLY_READONLY) &&
	    ((flag & (FREAD | FWRITE)) == FREAD)) {
		md_unit_openclose_exit(ui);
		return (0);
	}

	/* allocate hotspare if possible */
	(void) raid_hotspares();


out:
	md_unit_openclose_exit(ui);
	return (err);
}
/*
 * NAMES:	raid_open
 * DESCRIPTION: RAID metadevice OPEN entry point
 * PARAMETERS:	dev_t dev -
 *		int flag -
 *		int otyp -
 *		cred_t * cred_p -
 *		int md_oflags -
 * RETURNS:
 */
/*ARGSUSED1*/
static int
raid_open(dev_t *dev, int flag, int otyp, cred_t *cred_p, int md_oflags)
{
	int		error = 0;

	if (error = raid_internal_open(getminor(*dev), flag, otyp, md_oflags)) {
		return (error);
	}
	return (0);
}

/*
 * NAMES:	raid_internal_close
 * DESCRIPTION: RAID metadevice CLOSE actual implementation
 * PARAMETERS:	minor_t - minor number of the RAID device
 *		int otyp -
 *		int init_pw -
 *		int md_cflags - RAID close flags
 * RETURNS:	0 if successful, nonzero otherwise
 */
/*ARGSUSED*/
int
raid_internal_close(minor_t mnum, int otyp, int init_pw, int md_cflags)
{
	mdi_unit_t	*ui = MDI_UNIT(mnum);
	mr_unit_t	*un;
	int		err = 0;

	/* single thread */
	un = (mr_unit_t *)md_unit_openclose_enter(ui);

	/* count closed */
	if ((err = md_unit_decopen(mnum, otyp)) != 0)
		goto out;
	/* close devices, if necessary */
	if (! md_unit_isopen(ui) || (md_cflags & MD_OFLG_PROBEDEV)) {
		raid_close_all_devs(un, init_pw, md_cflags);
	}

	/* unlock, return success */
out:
	md_unit_openclose_exit(ui);
	return (err);
}

/*
 * NAMES:	raid_close
 * DESCRIPTION: RAID metadevice close entry point
 * PARAMETERS:	dev_t dev -
 *		int flag -
 *		int otyp -
 *		cred_t * cred_p -
 *		int md_oflags -
 * RETURNS:
 */
/*ARGSUSED1*/
static int
raid_close(dev_t dev, int flag, int otyp, cred_t *cred_p, int md_cflags)
{
	int retval;

	(void) md_io_writerlock(MDI_UNIT(getminor(dev)));
	retval = raid_internal_close(getminor(dev), otyp, 1, md_cflags);
	(void) md_io_writerexit(MDI_UNIT(getminor(dev)));
	return (retval);
}

/*
 * raid_probe_close_all_devs
 */
void
raid_probe_close_all_devs(mr_unit_t *un)
{
	int		i;
	mr_column_t	*device;

	for (i = 0; i < un->un_totalcolumncnt; i++) {
		device = &un->un_column[i];

		if (device->un_devflags & MD_RAID_DEV_PROBEOPEN) {
			md_layered_close(device->un_dev,
			    MD_OFLG_PROBEDEV);
			device->un_devflags &= ~MD_RAID_DEV_PROBEOPEN;
		}
	}
}
/*
 * Raid_probe_dev:
 *
 * On entry the unit writerlock is held
 */
static int
raid_probe_dev(mdi_unit_t *ui, minor_t mnum)
{
	mr_unit_t	*un;
	int		i;
	int		not_opened = 0;
	int		commit = 0;
	int		col = -1;
	mr_column_t	*device;
	int		md_devopen = 0;

	if (md_unit_isopen(ui))
		md_devopen++;

	un = MD_UNIT(mnum);
	/*
	 * If the state has been set to LAST_ERRED because
	 * of an error when the raid device was open at some
	 * point in the past, don't probe. We really don't want
	 * to reset the state in this case.
	 */
	if (UNIT_STATE(un) == RUS_LAST_ERRED)
		return (0);

	ui->ui_tstate &= ~MD_INACCESSIBLE;

	for (i = 0; i < un->un_totalcolumncnt; i++) {
		md_dev64_t tmpdev;

		device = &un->un_column[i];
		if (COLUMN_STATE(un, i) & RCS_ERRED) {
			not_opened++;
			continue;
		}

		tmpdev = device->un_dev;
		/*
		 * Currently the flags passed are not needed since
		 * there cannot be an underlying metadevice. However
		 * they are kept here for consistency.
		 *
		 * Open by device id
		 */
		tmpdev = md_resolve_bydevid(mnum, tmpdev, HOTSPARED(un, i)?
		    device->un_hs_key : device->un_orig_key);
		if (md_layered_open(mnum, &tmpdev,
		    MD_OFLG_CONT_ERRS | MD_OFLG_PROBEDEV)) {
			device->un_dev = tmpdev;
			not_opened++;
			continue;
		}
		device->un_dev = tmpdev;

		device->un_devflags |= MD_RAID_DEV_PROBEOPEN;
	}

	/*
	 * The code below is careful on setting the LAST_ERRED state.
	 *
	 * If open errors and exactly one device has failed we can run.
	 * If more then one device fails we have to figure out when to set
	 * LAST_ERRED state.  The rationale is to avoid unnecessary resyncs
	 * since they are painful and time consuming.
	 *
	 * When more than one component/column fails there are 2 scenerios.
	 *
	 * 1. Metadevice has NOT been opened: In this case, the behavior
	 *    mimics the open symantics. ie. Only the first failed device
	 *    is ERRED and LAST_ERRED is not set.
	 *
	 * 2. Metadevice has been opened: Here the read/write sematics are
	 *    followed. The first failed devicce is ERRED and on the next
	 *    failed device LAST_ERRED is set.
	 */

	if (not_opened > 1 && !md_devopen) {
		cmn_err(CE_WARN,
		    "md: %s failed to open. open error on %s\n",
		    md_shortname(MD_SID(un)),
		    md_devname(MD_UN2SET(un), device->un_orig_dev, NULL, 0));
		SE_NOTIFY(EC_SVM_STATE, ESC_SVM_OPEN_FAIL, SVM_TAG_METADEVICE,
		    MD_UN2SET(un), MD_SID(un));
		raid_probe_close_all_devs(un);
		ui->ui_tstate |= MD_INACCESSIBLE;
		return (not_opened > 1);
	}

	if (!md_devopen) {
		for (i = 0; i < un->un_totalcolumncnt; i++) {
			device = &un->un_column[i];
			if (device->un_devflags & MD_RAID_DEV_PROBEOPEN) {
				if (device->un_devstate & RCS_LAST_ERRED) {
					/*
					 * At this point in time there is a
					 * possibility that errors were the
					 * result of a controller failure with
					 * more than a single column on it so
					 * clear out last errored columns and
					 * let errors re-occur is necessary.
					 */
					raid_set_state(un, i, RCS_OKAY, 0);
					commit++;
					}
				continue;
			}
			ASSERT(col == -1);
			/*
			 * note if multiple devices are failing then only
			 * the last one is marked as error
			 */
			col = i;
		}

		if (col != -1) {
			raid_set_state(un, col, RCS_ERRED, 0);
			commit++;
		}

	} else {
		for (i = 0; i < un->un_totalcolumncnt; i++) {
			device = &un->un_column[i];

			/* if we have LAST_ERRED go ahead and commit. */
			if (un->un_state & RUS_LAST_ERRED)
				break;
			/*
			 * could not open the component
			 */

			if (!(device->un_devflags & MD_RAID_DEV_PROBEOPEN)) {
				col = i;
				raid_set_state(un, col, RCS_ERRED, 0);
				commit++;
			}
		}
	}

	if (commit)
		raid_commit(un, NULL);

	if (col != -1) {
		if (COLUMN_STATE(un, col) & RCS_ERRED) {
			SE_NOTIFY(EC_SVM_STATE, ESC_SVM_ERRED,
			    SVM_TAG_METADEVICE, MD_UN2SET(un), MD_SID(un));
		} else if (COLUMN_STATE(un, col) & RCS_LAST_ERRED) {
			SE_NOTIFY(EC_SVM_STATE, ESC_SVM_LASTERRED,
			    SVM_TAG_METADEVICE, MD_UN2SET(un), MD_SID(un));
		}
	}

	raid_probe_close_all_devs(un);
	return (0);
}

static int
raid_imp_set(
	set_t	setno
)
{
	mddb_recid_t    recid;
	int		i, gotsomething;
	mddb_type_t	typ1;
	mddb_de_ic_t	*dep;
	mddb_rb32_t	*rbp;
	mr_unit_t	*un64;
	mr_unit32_od_t	*un32;
	md_dev64_t	self_devt;
	minor_t		*self_id;	/* minor needs to be updated */
	md_parent_t	*parent_id;	/* parent needs to be updated */
	mddb_recid_t	*record_id;	 /* record id needs to be updated */
	hsp_t		*hsp_id;

	gotsomething = 0;

	typ1 = (mddb_type_t)md_getshared_key(setno,
	    raid_md_ops.md_driver.md_drivername);
	recid = mddb_makerecid(setno, 0);

	while ((recid = mddb_getnextrec(recid, typ1, 0)) > 0) {
		if (mddb_getrecprivate(recid) & MD_PRV_GOTIT)
			continue;

		dep = mddb_getrecdep(recid);
		rbp = dep->de_rb;

		switch (rbp->rb_revision) {
		case MDDB_REV_RB:
		case MDDB_REV_RBFN:
			/*
			 * Small device
			 */
			un32 = (mr_unit32_od_t *)mddb_getrecaddr(recid);
			self_id = &(un32->c.un_self_id);
			parent_id = &(un32->c.un_parent);
			record_id = &(un32->c.un_record_id);
			hsp_id = &(un32->un_hsp_id);

			for (i = 0; i < un32->un_totalcolumncnt; i++) {
				mr_column32_od_t *device;

				device = &un32->un_column[i];
				if (!md_update_minor(setno, mddb_getsidenum
				    (setno), device->un_orig_key))
					goto out;

				if (device->un_hs_id != 0)
					device->un_hs_id =
					    MAKERECID(setno, device->un_hs_id);
			}
			break;
		case MDDB_REV_RB64:
		case MDDB_REV_RB64FN:
			un64 = (mr_unit_t *)mddb_getrecaddr(recid);
			self_id = &(un64->c.un_self_id);
			parent_id = &(un64->c.un_parent);
			record_id = &(un64->c.un_record_id);
			hsp_id = &(un64->un_hsp_id);

			for (i = 0; i < un64->un_totalcolumncnt; i++) {
				mr_column_t	*device;

				device = &un64->un_column[i];
				if (!md_update_minor(setno, mddb_getsidenum
				    (setno), device->un_orig_key))
					goto out;

				if (device->un_hs_id != 0)
					device->un_hs_id =
					    MAKERECID(setno, device->un_hs_id);
			}
			break;
		}

		/*
		 * If this is a top level and a friendly name metadevice,
		 * update its minor in the namespace.
		 */
		if ((*parent_id == MD_NO_PARENT) &&
		    ((rbp->rb_revision == MDDB_REV_RBFN) ||
		    (rbp->rb_revision == MDDB_REV_RB64FN))) {

			self_devt = md_makedevice(md_major, *self_id);
			if (!md_update_top_device_minor(setno,
			    mddb_getsidenum(setno), self_devt))
				goto out;
		}

		/*
		 * Update unit with the imported setno
		 */
		mddb_setrecprivate(recid, MD_PRV_GOTIT);

		*self_id = MD_MKMIN(setno, MD_MIN2UNIT(*self_id));

		if (*hsp_id != -1)
			*hsp_id = MAKERECID(setno, DBID(*hsp_id));

		if (*parent_id != MD_NO_PARENT)
			*parent_id = MD_MKMIN(setno, MD_MIN2UNIT(*parent_id));
		*record_id = MAKERECID(setno, DBID(*record_id));
		gotsomething = 1;
	}

out:
	return (gotsomething);
}

static md_named_services_t raid_named_services[] = {
	{raid_hotspares,			"poke hotspares"	},
	{raid_rename_check,			MDRNM_CHECK		},
	{raid_rename_lock,			MDRNM_LOCK		},
	{(intptr_t (*)()) raid_rename_unlock,	MDRNM_UNLOCK		},
	{(intptr_t (*)()) raid_probe_dev,	"probe open test"	},
	{NULL,					0			}
};

md_ops_t raid_md_ops = {
	raid_open,		/* open */
	raid_close,		/* close */
	md_raid_strategy,	/* strategy */
	NULL,			/* print */
	NULL,			/* dump */
	NULL,			/* read */
	NULL,			/* write */
	md_raid_ioctl,		/* ioctl, */
	raid_snarf,		/* raid_snarf */
	raid_halt,		/* raid_halt */
	NULL,			/* aread */
	NULL,			/* awrite */
	raid_imp_set,		/* import set */
	raid_named_services
};

static void
init_init()
{
	/* default to a second */
	if (md_wr_wait == 0)
		md_wr_wait = md_hz >> 1;

	raid_parent_cache = kmem_cache_create("md_raid_parent",
	    sizeof (md_raidps_t), 0, raid_parent_constructor,
	    raid_parent_destructor, raid_run_queue, NULL, NULL, 0);
	raid_child_cache = kmem_cache_create("md_raid_child",
	    sizeof (md_raidcs_t) - sizeof (buf_t) + biosize(), 0,
	    raid_child_constructor, raid_child_destructor,
	    raid_run_queue, NULL, NULL, 0);
	raid_cbuf_cache = kmem_cache_create("md_raid_cbufs",
	    sizeof (md_raidcbuf_t), 0, raid_cbuf_constructor,
	    raid_cbuf_destructor, raid_run_queue, NULL, NULL, 0);
}

static void
fini_uninit()
{
	kmem_cache_destroy(raid_parent_cache);
	kmem_cache_destroy(raid_child_cache);
	kmem_cache_destroy(raid_cbuf_cache);
	raid_parent_cache = raid_child_cache = raid_cbuf_cache = NULL;
}

/* define the module linkage */
MD_PLUGIN_MISC_MODULE("raid module", init_init(), fini_uninit())