module/zfs/vdev_raidz.c

61145dc2SMartin Matuska// SPDX-License-Identifier: CDDL-1.0
eda14cbcSMatt Macy/*
eda14cbcSMatt Macy * CDDL HEADER START
eda14cbcSMatt Macy *
eda14cbcSMatt Macy * The contents of this file are subject to the terms of the
eda14cbcSMatt Macy * Common Development and Distribution License (the "License").
eda14cbcSMatt Macy * You may not use this file except in compliance with the License.
eda14cbcSMatt Macy *
eda14cbcSMatt Macy * You can obtain a copy of the license at usr/src/OPENSOLARIS.LICENSE
271171e0SMartin Matuska * or https://opensource.org/licenses/CDDL-1.0.
eda14cbcSMatt Macy * See the License for the specific language governing permissions
eda14cbcSMatt Macy * and limitations under the License.
eda14cbcSMatt Macy *
eda14cbcSMatt Macy * When distributing Covered Code, include this CDDL HEADER in each
eda14cbcSMatt Macy * file and include the License file at usr/src/OPENSOLARIS.LICENSE.
eda14cbcSMatt Macy * If applicable, add the following below this CDDL HEADER, with the
eda14cbcSMatt Macy * fields enclosed by brackets "[]" replaced with your own identifying
eda14cbcSMatt Macy * information: Portions Copyright [yyyy] [name of copyright owner]
eda14cbcSMatt Macy *
eda14cbcSMatt Macy * CDDL HEADER END
eda14cbcSMatt Macy */
eda14cbcSMatt Macy
eda14cbcSMatt Macy/*
eda14cbcSMatt Macy * Copyright (c) 2005, 2010, Oracle and/or its affiliates. All rights reserved.
2c48331dSMatt Macy * Copyright (c) 2012, 2020 by Delphix. All rights reserved.
eda14cbcSMatt Macy * Copyright (c) 2016 Gvozden Nešković. All rights reserved.
eda14cbcSMatt Macy */
eda14cbcSMatt Macy
eda14cbcSMatt Macy#include <sys/zfs_context.h>
eda14cbcSMatt Macy#include <sys/spa.h>
e716630dSMartin Matuska#include <sys/spa_impl.h>
e716630dSMartin Matuska#include <sys/zap.h>
eda14cbcSMatt Macy#include <sys/vdev_impl.h>
e716630dSMartin Matuska#include <sys/metaslab_impl.h>
eda14cbcSMatt Macy#include <sys/zio.h>
eda14cbcSMatt Macy#include <sys/zio_checksum.h>
e716630dSMartin Matuska#include <sys/dmu_tx.h>
eda14cbcSMatt Macy#include <sys/abd.h>
e716630dSMartin Matuska#include <sys/zfs_rlock.h>
eda14cbcSMatt Macy#include <sys/fs/zfs.h>
eda14cbcSMatt Macy#include <sys/fm/fs/zfs.h>
eda14cbcSMatt Macy#include <sys/vdev_raidz.h>
eda14cbcSMatt Macy#include <sys/vdev_raidz_impl.h>
7877fdebSMatt Macy#include <sys/vdev_draid.h>
e716630dSMartin Matuska#include <sys/uberblock_impl.h>
e716630dSMartin Matuska#include <sys/dsl_scan.h>
eda14cbcSMatt Macy
eda14cbcSMatt Macy#ifdef ZFS_DEBUG
eda14cbcSMatt Macy#include <sys/vdev.h>	/* For vdev_xlate() in vdev_raidz_io_verify() */
eda14cbcSMatt Macy#endif
eda14cbcSMatt Macy
eda14cbcSMatt Macy/*
eda14cbcSMatt Macy * Virtual device vector for RAID-Z.
eda14cbcSMatt Macy *
eda14cbcSMatt Macy * This vdev supports single, double, and triple parity. For single parity,
eda14cbcSMatt Macy * we use a simple XOR of all the data columns. For double or triple parity,
eda14cbcSMatt Macy * we use a special case of Reed-Solomon coding. This extends the
eda14cbcSMatt Macy * technique described in "The mathematics of RAID-6" by H. Peter Anvin by
eda14cbcSMatt Macy * drawing on the system described in "A Tutorial on Reed-Solomon Coding for
eda14cbcSMatt Macy * Fault-Tolerance in RAID-like Systems" by James S. Plank on which the
eda14cbcSMatt Macy * former is also based. The latter is designed to provide higher performance
eda14cbcSMatt Macy * for writes.
eda14cbcSMatt Macy *
eda14cbcSMatt Macy * Note that the Plank paper claimed to support arbitrary N+M, but was then
eda14cbcSMatt Macy * amended six years later identifying a critical flaw that invalidates its
eda14cbcSMatt Macy * claims. Nevertheless, the technique can be adapted to work for up to
eda14cbcSMatt Macy * triple parity. For additional parity, the amendment "Note: Correction to
eda14cbcSMatt Macy * the 1997 Tutorial on Reed-Solomon Coding" by James S. Plank and Ying Ding
eda14cbcSMatt Macy * is viable, but the additional complexity means that write performance will
eda14cbcSMatt Macy * suffer.
eda14cbcSMatt Macy *
eda14cbcSMatt Macy * All of the methods above operate on a Galois field, defined over the
eda14cbcSMatt Macy * integers mod 2^N. In our case we choose N=8 for GF(8) so that all elements
eda14cbcSMatt Macy * can be expressed with a single byte. Briefly, the operations on the
eda14cbcSMatt Macy * field are defined as follows:
eda14cbcSMatt Macy *
eda14cbcSMatt Macy *   o addition (+) is represented by a bitwise XOR
eda14cbcSMatt Macy *   o subtraction (-) is therefore identical to addition: A + B = A - B
eda14cbcSMatt Macy *   o multiplication of A by 2 is defined by the following bitwise expression:
eda14cbcSMatt Macy *
eda14cbcSMatt Macy *	(A * 2)_7 = A_6
eda14cbcSMatt Macy *	(A * 2)_6 = A_5
eda14cbcSMatt Macy *	(A * 2)_5 = A_4
eda14cbcSMatt Macy *	(A * 2)_4 = A_3 + A_7
eda14cbcSMatt Macy *	(A * 2)_3 = A_2 + A_7
eda14cbcSMatt Macy *	(A * 2)_2 = A_1 + A_7
eda14cbcSMatt Macy *	(A * 2)_1 = A_0
eda14cbcSMatt Macy *	(A * 2)_0 = A_7
eda14cbcSMatt Macy *
eda14cbcSMatt Macy * In C, multiplying by 2 is therefore ((a << 1) ^ ((a & 0x80) ? 0x1d : 0)).
eda14cbcSMatt Macy * As an aside, this multiplication is derived from the error correcting
eda14cbcSMatt Macy * primitive polynomial x^8 + x^4 + x^3 + x^2 + 1.
eda14cbcSMatt Macy *
eda14cbcSMatt Macy * Observe that any number in the field (except for 0) can be expressed as a
eda14cbcSMatt Macy * power of 2 -- a generator for the field. We store a table of the powers of
eda14cbcSMatt Macy * 2 and logs base 2 for quick look ups, and exploit the fact that A * B can
eda14cbcSMatt Macy * be rewritten as 2^(log_2(A) + log_2(B)) (where '+' is normal addition rather
eda14cbcSMatt Macy * than field addition). The inverse of a field element A (A^-1) is therefore
eda14cbcSMatt Macy * A ^ (255 - 1) = A^254.
eda14cbcSMatt Macy *
eda14cbcSMatt Macy * The up-to-three parity columns, P, Q, R over several data columns,
eda14cbcSMatt Macy * D_0, ... D_n-1, can be expressed by field operations:
eda14cbcSMatt Macy *
eda14cbcSMatt Macy *	P = D_0 + D_1 + ... + D_n-2 + D_n-1
eda14cbcSMatt Macy *	Q = 2^n-1 * D_0 + 2^n-2 * D_1 + ... + 2^1 * D_n-2 + 2^0 * D_n-1
eda14cbcSMatt Macy *	  = ((...((D_0) * 2 + D_1) * 2 + ...) * 2 + D_n-2) * 2 + D_n-1
eda14cbcSMatt Macy *	R = 4^n-1 * D_0 + 4^n-2 * D_1 + ... + 4^1 * D_n-2 + 4^0 * D_n-1
eda14cbcSMatt Macy *	  = ((...((D_0) * 4 + D_1) * 4 + ...) * 4 + D_n-2) * 4 + D_n-1
eda14cbcSMatt Macy *
eda14cbcSMatt Macy * We chose 1, 2, and 4 as our generators because 1 corresponds to the trivial
eda14cbcSMatt Macy * XOR operation, and 2 and 4 can be computed quickly and generate linearly-
eda14cbcSMatt Macy * independent coefficients. (There are no additional coefficients that have
eda14cbcSMatt Macy * this property which is why the uncorrected Plank method breaks down.)
eda14cbcSMatt Macy *
eda14cbcSMatt Macy * See the reconstruction code below for how P, Q and R can used individually
eda14cbcSMatt Macy * or in concert to recover missing data columns.
eda14cbcSMatt Macy */
eda14cbcSMatt Macy
eda14cbcSMatt Macy#define	VDEV_RAIDZ_P		0
eda14cbcSMatt Macy#define	VDEV_RAIDZ_Q		1
eda14cbcSMatt Macy#define	VDEV_RAIDZ_R		2
eda14cbcSMatt Macy
eda14cbcSMatt Macy#define	VDEV_RAIDZ_MUL_2(x)	(((x) << 1) ^ (((x) & 0x80) ? 0x1d : 0))
eda14cbcSMatt Macy#define	VDEV_RAIDZ_MUL_4(x)	(VDEV_RAIDZ_MUL_2(VDEV_RAIDZ_MUL_2(x)))
eda14cbcSMatt Macy
eda14cbcSMatt Macy/*
eda14cbcSMatt Macy * We provide a mechanism to perform the field multiplication operation on a
eda14cbcSMatt Macy * 64-bit value all at once rather than a byte at a time. This works by
eda14cbcSMatt Macy * creating a mask from the top bit in each byte and using that to
eda14cbcSMatt Macy * conditionally apply the XOR of 0x1d.
eda14cbcSMatt Macy */
eda14cbcSMatt Macy#define	VDEV_RAIDZ_64MUL_2(x, mask) \
eda14cbcSMatt Macy{ \
eda14cbcSMatt Macy	(mask) = (x) & 0x8080808080808080ULL; \
eda14cbcSMatt Macy	(mask) = ((mask) << 1) - ((mask) >> 7); \
eda14cbcSMatt Macy	(x) = (((x) << 1) & 0xfefefefefefefefeULL) ^ \
eda14cbcSMatt Macy	    ((mask) & 0x1d1d1d1d1d1d1d1dULL); \
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
eda14cbcSMatt Macy#define	VDEV_RAIDZ_64MUL_4(x, mask) \
eda14cbcSMatt Macy{ \
eda14cbcSMatt Macy	VDEV_RAIDZ_64MUL_2((x), mask); \
eda14cbcSMatt Macy	VDEV_RAIDZ_64MUL_2((x), mask); \
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
e716630dSMartin Matuska
e716630dSMartin Matuska/*
e716630dSMartin Matuska * Big Theory Statement for how a RAIDZ VDEV is expanded
e716630dSMartin Matuska *
e716630dSMartin Matuska * An existing RAIDZ VDEV can be expanded by attaching a new disk. Expansion
e716630dSMartin Matuska * works with all three RAIDZ parity choices, including RAIDZ1, 2, or 3. VDEVs
e716630dSMartin Matuska * that have been previously expanded can be expanded again.
e716630dSMartin Matuska *
e716630dSMartin Matuska * The RAIDZ VDEV must be healthy (must be able to write to all the drives in
e716630dSMartin Matuska * the VDEV) when an expansion starts.  And the expansion will pause if any
e716630dSMartin Matuska * disk in the VDEV fails, and resume once the VDEV is healthy again. All other
e716630dSMartin Matuska * operations on the pool can continue while an expansion is in progress (e.g.
e716630dSMartin Matuska * read/write, snapshot, zpool add, etc). Except zpool checkpoint, zpool trim,
e716630dSMartin Matuska * and zpool initialize which can't be run during an expansion.  Following a
e716630dSMartin Matuska * reboot or export/import, the expansion resumes where it left off.
e716630dSMartin Matuska *
e716630dSMartin Matuska * == Reflowing the Data ==
e716630dSMartin Matuska *
e716630dSMartin Matuska * The expansion involves reflowing (copying) the data from the current set
e716630dSMartin Matuska * of disks to spread it across the new set which now has one more disk. This
e716630dSMartin Matuska * reflow operation is similar to reflowing text when the column width of a
e716630dSMartin Matuska * text editor window is expanded. The text doesn’t change but the location of
e716630dSMartin Matuska * the text changes to accommodate the new width. An example reflow result for
e716630dSMartin Matuska * a 4-wide RAIDZ1 to a 5-wide is shown below.
e716630dSMartin Matuska *
e716630dSMartin Matuska *                            Reflow End State
e716630dSMartin Matuska *            Each letter indicates a parity group (logical stripe)
e716630dSMartin Matuska *
e716630dSMartin Matuska *         Before expansion                         After Expansion
e716630dSMartin Matuska *     D1     D2     D3     D4               D1     D2     D3     D4     D5
e716630dSMartin Matuska *  +------+------+------+------+         +------+------+------+------+------+
e716630dSMartin Matuska *  |      |      |      |      |         |      |      |      |      |      |
e716630dSMartin Matuska *  |  A   |  A   |  A   |  A   |         |  A   |  A   |  A   |  A   |  B   |
e716630dSMartin Matuska *  |     1|     2|     3|     4|         |     1|     2|     3|     4|     5|
e716630dSMartin Matuska *  +------+------+------+------+         +------+------+------+------+------+
e716630dSMartin Matuska *  |      |      |      |      |         |      |      |      |      |      |
e716630dSMartin Matuska *  |  B   |  B   |  C   |  C   |         |  B   |  C   |  C   |  C   |  C   |
e716630dSMartin Matuska *  |     5|     6|     7|     8|         |     6|     7|     8|     9|    10|
e716630dSMartin Matuska *  +------+------+------+------+         +------+------+------+------+------+
e716630dSMartin Matuska *  |      |      |      |      |         |      |      |      |      |      |
e716630dSMartin Matuska *  |  C   |  C   |  D   |  D   |         |  D   |  D   |  E   |  E   |  E   |
e716630dSMartin Matuska *  |     9|    10|    11|    12|         |    11|    12|    13|    14|    15|
e716630dSMartin Matuska *  +------+------+------+------+         +------+------+------+------+------+
e716630dSMartin Matuska *  |      |      |      |      |         |      |      |      |      |      |
e716630dSMartin Matuska *  |  E   |  E   |  E   |  E   |   -->   |  E   |  F   |  F   |  G   |  G   |
e716630dSMartin Matuska *  |    13|    14|    15|    16|         |    16|    17|    18|p   19|    20|
e716630dSMartin Matuska *  +------+------+------+------+         +------+------+------+------+------+
e716630dSMartin Matuska *  |      |      |      |      |         |      |      |      |      |      |
e716630dSMartin Matuska *  |  F   |  F   |  G   |  G   |         |  G   |  G   |  H   |  H   |  H   |
e716630dSMartin Matuska *  |    17|    18|    19|    20|         |    21|    22|    23|    24|    25|
e716630dSMartin Matuska *  +------+------+------+------+         +------+------+------+------+------+
e716630dSMartin Matuska *  |      |      |      |      |         |      |      |      |      |      |
e716630dSMartin Matuska *  |  G   |  G   |  H   |  H   |         |  H   |  I   |  I   |  J   |  J   |
e716630dSMartin Matuska *  |    21|    22|    23|    24|         |    26|    27|    28|    29|    30|
e716630dSMartin Matuska *  +------+------+------+------+         +------+------+------+------+------+
e716630dSMartin Matuska *  |      |      |      |      |         |      |      |      |      |      |
e716630dSMartin Matuska *  |  H   |  H   |  I   |  I   |         |  J   |  J   |      |      |  K   |
e716630dSMartin Matuska *  |    25|    26|    27|    28|         |    31|    32|    33|    34|    35|
e716630dSMartin Matuska *  +------+------+------+------+         +------+------+------+------+------+
e716630dSMartin Matuska *
e716630dSMartin Matuska * This reflow approach has several advantages. There is no need to read or
e716630dSMartin Matuska * modify the block pointers or recompute any block checksums.  The reflow
e716630dSMartin Matuska * doesn’t need to know where the parity sectors reside. We can read and write
e716630dSMartin Matuska * data sequentially and the copy can occur in a background thread in open
e716630dSMartin Matuska * context. The design also allows for fast discovery of what data to copy.
e716630dSMartin Matuska *
e716630dSMartin Matuska * The VDEV metaslabs are processed, one at a time, to copy the block data to
e716630dSMartin Matuska * have it flow across all the disks. The metaslab is disabled for allocations
e716630dSMartin Matuska * during the copy. As an optimization, we only copy the allocated data which
e716630dSMartin Matuska * can be determined by looking at the metaslab range tree. During the copy we
e716630dSMartin Matuska * must maintain the redundancy guarantees of the RAIDZ VDEV (i.e., we still
e716630dSMartin Matuska * need to be able to survive losing parity count disks).  This means we
e716630dSMartin Matuska * cannot overwrite data during the reflow that would be needed if a disk is
e716630dSMartin Matuska * lost.
e716630dSMartin Matuska *
e716630dSMartin Matuska * After the reflow completes, all newly-written blocks will have the new
e716630dSMartin Matuska * layout, i.e., they will have the parity to data ratio implied by the new
e716630dSMartin Matuska * number of disks in the RAIDZ group.  Even though the reflow copies all of
e716630dSMartin Matuska * the allocated space (data and parity), it is only rearranged, not changed.
e716630dSMartin Matuska *
e716630dSMartin Matuska * This act of reflowing the data has a few implications about blocks
e716630dSMartin Matuska * that were written before the reflow completes:
e716630dSMartin Matuska *
e716630dSMartin Matuska *  - Old blocks will still use the same amount of space (i.e., they will have
e716630dSMartin Matuska *    the parity to data ratio implied by the old number of disks in the RAIDZ
e716630dSMartin Matuska *    group).
e716630dSMartin Matuska *  - Reading old blocks will be slightly slower than before the reflow, for
e716630dSMartin Matuska *    two reasons. First, we will have to read from all disks in the RAIDZ
e716630dSMartin Matuska *    VDEV, rather than being able to skip the children that contain only
e716630dSMartin Matuska *    parity of this block (because the data of a single block is now spread
e716630dSMartin Matuska *    out across all the disks).  Second, in most cases there will be an extra
e716630dSMartin Matuska *    bcopy, needed to rearrange the data back to its original layout in memory.
e716630dSMartin Matuska *
e716630dSMartin Matuska * == Scratch Area ==
e716630dSMartin Matuska *
e716630dSMartin Matuska * As we copy the block data, we can only progress to the point that writes
e716630dSMartin Matuska * will not overlap with blocks whose progress has not yet been recorded on
e716630dSMartin Matuska * disk.  Since partially-copied rows are always read from the old location,
e716630dSMartin Matuska * we need to stop one row before the sector-wise overlap, to prevent any
e716630dSMartin Matuska * row-wise overlap. For example, in the diagram above, when we reflow sector
e716630dSMartin Matuska * B6 it will overwite the original location for B5.
e716630dSMartin Matuska *
e716630dSMartin Matuska * To get around this, a scratch space is used so that we can start copying
e716630dSMartin Matuska * without risking data loss by overlapping the row. As an added benefit, it
e716630dSMartin Matuska * improves performance at the beginning of the reflow, but that small perf
e716630dSMartin Matuska * boost wouldn't be worth the complexity on its own.
e716630dSMartin Matuska *
e716630dSMartin Matuska * Ideally we want to copy at least 2 * (new_width)^2 so that we have a
e716630dSMartin Matuska * separation of 2*(new_width+1) and a chunk size of new_width+2. With the max
e716630dSMartin Matuska * RAIDZ width of 255 and 4K sectors this would be 2MB per disk. In practice
e716630dSMartin Matuska * the widths will likely be single digits so we can get a substantial chuck
e716630dSMartin Matuska * size using only a few MB of scratch per disk.
e716630dSMartin Matuska *
e716630dSMartin Matuska * The scratch area is persisted to disk which holds a large amount of reflowed
e716630dSMartin Matuska * state. We can always read the partially written stripes when a disk fails or
e716630dSMartin Matuska * the copy is interrupted (crash) during the initial copying phase and also
e716630dSMartin Matuska * get past a small chunk size restriction.  At a minimum, the scratch space
e716630dSMartin Matuska * must be large enough to get us to the point that one row does not overlap
e716630dSMartin Matuska * itself when moved (i.e new_width^2).  But going larger is even better. We
e716630dSMartin Matuska * use the 3.5 MiB reserved "boot" space that resides after the ZFS disk labels
e716630dSMartin Matuska * as our scratch space to handle overwriting the initial part of the VDEV.
e716630dSMartin Matuska *
e716630dSMartin Matuska *	0     256K   512K                    4M
e716630dSMartin Matuska *	+------+------+-----------------------+-----------------------------
e716630dSMartin Matuska *	| VDEV | VDEV |   Boot Block (3.5M)   |  Allocatable space ...
e716630dSMartin Matuska *	|  L0  |  L1  |       Reserved        |     (Metaslabs)
e716630dSMartin Matuska *	+------+------+-----------------------+-------------------------------
e716630dSMartin Matuska *                        Scratch Area
e716630dSMartin Matuska *
e716630dSMartin Matuska * == Reflow Progress Updates ==
e716630dSMartin Matuska * After the initial scratch-based reflow, the expansion process works
e716630dSMartin Matuska * similarly to device removal. We create a new open context thread which
e716630dSMartin Matuska * reflows the data, and periodically kicks off sync tasks to update logical
e716630dSMartin Matuska * state. In this case, state is the committed progress (offset of next data
e716630dSMartin Matuska * to copy). We need to persist the completed offset on disk, so that if we
e716630dSMartin Matuska * crash we know which format each VDEV offset is in.
e716630dSMartin Matuska *
e716630dSMartin Matuska * == Time Dependent Geometry ==
e716630dSMartin Matuska *
e716630dSMartin Matuska * In non-expanded RAIDZ, blocks are read from disk in a column by column
e716630dSMartin Matuska * fashion. For a multi-row block, the second sector is in the first column
e716630dSMartin Matuska * not in the second column. This allows us to issue full reads for each
e716630dSMartin Matuska * column directly into the request buffer. The block data is thus laid out
e716630dSMartin Matuska * sequentially in a column-by-column fashion.
e716630dSMartin Matuska *
e716630dSMartin Matuska * For example, in the before expansion diagram above, one logical block might
e716630dSMartin Matuska * be sectors G19-H26. The parity is in G19,H23; and the data is in
e716630dSMartin Matuska * G20,H24,G21,H25,G22,H26.
e716630dSMartin Matuska *
e716630dSMartin Matuska * After a block is reflowed, the sectors that were all in the original column
e716630dSMartin Matuska * data can now reside in different columns. When reading from an expanded
e716630dSMartin Matuska * VDEV, we need to know the logical stripe width for each block so we can
e716630dSMartin Matuska * reconstitute the block’s data after the reads are completed. Likewise,
e716630dSMartin Matuska * when we perform the combinatorial reconstruction we need to know the
e716630dSMartin Matuska * original width so we can retry combinations from the past layouts.
e716630dSMartin Matuska *
e716630dSMartin Matuska * Time dependent geometry is what we call having blocks with different layouts
e716630dSMartin Matuska * (stripe widths) in the same VDEV. This time-dependent geometry uses the
e716630dSMartin Matuska * block’s birth time (+ the time expansion ended) to establish the correct
e716630dSMartin Matuska * width for a given block. After an expansion completes, we record the time
e716630dSMartin Matuska * for blocks written with a particular width (geometry).
e716630dSMartin Matuska *
e716630dSMartin Matuska * == On Disk Format Changes ==
e716630dSMartin Matuska *
e716630dSMartin Matuska * New pool feature flag, 'raidz_expansion' whose reference count is the number
e716630dSMartin Matuska * of RAIDZ VDEVs that have been expanded.
e716630dSMartin Matuska *
e716630dSMartin Matuska * The blocks on expanded RAIDZ VDEV can have different logical stripe widths.
e716630dSMartin Matuska *
e716630dSMartin Matuska * Since the uberblock can point to arbitrary blocks, which might be on the
e716630dSMartin Matuska * expanding RAIDZ, and might or might not have been expanded. We need to know
e716630dSMartin Matuska * which way a block is laid out before reading it. This info is the next
e716630dSMartin Matuska * offset that needs to be reflowed and we persist that in the uberblock, in
e716630dSMartin Matuska * the new ub_raidz_reflow_info field, as opposed to the MOS or the vdev label.
e716630dSMartin Matuska * After the expansion is complete, we then use the raidz_expand_txgs array
e716630dSMartin Matuska * (see below) to determine how to read a block and the ub_raidz_reflow_info
e716630dSMartin Matuska * field no longer required.
e716630dSMartin Matuska *
e716630dSMartin Matuska * The uberblock's ub_raidz_reflow_info field also holds the scratch space
e716630dSMartin Matuska * state (i.e., active or not) which is also required before reading a block
e716630dSMartin Matuska * during the initial phase of reflowing the data.
e716630dSMartin Matuska *
e716630dSMartin Matuska * The top-level RAIDZ VDEV has two new entries in the nvlist:
e716630dSMartin Matuska *
e716630dSMartin Matuska * 'raidz_expand_txgs' array: logical stripe widths by txg are recorded here
e716630dSMartin Matuska *                            and used after the expansion is complete to
e716630dSMartin Matuska *                            determine how to read a raidz block
e716630dSMartin Matuska * 'raidz_expanding' boolean: present during reflow and removed after completion
e716630dSMartin Matuska *                            used during a spa import to resume an unfinished
e716630dSMartin Matuska *                            expansion
e716630dSMartin Matuska *
e716630dSMartin Matuska * And finally the VDEVs top zap adds the following informational entries:
e716630dSMartin Matuska *   VDEV_TOP_ZAP_RAIDZ_EXPAND_STATE
e716630dSMartin Matuska *   VDEV_TOP_ZAP_RAIDZ_EXPAND_START_TIME
e716630dSMartin Matuska *   VDEV_TOP_ZAP_RAIDZ_EXPAND_END_TIME
e716630dSMartin Matuska *   VDEV_TOP_ZAP_RAIDZ_EXPAND_BYTES_COPIED
e716630dSMartin Matuska */
e716630dSMartin Matuska
e716630dSMartin Matuska/*
e716630dSMartin Matuska * For testing only: pause the raidz expansion after reflowing this amount.
e716630dSMartin Matuska * (accessed by ZTS and ztest)
e716630dSMartin Matuska */
e716630dSMartin Matuska#ifdef	_KERNEL
e716630dSMartin Matuskastatic
e716630dSMartin Matuska#endif	/* _KERNEL */
e716630dSMartin Matuskaunsigned long raidz_expand_max_reflow_bytes = 0;
e716630dSMartin Matuska
e716630dSMartin Matuska/*
e716630dSMartin Matuska * For testing only: pause the raidz expansion at a certain point.
e716630dSMartin Matuska */
e716630dSMartin Matuskauint_t raidz_expand_pause_point = 0;
e716630dSMartin Matuska
e716630dSMartin Matuska/*
e716630dSMartin Matuska * Maximum amount of copy io's outstanding at once.
e716630dSMartin Matuska */
17aab35aSMartin Matuska#ifdef _ILP32
17aab35aSMartin Matuskastatic unsigned long raidz_expand_max_copy_bytes = SPA_MAXBLOCKSIZE;
17aab35aSMartin Matuska#else
e716630dSMartin Matuskastatic unsigned long raidz_expand_max_copy_bytes = 10 * SPA_MAXBLOCKSIZE;
17aab35aSMartin Matuska#endif
e716630dSMartin Matuska
e716630dSMartin Matuska/*
e716630dSMartin Matuska * Apply raidz map abds aggregation if the number of rows in the map is equal
e716630dSMartin Matuska * or greater than the value below.
e716630dSMartin Matuska */
e716630dSMartin Matuskastatic unsigned long raidz_io_aggregate_rows = 4;
e716630dSMartin Matuska
e716630dSMartin Matuska/*
e716630dSMartin Matuska * Automatically start a pool scrub when a RAIDZ expansion completes in
e716630dSMartin Matuska * order to verify the checksums of all blocks which have been copied
e716630dSMartin Matuska * during the expansion.  Automatic scrubbing is enabled by default and
e716630dSMartin Matuska * is strongly recommended.
e716630dSMartin Matuska */
e716630dSMartin Matuskastatic int zfs_scrub_after_expand = 1;
e716630dSMartin Matuska
7877fdebSMatt Macystatic void
7877fdebSMatt Macyvdev_raidz_row_free(raidz_row_t *rr)
eda14cbcSMatt Macy{
184c1b94SMartin Matuska	for (int c = 0; c < rr->rr_cols; c++) {
184c1b94SMartin Matuska		raidz_col_t *rc = &rr->rr_col[c];
eda14cbcSMatt Macy
184c1b94SMartin Matuska		if (rc->rc_size != 0)
184c1b94SMartin Matuska			abd_free(rc->rc_abd);
184c1b94SMartin Matuska		if (rc->rc_orig_data != NULL)
f9693befSMartin Matuska			abd_free(rc->rc_orig_data);
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy
7877fdebSMatt Macy	if (rr->rr_abd_empty != NULL)
7877fdebSMatt Macy		abd_free(rr->rr_abd_empty);
eda14cbcSMatt Macy
7877fdebSMatt Macy	kmem_free(rr, offsetof(raidz_row_t, rr_col[rr->rr_scols]));
7877fdebSMatt Macy}
7877fdebSMatt Macy
7877fdebSMatt Macyvoid
7877fdebSMatt Macyvdev_raidz_map_free(raidz_map_t *rm)
7877fdebSMatt Macy{
7877fdebSMatt Macy	for (int i = 0; i < rm->rm_nrows; i++)
7877fdebSMatt Macy		vdev_raidz_row_free(rm->rm_row[i]);
7877fdebSMatt Macy
e716630dSMartin Matuska	if (rm->rm_nphys_cols) {
e716630dSMartin Matuska		for (int i = 0; i < rm->rm_nphys_cols; i++) {
e716630dSMartin Matuska			if (rm->rm_phys_col[i].rc_abd != NULL)
e716630dSMartin Matuska				abd_free(rm->rm_phys_col[i].rc_abd);
e716630dSMartin Matuska		}
e716630dSMartin Matuska
e716630dSMartin Matuska		kmem_free(rm->rm_phys_col, sizeof (raidz_col_t) *
e716630dSMartin Matuska		    rm->rm_nphys_cols);
e716630dSMartin Matuska	}
e716630dSMartin Matuska
e716630dSMartin Matuska	ASSERT3P(rm->rm_lr, ==, NULL);
7877fdebSMatt Macy	kmem_free(rm, offsetof(raidz_map_t, rm_row[rm->rm_nrows]));
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
eda14cbcSMatt Macystatic void
eda14cbcSMatt Macyvdev_raidz_map_free_vsd(zio_t *zio)
eda14cbcSMatt Macy{
eda14cbcSMatt Macy	raidz_map_t *rm = zio->io_vsd;
eda14cbcSMatt Macy
eda14cbcSMatt Macy	vdev_raidz_map_free(rm);
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
e716630dSMartin Matuskastatic int
e716630dSMartin Matuskavdev_raidz_reflow_compare(const void *x1, const void *x2)
e716630dSMartin Matuska{
e716630dSMartin Matuska	const reflow_node_t *l = x1;
e716630dSMartin Matuska	const reflow_node_t *r = x2;
e716630dSMartin Matuska
e716630dSMartin Matuska	return (TREE_CMP(l->re_txg, r->re_txg));
e716630dSMartin Matuska}
e716630dSMartin Matuska
f9693befSMartin Matuskaconst zio_vsd_ops_t vdev_raidz_vsd_ops = {
eda14cbcSMatt Macy	.vsd_free = vdev_raidz_map_free_vsd,
eda14cbcSMatt Macy};
eda14cbcSMatt Macy
e716630dSMartin Matuskaraidz_row_t *
87bf66d4SMartin Matuskavdev_raidz_row_alloc(int cols, zio_t *zio)
e716630dSMartin Matuska{
e716630dSMartin Matuska	raidz_row_t *rr =
e716630dSMartin Matuska	    kmem_zalloc(offsetof(raidz_row_t, rr_col[cols]), KM_SLEEP);
e716630dSMartin Matuska
e716630dSMartin Matuska	rr->rr_cols = cols;
e716630dSMartin Matuska	rr->rr_scols = cols;
e716630dSMartin Matuska
e716630dSMartin Matuska	for (int c = 0; c < cols; c++) {
e716630dSMartin Matuska		raidz_col_t *rc = &rr->rr_col[c];
e716630dSMartin Matuska		rc->rc_shadow_devidx = INT_MAX;
e716630dSMartin Matuska		rc->rc_shadow_offset = UINT64_MAX;
87bf66d4SMartin Matuska		/*
87bf66d4SMartin Matuska		 * We can not allow self healing to take place for Direct I/O
87bf66d4SMartin Matuska		 * reads. There is nothing that stops the buffer contents from
87bf66d4SMartin Matuska		 * being manipulated while the I/O is in flight. It is possible
87bf66d4SMartin Matuska		 * that the checksum could be verified on the buffer and then
87bf66d4SMartin Matuska		 * the contents of that buffer are manipulated afterwards. This
87bf66d4SMartin Matuska		 * could lead to bad data being written out during self
87bf66d4SMartin Matuska		 * healing.
87bf66d4SMartin Matuska		 */
87bf66d4SMartin Matuska		if (!(zio->io_flags & ZIO_FLAG_DIO_READ))
e716630dSMartin Matuska			rc->rc_allow_repair = 1;
e716630dSMartin Matuska	}
e716630dSMartin Matuska	return (rr);
e716630dSMartin Matuska}
e716630dSMartin Matuska
81b22a98SMartin Matuskastatic void
81b22a98SMartin Matuskavdev_raidz_map_alloc_write(zio_t *zio, raidz_map_t *rm, uint64_t ashift)
81b22a98SMartin Matuska{
81b22a98SMartin Matuska	int c;
81b22a98SMartin Matuska	int nwrapped = 0;
81b22a98SMartin Matuska	uint64_t off = 0;
81b22a98SMartin Matuska	raidz_row_t *rr = rm->rm_row[0];
81b22a98SMartin Matuska
81b22a98SMartin Matuska	ASSERT3U(zio->io_type, ==, ZIO_TYPE_WRITE);
81b22a98SMartin Matuska	ASSERT3U(rm->rm_nrows, ==, 1);
81b22a98SMartin Matuska
81b22a98SMartin Matuska	/*
81b22a98SMartin Matuska	 * Pad any parity columns with additional space to account for skip
81b22a98SMartin Matuska	 * sectors.
81b22a98SMartin Matuska	 */
81b22a98SMartin Matuska	if (rm->rm_skipstart < rr->rr_firstdatacol) {
81b22a98SMartin Matuska		ASSERT0(rm->rm_skipstart);
81b22a98SMartin Matuska		nwrapped = rm->rm_nskip;
81b22a98SMartin Matuska	} else if (rr->rr_scols < (rm->rm_skipstart + rm->rm_nskip)) {
81b22a98SMartin Matuska		nwrapped =
81b22a98SMartin Matuska		    (rm->rm_skipstart + rm->rm_nskip) % rr->rr_scols;
81b22a98SMartin Matuska	}
81b22a98SMartin Matuska
81b22a98SMartin Matuska	/*
81b22a98SMartin Matuska	 * Optional single skip sectors (rc_size == 0) will be handled in
81b22a98SMartin Matuska	 * vdev_raidz_io_start_write().
81b22a98SMartin Matuska	 */
81b22a98SMartin Matuska	int skipped = rr->rr_scols - rr->rr_cols;
81b22a98SMartin Matuska
81b22a98SMartin Matuska	/* Allocate buffers for the parity columns */
81b22a98SMartin Matuska	for (c = 0; c < rr->rr_firstdatacol; c++) {
81b22a98SMartin Matuska		raidz_col_t *rc = &rr->rr_col[c];
81b22a98SMartin Matuska
81b22a98SMartin Matuska		/*
81b22a98SMartin Matuska		 * Parity columns will pad out a linear ABD to account for
81b22a98SMartin Matuska		 * the skip sector. A linear ABD is used here because
81b22a98SMartin Matuska		 * parity calculations use the ABD buffer directly to calculate
81b22a98SMartin Matuska		 * parity. This avoids doing a memcpy back to the ABD after the
81b22a98SMartin Matuska		 * parity has been calculated. By issuing the parity column
81b22a98SMartin Matuska		 * with the skip sector we can reduce contention on the child
81b22a98SMartin Matuska		 * VDEV queue locks (vq_lock).
81b22a98SMartin Matuska		 */
81b22a98SMartin Matuska		if (c < nwrapped) {
81b22a98SMartin Matuska			rc->rc_abd = abd_alloc_linear(
81b22a98SMartin Matuska			    rc->rc_size + (1ULL << ashift), B_FALSE);
81b22a98SMartin Matuska			abd_zero_off(rc->rc_abd, rc->rc_size, 1ULL << ashift);
81b22a98SMartin Matuska			skipped++;
81b22a98SMartin Matuska		} else {
81b22a98SMartin Matuska			rc->rc_abd = abd_alloc_linear(rc->rc_size, B_FALSE);
81b22a98SMartin Matuska		}
81b22a98SMartin Matuska	}
81b22a98SMartin Matuska
81b22a98SMartin Matuska	for (off = 0; c < rr->rr_cols; c++) {
81b22a98SMartin Matuska		raidz_col_t *rc = &rr->rr_col[c];
81b22a98SMartin Matuska		abd_t *abd = abd_get_offset_struct(&rc->rc_abdstruct,
81b22a98SMartin Matuska		    zio->io_abd, off, rc->rc_size);
81b22a98SMartin Matuska
81b22a98SMartin Matuska		/*
81b22a98SMartin Matuska		 * Generate I/O for skip sectors to improve aggregation
81b22a98SMartin Matuska		 * continuity. We will use gang ABD's to reduce contention
81b22a98SMartin Matuska		 * on the child VDEV queue locks (vq_lock) by issuing
81b22a98SMartin Matuska		 * a single I/O that contains the data and skip sector.
81b22a98SMartin Matuska		 *
81b22a98SMartin Matuska		 * It is important to make sure that rc_size is not updated
81b22a98SMartin Matuska		 * even though we are adding a skip sector to the ABD. When
81b22a98SMartin Matuska		 * calculating the parity in vdev_raidz_generate_parity_row()
81b22a98SMartin Matuska		 * the rc_size is used to iterate through the ABD's. We can
81b22a98SMartin Matuska		 * not have zero'd out skip sectors used for calculating
81b22a98SMartin Matuska		 * parity for raidz, because those same sectors are not used
81b22a98SMartin Matuska		 * during reconstruction.
81b22a98SMartin Matuska		 */
81b22a98SMartin Matuska		if (c >= rm->rm_skipstart && skipped < rm->rm_nskip) {
81b22a98SMartin Matuska			rc->rc_abd = abd_alloc_gang();
81b22a98SMartin Matuska			abd_gang_add(rc->rc_abd, abd, B_TRUE);
81b22a98SMartin Matuska			abd_gang_add(rc->rc_abd,
81b22a98SMartin Matuska			    abd_get_zeros(1ULL << ashift), B_TRUE);
81b22a98SMartin Matuska			skipped++;
81b22a98SMartin Matuska		} else {
81b22a98SMartin Matuska			rc->rc_abd = abd;
81b22a98SMartin Matuska		}
81b22a98SMartin Matuska		off += rc->rc_size;
81b22a98SMartin Matuska	}
81b22a98SMartin Matuska
81b22a98SMartin Matuska	ASSERT3U(off, ==, zio->io_size);
81b22a98SMartin Matuska	ASSERT3S(skipped, ==, rm->rm_nskip);
81b22a98SMartin Matuska}
81b22a98SMartin Matuska
81b22a98SMartin Matuskastatic void
81b22a98SMartin Matuskavdev_raidz_map_alloc_read(zio_t *zio, raidz_map_t *rm)
81b22a98SMartin Matuska{
81b22a98SMartin Matuska	int c;
81b22a98SMartin Matuska	raidz_row_t *rr = rm->rm_row[0];
81b22a98SMartin Matuska
81b22a98SMartin Matuska	ASSERT3U(rm->rm_nrows, ==, 1);
81b22a98SMartin Matuska
81b22a98SMartin Matuska	/* Allocate buffers for the parity columns */
81b22a98SMartin Matuska	for (c = 0; c < rr->rr_firstdatacol; c++)
81b22a98SMartin Matuska		rr->rr_col[c].rc_abd =
81b22a98SMartin Matuska		    abd_alloc_linear(rr->rr_col[c].rc_size, B_FALSE);
81b22a98SMartin Matuska
81b22a98SMartin Matuska	for (uint64_t off = 0; c < rr->rr_cols; c++) {
81b22a98SMartin Matuska		raidz_col_t *rc = &rr->rr_col[c];
81b22a98SMartin Matuska		rc->rc_abd = abd_get_offset_struct(&rc->rc_abdstruct,
81b22a98SMartin Matuska		    zio->io_abd, off, rc->rc_size);
81b22a98SMartin Matuska		off += rc->rc_size;
81b22a98SMartin Matuska	}
81b22a98SMartin Matuska}
81b22a98SMartin Matuska
eda14cbcSMatt Macy/*
eda14cbcSMatt Macy * Divides the IO evenly across all child vdevs; usually, dcols is
eda14cbcSMatt Macy * the number of children in the target vdev.
eda14cbcSMatt Macy *
eda14cbcSMatt Macy * Avoid inlining the function to keep vdev_raidz_io_start(), which
eda14cbcSMatt Macy * is this functions only caller, as small as possible on the stack.
eda14cbcSMatt Macy */
eda14cbcSMatt Macynoinline raidz_map_t *
eda14cbcSMatt Macyvdev_raidz_map_alloc(zio_t *zio, uint64_t ashift, uint64_t dcols,
eda14cbcSMatt Macy    uint64_t nparity)
eda14cbcSMatt Macy{
7877fdebSMatt Macy	raidz_row_t *rr;
eda14cbcSMatt Macy	/* The starting RAIDZ (parent) vdev sector of the block. */
eda14cbcSMatt Macy	uint64_t b = zio->io_offset >> ashift;
eda14cbcSMatt Macy	/* The zio's size in units of the vdev's minimum sector size. */
eda14cbcSMatt Macy	uint64_t s = zio->io_size >> ashift;
eda14cbcSMatt Macy	/* The first column for this stripe. */
eda14cbcSMatt Macy	uint64_t f = b % dcols;
eda14cbcSMatt Macy	/* The starting byte offset on each child vdev. */
eda14cbcSMatt Macy	uint64_t o = (b / dcols) << ashift;
e716630dSMartin Matuska	uint64_t acols, scols;
eda14cbcSMatt Macy
7877fdebSMatt Macy	raidz_map_t *rm =
7877fdebSMatt Macy	    kmem_zalloc(offsetof(raidz_map_t, rm_row[1]), KM_SLEEP);
7877fdebSMatt Macy	rm->rm_nrows = 1;
7877fdebSMatt Macy
eda14cbcSMatt Macy	/*
eda14cbcSMatt Macy	 * "Quotient": The number of data sectors for this stripe on all but
eda14cbcSMatt Macy	 * the "big column" child vdevs that also contain "remainder" data.
eda14cbcSMatt Macy	 */
e716630dSMartin Matuska	uint64_t q = s / (dcols - nparity);
eda14cbcSMatt Macy
eda14cbcSMatt Macy	/*
eda14cbcSMatt Macy	 * "Remainder": The number of partial stripe data sectors in this I/O.
eda14cbcSMatt Macy	 * This will add a sector to some, but not all, child vdevs.
eda14cbcSMatt Macy	 */
e716630dSMartin Matuska	uint64_t r = s - q * (dcols - nparity);
eda14cbcSMatt Macy
eda14cbcSMatt Macy	/* The number of "big columns" - those which contain remainder data. */
e716630dSMartin Matuska	uint64_t bc = (r == 0 ? 0 : r + nparity);
eda14cbcSMatt Macy
eda14cbcSMatt Macy	/*
eda14cbcSMatt Macy	 * The total number of data and parity sectors associated with
eda14cbcSMatt Macy	 * this I/O.
eda14cbcSMatt Macy	 */
e716630dSMartin Matuska	uint64_t tot = s + nparity * (q + (r == 0 ? 0 : 1));
eda14cbcSMatt Macy
7877fdebSMatt Macy	/*
7877fdebSMatt Macy	 * acols: The columns that will be accessed.
7877fdebSMatt Macy	 * scols: The columns that will be accessed or skipped.
7877fdebSMatt Macy	 */
eda14cbcSMatt Macy	if (q == 0) {
eda14cbcSMatt Macy		/* Our I/O request doesn't span all child vdevs. */
eda14cbcSMatt Macy		acols = bc;
eda14cbcSMatt Macy		scols = MIN(dcols, roundup(bc, nparity + 1));
eda14cbcSMatt Macy	} else {
eda14cbcSMatt Macy		acols = dcols;
eda14cbcSMatt Macy		scols = dcols;
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy
eda14cbcSMatt Macy	ASSERT3U(acols, <=, scols);
87bf66d4SMartin Matuska	rr = vdev_raidz_row_alloc(scols, zio);
7877fdebSMatt Macy	rm->rm_row[0] = rr;
7877fdebSMatt Macy	rr->rr_cols = acols;
7877fdebSMatt Macy	rr->rr_bigcols = bc;
7877fdebSMatt Macy	rr->rr_firstdatacol = nparity;
7877fdebSMatt Macy#ifdef ZFS_DEBUG
7877fdebSMatt Macy	rr->rr_offset = zio->io_offset;
7877fdebSMatt Macy	rr->rr_size = zio->io_size;
7877fdebSMatt Macy#endif
eda14cbcSMatt Macy
e716630dSMartin Matuska	uint64_t asize = 0;
eda14cbcSMatt Macy
e716630dSMartin Matuska	for (uint64_t c = 0; c < scols; c++) {
7877fdebSMatt Macy		raidz_col_t *rc = &rr->rr_col[c];
e716630dSMartin Matuska		uint64_t col = f + c;
e716630dSMartin Matuska		uint64_t coff = o;
eda14cbcSMatt Macy		if (col >= dcols) {
eda14cbcSMatt Macy			col -= dcols;
eda14cbcSMatt Macy			coff += 1ULL << ashift;
eda14cbcSMatt Macy		}
7877fdebSMatt Macy		rc->rc_devidx = col;
7877fdebSMatt Macy		rc->rc_offset = coff;
eda14cbcSMatt Macy
eda14cbcSMatt Macy		if (c >= acols)
7877fdebSMatt Macy			rc->rc_size = 0;
eda14cbcSMatt Macy		else if (c < bc)
7877fdebSMatt Macy			rc->rc_size = (q + 1) << ashift;
eda14cbcSMatt Macy		else
7877fdebSMatt Macy			rc->rc_size = q << ashift;
eda14cbcSMatt Macy
7877fdebSMatt Macy		asize += rc->rc_size;
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy
eda14cbcSMatt Macy	ASSERT3U(asize, ==, tot << ashift);
eda14cbcSMatt Macy	rm->rm_nskip = roundup(tot, nparity + 1) - tot;
7877fdebSMatt Macy	rm->rm_skipstart = bc;
eda14cbcSMatt Macy
eda14cbcSMatt Macy	/*
eda14cbcSMatt Macy	 * If all data stored spans all columns, there's a danger that parity
eda14cbcSMatt Macy	 * will always be on the same device and, since parity isn't read
eda14cbcSMatt Macy	 * during normal operation, that device's I/O bandwidth won't be
eda14cbcSMatt Macy	 * used effectively. We therefore switch the parity every 1MB.
eda14cbcSMatt Macy	 *
eda14cbcSMatt Macy	 * ... at least that was, ostensibly, the theory. As a practical
eda14cbcSMatt Macy	 * matter unless we juggle the parity between all devices evenly, we
eda14cbcSMatt Macy	 * won't see any benefit. Further, occasional writes that aren't a
eda14cbcSMatt Macy	 * multiple of the LCM of the number of children and the minimum
eda14cbcSMatt Macy	 * stripe width are sufficient to avoid pessimal behavior.
eda14cbcSMatt Macy	 * Unfortunately, this decision created an implicit on-disk format
eda14cbcSMatt Macy	 * requirement that we need to support for all eternity, but only
eda14cbcSMatt Macy	 * for single-parity RAID-Z.
eda14cbcSMatt Macy	 *
eda14cbcSMatt Macy	 * If we intend to skip a sector in the zeroth column for padding
eda14cbcSMatt Macy	 * we must make sure to note this swap. We will never intend to
eda14cbcSMatt Macy	 * skip the first column since at least one data and one parity
eda14cbcSMatt Macy	 * column must appear in each row.
eda14cbcSMatt Macy	 */
7877fdebSMatt Macy	ASSERT(rr->rr_cols >= 2);
7877fdebSMatt Macy	ASSERT(rr->rr_col[0].rc_size == rr->rr_col[1].rc_size);
eda14cbcSMatt Macy
7877fdebSMatt Macy	if (rr->rr_firstdatacol == 1 && (zio->io_offset & (1ULL << 20))) {
e716630dSMartin Matuska		uint64_t devidx = rr->rr_col[0].rc_devidx;
7877fdebSMatt Macy		o = rr->rr_col[0].rc_offset;
7877fdebSMatt Macy		rr->rr_col[0].rc_devidx = rr->rr_col[1].rc_devidx;
7877fdebSMatt Macy		rr->rr_col[0].rc_offset = rr->rr_col[1].rc_offset;
7877fdebSMatt Macy		rr->rr_col[1].rc_devidx = devidx;
7877fdebSMatt Macy		rr->rr_col[1].rc_offset = o;
eda14cbcSMatt Macy		if (rm->rm_skipstart == 0)
eda14cbcSMatt Macy			rm->rm_skipstart = 1;
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy
81b22a98SMartin Matuska	if (zio->io_type == ZIO_TYPE_WRITE) {
81b22a98SMartin Matuska		vdev_raidz_map_alloc_write(zio, rm, ashift);
81b22a98SMartin Matuska	} else {
81b22a98SMartin Matuska		vdev_raidz_map_alloc_read(zio, rm);
81b22a98SMartin Matuska	}
e716630dSMartin Matuska	/* init RAIDZ parity ops */
e716630dSMartin Matuska	rm->rm_ops = vdev_raidz_math_get_ops();
81b22a98SMartin Matuska
e716630dSMartin Matuska	return (rm);
e716630dSMartin Matuska}
e716630dSMartin Matuska
e716630dSMartin Matuska/*
e716630dSMartin Matuska * Everything before reflow_offset_synced should have been moved to the new
e716630dSMartin Matuska * location (read and write completed).  However, this may not yet be reflected
e716630dSMartin Matuska * in the on-disk format (e.g. raidz_reflow_sync() has been called but the
e716630dSMartin Matuska * uberblock has not yet been written). If reflow is not in progress,
e716630dSMartin Matuska * reflow_offset_synced should be UINT64_MAX. For each row, if the row is
e716630dSMartin Matuska * entirely before reflow_offset_synced, it will come from the new location.
e716630dSMartin Matuska * Otherwise this row will come from the old location.  Therefore, rows that
e716630dSMartin Matuska * straddle the reflow_offset_synced will come from the old location.
e716630dSMartin Matuska *
e716630dSMartin Matuska * For writes, reflow_offset_next is the next offset to copy.  If a sector has
e716630dSMartin Matuska * been copied, but not yet reflected in the on-disk progress
e716630dSMartin Matuska * (reflow_offset_synced), it will also be written to the new (already copied)
e716630dSMartin Matuska * offset.
e716630dSMartin Matuska */
e716630dSMartin Matuskanoinline raidz_map_t *
e716630dSMartin Matuskavdev_raidz_map_alloc_expanded(zio_t *zio,
e716630dSMartin Matuska    uint64_t ashift, uint64_t physical_cols, uint64_t logical_cols,
e716630dSMartin Matuska    uint64_t nparity, uint64_t reflow_offset_synced,
e716630dSMartin Matuska    uint64_t reflow_offset_next, boolean_t use_scratch)
e716630dSMartin Matuska{
e716630dSMartin Matuska	abd_t *abd = zio->io_abd;
e716630dSMartin Matuska	uint64_t offset = zio->io_offset;
e716630dSMartin Matuska	uint64_t size = zio->io_size;
e716630dSMartin Matuska
e716630dSMartin Matuska	/* The zio's size in units of the vdev's minimum sector size. */
e716630dSMartin Matuska	uint64_t s = size >> ashift;
e716630dSMartin Matuska
e716630dSMartin Matuska	/*
e716630dSMartin Matuska	 * "Quotient": The number of data sectors for this stripe on all but
e716630dSMartin Matuska	 * the "big column" child vdevs that also contain "remainder" data.
e716630dSMartin Matuska	 * AKA "full rows"
e716630dSMartin Matuska	 */
e716630dSMartin Matuska	uint64_t q = s / (logical_cols - nparity);
e716630dSMartin Matuska
e716630dSMartin Matuska	/*
e716630dSMartin Matuska	 * "Remainder": The number of partial stripe data sectors in this I/O.
e716630dSMartin Matuska	 * This will add a sector to some, but not all, child vdevs.
e716630dSMartin Matuska	 */
e716630dSMartin Matuska	uint64_t r = s - q * (logical_cols - nparity);
e716630dSMartin Matuska
e716630dSMartin Matuska	/* The number of "big columns" - those which contain remainder data. */
e716630dSMartin Matuska	uint64_t bc = (r == 0 ? 0 : r + nparity);
e716630dSMartin Matuska
e716630dSMartin Matuska	/*
e716630dSMartin Matuska	 * The total number of data and parity sectors associated with
e716630dSMartin Matuska	 * this I/O.
e716630dSMartin Matuska	 */
e716630dSMartin Matuska	uint64_t tot = s + nparity * (q + (r == 0 ? 0 : 1));
e716630dSMartin Matuska
e716630dSMartin Matuska	/* How many rows contain data (not skip) */
e716630dSMartin Matuska	uint64_t rows = howmany(tot, logical_cols);
e716630dSMartin Matuska	int cols = MIN(tot, logical_cols);
e716630dSMartin Matuska
e716630dSMartin Matuska	raidz_map_t *rm =
e716630dSMartin Matuska	    kmem_zalloc(offsetof(raidz_map_t, rm_row[rows]),
e716630dSMartin Matuska	    KM_SLEEP);
e716630dSMartin Matuska	rm->rm_nrows = rows;
e716630dSMartin Matuska	rm->rm_nskip = roundup(tot, nparity + 1) - tot;
e716630dSMartin Matuska	rm->rm_skipstart = bc;
e716630dSMartin Matuska	uint64_t asize = 0;
e716630dSMartin Matuska
e716630dSMartin Matuska	for (uint64_t row = 0; row < rows; row++) {
e716630dSMartin Matuska		boolean_t row_use_scratch = B_FALSE;
87bf66d4SMartin Matuska		raidz_row_t *rr = vdev_raidz_row_alloc(cols, zio);
e716630dSMartin Matuska		rm->rm_row[row] = rr;
e716630dSMartin Matuska
e716630dSMartin Matuska		/* The starting RAIDZ (parent) vdev sector of the row. */
e716630dSMartin Matuska		uint64_t b = (offset >> ashift) + row * logical_cols;
e716630dSMartin Matuska
e716630dSMartin Matuska		/*
e716630dSMartin Matuska		 * If we are in the middle of a reflow, and the copying has
e716630dSMartin Matuska		 * not yet completed for any part of this row, then use the
e716630dSMartin Matuska		 * old location of this row.  Note that reflow_offset_synced
e716630dSMartin Matuska		 * reflects the i/o that's been completed, because it's
e716630dSMartin Matuska		 * updated by a synctask, after zio_wait(spa_txg_zio[]).
e716630dSMartin Matuska		 * This is sufficient for our check, even if that progress
e716630dSMartin Matuska		 * has not yet been recorded to disk (reflected in
e716630dSMartin Matuska		 * spa_ubsync).  Also note that we consider the last row to
e716630dSMartin Matuska		 * be "full width" (`cols`-wide rather than `bc`-wide) for
e716630dSMartin Matuska		 * this calculation. This causes a tiny bit of unnecessary
e716630dSMartin Matuska		 * double-writes but is safe and simpler to calculate.
e716630dSMartin Matuska		 */
e716630dSMartin Matuska		int row_phys_cols = physical_cols;
e716630dSMartin Matuska		if (b + cols > reflow_offset_synced >> ashift)
e716630dSMartin Matuska			row_phys_cols--;
e716630dSMartin Matuska		else if (use_scratch)
e716630dSMartin Matuska			row_use_scratch = B_TRUE;
e716630dSMartin Matuska
e716630dSMartin Matuska		/* starting child of this row */
e716630dSMartin Matuska		uint64_t child_id = b % row_phys_cols;
e716630dSMartin Matuska		/* The starting byte offset on each child vdev. */
e716630dSMartin Matuska		uint64_t child_offset = (b / row_phys_cols) << ashift;
e716630dSMartin Matuska
e716630dSMartin Matuska		/*
e716630dSMartin Matuska		 * Note, rr_cols is the entire width of the block, even
e716630dSMartin Matuska		 * if this row is shorter.  This is needed because parity
e716630dSMartin Matuska		 * generation (for Q and R) needs to know the entire width,
e716630dSMartin Matuska		 * because it treats the short row as though it was
e716630dSMartin Matuska		 * full-width (and the "phantom" sectors were zero-filled).
e716630dSMartin Matuska		 *
e716630dSMartin Matuska		 * Another approach to this would be to set cols shorter
e716630dSMartin Matuska		 * (to just the number of columns that we might do i/o to)
e716630dSMartin Matuska		 * and have another mechanism to tell the parity generation
e716630dSMartin Matuska		 * about the "entire width".  Reconstruction (at least
e716630dSMartin Matuska		 * vdev_raidz_reconstruct_general()) would also need to
e716630dSMartin Matuska		 * know about the "entire width".
e716630dSMartin Matuska		 */
e716630dSMartin Matuska		rr->rr_firstdatacol = nparity;
e716630dSMartin Matuska#ifdef ZFS_DEBUG
e716630dSMartin Matuska		/*
e716630dSMartin Matuska		 * note: rr_size is PSIZE, not ASIZE
e716630dSMartin Matuska		 */
e716630dSMartin Matuska		rr->rr_offset = b << ashift;
e716630dSMartin Matuska		rr->rr_size = (rr->rr_cols - rr->rr_firstdatacol) << ashift;
e716630dSMartin Matuska#endif
e716630dSMartin Matuska
e716630dSMartin Matuska		for (int c = 0; c < rr->rr_cols; c++, child_id++) {
e716630dSMartin Matuska			if (child_id >= row_phys_cols) {
e716630dSMartin Matuska				child_id -= row_phys_cols;
e716630dSMartin Matuska				child_offset += 1ULL << ashift;
e716630dSMartin Matuska			}
e716630dSMartin Matuska			raidz_col_t *rc = &rr->rr_col[c];
e716630dSMartin Matuska			rc->rc_devidx = child_id;
e716630dSMartin Matuska			rc->rc_offset = child_offset;
e716630dSMartin Matuska
e716630dSMartin Matuska			/*
e716630dSMartin Matuska			 * Get this from the scratch space if appropriate.
e716630dSMartin Matuska			 * This only happens if we crashed in the middle of
e716630dSMartin Matuska			 * raidz_reflow_scratch_sync() (while it's running,
e716630dSMartin Matuska			 * the rangelock prevents us from doing concurrent
e716630dSMartin Matuska			 * io), and even then only during zpool import or
e716630dSMartin Matuska			 * when the pool is imported readonly.
e716630dSMartin Matuska			 */
e716630dSMartin Matuska			if (row_use_scratch)
e716630dSMartin Matuska				rc->rc_offset -= VDEV_BOOT_SIZE;
e716630dSMartin Matuska
e716630dSMartin Matuska			uint64_t dc = c - rr->rr_firstdatacol;
e716630dSMartin Matuska			if (c < rr->rr_firstdatacol) {
e716630dSMartin Matuska				rc->rc_size = 1ULL << ashift;
e716630dSMartin Matuska
e716630dSMartin Matuska				/*
e716630dSMartin Matuska				 * Parity sectors' rc_abd's are set below
e716630dSMartin Matuska				 * after determining if this is an aggregation.
e716630dSMartin Matuska				 */
e716630dSMartin Matuska			} else if (row == rows - 1 && bc != 0 && c >= bc) {
e716630dSMartin Matuska				/*
e716630dSMartin Matuska				 * Past the end of the block (even including
e716630dSMartin Matuska				 * skip sectors).  This sector is part of the
e716630dSMartin Matuska				 * map so that we have full rows for p/q parity
e716630dSMartin Matuska				 * generation.
e716630dSMartin Matuska				 */
e716630dSMartin Matuska				rc->rc_size = 0;
e716630dSMartin Matuska				rc->rc_abd = NULL;
e716630dSMartin Matuska			} else {
e716630dSMartin Matuska				/* "data column" (col excluding parity) */
e716630dSMartin Matuska				uint64_t off;
e716630dSMartin Matuska
e716630dSMartin Matuska				if (c < bc || r == 0) {
e716630dSMartin Matuska					off = dc * rows + row;
e716630dSMartin Matuska				} else {
e716630dSMartin Matuska					off = r * rows +
e716630dSMartin Matuska					    (dc - r) * (rows - 1) + row;
e716630dSMartin Matuska				}
e716630dSMartin Matuska				rc->rc_size = 1ULL << ashift;
e716630dSMartin Matuska				rc->rc_abd = abd_get_offset_struct(
e716630dSMartin Matuska				    &rc->rc_abdstruct, abd, off << ashift,
e716630dSMartin Matuska				    rc->rc_size);
e716630dSMartin Matuska			}
e716630dSMartin Matuska
e716630dSMartin Matuska			if (rc->rc_size == 0)
e716630dSMartin Matuska				continue;
e716630dSMartin Matuska
e716630dSMartin Matuska			/*
e716630dSMartin Matuska			 * If any part of this row is in both old and new
e716630dSMartin Matuska			 * locations, the primary location is the old
e716630dSMartin Matuska			 * location. If this sector was already copied to the
e716630dSMartin Matuska			 * new location, we need to also write to the new,
e716630dSMartin Matuska			 * "shadow" location.
e716630dSMartin Matuska			 *
e716630dSMartin Matuska			 * Note, `row_phys_cols != physical_cols` indicates
e716630dSMartin Matuska			 * that the primary location is the old location.
e716630dSMartin Matuska			 * `b+c < reflow_offset_next` indicates that the copy
e716630dSMartin Matuska			 * to the new location has been initiated. We know
e716630dSMartin Matuska			 * that the copy has completed because we have the
e716630dSMartin Matuska			 * rangelock, which is held exclusively while the
e716630dSMartin Matuska			 * copy is in progress.
e716630dSMartin Matuska			 */
e716630dSMartin Matuska			if (row_use_scratch ||
e716630dSMartin Matuska			    (row_phys_cols != physical_cols &&
e716630dSMartin Matuska			    b + c < reflow_offset_next >> ashift)) {
e716630dSMartin Matuska				rc->rc_shadow_devidx = (b + c) % physical_cols;
e716630dSMartin Matuska				rc->rc_shadow_offset =
e716630dSMartin Matuska				    ((b + c) / physical_cols) << ashift;
e716630dSMartin Matuska				if (row_use_scratch)
e716630dSMartin Matuska					rc->rc_shadow_offset -= VDEV_BOOT_SIZE;
e716630dSMartin Matuska			}
e716630dSMartin Matuska
e716630dSMartin Matuska			asize += rc->rc_size;
e716630dSMartin Matuska		}
e716630dSMartin Matuska
e716630dSMartin Matuska		/*
e716630dSMartin Matuska		 * See comment in vdev_raidz_map_alloc()
e716630dSMartin Matuska		 */
e716630dSMartin Matuska		if (rr->rr_firstdatacol == 1 && rr->rr_cols > 1 &&
e716630dSMartin Matuska		    (offset & (1ULL << 20))) {
e716630dSMartin Matuska			ASSERT(rr->rr_cols >= 2);
e716630dSMartin Matuska			ASSERT(rr->rr_col[0].rc_size == rr->rr_col[1].rc_size);
e716630dSMartin Matuska
e716630dSMartin Matuska			int devidx0 = rr->rr_col[0].rc_devidx;
e716630dSMartin Matuska			uint64_t offset0 = rr->rr_col[0].rc_offset;
e716630dSMartin Matuska			int shadow_devidx0 = rr->rr_col[0].rc_shadow_devidx;
e716630dSMartin Matuska			uint64_t shadow_offset0 =
e716630dSMartin Matuska			    rr->rr_col[0].rc_shadow_offset;
e716630dSMartin Matuska
e716630dSMartin Matuska			rr->rr_col[0].rc_devidx = rr->rr_col[1].rc_devidx;
e716630dSMartin Matuska			rr->rr_col[0].rc_offset = rr->rr_col[1].rc_offset;
e716630dSMartin Matuska			rr->rr_col[0].rc_shadow_devidx =
e716630dSMartin Matuska			    rr->rr_col[1].rc_shadow_devidx;
e716630dSMartin Matuska			rr->rr_col[0].rc_shadow_offset =
e716630dSMartin Matuska			    rr->rr_col[1].rc_shadow_offset;
e716630dSMartin Matuska
e716630dSMartin Matuska			rr->rr_col[1].rc_devidx = devidx0;
e716630dSMartin Matuska			rr->rr_col[1].rc_offset = offset0;
e716630dSMartin Matuska			rr->rr_col[1].rc_shadow_devidx = shadow_devidx0;
e716630dSMartin Matuska			rr->rr_col[1].rc_shadow_offset = shadow_offset0;
e716630dSMartin Matuska		}
e716630dSMartin Matuska	}
e716630dSMartin Matuska	ASSERT3U(asize, ==, tot << ashift);
e716630dSMartin Matuska
e716630dSMartin Matuska	/*
e716630dSMartin Matuska	 * Determine if the block is contiguous, in which case we can use
e716630dSMartin Matuska	 * an aggregation.
e716630dSMartin Matuska	 */
e716630dSMartin Matuska	if (rows >= raidz_io_aggregate_rows) {
e716630dSMartin Matuska		rm->rm_nphys_cols = physical_cols;
e716630dSMartin Matuska		rm->rm_phys_col =
e716630dSMartin Matuska		    kmem_zalloc(sizeof (raidz_col_t) * rm->rm_nphys_cols,
e716630dSMartin Matuska		    KM_SLEEP);
e716630dSMartin Matuska
e716630dSMartin Matuska		/*
e716630dSMartin Matuska		 * Determine the aggregate io's offset and size, and check
e716630dSMartin Matuska		 * that the io is contiguous.
e716630dSMartin Matuska		 */
e716630dSMartin Matuska		for (int i = 0;
e716630dSMartin Matuska		    i < rm->rm_nrows && rm->rm_phys_col != NULL; i++) {
e716630dSMartin Matuska			raidz_row_t *rr = rm->rm_row[i];
e716630dSMartin Matuska			for (int c = 0; c < rr->rr_cols; c++) {
e716630dSMartin Matuska				raidz_col_t *rc = &rr->rr_col[c];
e716630dSMartin Matuska				raidz_col_t *prc =
e716630dSMartin Matuska				    &rm->rm_phys_col[rc->rc_devidx];
e716630dSMartin Matuska
e716630dSMartin Matuska				if (rc->rc_size == 0)
e716630dSMartin Matuska					continue;
e716630dSMartin Matuska
e716630dSMartin Matuska				if (prc->rc_size == 0) {
e716630dSMartin Matuska					ASSERT0(prc->rc_offset);
e716630dSMartin Matuska					prc->rc_offset = rc->rc_offset;
e716630dSMartin Matuska				} else if (prc->rc_offset + prc->rc_size !=
e716630dSMartin Matuska				    rc->rc_offset) {
e716630dSMartin Matuska					/*
e716630dSMartin Matuska					 * This block is not contiguous and
e716630dSMartin Matuska					 * therefore can't be aggregated.
e716630dSMartin Matuska					 * This is expected to be rare, so
e716630dSMartin Matuska					 * the cost of allocating and then
e716630dSMartin Matuska					 * freeing rm_phys_col is not
e716630dSMartin Matuska					 * significant.
e716630dSMartin Matuska					 */
e716630dSMartin Matuska					kmem_free(rm->rm_phys_col,
e716630dSMartin Matuska					    sizeof (raidz_col_t) *
e716630dSMartin Matuska					    rm->rm_nphys_cols);
e716630dSMartin Matuska					rm->rm_phys_col = NULL;
e716630dSMartin Matuska					rm->rm_nphys_cols = 0;
e716630dSMartin Matuska					break;
e716630dSMartin Matuska				}
e716630dSMartin Matuska				prc->rc_size += rc->rc_size;
e716630dSMartin Matuska			}
e716630dSMartin Matuska		}
e716630dSMartin Matuska	}
e716630dSMartin Matuska	if (rm->rm_phys_col != NULL) {
e716630dSMartin Matuska		/*
e716630dSMartin Matuska		 * Allocate aggregate ABD's.
e716630dSMartin Matuska		 */
e716630dSMartin Matuska		for (int i = 0; i < rm->rm_nphys_cols; i++) {
e716630dSMartin Matuska			raidz_col_t *prc = &rm->rm_phys_col[i];
e716630dSMartin Matuska
e716630dSMartin Matuska			prc->rc_devidx = i;
e716630dSMartin Matuska
e716630dSMartin Matuska			if (prc->rc_size == 0)
e716630dSMartin Matuska				continue;
e716630dSMartin Matuska
e716630dSMartin Matuska			prc->rc_abd =
e716630dSMartin Matuska			    abd_alloc_linear(rm->rm_phys_col[i].rc_size,
e716630dSMartin Matuska			    B_FALSE);
e716630dSMartin Matuska		}
e716630dSMartin Matuska
e716630dSMartin Matuska		/*
e716630dSMartin Matuska		 * Point the parity abd's into the aggregate abd's.
e716630dSMartin Matuska		 */
e716630dSMartin Matuska		for (int i = 0; i < rm->rm_nrows; i++) {
e716630dSMartin Matuska			raidz_row_t *rr = rm->rm_row[i];
e716630dSMartin Matuska			for (int c = 0; c < rr->rr_firstdatacol; c++) {
e716630dSMartin Matuska				raidz_col_t *rc = &rr->rr_col[c];
e716630dSMartin Matuska				raidz_col_t *prc =
e716630dSMartin Matuska				    &rm->rm_phys_col[rc->rc_devidx];
e716630dSMartin Matuska				rc->rc_abd =
e716630dSMartin Matuska				    abd_get_offset_struct(&rc->rc_abdstruct,
e716630dSMartin Matuska				    prc->rc_abd,
e716630dSMartin Matuska				    rc->rc_offset - prc->rc_offset,
e716630dSMartin Matuska				    rc->rc_size);
e716630dSMartin Matuska			}
e716630dSMartin Matuska		}
e716630dSMartin Matuska	} else {
e716630dSMartin Matuska		/*
e716630dSMartin Matuska		 * Allocate new abd's for the parity sectors.
e716630dSMartin Matuska		 */
e716630dSMartin Matuska		for (int i = 0; i < rm->rm_nrows; i++) {
e716630dSMartin Matuska			raidz_row_t *rr = rm->rm_row[i];
e716630dSMartin Matuska			for (int c = 0; c < rr->rr_firstdatacol; c++) {
e716630dSMartin Matuska				raidz_col_t *rc = &rr->rr_col[c];
e716630dSMartin Matuska				rc->rc_abd =
e716630dSMartin Matuska				    abd_alloc_linear(rc->rc_size,
e716630dSMartin Matuska				    B_TRUE);
e716630dSMartin Matuska			}
e716630dSMartin Matuska		}
e716630dSMartin Matuska	}
eda14cbcSMatt Macy	/* init RAIDZ parity ops */
eda14cbcSMatt Macy	rm->rm_ops = vdev_raidz_math_get_ops();
eda14cbcSMatt Macy
eda14cbcSMatt Macy	return (rm);
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
eda14cbcSMatt Macystruct pqr_struct {
eda14cbcSMatt Macy	uint64_t *p;
eda14cbcSMatt Macy	uint64_t *q;
eda14cbcSMatt Macy	uint64_t *r;
eda14cbcSMatt Macy};
eda14cbcSMatt Macy
eda14cbcSMatt Macystatic int
eda14cbcSMatt Macyvdev_raidz_p_func(void *buf, size_t size, void *private)
eda14cbcSMatt Macy{
eda14cbcSMatt Macy	struct pqr_struct *pqr = private;
eda14cbcSMatt Macy	const uint64_t *src = buf;
e716630dSMartin Matuska	int cnt = size / sizeof (src[0]);
eda14cbcSMatt Macy
eda14cbcSMatt Macy	ASSERT(pqr->p && !pqr->q && !pqr->r);
eda14cbcSMatt Macy
e716630dSMartin Matuska	for (int i = 0; i < cnt; i++, src++, pqr->p++)
eda14cbcSMatt Macy		*pqr->p ^= *src;
eda14cbcSMatt Macy
eda14cbcSMatt Macy	return (0);
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
eda14cbcSMatt Macystatic int
eda14cbcSMatt Macyvdev_raidz_pq_func(void *buf, size_t size, void *private)
eda14cbcSMatt Macy{
eda14cbcSMatt Macy	struct pqr_struct *pqr = private;
eda14cbcSMatt Macy	const uint64_t *src = buf;
eda14cbcSMatt Macy	uint64_t mask;
e716630dSMartin Matuska	int cnt = size / sizeof (src[0]);
eda14cbcSMatt Macy
eda14cbcSMatt Macy	ASSERT(pqr->p && pqr->q && !pqr->r);
eda14cbcSMatt Macy
e716630dSMartin Matuska	for (int i = 0; i < cnt; i++, src++, pqr->p++, pqr->q++) {
eda14cbcSMatt Macy		*pqr->p ^= *src;
eda14cbcSMatt Macy		VDEV_RAIDZ_64MUL_2(*pqr->q, mask);
eda14cbcSMatt Macy		*pqr->q ^= *src;
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy
eda14cbcSMatt Macy	return (0);
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
eda14cbcSMatt Macystatic int
eda14cbcSMatt Macyvdev_raidz_pqr_func(void *buf, size_t size, void *private)
eda14cbcSMatt Macy{
eda14cbcSMatt Macy	struct pqr_struct *pqr = private;
eda14cbcSMatt Macy	const uint64_t *src = buf;
eda14cbcSMatt Macy	uint64_t mask;
e716630dSMartin Matuska	int cnt = size / sizeof (src[0]);
eda14cbcSMatt Macy
eda14cbcSMatt Macy	ASSERT(pqr->p && pqr->q && pqr->r);
eda14cbcSMatt Macy
e716630dSMartin Matuska	for (int i = 0; i < cnt; i++, src++, pqr->p++, pqr->q++, pqr->r++) {
eda14cbcSMatt Macy		*pqr->p ^= *src;
eda14cbcSMatt Macy		VDEV_RAIDZ_64MUL_2(*pqr->q, mask);
eda14cbcSMatt Macy		*pqr->q ^= *src;
eda14cbcSMatt Macy		VDEV_RAIDZ_64MUL_4(*pqr->r, mask);
eda14cbcSMatt Macy		*pqr->r ^= *src;
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy
eda14cbcSMatt Macy	return (0);
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
eda14cbcSMatt Macystatic void
7877fdebSMatt Macyvdev_raidz_generate_parity_p(raidz_row_t *rr)
eda14cbcSMatt Macy{
7877fdebSMatt Macy	uint64_t *p = abd_to_buf(rr->rr_col[VDEV_RAIDZ_P].rc_abd);
eda14cbcSMatt Macy
7877fdebSMatt Macy	for (int c = rr->rr_firstdatacol; c < rr->rr_cols; c++) {
7877fdebSMatt Macy		abd_t *src = rr->rr_col[c].rc_abd;
eda14cbcSMatt Macy
7877fdebSMatt Macy		if (c == rr->rr_firstdatacol) {
7877fdebSMatt Macy			abd_copy_to_buf(p, src, rr->rr_col[c].rc_size);
eda14cbcSMatt Macy		} else {
eda14cbcSMatt Macy			struct pqr_struct pqr = { p, NULL, NULL };
7877fdebSMatt Macy			(void) abd_iterate_func(src, 0, rr->rr_col[c].rc_size,
eda14cbcSMatt Macy			    vdev_raidz_p_func, &pqr);
eda14cbcSMatt Macy		}
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
eda14cbcSMatt Macystatic void
7877fdebSMatt Macyvdev_raidz_generate_parity_pq(raidz_row_t *rr)
eda14cbcSMatt Macy{
7877fdebSMatt Macy	uint64_t *p = abd_to_buf(rr->rr_col[VDEV_RAIDZ_P].rc_abd);
7877fdebSMatt Macy	uint64_t *q = abd_to_buf(rr->rr_col[VDEV_RAIDZ_Q].rc_abd);
7877fdebSMatt Macy	uint64_t pcnt = rr->rr_col[VDEV_RAIDZ_P].rc_size / sizeof (p[0]);
7877fdebSMatt Macy	ASSERT(rr->rr_col[VDEV_RAIDZ_P].rc_size ==
7877fdebSMatt Macy	    rr->rr_col[VDEV_RAIDZ_Q].rc_size);
eda14cbcSMatt Macy
7877fdebSMatt Macy	for (int c = rr->rr_firstdatacol; c < rr->rr_cols; c++) {
7877fdebSMatt Macy		abd_t *src = rr->rr_col[c].rc_abd;
eda14cbcSMatt Macy
7877fdebSMatt Macy		uint64_t ccnt = rr->rr_col[c].rc_size / sizeof (p[0]);
eda14cbcSMatt Macy
7877fdebSMatt Macy		if (c == rr->rr_firstdatacol) {
eda14cbcSMatt Macy			ASSERT(ccnt == pcnt || ccnt == 0);
7877fdebSMatt Macy			abd_copy_to_buf(p, src, rr->rr_col[c].rc_size);
7877fdebSMatt Macy			(void) memcpy(q, p, rr->rr_col[c].rc_size);
eda14cbcSMatt Macy
7877fdebSMatt Macy			for (uint64_t i = ccnt; i < pcnt; i++) {
eda14cbcSMatt Macy				p[i] = 0;
eda14cbcSMatt Macy				q[i] = 0;
eda14cbcSMatt Macy			}
eda14cbcSMatt Macy		} else {
eda14cbcSMatt Macy			struct pqr_struct pqr = { p, q, NULL };
eda14cbcSMatt Macy
eda14cbcSMatt Macy			ASSERT(ccnt <= pcnt);
7877fdebSMatt Macy			(void) abd_iterate_func(src, 0, rr->rr_col[c].rc_size,
eda14cbcSMatt Macy			    vdev_raidz_pq_func, &pqr);
eda14cbcSMatt Macy
eda14cbcSMatt Macy			/*
eda14cbcSMatt Macy			 * Treat short columns as though they are full of 0s.
eda14cbcSMatt Macy			 * Note that there's therefore nothing needed for P.
eda14cbcSMatt Macy			 */
7877fdebSMatt Macy			uint64_t mask;
7877fdebSMatt Macy			for (uint64_t i = ccnt; i < pcnt; i++) {
eda14cbcSMatt Macy				VDEV_RAIDZ_64MUL_2(q[i], mask);
eda14cbcSMatt Macy			}
eda14cbcSMatt Macy		}
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
eda14cbcSMatt Macystatic void
7877fdebSMatt Macyvdev_raidz_generate_parity_pqr(raidz_row_t *rr)
eda14cbcSMatt Macy{
7877fdebSMatt Macy	uint64_t *p = abd_to_buf(rr->rr_col[VDEV_RAIDZ_P].rc_abd);
7877fdebSMatt Macy	uint64_t *q = abd_to_buf(rr->rr_col[VDEV_RAIDZ_Q].rc_abd);
7877fdebSMatt Macy	uint64_t *r = abd_to_buf(rr->rr_col[VDEV_RAIDZ_R].rc_abd);
7877fdebSMatt Macy	uint64_t pcnt = rr->rr_col[VDEV_RAIDZ_P].rc_size / sizeof (p[0]);
7877fdebSMatt Macy	ASSERT(rr->rr_col[VDEV_RAIDZ_P].rc_size ==
7877fdebSMatt Macy	    rr->rr_col[VDEV_RAIDZ_Q].rc_size);
7877fdebSMatt Macy	ASSERT(rr->rr_col[VDEV_RAIDZ_P].rc_size ==
7877fdebSMatt Macy	    rr->rr_col[VDEV_RAIDZ_R].rc_size);
eda14cbcSMatt Macy
7877fdebSMatt Macy	for (int c = rr->rr_firstdatacol; c < rr->rr_cols; c++) {
7877fdebSMatt Macy		abd_t *src = rr->rr_col[c].rc_abd;
eda14cbcSMatt Macy
7877fdebSMatt Macy		uint64_t ccnt = rr->rr_col[c].rc_size / sizeof (p[0]);
eda14cbcSMatt Macy
7877fdebSMatt Macy		if (c == rr->rr_firstdatacol) {
eda14cbcSMatt Macy			ASSERT(ccnt == pcnt || ccnt == 0);
7877fdebSMatt Macy			abd_copy_to_buf(p, src, rr->rr_col[c].rc_size);
7877fdebSMatt Macy			(void) memcpy(q, p, rr->rr_col[c].rc_size);
7877fdebSMatt Macy			(void) memcpy(r, p, rr->rr_col[c].rc_size);
eda14cbcSMatt Macy
7877fdebSMatt Macy			for (uint64_t i = ccnt; i < pcnt; i++) {
eda14cbcSMatt Macy				p[i] = 0;
eda14cbcSMatt Macy				q[i] = 0;
eda14cbcSMatt Macy				r[i] = 0;
eda14cbcSMatt Macy			}
eda14cbcSMatt Macy		} else {
eda14cbcSMatt Macy			struct pqr_struct pqr = { p, q, r };
eda14cbcSMatt Macy
eda14cbcSMatt Macy			ASSERT(ccnt <= pcnt);
7877fdebSMatt Macy			(void) abd_iterate_func(src, 0, rr->rr_col[c].rc_size,
eda14cbcSMatt Macy			    vdev_raidz_pqr_func, &pqr);
eda14cbcSMatt Macy
eda14cbcSMatt Macy			/*
eda14cbcSMatt Macy			 * Treat short columns as though they are full of 0s.
eda14cbcSMatt Macy			 * Note that there's therefore nothing needed for P.
eda14cbcSMatt Macy			 */
7877fdebSMatt Macy			uint64_t mask;
7877fdebSMatt Macy			for (uint64_t i = ccnt; i < pcnt; i++) {
eda14cbcSMatt Macy				VDEV_RAIDZ_64MUL_2(q[i], mask);
eda14cbcSMatt Macy				VDEV_RAIDZ_64MUL_4(r[i], mask);
eda14cbcSMatt Macy			}
eda14cbcSMatt Macy		}
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
eda14cbcSMatt Macy/*
eda14cbcSMatt Macy * Generate RAID parity in the first virtual columns according to the number of
eda14cbcSMatt Macy * parity columns available.
eda14cbcSMatt Macy */
eda14cbcSMatt Macyvoid
7877fdebSMatt Macyvdev_raidz_generate_parity_row(raidz_map_t *rm, raidz_row_t *rr)
eda14cbcSMatt Macy{
e716630dSMartin Matuska	if (rr->rr_cols == 0) {
e716630dSMartin Matuska		/*
e716630dSMartin Matuska		 * We are handling this block one row at a time (because
e716630dSMartin Matuska		 * this block has a different logical vs physical width,
e716630dSMartin Matuska		 * due to RAIDZ expansion), and this is a pad-only row,
e716630dSMartin Matuska		 * which has no parity.
e716630dSMartin Matuska		 */
e716630dSMartin Matuska		return;
e716630dSMartin Matuska	}
7877fdebSMatt Macy
eda14cbcSMatt Macy	/* Generate using the new math implementation */
7877fdebSMatt Macy	if (vdev_raidz_math_generate(rm, rr) != RAIDZ_ORIGINAL_IMPL)
eda14cbcSMatt Macy		return;
eda14cbcSMatt Macy
7877fdebSMatt Macy	switch (rr->rr_firstdatacol) {
eda14cbcSMatt Macy	case 1:
7877fdebSMatt Macy		vdev_raidz_generate_parity_p(rr);
eda14cbcSMatt Macy		break;
eda14cbcSMatt Macy	case 2:
7877fdebSMatt Macy		vdev_raidz_generate_parity_pq(rr);
eda14cbcSMatt Macy		break;
eda14cbcSMatt Macy	case 3:
7877fdebSMatt Macy		vdev_raidz_generate_parity_pqr(rr);
eda14cbcSMatt Macy		break;
eda14cbcSMatt Macy	default:
eda14cbcSMatt Macy		cmn_err(CE_PANIC, "invalid RAID-Z configuration");
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
7877fdebSMatt Macyvoid
7877fdebSMatt Macyvdev_raidz_generate_parity(raidz_map_t *rm)
7877fdebSMatt Macy{
7877fdebSMatt Macy	for (int i = 0; i < rm->rm_nrows; i++) {
7877fdebSMatt Macy		raidz_row_t *rr = rm->rm_row[i];
7877fdebSMatt Macy		vdev_raidz_generate_parity_row(rm, rr);
7877fdebSMatt Macy	}
7877fdebSMatt Macy}
7877fdebSMatt Macy
eda14cbcSMatt Macystatic int
eda14cbcSMatt Macyvdev_raidz_reconst_p_func(void *dbuf, void *sbuf, size_t size, void *private)
eda14cbcSMatt Macy{
e92ffd9bSMartin Matuska	(void) private;
eda14cbcSMatt Macy	uint64_t *dst = dbuf;
eda14cbcSMatt Macy	uint64_t *src = sbuf;
eda14cbcSMatt Macy	int cnt = size / sizeof (src[0]);
eda14cbcSMatt Macy
eda14cbcSMatt Macy	for (int i = 0; i < cnt; i++) {
eda14cbcSMatt Macy		dst[i] ^= src[i];
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy
eda14cbcSMatt Macy	return (0);
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
eda14cbcSMatt Macystatic int
eda14cbcSMatt Macyvdev_raidz_reconst_q_pre_func(void *dbuf, void *sbuf, size_t size,
eda14cbcSMatt Macy    void *private)
eda14cbcSMatt Macy{
e92ffd9bSMartin Matuska	(void) private;
eda14cbcSMatt Macy	uint64_t *dst = dbuf;
eda14cbcSMatt Macy	uint64_t *src = sbuf;
eda14cbcSMatt Macy	uint64_t mask;
eda14cbcSMatt Macy	int cnt = size / sizeof (dst[0]);
eda14cbcSMatt Macy
eda14cbcSMatt Macy	for (int i = 0; i < cnt; i++, dst++, src++) {
eda14cbcSMatt Macy		VDEV_RAIDZ_64MUL_2(*dst, mask);
eda14cbcSMatt Macy		*dst ^= *src;
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy
eda14cbcSMatt Macy	return (0);
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
eda14cbcSMatt Macystatic int
eda14cbcSMatt Macyvdev_raidz_reconst_q_pre_tail_func(void *buf, size_t size, void *private)
eda14cbcSMatt Macy{
e92ffd9bSMartin Matuska	(void) private;
eda14cbcSMatt Macy	uint64_t *dst = buf;
eda14cbcSMatt Macy	uint64_t mask;
eda14cbcSMatt Macy	int cnt = size / sizeof (dst[0]);
eda14cbcSMatt Macy
eda14cbcSMatt Macy	for (int i = 0; i < cnt; i++, dst++) {
eda14cbcSMatt Macy		/* same operation as vdev_raidz_reconst_q_pre_func() on dst */
eda14cbcSMatt Macy		VDEV_RAIDZ_64MUL_2(*dst, mask);
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy
eda14cbcSMatt Macy	return (0);
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
eda14cbcSMatt Macystruct reconst_q_struct {
eda14cbcSMatt Macy	uint64_t *q;
eda14cbcSMatt Macy	int exp;
eda14cbcSMatt Macy};
eda14cbcSMatt Macy
eda14cbcSMatt Macystatic int
eda14cbcSMatt Macyvdev_raidz_reconst_q_post_func(void *buf, size_t size, void *private)
eda14cbcSMatt Macy{
eda14cbcSMatt Macy	struct reconst_q_struct *rq = private;
eda14cbcSMatt Macy	uint64_t *dst = buf;
eda14cbcSMatt Macy	int cnt = size / sizeof (dst[0]);
eda14cbcSMatt Macy
eda14cbcSMatt Macy	for (int i = 0; i < cnt; i++, dst++, rq->q++) {
eda14cbcSMatt Macy		int j;
eda14cbcSMatt Macy		uint8_t *b;
eda14cbcSMatt Macy
eda14cbcSMatt Macy		*dst ^= *rq->q;
eda14cbcSMatt Macy		for (j = 0, b = (uint8_t *)dst; j < 8; j++, b++) {
eda14cbcSMatt Macy			*b = vdev_raidz_exp2(*b, rq->exp);
eda14cbcSMatt Macy		}
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy
eda14cbcSMatt Macy	return (0);
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
eda14cbcSMatt Macystruct reconst_pq_struct {
eda14cbcSMatt Macy	uint8_t *p;
eda14cbcSMatt Macy	uint8_t *q;
eda14cbcSMatt Macy	uint8_t *pxy;
eda14cbcSMatt Macy	uint8_t *qxy;
eda14cbcSMatt Macy	int aexp;
eda14cbcSMatt Macy	int bexp;
eda14cbcSMatt Macy};
eda14cbcSMatt Macy
eda14cbcSMatt Macystatic int
eda14cbcSMatt Macyvdev_raidz_reconst_pq_func(void *xbuf, void *ybuf, size_t size, void *private)
eda14cbcSMatt Macy{
eda14cbcSMatt Macy	struct reconst_pq_struct *rpq = private;
eda14cbcSMatt Macy	uint8_t *xd = xbuf;
eda14cbcSMatt Macy	uint8_t *yd = ybuf;
eda14cbcSMatt Macy
eda14cbcSMatt Macy	for (int i = 0; i < size;
eda14cbcSMatt Macy	    i++, rpq->p++, rpq->q++, rpq->pxy++, rpq->qxy++, xd++, yd++) {
eda14cbcSMatt Macy		*xd = vdev_raidz_exp2(*rpq->p ^ *rpq->pxy, rpq->aexp) ^
eda14cbcSMatt Macy		    vdev_raidz_exp2(*rpq->q ^ *rpq->qxy, rpq->bexp);
eda14cbcSMatt Macy		*yd = *rpq->p ^ *rpq->pxy ^ *xd;
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy
eda14cbcSMatt Macy	return (0);
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
eda14cbcSMatt Macystatic int
eda14cbcSMatt Macyvdev_raidz_reconst_pq_tail_func(void *xbuf, size_t size, void *private)
eda14cbcSMatt Macy{
eda14cbcSMatt Macy	struct reconst_pq_struct *rpq = private;
eda14cbcSMatt Macy	uint8_t *xd = xbuf;
eda14cbcSMatt Macy
eda14cbcSMatt Macy	for (int i = 0; i < size;
eda14cbcSMatt Macy	    i++, rpq->p++, rpq->q++, rpq->pxy++, rpq->qxy++, xd++) {
eda14cbcSMatt Macy		/* same operation as vdev_raidz_reconst_pq_func() on xd */
eda14cbcSMatt Macy		*xd = vdev_raidz_exp2(*rpq->p ^ *rpq->pxy, rpq->aexp) ^
eda14cbcSMatt Macy		    vdev_raidz_exp2(*rpq->q ^ *rpq->qxy, rpq->bexp);
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy
eda14cbcSMatt Macy	return (0);
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
f9693befSMartin Matuskastatic void
7877fdebSMatt Macyvdev_raidz_reconstruct_p(raidz_row_t *rr, int *tgts, int ntgts)
eda14cbcSMatt Macy{
eda14cbcSMatt Macy	int x = tgts[0];
eda14cbcSMatt Macy	abd_t *dst, *src;
eda14cbcSMatt Macy
e716630dSMartin Matuska	if (zfs_flags & ZFS_DEBUG_RAIDZ_RECONSTRUCT)
e716630dSMartin Matuska		zfs_dbgmsg("reconstruct_p(rm=%px x=%u)", rr, x);
e716630dSMartin Matuska
7877fdebSMatt Macy	ASSERT3U(ntgts, ==, 1);
7877fdebSMatt Macy	ASSERT3U(x, >=, rr->rr_firstdatacol);
7877fdebSMatt Macy	ASSERT3U(x, <, rr->rr_cols);
eda14cbcSMatt Macy
7877fdebSMatt Macy	ASSERT3U(rr->rr_col[x].rc_size, <=, rr->rr_col[VDEV_RAIDZ_P].rc_size);
eda14cbcSMatt Macy
7877fdebSMatt Macy	src = rr->rr_col[VDEV_RAIDZ_P].rc_abd;
7877fdebSMatt Macy	dst = rr->rr_col[x].rc_abd;
eda14cbcSMatt Macy
7877fdebSMatt Macy	abd_copy_from_buf(dst, abd_to_buf(src), rr->rr_col[x].rc_size);
eda14cbcSMatt Macy
7877fdebSMatt Macy	for (int c = rr->rr_firstdatacol; c < rr->rr_cols; c++) {
7877fdebSMatt Macy		uint64_t size = MIN(rr->rr_col[x].rc_size,
7877fdebSMatt Macy		    rr->rr_col[c].rc_size);
eda14cbcSMatt Macy
7877fdebSMatt Macy		src = rr->rr_col[c].rc_abd;
eda14cbcSMatt Macy
eda14cbcSMatt Macy		if (c == x)
eda14cbcSMatt Macy			continue;
eda14cbcSMatt Macy
eda14cbcSMatt Macy		(void) abd_iterate_func2(dst, src, 0, 0, size,
eda14cbcSMatt Macy		    vdev_raidz_reconst_p_func, NULL);
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
f9693befSMartin Matuskastatic void
7877fdebSMatt Macyvdev_raidz_reconstruct_q(raidz_row_t *rr, int *tgts, int ntgts)
eda14cbcSMatt Macy{
eda14cbcSMatt Macy	int x = tgts[0];
eda14cbcSMatt Macy	int c, exp;
eda14cbcSMatt Macy	abd_t *dst, *src;
eda14cbcSMatt Macy
e716630dSMartin Matuska	if (zfs_flags & ZFS_DEBUG_RAIDZ_RECONSTRUCT)
e716630dSMartin Matuska		zfs_dbgmsg("reconstruct_q(rm=%px x=%u)", rr, x);
e716630dSMartin Matuska
eda14cbcSMatt Macy	ASSERT(ntgts == 1);
eda14cbcSMatt Macy
7877fdebSMatt Macy	ASSERT(rr->rr_col[x].rc_size <= rr->rr_col[VDEV_RAIDZ_Q].rc_size);
eda14cbcSMatt Macy
7877fdebSMatt Macy	for (c = rr->rr_firstdatacol; c < rr->rr_cols; c++) {
7877fdebSMatt Macy		uint64_t size = (c == x) ? 0 : MIN(rr->rr_col[x].rc_size,
7877fdebSMatt Macy		    rr->rr_col[c].rc_size);
eda14cbcSMatt Macy
7877fdebSMatt Macy		src = rr->rr_col[c].rc_abd;
7877fdebSMatt Macy		dst = rr->rr_col[x].rc_abd;
eda14cbcSMatt Macy
7877fdebSMatt Macy		if (c == rr->rr_firstdatacol) {
eda14cbcSMatt Macy			abd_copy(dst, src, size);
7877fdebSMatt Macy			if (rr->rr_col[x].rc_size > size) {
eda14cbcSMatt Macy				abd_zero_off(dst, size,
7877fdebSMatt Macy				    rr->rr_col[x].rc_size - size);
7877fdebSMatt Macy			}
eda14cbcSMatt Macy		} else {
7877fdebSMatt Macy			ASSERT3U(size, <=, rr->rr_col[x].rc_size);
eda14cbcSMatt Macy			(void) abd_iterate_func2(dst, src, 0, 0, size,
eda14cbcSMatt Macy			    vdev_raidz_reconst_q_pre_func, NULL);
eda14cbcSMatt Macy			(void) abd_iterate_func(dst,
7877fdebSMatt Macy			    size, rr->rr_col[x].rc_size - size,
eda14cbcSMatt Macy			    vdev_raidz_reconst_q_pre_tail_func, NULL);
eda14cbcSMatt Macy		}
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy
7877fdebSMatt Macy	src = rr->rr_col[VDEV_RAIDZ_Q].rc_abd;
7877fdebSMatt Macy	dst = rr->rr_col[x].rc_abd;
7877fdebSMatt Macy	exp = 255 - (rr->rr_cols - 1 - x);
eda14cbcSMatt Macy
eda14cbcSMatt Macy	struct reconst_q_struct rq = { abd_to_buf(src), exp };
7877fdebSMatt Macy	(void) abd_iterate_func(dst, 0, rr->rr_col[x].rc_size,
eda14cbcSMatt Macy	    vdev_raidz_reconst_q_post_func, &rq);
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
f9693befSMartin Matuskastatic void
7877fdebSMatt Macyvdev_raidz_reconstruct_pq(raidz_row_t *rr, int *tgts, int ntgts)
eda14cbcSMatt Macy{
eda14cbcSMatt Macy	uint8_t *p, *q, *pxy, *qxy, tmp, a, b, aexp, bexp;
eda14cbcSMatt Macy	abd_t *pdata, *qdata;
eda14cbcSMatt Macy	uint64_t xsize, ysize;
eda14cbcSMatt Macy	int x = tgts[0];
eda14cbcSMatt Macy	int y = tgts[1];
eda14cbcSMatt Macy	abd_t *xd, *yd;
eda14cbcSMatt Macy
e716630dSMartin Matuska	if (zfs_flags & ZFS_DEBUG_RAIDZ_RECONSTRUCT)
e716630dSMartin Matuska		zfs_dbgmsg("reconstruct_pq(rm=%px x=%u y=%u)", rr, x, y);
e716630dSMartin Matuska
eda14cbcSMatt Macy	ASSERT(ntgts == 2);
eda14cbcSMatt Macy	ASSERT(x < y);
7877fdebSMatt Macy	ASSERT(x >= rr->rr_firstdatacol);
7877fdebSMatt Macy	ASSERT(y < rr->rr_cols);
eda14cbcSMatt Macy
7877fdebSMatt Macy	ASSERT(rr->rr_col[x].rc_size >= rr->rr_col[y].rc_size);
eda14cbcSMatt Macy
eda14cbcSMatt Macy	/*
eda14cbcSMatt Macy	 * Move the parity data aside -- we're going to compute parity as
eda14cbcSMatt Macy	 * though columns x and y were full of zeros -- Pxy and Qxy. We want to
eda14cbcSMatt Macy	 * reuse the parity generation mechanism without trashing the actual
eda14cbcSMatt Macy	 * parity so we make those columns appear to be full of zeros by
eda14cbcSMatt Macy	 * setting their lengths to zero.
eda14cbcSMatt Macy	 */
7877fdebSMatt Macy	pdata = rr->rr_col[VDEV_RAIDZ_P].rc_abd;
7877fdebSMatt Macy	qdata = rr->rr_col[VDEV_RAIDZ_Q].rc_abd;
7877fdebSMatt Macy	xsize = rr->rr_col[x].rc_size;
7877fdebSMatt Macy	ysize = rr->rr_col[y].rc_size;
eda14cbcSMatt Macy
7877fdebSMatt Macy	rr->rr_col[VDEV_RAIDZ_P].rc_abd =
7877fdebSMatt Macy	    abd_alloc_linear(rr->rr_col[VDEV_RAIDZ_P].rc_size, B_TRUE);
7877fdebSMatt Macy	rr->rr_col[VDEV_RAIDZ_Q].rc_abd =
7877fdebSMatt Macy	    abd_alloc_linear(rr->rr_col[VDEV_RAIDZ_Q].rc_size, B_TRUE);
7877fdebSMatt Macy	rr->rr_col[x].rc_size = 0;
7877fdebSMatt Macy	rr->rr_col[y].rc_size = 0;
eda14cbcSMatt Macy
7877fdebSMatt Macy	vdev_raidz_generate_parity_pq(rr);
eda14cbcSMatt Macy
7877fdebSMatt Macy	rr->rr_col[x].rc_size = xsize;
7877fdebSMatt Macy	rr->rr_col[y].rc_size = ysize;
eda14cbcSMatt Macy
eda14cbcSMatt Macy	p = abd_to_buf(pdata);
eda14cbcSMatt Macy	q = abd_to_buf(qdata);
7877fdebSMatt Macy	pxy = abd_to_buf(rr->rr_col[VDEV_RAIDZ_P].rc_abd);
7877fdebSMatt Macy	qxy = abd_to_buf(rr->rr_col[VDEV_RAIDZ_Q].rc_abd);
7877fdebSMatt Macy	xd = rr->rr_col[x].rc_abd;
7877fdebSMatt Macy	yd = rr->rr_col[y].rc_abd;
eda14cbcSMatt Macy
eda14cbcSMatt Macy	/*
eda14cbcSMatt Macy	 * We now have:
eda14cbcSMatt Macy	 *	Pxy = P + D_x + D_y
eda14cbcSMatt Macy	 *	Qxy = Q + 2^(ndevs - 1 - x) * D_x + 2^(ndevs - 1 - y) * D_y
eda14cbcSMatt Macy	 *
eda14cbcSMatt Macy	 * We can then solve for D_x:
eda14cbcSMatt Macy	 *	D_x = A * (P + Pxy) + B * (Q + Qxy)
eda14cbcSMatt Macy	 * where
eda14cbcSMatt Macy	 *	A = 2^(x - y) * (2^(x - y) + 1)^-1
eda14cbcSMatt Macy	 *	B = 2^(ndevs - 1 - x) * (2^(x - y) + 1)^-1
eda14cbcSMatt Macy	 *
eda14cbcSMatt Macy	 * With D_x in hand, we can easily solve for D_y:
eda14cbcSMatt Macy	 *	D_y = P + Pxy + D_x
eda14cbcSMatt Macy	 */
eda14cbcSMatt Macy
eda14cbcSMatt Macy	a = vdev_raidz_pow2[255 + x - y];
7877fdebSMatt Macy	b = vdev_raidz_pow2[255 - (rr->rr_cols - 1 - x)];
eda14cbcSMatt Macy	tmp = 255 - vdev_raidz_log2[a ^ 1];
eda14cbcSMatt Macy
eda14cbcSMatt Macy	aexp = vdev_raidz_log2[vdev_raidz_exp2(a, tmp)];
eda14cbcSMatt Macy	bexp = vdev_raidz_log2[vdev_raidz_exp2(b, tmp)];
eda14cbcSMatt Macy
eda14cbcSMatt Macy	ASSERT3U(xsize, >=, ysize);
eda14cbcSMatt Macy	struct reconst_pq_struct rpq = { p, q, pxy, qxy, aexp, bexp };
eda14cbcSMatt Macy
eda14cbcSMatt Macy	(void) abd_iterate_func2(xd, yd, 0, 0, ysize,
eda14cbcSMatt Macy	    vdev_raidz_reconst_pq_func, &rpq);
eda14cbcSMatt Macy	(void) abd_iterate_func(xd, ysize, xsize - ysize,
eda14cbcSMatt Macy	    vdev_raidz_reconst_pq_tail_func, &rpq);
eda14cbcSMatt Macy
7877fdebSMatt Macy	abd_free(rr->rr_col[VDEV_RAIDZ_P].rc_abd);
7877fdebSMatt Macy	abd_free(rr->rr_col[VDEV_RAIDZ_Q].rc_abd);
eda14cbcSMatt Macy
eda14cbcSMatt Macy	/*
eda14cbcSMatt Macy	 * Restore the saved parity data.
eda14cbcSMatt Macy	 */
7877fdebSMatt Macy	rr->rr_col[VDEV_RAIDZ_P].rc_abd = pdata;
7877fdebSMatt Macy	rr->rr_col[VDEV_RAIDZ_Q].rc_abd = qdata;
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
eda14cbcSMatt Macy/*
eda14cbcSMatt Macy * In the general case of reconstruction, we must solve the system of linear
eda14cbcSMatt Macy * equations defined by the coefficients used to generate parity as well as
eda14cbcSMatt Macy * the contents of the data and parity disks. This can be expressed with
eda14cbcSMatt Macy * vectors for the original data (D) and the actual data (d) and parity (p)
eda14cbcSMatt Macy * and a matrix composed of the identity matrix (I) and a dispersal matrix (V):
eda14cbcSMatt Macy *
eda14cbcSMatt Macy *            __   __                     __     __
eda14cbcSMatt Macy *            |     |         __     __   |  p_0  |
eda14cbcSMatt Macy *            |  V  |         |  D_0  |   | p_m-1 |
eda14cbcSMatt Macy *            |     |    x    |   :   | = |  d_0  |
eda14cbcSMatt Macy *            |  I  |         | D_n-1 |   |   :   |
eda14cbcSMatt Macy *            |     |         ~~     ~~   | d_n-1 |
eda14cbcSMatt Macy *            ~~   ~~                     ~~     ~~
eda14cbcSMatt Macy *
eda14cbcSMatt Macy * I is simply a square identity matrix of size n, and V is a vandermonde
eda14cbcSMatt Macy * matrix defined by the coefficients we chose for the various parity columns
eda14cbcSMatt Macy * (1, 2, 4). Note that these values were chosen both for simplicity, speedy
eda14cbcSMatt Macy * computation as well as linear separability.
eda14cbcSMatt Macy *
eda14cbcSMatt Macy *      __               __               __     __
eda14cbcSMatt Macy *      |   1   ..  1 1 1 |               |  p_0  |
eda14cbcSMatt Macy *      | 2^n-1 ..  4 2 1 |   __     __   |   :   |
eda14cbcSMatt Macy *      | 4^n-1 .. 16 4 1 |   |  D_0  |   | p_m-1 |
eda14cbcSMatt Macy *      |   1   ..  0 0 0 |   |  D_1  |   |  d_0  |
eda14cbcSMatt Macy *      |   0   ..  0 0 0 | x |  D_2  | = |  d_1  |
eda14cbcSMatt Macy *      |   :       : : : |   |   :   |   |  d_2  |
eda14cbcSMatt Macy *      |   0   ..  1 0 0 |   | D_n-1 |   |   :   |
eda14cbcSMatt Macy *      |   0   ..  0 1 0 |   ~~     ~~   |   :   |
eda14cbcSMatt Macy *      |   0   ..  0 0 1 |               | d_n-1 |
eda14cbcSMatt Macy *      ~~               ~~               ~~     ~~
eda14cbcSMatt Macy *
eda14cbcSMatt Macy * Note that I, V, d, and p are known. To compute D, we must invert the
eda14cbcSMatt Macy * matrix and use the known data and parity values to reconstruct the unknown
eda14cbcSMatt Macy * data values. We begin by removing the rows in V|I and d|p that correspond
eda14cbcSMatt Macy * to failed or missing columns; we then make V|I square (n x n) and d|p
eda14cbcSMatt Macy * sized n by removing rows corresponding to unused parity from the bottom up
eda14cbcSMatt Macy * to generate (V|I)' and (d|p)'. We can then generate the inverse of (V|I)'
eda14cbcSMatt Macy * using Gauss-Jordan elimination. In the example below we use m=3 parity
eda14cbcSMatt Macy * columns, n=8 data columns, with errors in d_1, d_2, and p_1:
eda14cbcSMatt Macy *           __                               __
eda14cbcSMatt Macy *           |  1   1   1   1   1   1   1   1  |
eda14cbcSMatt Macy *           | 128  64  32  16  8   4   2   1  | <-----+-+-- missing disks
eda14cbcSMatt Macy *           |  19 205 116  29  64  16  4   1  |      / /
eda14cbcSMatt Macy *           |  1   0   0   0   0   0   0   0  |     / /
eda14cbcSMatt Macy *           |  0   1   0   0   0   0   0   0  | <--' /
eda14cbcSMatt Macy *  (V|I)  = |  0   0   1   0   0   0   0   0  | <---'
eda14cbcSMatt Macy *           |  0   0   0   1   0   0   0   0  |
eda14cbcSMatt Macy *           |  0   0   0   0   1   0   0   0  |
eda14cbcSMatt Macy *           |  0   0   0   0   0   1   0   0  |
eda14cbcSMatt Macy *           |  0   0   0   0   0   0   1   0  |
eda14cbcSMatt Macy *           |  0   0   0   0   0   0   0   1  |
eda14cbcSMatt Macy *           ~~                               ~~
eda14cbcSMatt Macy *           __                               __
eda14cbcSMatt Macy *           |  1   1   1   1   1   1   1   1  |
eda14cbcSMatt Macy *           | 128  64  32  16  8   4   2   1  |
eda14cbcSMatt Macy *           |  19 205 116  29  64  16  4   1  |
eda14cbcSMatt Macy *           |  1   0   0   0   0   0   0   0  |
eda14cbcSMatt Macy *           |  0   1   0   0   0   0   0   0  |
eda14cbcSMatt Macy *  (V|I)' = |  0   0   1   0   0   0   0   0  |
eda14cbcSMatt Macy *           |  0   0   0   1   0   0   0   0  |
eda14cbcSMatt Macy *           |  0   0   0   0   1   0   0   0  |
eda14cbcSMatt Macy *           |  0   0   0   0   0   1   0   0  |
eda14cbcSMatt Macy *           |  0   0   0   0   0   0   1   0  |
eda14cbcSMatt Macy *           |  0   0   0   0   0   0   0   1  |
eda14cbcSMatt Macy *           ~~                               ~~
eda14cbcSMatt Macy *
eda14cbcSMatt Macy * Here we employ Gauss-Jordan elimination to find the inverse of (V|I)'. We
eda14cbcSMatt Macy * have carefully chosen the seed values 1, 2, and 4 to ensure that this
eda14cbcSMatt Macy * matrix is not singular.
eda14cbcSMatt Macy * __                                                                 __
eda14cbcSMatt Macy * |  1   1   1   1   1   1   1   1     1   0   0   0   0   0   0   0  |
eda14cbcSMatt Macy * |  19 205 116  29  64  16  4   1     0   1   0   0   0   0   0   0  |
eda14cbcSMatt Macy * |  1   0   0   0   0   0   0   0     0   0   1   0   0   0   0   0  |
eda14cbcSMatt Macy * |  0   0   0   1   0   0   0   0     0   0   0   1   0   0   0   0  |
eda14cbcSMatt Macy * |  0   0   0   0   1   0   0   0     0   0   0   0   1   0   0   0  |
eda14cbcSMatt Macy * |  0   0   0   0   0   1   0   0     0   0   0   0   0   1   0   0  |
eda14cbcSMatt Macy * |  0   0   0   0   0   0   1   0     0   0   0   0   0   0   1   0  |
eda14cbcSMatt Macy * |  0   0   0   0   0   0   0   1     0   0   0   0   0   0   0   1  |
eda14cbcSMatt Macy * ~~                                                                 ~~
eda14cbcSMatt Macy * __                                                                 __
eda14cbcSMatt Macy * |  1   0   0   0   0   0   0   0     0   0   1   0   0   0   0   0  |
eda14cbcSMatt Macy * |  1   1   1   1   1   1   1   1     1   0   0   0   0   0   0   0  |
eda14cbcSMatt Macy * |  19 205 116  29  64  16  4   1     0   1   0   0   0   0   0   0  |
eda14cbcSMatt Macy * |  0   0   0   1   0   0   0   0     0   0   0   1   0   0   0   0  |
eda14cbcSMatt Macy * |  0   0   0   0   1   0   0   0     0   0   0   0   1   0   0   0  |
eda14cbcSMatt Macy * |  0   0   0   0   0   1   0   0     0   0   0   0   0   1   0   0  |
eda14cbcSMatt Macy * |  0   0   0   0   0   0   1   0     0   0   0   0   0   0   1   0  |
eda14cbcSMatt Macy * |  0   0   0   0   0   0   0   1     0   0   0   0   0   0   0   1  |
eda14cbcSMatt Macy * ~~                                                                 ~~
eda14cbcSMatt Macy * __                                                                 __
eda14cbcSMatt Macy * |  1   0   0   0   0   0   0   0     0   0   1   0   0   0   0   0  |
eda14cbcSMatt Macy * |  0   1   1   0   0   0   0   0     1   0   1   1   1   1   1   1  |
eda14cbcSMatt Macy * |  0  205 116  0   0   0   0   0     0   1   19  29  64  16  4   1  |
eda14cbcSMatt Macy * |  0   0   0   1   0   0   0   0     0   0   0   1   0   0   0   0  |
eda14cbcSMatt Macy * |  0   0   0   0   1   0   0   0     0   0   0   0   1   0   0   0  |
eda14cbcSMatt Macy * |  0   0   0   0   0   1   0   0     0   0   0   0   0   1   0   0  |
eda14cbcSMatt Macy * |  0   0   0   0   0   0   1   0     0   0   0   0   0   0   1   0  |
eda14cbcSMatt Macy * |  0   0   0   0   0   0   0   1     0   0   0   0   0   0   0   1  |
eda14cbcSMatt Macy * ~~                                                                 ~~
eda14cbcSMatt Macy * __                                                                 __
eda14cbcSMatt Macy * |  1   0   0   0   0   0   0   0     0   0   1   0   0   0   0   0  |
eda14cbcSMatt Macy * |  0   1   1   0   0   0   0   0     1   0   1   1   1   1   1   1  |
eda14cbcSMatt Macy * |  0   0  185  0   0   0   0   0    205  1  222 208 141 221 201 204 |
eda14cbcSMatt Macy * |  0   0   0   1   0   0   0   0     0   0   0   1   0   0   0   0  |
eda14cbcSMatt Macy * |  0   0   0   0   1   0   0   0     0   0   0   0   1   0   0   0  |
eda14cbcSMatt Macy * |  0   0   0   0   0   1   0   0     0   0   0   0   0   1   0   0  |
eda14cbcSMatt Macy * |  0   0   0   0   0   0   1   0     0   0   0   0   0   0   1   0  |
eda14cbcSMatt Macy * |  0   0   0   0   0   0   0   1     0   0   0   0   0   0   0   1  |
eda14cbcSMatt Macy * ~~                                                                 ~~
eda14cbcSMatt Macy * __                                                                 __
eda14cbcSMatt Macy * |  1   0   0   0   0   0   0   0     0   0   1   0   0   0   0   0  |
eda14cbcSMatt Macy * |  0   1   1   0   0   0   0   0     1   0   1   1   1   1   1   1  |
eda14cbcSMatt Macy * |  0   0   1   0   0   0   0   0    166 100  4   40 158 168 216 209 |
eda14cbcSMatt Macy * |  0   0   0   1   0   0   0   0     0   0   0   1   0   0   0   0  |
eda14cbcSMatt Macy * |  0   0   0   0   1   0   0   0     0   0   0   0   1   0   0   0  |
eda14cbcSMatt Macy * |  0   0   0   0   0   1   0   0     0   0   0   0   0   1   0   0  |
eda14cbcSMatt Macy * |  0   0   0   0   0   0   1   0     0   0   0   0   0   0   1   0  |
eda14cbcSMatt Macy * |  0   0   0   0   0   0   0   1     0   0   0   0   0   0   0   1  |
eda14cbcSMatt Macy * ~~                                                                 ~~
eda14cbcSMatt Macy * __                                                                 __
eda14cbcSMatt Macy * |  1   0   0   0   0   0   0   0     0   0   1   0   0   0   0   0  |
eda14cbcSMatt Macy * |  0   1   0   0   0   0   0   0    167 100  5   41 159 169 217 208 |
eda14cbcSMatt Macy * |  0   0   1   0   0   0   0   0    166 100  4   40 158 168 216 209 |
eda14cbcSMatt Macy * |  0   0   0   1   0   0   0   0     0   0   0   1   0   0   0   0  |
eda14cbcSMatt Macy * |  0   0   0   0   1   0   0   0     0   0   0   0   1   0   0   0  |
eda14cbcSMatt Macy * |  0   0   0   0   0   1   0   0     0   0   0   0   0   1   0   0  |
eda14cbcSMatt Macy * |  0   0   0   0   0   0   1   0     0   0   0   0   0   0   1   0  |
eda14cbcSMatt Macy * |  0   0   0   0   0   0   0   1     0   0   0   0   0   0   0   1  |
eda14cbcSMatt Macy * ~~                                                                 ~~
eda14cbcSMatt Macy *                   __                               __
eda14cbcSMatt Macy *                   |  0   0   1   0   0   0   0   0  |
eda14cbcSMatt Macy *                   | 167 100  5   41 159 169 217 208 |
eda14cbcSMatt Macy *                   | 166 100  4   40 158 168 216 209 |
eda14cbcSMatt Macy *       (V|I)'^-1 = |  0   0   0   1   0   0   0   0  |
eda14cbcSMatt Macy *                   |  0   0   0   0   1   0   0   0  |
eda14cbcSMatt Macy *                   |  0   0   0   0   0   1   0   0  |
eda14cbcSMatt Macy *                   |  0   0   0   0   0   0   1   0  |
eda14cbcSMatt Macy *                   |  0   0   0   0   0   0   0   1  |
eda14cbcSMatt Macy *                   ~~                               ~~
eda14cbcSMatt Macy *
eda14cbcSMatt Macy * We can then simply compute D = (V|I)'^-1 x (d|p)' to discover the values
eda14cbcSMatt Macy * of the missing data.
eda14cbcSMatt Macy *
eda14cbcSMatt Macy * As is apparent from the example above, the only non-trivial rows in the
eda14cbcSMatt Macy * inverse matrix correspond to the data disks that we're trying to
eda14cbcSMatt Macy * reconstruct. Indeed, those are the only rows we need as the others would
eda14cbcSMatt Macy * only be useful for reconstructing data known or assumed to be valid. For
eda14cbcSMatt Macy * that reason, we only build the coefficients in the rows that correspond to
eda14cbcSMatt Macy * targeted columns.
eda14cbcSMatt Macy */
eda14cbcSMatt Macy
eda14cbcSMatt Macystatic void
7877fdebSMatt Macyvdev_raidz_matrix_init(raidz_row_t *rr, int n, int nmap, int *map,
eda14cbcSMatt Macy    uint8_t **rows)
eda14cbcSMatt Macy{
eda14cbcSMatt Macy	int i, j;
eda14cbcSMatt Macy	int pow;
eda14cbcSMatt Macy
7877fdebSMatt Macy	ASSERT(n == rr->rr_cols - rr->rr_firstdatacol);
eda14cbcSMatt Macy
eda14cbcSMatt Macy	/*
eda14cbcSMatt Macy	 * Fill in the missing rows of interest.
eda14cbcSMatt Macy	 */
eda14cbcSMatt Macy	for (i = 0; i < nmap; i++) {
eda14cbcSMatt Macy		ASSERT3S(0, <=, map[i]);
eda14cbcSMatt Macy		ASSERT3S(map[i], <=, 2);
eda14cbcSMatt Macy
eda14cbcSMatt Macy		pow = map[i] * n;
eda14cbcSMatt Macy		if (pow > 255)
eda14cbcSMatt Macy			pow -= 255;
eda14cbcSMatt Macy		ASSERT(pow <= 255);
eda14cbcSMatt Macy
eda14cbcSMatt Macy		for (j = 0; j < n; j++) {
eda14cbcSMatt Macy			pow -= map[i];
eda14cbcSMatt Macy			if (pow < 0)
eda14cbcSMatt Macy				pow += 255;
eda14cbcSMatt Macy			rows[i][j] = vdev_raidz_pow2[pow];
eda14cbcSMatt Macy		}
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
eda14cbcSMatt Macystatic void
7877fdebSMatt Macyvdev_raidz_matrix_invert(raidz_row_t *rr, int n, int nmissing, int *missing,
eda14cbcSMatt Macy    uint8_t **rows, uint8_t **invrows, const uint8_t *used)
eda14cbcSMatt Macy{
eda14cbcSMatt Macy	int i, j, ii, jj;
eda14cbcSMatt Macy	uint8_t log;
eda14cbcSMatt Macy
eda14cbcSMatt Macy	/*
eda14cbcSMatt Macy	 * Assert that the first nmissing entries from the array of used
eda14cbcSMatt Macy	 * columns correspond to parity columns and that subsequent entries
eda14cbcSMatt Macy	 * correspond to data columns.
eda14cbcSMatt Macy	 */
eda14cbcSMatt Macy	for (i = 0; i < nmissing; i++) {
7877fdebSMatt Macy		ASSERT3S(used[i], <, rr->rr_firstdatacol);
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy	for (; i < n; i++) {
7877fdebSMatt Macy		ASSERT3S(used[i], >=, rr->rr_firstdatacol);
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy
eda14cbcSMatt Macy	/*
eda14cbcSMatt Macy	 * First initialize the storage where we'll compute the inverse rows.
eda14cbcSMatt Macy	 */
eda14cbcSMatt Macy	for (i = 0; i < nmissing; i++) {
eda14cbcSMatt Macy		for (j = 0; j < n; j++) {
eda14cbcSMatt Macy			invrows[i][j] = (i == j) ? 1 : 0;
eda14cbcSMatt Macy		}
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy
eda14cbcSMatt Macy	/*
eda14cbcSMatt Macy	 * Subtract all trivial rows from the rows of consequence.
eda14cbcSMatt Macy	 */
eda14cbcSMatt Macy	for (i = 0; i < nmissing; i++) {
eda14cbcSMatt Macy		for (j = nmissing; j < n; j++) {
7877fdebSMatt Macy			ASSERT3U(used[j], >=, rr->rr_firstdatacol);
7877fdebSMatt Macy			jj = used[j] - rr->rr_firstdatacol;
eda14cbcSMatt Macy			ASSERT3S(jj, <, n);
eda14cbcSMatt Macy			invrows[i][j] = rows[i][jj];
eda14cbcSMatt Macy			rows[i][jj] = 0;
eda14cbcSMatt Macy		}
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy
eda14cbcSMatt Macy	/*
eda14cbcSMatt Macy	 * For each of the rows of interest, we must normalize it and subtract
eda14cbcSMatt Macy	 * a multiple of it from the other rows.
eda14cbcSMatt Macy	 */
eda14cbcSMatt Macy	for (i = 0; i < nmissing; i++) {
eda14cbcSMatt Macy		for (j = 0; j < missing[i]; j++) {
eda14cbcSMatt Macy			ASSERT0(rows[i][j]);
eda14cbcSMatt Macy		}
eda14cbcSMatt Macy		ASSERT3U(rows[i][missing[i]], !=, 0);
eda14cbcSMatt Macy
eda14cbcSMatt Macy		/*
eda14cbcSMatt Macy		 * Compute the inverse of the first element and multiply each
eda14cbcSMatt Macy		 * element in the row by that value.
eda14cbcSMatt Macy		 */
eda14cbcSMatt Macy		log = 255 - vdev_raidz_log2[rows[i][missing[i]]];
eda14cbcSMatt Macy
eda14cbcSMatt Macy		for (j = 0; j < n; j++) {
eda14cbcSMatt Macy			rows[i][j] = vdev_raidz_exp2(rows[i][j], log);
eda14cbcSMatt Macy			invrows[i][j] = vdev_raidz_exp2(invrows[i][j], log);
eda14cbcSMatt Macy		}
eda14cbcSMatt Macy
eda14cbcSMatt Macy		for (ii = 0; ii < nmissing; ii++) {
eda14cbcSMatt Macy			if (i == ii)
eda14cbcSMatt Macy				continue;
eda14cbcSMatt Macy
eda14cbcSMatt Macy			ASSERT3U(rows[ii][missing[i]], !=, 0);
eda14cbcSMatt Macy
eda14cbcSMatt Macy			log = vdev_raidz_log2[rows[ii][missing[i]]];
eda14cbcSMatt Macy
eda14cbcSMatt Macy			for (j = 0; j < n; j++) {
eda14cbcSMatt Macy				rows[ii][j] ^=
eda14cbcSMatt Macy				    vdev_raidz_exp2(rows[i][j], log);
eda14cbcSMatt Macy				invrows[ii][j] ^=
eda14cbcSMatt Macy				    vdev_raidz_exp2(invrows[i][j], log);
eda14cbcSMatt Macy			}
eda14cbcSMatt Macy		}
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy
eda14cbcSMatt Macy	/*
eda14cbcSMatt Macy	 * Verify that the data that is left in the rows are properly part of
eda14cbcSMatt Macy	 * an identity matrix.
eda14cbcSMatt Macy	 */
eda14cbcSMatt Macy	for (i = 0; i < nmissing; i++) {
eda14cbcSMatt Macy		for (j = 0; j < n; j++) {
eda14cbcSMatt Macy			if (j == missing[i]) {
eda14cbcSMatt Macy				ASSERT3U(rows[i][j], ==, 1);
eda14cbcSMatt Macy			} else {
eda14cbcSMatt Macy				ASSERT0(rows[i][j]);
eda14cbcSMatt Macy			}
eda14cbcSMatt Macy		}
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
eda14cbcSMatt Macystatic void
7877fdebSMatt Macyvdev_raidz_matrix_reconstruct(raidz_row_t *rr, int n, int nmissing,
eda14cbcSMatt Macy    int *missing, uint8_t **invrows, const uint8_t *used)
eda14cbcSMatt Macy{
eda14cbcSMatt Macy	int i, j, x, cc, c;
eda14cbcSMatt Macy	uint8_t *src;
eda14cbcSMatt Macy	uint64_t ccount;
eda14cbcSMatt Macy	uint8_t *dst[VDEV_RAIDZ_MAXPARITY] = { NULL };
eda14cbcSMatt Macy	uint64_t dcount[VDEV_RAIDZ_MAXPARITY] = { 0 };
eda14cbcSMatt Macy	uint8_t log = 0;
eda14cbcSMatt Macy	uint8_t val;
eda14cbcSMatt Macy	int ll;
eda14cbcSMatt Macy	uint8_t *invlog[VDEV_RAIDZ_MAXPARITY];
eda14cbcSMatt Macy	uint8_t *p, *pp;
eda14cbcSMatt Macy	size_t psize;
eda14cbcSMatt Macy
eda14cbcSMatt Macy	psize = sizeof (invlog[0][0]) * n * nmissing;
eda14cbcSMatt Macy	p = kmem_alloc(psize, KM_SLEEP);
eda14cbcSMatt Macy
eda14cbcSMatt Macy	for (pp = p, i = 0; i < nmissing; i++) {
eda14cbcSMatt Macy		invlog[i] = pp;
eda14cbcSMatt Macy		pp += n;
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy
eda14cbcSMatt Macy	for (i = 0; i < nmissing; i++) {
eda14cbcSMatt Macy		for (j = 0; j < n; j++) {
eda14cbcSMatt Macy			ASSERT3U(invrows[i][j], !=, 0);
eda14cbcSMatt Macy			invlog[i][j] = vdev_raidz_log2[invrows[i][j]];
eda14cbcSMatt Macy		}
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy
eda14cbcSMatt Macy	for (i = 0; i < n; i++) {
eda14cbcSMatt Macy		c = used[i];
7877fdebSMatt Macy		ASSERT3U(c, <, rr->rr_cols);
eda14cbcSMatt Macy
7877fdebSMatt Macy		ccount = rr->rr_col[c].rc_size;
7877fdebSMatt Macy		ASSERT(ccount >= rr->rr_col[missing[0]].rc_size || i > 0);
7877fdebSMatt Macy		if (ccount == 0)
7877fdebSMatt Macy			continue;
7877fdebSMatt Macy		src = abd_to_buf(rr->rr_col[c].rc_abd);
eda14cbcSMatt Macy		for (j = 0; j < nmissing; j++) {
7877fdebSMatt Macy			cc = missing[j] + rr->rr_firstdatacol;
7877fdebSMatt Macy			ASSERT3U(cc, >=, rr->rr_firstdatacol);
7877fdebSMatt Macy			ASSERT3U(cc, <, rr->rr_cols);
eda14cbcSMatt Macy			ASSERT3U(cc, !=, c);
eda14cbcSMatt Macy
7877fdebSMatt Macy			dcount[j] = rr->rr_col[cc].rc_size;
7877fdebSMatt Macy			if (dcount[j] != 0)
7877fdebSMatt Macy				dst[j] = abd_to_buf(rr->rr_col[cc].rc_abd);
eda14cbcSMatt Macy		}
eda14cbcSMatt Macy
eda14cbcSMatt Macy		for (x = 0; x < ccount; x++, src++) {
eda14cbcSMatt Macy			if (*src != 0)
eda14cbcSMatt Macy				log = vdev_raidz_log2[*src];
eda14cbcSMatt Macy
eda14cbcSMatt Macy			for (cc = 0; cc < nmissing; cc++) {
eda14cbcSMatt Macy				if (x >= dcount[cc])
eda14cbcSMatt Macy					continue;
eda14cbcSMatt Macy
eda14cbcSMatt Macy				if (*src == 0) {
eda14cbcSMatt Macy					val = 0;
eda14cbcSMatt Macy				} else {
eda14cbcSMatt Macy					if ((ll = log + invlog[cc][i]) >= 255)
eda14cbcSMatt Macy						ll -= 255;
eda14cbcSMatt Macy					val = vdev_raidz_pow2[ll];
eda14cbcSMatt Macy				}
eda14cbcSMatt Macy
eda14cbcSMatt Macy				if (i == 0)
eda14cbcSMatt Macy					dst[cc][x] = val;
eda14cbcSMatt Macy				else
eda14cbcSMatt Macy					dst[cc][x] ^= val;
eda14cbcSMatt Macy			}
eda14cbcSMatt Macy		}
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy
eda14cbcSMatt Macy	kmem_free(p, psize);
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
f9693befSMartin Matuskastatic void
7877fdebSMatt Macyvdev_raidz_reconstruct_general(raidz_row_t *rr, int *tgts, int ntgts)
eda14cbcSMatt Macy{
b985c9caSMartin Matuska	int i, c, t, tt;
b985c9caSMartin Matuska	unsigned int n;
b985c9caSMartin Matuska	unsigned int nmissing_rows;
eda14cbcSMatt Macy	int missing_rows[VDEV_RAIDZ_MAXPARITY];
eda14cbcSMatt Macy	int parity_map[VDEV_RAIDZ_MAXPARITY];
eda14cbcSMatt Macy	uint8_t *p, *pp;
eda14cbcSMatt Macy	size_t psize;
eda14cbcSMatt Macy	uint8_t *rows[VDEV_RAIDZ_MAXPARITY];
eda14cbcSMatt Macy	uint8_t *invrows[VDEV_RAIDZ_MAXPARITY];
eda14cbcSMatt Macy	uint8_t *used;
eda14cbcSMatt Macy
eda14cbcSMatt Macy	abd_t **bufs = NULL;
eda14cbcSMatt Macy
e716630dSMartin Matuska	if (zfs_flags & ZFS_DEBUG_RAIDZ_RECONSTRUCT)
e716630dSMartin Matuska		zfs_dbgmsg("reconstruct_general(rm=%px ntgts=%u)", rr, ntgts);
eda14cbcSMatt Macy	/*
eda14cbcSMatt Macy	 * Matrix reconstruction can't use scatter ABDs yet, so we allocate
7877fdebSMatt Macy	 * temporary linear ABDs if any non-linear ABDs are found.
eda14cbcSMatt Macy	 */
7877fdebSMatt Macy	for (i = rr->rr_firstdatacol; i < rr->rr_cols; i++) {
e716630dSMartin Matuska		ASSERT(rr->rr_col[i].rc_abd != NULL);
7877fdebSMatt Macy		if (!abd_is_linear(rr->rr_col[i].rc_abd)) {
7877fdebSMatt Macy			bufs = kmem_alloc(rr->rr_cols * sizeof (abd_t *),
7877fdebSMatt Macy			    KM_PUSHPAGE);
eda14cbcSMatt Macy
7877fdebSMatt Macy			for (c = rr->rr_firstdatacol; c < rr->rr_cols; c++) {
7877fdebSMatt Macy				raidz_col_t *col = &rr->rr_col[c];
eda14cbcSMatt Macy
eda14cbcSMatt Macy				bufs[c] = col->rc_abd;
7877fdebSMatt Macy				if (bufs[c] != NULL) {
7877fdebSMatt Macy					col->rc_abd = abd_alloc_linear(
7877fdebSMatt Macy					    col->rc_size, B_TRUE);
7877fdebSMatt Macy					abd_copy(col->rc_abd, bufs[c],
7877fdebSMatt Macy					    col->rc_size);
eda14cbcSMatt Macy				}
eda14cbcSMatt Macy			}
eda14cbcSMatt Macy
7877fdebSMatt Macy			break;
7877fdebSMatt Macy		}
7877fdebSMatt Macy	}
7877fdebSMatt Macy
7877fdebSMatt Macy	n = rr->rr_cols - rr->rr_firstdatacol;
eda14cbcSMatt Macy
eda14cbcSMatt Macy	/*
eda14cbcSMatt Macy	 * Figure out which data columns are missing.
eda14cbcSMatt Macy	 */
eda14cbcSMatt Macy	nmissing_rows = 0;
eda14cbcSMatt Macy	for (t = 0; t < ntgts; t++) {
7877fdebSMatt Macy		if (tgts[t] >= rr->rr_firstdatacol) {
eda14cbcSMatt Macy			missing_rows[nmissing_rows++] =
7877fdebSMatt Macy			    tgts[t] - rr->rr_firstdatacol;
eda14cbcSMatt Macy		}
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy
eda14cbcSMatt Macy	/*
eda14cbcSMatt Macy	 * Figure out which parity columns to use to help generate the missing
eda14cbcSMatt Macy	 * data columns.
eda14cbcSMatt Macy	 */
eda14cbcSMatt Macy	for (tt = 0, c = 0, i = 0; i < nmissing_rows; c++) {
eda14cbcSMatt Macy		ASSERT(tt < ntgts);
7877fdebSMatt Macy		ASSERT(c < rr->rr_firstdatacol);
eda14cbcSMatt Macy
eda14cbcSMatt Macy		/*
eda14cbcSMatt Macy		 * Skip any targeted parity columns.
eda14cbcSMatt Macy		 */
eda14cbcSMatt Macy		if (c == tgts[tt]) {
eda14cbcSMatt Macy			tt++;
eda14cbcSMatt Macy			continue;
eda14cbcSMatt Macy		}
eda14cbcSMatt Macy
eda14cbcSMatt Macy		parity_map[i] = c;
eda14cbcSMatt Macy		i++;
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy
eda14cbcSMatt Macy	psize = (sizeof (rows[0][0]) + sizeof (invrows[0][0])) *
eda14cbcSMatt Macy	    nmissing_rows * n + sizeof (used[0]) * n;
eda14cbcSMatt Macy	p = kmem_alloc(psize, KM_SLEEP);
eda14cbcSMatt Macy
eda14cbcSMatt Macy	for (pp = p, i = 0; i < nmissing_rows; i++) {
eda14cbcSMatt Macy		rows[i] = pp;
eda14cbcSMatt Macy		pp += n;
eda14cbcSMatt Macy		invrows[i] = pp;
eda14cbcSMatt Macy		pp += n;
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy	used = pp;
eda14cbcSMatt Macy
eda14cbcSMatt Macy	for (i = 0; i < nmissing_rows; i++) {
eda14cbcSMatt Macy		used[i] = parity_map[i];
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy
7877fdebSMatt Macy	for (tt = 0, c = rr->rr_firstdatacol; c < rr->rr_cols; c++) {
eda14cbcSMatt Macy		if (tt < nmissing_rows &&
7877fdebSMatt Macy		    c == missing_rows[tt] + rr->rr_firstdatacol) {
eda14cbcSMatt Macy			tt++;
eda14cbcSMatt Macy			continue;
eda14cbcSMatt Macy		}
eda14cbcSMatt Macy
eda14cbcSMatt Macy		ASSERT3S(i, <, n);
eda14cbcSMatt Macy		used[i] = c;
eda14cbcSMatt Macy		i++;
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy
eda14cbcSMatt Macy	/*
eda14cbcSMatt Macy	 * Initialize the interesting rows of the matrix.
eda14cbcSMatt Macy	 */
7877fdebSMatt Macy	vdev_raidz_matrix_init(rr, n, nmissing_rows, parity_map, rows);
eda14cbcSMatt Macy
eda14cbcSMatt Macy	/*
eda14cbcSMatt Macy	 * Invert the matrix.
eda14cbcSMatt Macy	 */
7877fdebSMatt Macy	vdev_raidz_matrix_invert(rr, n, nmissing_rows, missing_rows, rows,
eda14cbcSMatt Macy	    invrows, used);
eda14cbcSMatt Macy
eda14cbcSMatt Macy	/*
eda14cbcSMatt Macy	 * Reconstruct the missing data using the generated matrix.
eda14cbcSMatt Macy	 */
7877fdebSMatt Macy	vdev_raidz_matrix_reconstruct(rr, n, nmissing_rows, missing_rows,
eda14cbcSMatt Macy	    invrows, used);
eda14cbcSMatt Macy
eda14cbcSMatt Macy	kmem_free(p, psize);
eda14cbcSMatt Macy
eda14cbcSMatt Macy	/*
eda14cbcSMatt Macy	 * copy back from temporary linear abds and free them
eda14cbcSMatt Macy	 */
eda14cbcSMatt Macy	if (bufs) {
7877fdebSMatt Macy		for (c = rr->rr_firstdatacol; c < rr->rr_cols; c++) {
7877fdebSMatt Macy			raidz_col_t *col = &rr->rr_col[c];
eda14cbcSMatt Macy
7877fdebSMatt Macy			if (bufs[c] != NULL) {
eda14cbcSMatt Macy				abd_copy(bufs[c], col->rc_abd, col->rc_size);
eda14cbcSMatt Macy				abd_free(col->rc_abd);
7877fdebSMatt Macy			}
eda14cbcSMatt Macy			col->rc_abd = bufs[c];
eda14cbcSMatt Macy		}
7877fdebSMatt Macy		kmem_free(bufs, rr->rr_cols * sizeof (abd_t *));
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
f9693befSMartin Matuskastatic void
7877fdebSMatt Macyvdev_raidz_reconstruct_row(raidz_map_t *rm, raidz_row_t *rr,
7877fdebSMatt Macy    const int *t, int nt)
eda14cbcSMatt Macy{
eda14cbcSMatt Macy	int tgts[VDEV_RAIDZ_MAXPARITY], *dt;
eda14cbcSMatt Macy	int ntgts;
eda14cbcSMatt Macy	int i, c, ret;
eda14cbcSMatt Macy	int nbadparity, nbaddata;
eda14cbcSMatt Macy	int parity_valid[VDEV_RAIDZ_MAXPARITY];
eda14cbcSMatt Macy
e716630dSMartin Matuska	if (zfs_flags & ZFS_DEBUG_RAIDZ_RECONSTRUCT) {
e716630dSMartin Matuska		zfs_dbgmsg("reconstruct(rm=%px nt=%u cols=%u md=%u mp=%u)",
e716630dSMartin Matuska		    rr, nt, (int)rr->rr_cols, (int)rr->rr_missingdata,
e716630dSMartin Matuska		    (int)rr->rr_missingparity);
e716630dSMartin Matuska	}
e716630dSMartin Matuska
7877fdebSMatt Macy	nbadparity = rr->rr_firstdatacol;
7877fdebSMatt Macy	nbaddata = rr->rr_cols - nbadparity;
eda14cbcSMatt Macy	ntgts = 0;
7877fdebSMatt Macy	for (i = 0, c = 0; c < rr->rr_cols; c++) {
e716630dSMartin Matuska		if (zfs_flags & ZFS_DEBUG_RAIDZ_RECONSTRUCT) {
e716630dSMartin Matuska			zfs_dbgmsg("reconstruct(rm=%px col=%u devid=%u "
e716630dSMartin Matuska			    "offset=%llx error=%u)",
e716630dSMartin Matuska			    rr, c, (int)rr->rr_col[c].rc_devidx,
e716630dSMartin Matuska			    (long long)rr->rr_col[c].rc_offset,
e716630dSMartin Matuska			    (int)rr->rr_col[c].rc_error);
e716630dSMartin Matuska		}
7877fdebSMatt Macy		if (c < rr->rr_firstdatacol)
eda14cbcSMatt Macy			parity_valid[c] = B_FALSE;
eda14cbcSMatt Macy
eda14cbcSMatt Macy		if (i < nt && c == t[i]) {
eda14cbcSMatt Macy			tgts[ntgts++] = c;
eda14cbcSMatt Macy			i++;
7877fdebSMatt Macy		} else if (rr->rr_col[c].rc_error != 0) {
eda14cbcSMatt Macy			tgts[ntgts++] = c;
7877fdebSMatt Macy		} else if (c >= rr->rr_firstdatacol) {
eda14cbcSMatt Macy			nbaddata--;
eda14cbcSMatt Macy		} else {
eda14cbcSMatt Macy			parity_valid[c] = B_TRUE;
eda14cbcSMatt Macy			nbadparity--;
eda14cbcSMatt Macy		}
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy
eda14cbcSMatt Macy	ASSERT(ntgts >= nt);
eda14cbcSMatt Macy	ASSERT(nbaddata >= 0);
eda14cbcSMatt Macy	ASSERT(nbaddata + nbadparity == ntgts);
eda14cbcSMatt Macy
eda14cbcSMatt Macy	dt = &tgts[nbadparity];
eda14cbcSMatt Macy
eda14cbcSMatt Macy	/* Reconstruct using the new math implementation */
7877fdebSMatt Macy	ret = vdev_raidz_math_reconstruct(rm, rr, parity_valid, dt, nbaddata);
eda14cbcSMatt Macy	if (ret != RAIDZ_ORIGINAL_IMPL)
f9693befSMartin Matuska		return;
eda14cbcSMatt Macy
eda14cbcSMatt Macy	/*
eda14cbcSMatt Macy	 * See if we can use any of our optimized reconstruction routines.
eda14cbcSMatt Macy	 */
eda14cbcSMatt Macy	switch (nbaddata) {
eda14cbcSMatt Macy	case 1:
f9693befSMartin Matuska		if (parity_valid[VDEV_RAIDZ_P]) {
f9693befSMartin Matuska			vdev_raidz_reconstruct_p(rr, dt, 1);
f9693befSMartin Matuska			return;
f9693befSMartin Matuska		}
eda14cbcSMatt Macy
7877fdebSMatt Macy		ASSERT(rr->rr_firstdatacol > 1);
eda14cbcSMatt Macy
f9693befSMartin Matuska		if (parity_valid[VDEV_RAIDZ_Q]) {
f9693befSMartin Matuska			vdev_raidz_reconstruct_q(rr, dt, 1);
f9693befSMartin Matuska			return;
f9693befSMartin Matuska		}
eda14cbcSMatt Macy
7877fdebSMatt Macy		ASSERT(rr->rr_firstdatacol > 2);
eda14cbcSMatt Macy		break;
eda14cbcSMatt Macy
eda14cbcSMatt Macy	case 2:
7877fdebSMatt Macy		ASSERT(rr->rr_firstdatacol > 1);
eda14cbcSMatt Macy
eda14cbcSMatt Macy		if (parity_valid[VDEV_RAIDZ_P] &&
f9693befSMartin Matuska		    parity_valid[VDEV_RAIDZ_Q]) {
f9693befSMartin Matuska			vdev_raidz_reconstruct_pq(rr, dt, 2);
f9693befSMartin Matuska			return;
f9693befSMartin Matuska		}
eda14cbcSMatt Macy
7877fdebSMatt Macy		ASSERT(rr->rr_firstdatacol > 2);
eda14cbcSMatt Macy
eda14cbcSMatt Macy		break;
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy
f9693befSMartin Matuska	vdev_raidz_reconstruct_general(rr, tgts, ntgts);
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
eda14cbcSMatt Macystatic int
eda14cbcSMatt Macyvdev_raidz_open(vdev_t *vd, uint64_t *asize, uint64_t *max_asize,
eda14cbcSMatt Macy    uint64_t *logical_ashift, uint64_t *physical_ashift)
eda14cbcSMatt Macy{
7877fdebSMatt Macy	vdev_raidz_t *vdrz = vd->vdev_tsd;
7877fdebSMatt Macy	uint64_t nparity = vdrz->vd_nparity;
eda14cbcSMatt Macy	int c;
eda14cbcSMatt Macy	int lasterror = 0;
eda14cbcSMatt Macy	int numerrors = 0;
eda14cbcSMatt Macy
eda14cbcSMatt Macy	ASSERT(nparity > 0);
eda14cbcSMatt Macy
eda14cbcSMatt Macy	if (nparity > VDEV_RAIDZ_MAXPARITY ||
eda14cbcSMatt Macy	    vd->vdev_children < nparity + 1) {
eda14cbcSMatt Macy		vd->vdev_stat.vs_aux = VDEV_AUX_BAD_LABEL;
eda14cbcSMatt Macy		return (SET_ERROR(EINVAL));
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy
eda14cbcSMatt Macy	vdev_open_children(vd);
eda14cbcSMatt Macy
eda14cbcSMatt Macy	for (c = 0; c < vd->vdev_children; c++) {
7877fdebSMatt Macy		vdev_t *cvd = vd->vdev_child[c];
eda14cbcSMatt Macy
eda14cbcSMatt Macy		if (cvd->vdev_open_error != 0) {
eda14cbcSMatt Macy			lasterror = cvd->vdev_open_error;
eda14cbcSMatt Macy			numerrors++;
eda14cbcSMatt Macy			continue;
eda14cbcSMatt Macy		}
eda14cbcSMatt Macy
eda14cbcSMatt Macy		*asize = MIN(*asize - 1, cvd->vdev_asize - 1) + 1;
eda14cbcSMatt Macy		*max_asize = MIN(*max_asize - 1, cvd->vdev_max_asize - 1) + 1;
eda14cbcSMatt Macy		*logical_ashift = MAX(*logical_ashift, cvd->vdev_ashift);
c7046f76SMartin Matuska	}
c7046f76SMartin Matuska	for (c = 0; c < vd->vdev_children; c++) {
c7046f76SMartin Matuska		vdev_t *cvd = vd->vdev_child[c];
c7046f76SMartin Matuska
c7046f76SMartin Matuska		if (cvd->vdev_open_error != 0)
c7046f76SMartin Matuska			continue;
c7046f76SMartin Matuska		*physical_ashift = vdev_best_ashift(*logical_ashift,
c7046f76SMartin Matuska		    *physical_ashift, cvd->vdev_physical_ashift);
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy
e716630dSMartin Matuska	if (vd->vdev_rz_expanding) {
e716630dSMartin Matuska		*asize *= vd->vdev_children - 1;
e716630dSMartin Matuska		*max_asize *= vd->vdev_children - 1;
e716630dSMartin Matuska
e716630dSMartin Matuska		vd->vdev_min_asize = *asize;
e716630dSMartin Matuska	} else {
eda14cbcSMatt Macy		*asize *= vd->vdev_children;
eda14cbcSMatt Macy		*max_asize *= vd->vdev_children;
e716630dSMartin Matuska	}
eda14cbcSMatt Macy
eda14cbcSMatt Macy	if (numerrors > nparity) {
eda14cbcSMatt Macy		vd->vdev_stat.vs_aux = VDEV_AUX_NO_REPLICAS;
eda14cbcSMatt Macy		return (lasterror);
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy
eda14cbcSMatt Macy	return (0);
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
eda14cbcSMatt Macystatic void
eda14cbcSMatt Macyvdev_raidz_close(vdev_t *vd)
eda14cbcSMatt Macy{
7877fdebSMatt Macy	for (int c = 0; c < vd->vdev_children; c++) {
7877fdebSMatt Macy		if (vd->vdev_child[c] != NULL)
eda14cbcSMatt Macy			vdev_close(vd->vdev_child[c]);
eda14cbcSMatt Macy	}
7877fdebSMatt Macy}
eda14cbcSMatt Macy
e716630dSMartin Matuska/*
e716630dSMartin Matuska * Return the logical width to use, given the txg in which the allocation
783d3ff6SMartin Matuska * happened.  Note that BP_GET_BIRTH() is usually the txg in which the
e716630dSMartin Matuska * BP was allocated.  Remapped BP's (that were relocated due to device
783d3ff6SMartin Matuska * removal, see remap_blkptr_cb()), will have a more recent physical birth
783d3ff6SMartin Matuska * which reflects when the BP was relocated, but we can ignore these because
783d3ff6SMartin Matuska * they can't be on RAIDZ (device removal doesn't support RAIDZ).
e716630dSMartin Matuska */
eda14cbcSMatt Macystatic uint64_t
e716630dSMartin Matuskavdev_raidz_get_logical_width(vdev_raidz_t *vdrz, uint64_t txg)
e716630dSMartin Matuska{
e716630dSMartin Matuska	reflow_node_t lookup = {
e716630dSMartin Matuska		.re_txg = txg,
e716630dSMartin Matuska	};
e716630dSMartin Matuska	avl_index_t where;
e716630dSMartin Matuska
e716630dSMartin Matuska	uint64_t width;
e716630dSMartin Matuska	mutex_enter(&vdrz->vd_expand_lock);
e716630dSMartin Matuska	reflow_node_t *re = avl_find(&vdrz->vd_expand_txgs, &lookup, &where);
e716630dSMartin Matuska	if (re != NULL) {
e716630dSMartin Matuska		width = re->re_logical_width;
e716630dSMartin Matuska	} else {
e716630dSMartin Matuska		re = avl_nearest(&vdrz->vd_expand_txgs, where, AVL_BEFORE);
e716630dSMartin Matuska		if (re != NULL)
e716630dSMartin Matuska			width = re->re_logical_width;
e716630dSMartin Matuska		else
e716630dSMartin Matuska			width = vdrz->vd_original_width;
e716630dSMartin Matuska	}
e716630dSMartin Matuska	mutex_exit(&vdrz->vd_expand_lock);
e716630dSMartin Matuska	return (width);
e716630dSMartin Matuska}
071ab5a1SMartin Matuska/*
071ab5a1SMartin Matuska * This code converts an asize into the largest psize that can safely be written
071ab5a1SMartin Matuska * to an allocation of that size for this vdev.
071ab5a1SMartin Matuska *
071ab5a1SMartin Matuska * Note that this function will not take into account the effect of gang
071ab5a1SMartin Matuska * headers, which also modify the ASIZE of the DVAs. It is purely a reverse of
071ab5a1SMartin Matuska * the psize_to_asize function.
071ab5a1SMartin Matuska */
071ab5a1SMartin Matuskastatic uint64_t
071ab5a1SMartin Matuskavdev_raidz_asize_to_psize(vdev_t *vd, uint64_t asize, uint64_t txg)
071ab5a1SMartin Matuska{
071ab5a1SMartin Matuska	vdev_raidz_t *vdrz = vd->vdev_tsd;
071ab5a1SMartin Matuska	uint64_t psize;
071ab5a1SMartin Matuska	uint64_t ashift = vd->vdev_top->vdev_ashift;
071ab5a1SMartin Matuska	uint64_t cols = vdrz->vd_original_width;
071ab5a1SMartin Matuska	uint64_t nparity = vdrz->vd_nparity;
071ab5a1SMartin Matuska
071ab5a1SMartin Matuska	cols = vdev_raidz_get_logical_width(vdrz, txg);
071ab5a1SMartin Matuska
071ab5a1SMartin Matuska	ASSERT0(asize % (1 << ashift));
071ab5a1SMartin Matuska
071ab5a1SMartin Matuska	psize = (asize >> ashift);
071ab5a1SMartin Matuska	psize -= nparity * DIV_ROUND_UP(psize, cols);
071ab5a1SMartin Matuska	psize <<= ashift;
071ab5a1SMartin Matuska
071ab5a1SMartin Matuska	return (asize);
071ab5a1SMartin Matuska}
e716630dSMartin Matuska
e716630dSMartin Matuska/*
e716630dSMartin Matuska * Note: If the RAIDZ vdev has been expanded, older BP's may have allocated
e716630dSMartin Matuska * more space due to the lower data-to-parity ratio.  In this case it's
e716630dSMartin Matuska * important to pass in the correct txg.  Note that vdev_gang_header_asize()
e716630dSMartin Matuska * relies on a constant asize for psize=SPA_GANGBLOCKSIZE=SPA_MINBLOCKSIZE,
e716630dSMartin Matuska * regardless of txg.  This is assured because for a single data sector, we
e716630dSMartin Matuska * allocate P+1 sectors regardless of width ("cols", which is at least P+1).
e716630dSMartin Matuska */
e716630dSMartin Matuskastatic uint64_t
071ab5a1SMartin Matuskavdev_raidz_psize_to_asize(vdev_t *vd, uint64_t psize, uint64_t txg)
eda14cbcSMatt Macy{
7877fdebSMatt Macy	vdev_raidz_t *vdrz = vd->vdev_tsd;
eda14cbcSMatt Macy	uint64_t asize;
eda14cbcSMatt Macy	uint64_t ashift = vd->vdev_top->vdev_ashift;
e716630dSMartin Matuska	uint64_t cols = vdrz->vd_original_width;
7877fdebSMatt Macy	uint64_t nparity = vdrz->vd_nparity;
eda14cbcSMatt Macy
e716630dSMartin Matuska	cols = vdev_raidz_get_logical_width(vdrz, txg);
e716630dSMartin Matuska
eda14cbcSMatt Macy	asize = ((psize - 1) >> ashift) + 1;
eda14cbcSMatt Macy	asize += nparity * ((asize + cols - nparity - 1) / (cols - nparity));
eda14cbcSMatt Macy	asize = roundup(asize, nparity + 1) << ashift;
eda14cbcSMatt Macy
e716630dSMartin Matuska#ifdef ZFS_DEBUG
e716630dSMartin Matuska	uint64_t asize_new = ((psize - 1) >> ashift) + 1;
e716630dSMartin Matuska	uint64_t ncols_new = vdrz->vd_physical_width;
e716630dSMartin Matuska	asize_new += nparity * ((asize_new + ncols_new - nparity - 1) /
e716630dSMartin Matuska	    (ncols_new - nparity));
e716630dSMartin Matuska	asize_new = roundup(asize_new, nparity + 1) << ashift;
e716630dSMartin Matuska	VERIFY3U(asize_new, <=, asize);
e716630dSMartin Matuska#endif
e716630dSMartin Matuska
eda14cbcSMatt Macy	return (asize);
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
7877fdebSMatt Macy/*
7877fdebSMatt Macy * The allocatable space for a raidz vdev is N * sizeof(smallest child)
7877fdebSMatt Macy * so each child must provide at least 1/Nth of its asize.
7877fdebSMatt Macy */
7877fdebSMatt Macystatic uint64_t
7877fdebSMatt Macyvdev_raidz_min_asize(vdev_t *vd)
7877fdebSMatt Macy{
7877fdebSMatt Macy	return ((vd->vdev_min_asize + vd->vdev_children - 1) /
7877fdebSMatt Macy	    vd->vdev_children);
7877fdebSMatt Macy}
7877fdebSMatt Macy
7877fdebSMatt Macyvoid
eda14cbcSMatt Macyvdev_raidz_child_done(zio_t *zio)
eda14cbcSMatt Macy{
eda14cbcSMatt Macy	raidz_col_t *rc = zio->io_private;
eda14cbcSMatt Macy
81b22a98SMartin Matuska	ASSERT3P(rc->rc_abd, !=, NULL);
eda14cbcSMatt Macy	rc->rc_error = zio->io_error;
eda14cbcSMatt Macy	rc->rc_tried = 1;
eda14cbcSMatt Macy	rc->rc_skipped = 0;
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
eda14cbcSMatt Macystatic void
e716630dSMartin Matuskavdev_raidz_shadow_child_done(zio_t *zio)
eda14cbcSMatt Macy{
e716630dSMartin Matuska	raidz_col_t *rc = zio->io_private;
eda14cbcSMatt Macy
e716630dSMartin Matuska	rc->rc_shadow_error = zio->io_error;
e716630dSMartin Matuska}
e716630dSMartin Matuska
e716630dSMartin Matuskastatic void
e716630dSMartin Matuskavdev_raidz_io_verify(zio_t *zio, raidz_map_t *rm, raidz_row_t *rr, int col)
e716630dSMartin Matuska{
e716630dSMartin Matuska	(void) rm;
e716630dSMartin Matuska#ifdef ZFS_DEBUG
b59a0cdeSMartin Matuska	zfs_range_seg64_t logical_rs, physical_rs, remain_rs;
7877fdebSMatt Macy	logical_rs.rs_start = rr->rr_offset;
eda14cbcSMatt Macy	logical_rs.rs_end = logical_rs.rs_start +
071ab5a1SMartin Matuska	    vdev_raidz_psize_to_asize(zio->io_vd, rr->rr_size,
783d3ff6SMartin Matuska	    BP_GET_BIRTH(zio->io_bp));
eda14cbcSMatt Macy
7877fdebSMatt Macy	raidz_col_t *rc = &rr->rr_col[col];
e716630dSMartin Matuska	vdev_t *cvd = zio->io_vd->vdev_child[rc->rc_devidx];
eda14cbcSMatt Macy
7877fdebSMatt Macy	vdev_xlate(cvd, &logical_rs, &physical_rs, &remain_rs);
7877fdebSMatt Macy	ASSERT(vdev_xlate_is_empty(&remain_rs));
e716630dSMartin Matuska	if (vdev_xlate_is_empty(&physical_rs)) {
e716630dSMartin Matuska		/*
e716630dSMartin Matuska		 * If we are in the middle of expansion, the
e716630dSMartin Matuska		 * physical->logical mapping is changing so vdev_xlate()
e716630dSMartin Matuska		 * can't give us a reliable answer.
e716630dSMartin Matuska		 */
e716630dSMartin Matuska		return;
e716630dSMartin Matuska	}
eda14cbcSMatt Macy	ASSERT3U(rc->rc_offset, ==, physical_rs.rs_start);
eda14cbcSMatt Macy	ASSERT3U(rc->rc_offset, <, physical_rs.rs_end);
eda14cbcSMatt Macy	/*
eda14cbcSMatt Macy	 * It would be nice to assert that rs_end is equal
eda14cbcSMatt Macy	 * to rc_offset + rc_size but there might be an
eda14cbcSMatt Macy	 * optional I/O at the end that is not accounted in
eda14cbcSMatt Macy	 * rc_size.
eda14cbcSMatt Macy	 */
eda14cbcSMatt Macy	if (physical_rs.rs_end > rc->rc_offset + rc->rc_size) {
eda14cbcSMatt Macy		ASSERT3U(physical_rs.rs_end, ==, rc->rc_offset +
e716630dSMartin Matuska		    rc->rc_size + (1 << zio->io_vd->vdev_top->vdev_ashift));
eda14cbcSMatt Macy	} else {
eda14cbcSMatt Macy		ASSERT3U(physical_rs.rs_end, ==, rc->rc_offset + rc->rc_size);
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy#endif
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
7877fdebSMatt Macystatic void
e716630dSMartin Matuskavdev_raidz_io_start_write(zio_t *zio, raidz_row_t *rr)
7877fdebSMatt Macy{
7877fdebSMatt Macy	vdev_t *vd = zio->io_vd;
7877fdebSMatt Macy	raidz_map_t *rm = zio->io_vsd;
7877fdebSMatt Macy
7877fdebSMatt Macy	vdev_raidz_generate_parity_row(rm, rr);
7877fdebSMatt Macy
81b22a98SMartin Matuska	for (int c = 0; c < rr->rr_scols; c++) {
7877fdebSMatt Macy		raidz_col_t *rc = &rr->rr_col[c];
81b22a98SMartin Matuska		vdev_t *cvd = vd->vdev_child[rc->rc_devidx];
7877fdebSMatt Macy
7877fdebSMatt Macy		/* Verify physical to logical translation */
e716630dSMartin Matuska		vdev_raidz_io_verify(zio, rm, rr, c);
7877fdebSMatt Macy
e716630dSMartin Matuska		if (rc->rc_size == 0)
e716630dSMartin Matuska			continue;
e716630dSMartin Matuska
e716630dSMartin Matuska		ASSERT3U(rc->rc_offset + rc->rc_size, <,
e716630dSMartin Matuska		    cvd->vdev_psize - VDEV_LABEL_END_SIZE);
e716630dSMartin Matuska
81b22a98SMartin Matuska		ASSERT3P(rc->rc_abd, !=, NULL);
7877fdebSMatt Macy		zio_nowait(zio_vdev_child_io(zio, NULL, cvd,
81b22a98SMartin Matuska		    rc->rc_offset, rc->rc_abd,
81b22a98SMartin Matuska		    abd_get_size(rc->rc_abd), zio->io_type,
81b22a98SMartin Matuska		    zio->io_priority, 0, vdev_raidz_child_done, rc));
e716630dSMartin Matuska
e716630dSMartin Matuska		if (rc->rc_shadow_devidx != INT_MAX) {
e716630dSMartin Matuska			vdev_t *cvd2 = vd->vdev_child[rc->rc_shadow_devidx];
e716630dSMartin Matuska
e716630dSMartin Matuska			ASSERT3U(
e716630dSMartin Matuska			    rc->rc_shadow_offset + abd_get_size(rc->rc_abd), <,
e716630dSMartin Matuska			    cvd2->vdev_psize - VDEV_LABEL_END_SIZE);
e716630dSMartin Matuska
e716630dSMartin Matuska			zio_nowait(zio_vdev_child_io(zio, NULL, cvd2,
e716630dSMartin Matuska			    rc->rc_shadow_offset, rc->rc_abd,
e716630dSMartin Matuska			    abd_get_size(rc->rc_abd),
e716630dSMartin Matuska			    zio->io_type, zio->io_priority, 0,
e716630dSMartin Matuska			    vdev_raidz_shadow_child_done, rc));
81b22a98SMartin Matuska		}
7877fdebSMatt Macy	}
7877fdebSMatt Macy}
7877fdebSMatt Macy
e716630dSMartin Matuska/*
e716630dSMartin Matuska * Generate optional I/Os for skip sectors to improve aggregation contiguity.
e716630dSMartin Matuska * This only works for vdev_raidz_map_alloc() (not _expanded()).
e716630dSMartin Matuska */
7877fdebSMatt Macystatic void
e716630dSMartin Matuskaraidz_start_skip_writes(zio_t *zio)
e716630dSMartin Matuska{
e716630dSMartin Matuska	vdev_t *vd = zio->io_vd;
e716630dSMartin Matuska	uint64_t ashift = vd->vdev_top->vdev_ashift;
e716630dSMartin Matuska	raidz_map_t *rm = zio->io_vsd;
e716630dSMartin Matuska	ASSERT3U(rm->rm_nrows, ==, 1);
e716630dSMartin Matuska	raidz_row_t *rr = rm->rm_row[0];
e716630dSMartin Matuska	for (int c = 0; c < rr->rr_scols; c++) {
e716630dSMartin Matuska		raidz_col_t *rc = &rr->rr_col[c];
e716630dSMartin Matuska		vdev_t *cvd = vd->vdev_child[rc->rc_devidx];
e716630dSMartin Matuska		if (rc->rc_size != 0)
e716630dSMartin Matuska			continue;
e716630dSMartin Matuska		ASSERT3P(rc->rc_abd, ==, NULL);
e716630dSMartin Matuska
e716630dSMartin Matuska		ASSERT3U(rc->rc_offset, <,
e716630dSMartin Matuska		    cvd->vdev_psize - VDEV_LABEL_END_SIZE);
e716630dSMartin Matuska
e716630dSMartin Matuska		zio_nowait(zio_vdev_child_io(zio, NULL, cvd, rc->rc_offset,
e716630dSMartin Matuska		    NULL, 1ULL << ashift, zio->io_type, zio->io_priority,
e716630dSMartin Matuska		    ZIO_FLAG_NODATA | ZIO_FLAG_OPTIONAL, NULL, NULL));
e716630dSMartin Matuska	}
e716630dSMartin Matuska}
e716630dSMartin Matuska
e716630dSMartin Matuskastatic void
e716630dSMartin Matuskavdev_raidz_io_start_read_row(zio_t *zio, raidz_row_t *rr, boolean_t forceparity)
7877fdebSMatt Macy{
7877fdebSMatt Macy	vdev_t *vd = zio->io_vd;
7877fdebSMatt Macy
7877fdebSMatt Macy	/*
7877fdebSMatt Macy	 * Iterate over the columns in reverse order so that we hit the parity
7877fdebSMatt Macy	 * last -- any errors along the way will force us to read the parity.
7877fdebSMatt Macy	 */
7877fdebSMatt Macy	for (int c = rr->rr_cols - 1; c >= 0; c--) {
7877fdebSMatt Macy		raidz_col_t *rc = &rr->rr_col[c];
7877fdebSMatt Macy		if (rc->rc_size == 0)
7877fdebSMatt Macy			continue;
7877fdebSMatt Macy		vdev_t *cvd = vd->vdev_child[rc->rc_devidx];
7877fdebSMatt Macy		if (!vdev_readable(cvd)) {
7877fdebSMatt Macy			if (c >= rr->rr_firstdatacol)
7877fdebSMatt Macy				rr->rr_missingdata++;
7877fdebSMatt Macy			else
7877fdebSMatt Macy				rr->rr_missingparity++;
7877fdebSMatt Macy			rc->rc_error = SET_ERROR(ENXIO);
7877fdebSMatt Macy			rc->rc_tried = 1;	/* don't even try */
7877fdebSMatt Macy			rc->rc_skipped = 1;
7877fdebSMatt Macy			continue;
7877fdebSMatt Macy		}
7877fdebSMatt Macy		if (vdev_dtl_contains(cvd, DTL_MISSING, zio->io_txg, 1)) {
7877fdebSMatt Macy			if (c >= rr->rr_firstdatacol)
7877fdebSMatt Macy				rr->rr_missingdata++;
7877fdebSMatt Macy			else
7877fdebSMatt Macy				rr->rr_missingparity++;
7877fdebSMatt Macy			rc->rc_error = SET_ERROR(ESTALE);
7877fdebSMatt Macy			rc->rc_skipped = 1;
7877fdebSMatt Macy			continue;
7877fdebSMatt Macy		}
e716630dSMartin Matuska		if (forceparity ||
e716630dSMartin Matuska		    c >= rr->rr_firstdatacol || rr->rr_missingdata > 0 ||
7877fdebSMatt Macy		    (zio->io_flags & (ZIO_FLAG_SCRUB | ZIO_FLAG_RESILVER))) {
7877fdebSMatt Macy			zio_nowait(zio_vdev_child_io(zio, NULL, cvd,
7877fdebSMatt Macy			    rc->rc_offset, rc->rc_abd, rc->rc_size,
7877fdebSMatt Macy			    zio->io_type, zio->io_priority, 0,
7877fdebSMatt Macy			    vdev_raidz_child_done, rc));
7877fdebSMatt Macy		}
7877fdebSMatt Macy	}
7877fdebSMatt Macy}
7877fdebSMatt Macy
e716630dSMartin Matuskastatic void
e716630dSMartin Matuskavdev_raidz_io_start_read_phys_cols(zio_t *zio, raidz_map_t *rm)
e716630dSMartin Matuska{
e716630dSMartin Matuska	vdev_t *vd = zio->io_vd;
e716630dSMartin Matuska
e716630dSMartin Matuska	for (int i = 0; i < rm->rm_nphys_cols; i++) {
e716630dSMartin Matuska		raidz_col_t *prc = &rm->rm_phys_col[i];
e716630dSMartin Matuska		if (prc->rc_size == 0)
e716630dSMartin Matuska			continue;
e716630dSMartin Matuska
e716630dSMartin Matuska		ASSERT3U(prc->rc_devidx, ==, i);
e716630dSMartin Matuska		vdev_t *cvd = vd->vdev_child[i];
e716630dSMartin Matuska		if (!vdev_readable(cvd)) {
e716630dSMartin Matuska			prc->rc_error = SET_ERROR(ENXIO);
e716630dSMartin Matuska			prc->rc_tried = 1;	/* don't even try */
e716630dSMartin Matuska			prc->rc_skipped = 1;
e716630dSMartin Matuska			continue;
e716630dSMartin Matuska		}
e716630dSMartin Matuska		if (vdev_dtl_contains(cvd, DTL_MISSING, zio->io_txg, 1)) {
e716630dSMartin Matuska			prc->rc_error = SET_ERROR(ESTALE);
e716630dSMartin Matuska			prc->rc_skipped = 1;
e716630dSMartin Matuska			continue;
e716630dSMartin Matuska		}
e716630dSMartin Matuska		zio_nowait(zio_vdev_child_io(zio, NULL, cvd,
e716630dSMartin Matuska		    prc->rc_offset, prc->rc_abd, prc->rc_size,
e716630dSMartin Matuska		    zio->io_type, zio->io_priority, 0,
e716630dSMartin Matuska		    vdev_raidz_child_done, prc));
e716630dSMartin Matuska	}
e716630dSMartin Matuska}
e716630dSMartin Matuska
e716630dSMartin Matuskastatic void
e716630dSMartin Matuskavdev_raidz_io_start_read(zio_t *zio, raidz_map_t *rm)
e716630dSMartin Matuska{
e716630dSMartin Matuska	/*
e716630dSMartin Matuska	 * If there are multiple rows, we will be hitting
e716630dSMartin Matuska	 * all disks, so go ahead and read the parity so
e716630dSMartin Matuska	 * that we are reading in decent size chunks.
e716630dSMartin Matuska	 */
e716630dSMartin Matuska	boolean_t forceparity = rm->rm_nrows > 1;
e716630dSMartin Matuska
e716630dSMartin Matuska	if (rm->rm_phys_col) {
e716630dSMartin Matuska		vdev_raidz_io_start_read_phys_cols(zio, rm);
e716630dSMartin Matuska	} else {
e716630dSMartin Matuska		for (int i = 0; i < rm->rm_nrows; i++) {
e716630dSMartin Matuska			raidz_row_t *rr = rm->rm_row[i];
e716630dSMartin Matuska			vdev_raidz_io_start_read_row(zio, rr, forceparity);
e716630dSMartin Matuska		}
e716630dSMartin Matuska	}
e716630dSMartin Matuska}
e716630dSMartin Matuska
eda14cbcSMatt Macy/*
eda14cbcSMatt Macy * Start an IO operation on a RAIDZ VDev
eda14cbcSMatt Macy *
eda14cbcSMatt Macy * Outline:
eda14cbcSMatt Macy * - For write operations:
eda14cbcSMatt Macy *   1. Generate the parity data
eda14cbcSMatt Macy *   2. Create child zio write operations to each column's vdev, for both
eda14cbcSMatt Macy *      data and parity.
eda14cbcSMatt Macy *   3. If the column skips any sectors for padding, create optional dummy
eda14cbcSMatt Macy *      write zio children for those areas to improve aggregation continuity.
eda14cbcSMatt Macy * - For read operations:
eda14cbcSMatt Macy *   1. Create child zio read operations to each data column's vdev to read
eda14cbcSMatt Macy *      the range of data required for zio.
eda14cbcSMatt Macy *   2. If this is a scrub or resilver operation, or if any of the data
eda14cbcSMatt Macy *      vdevs have had errors, then create zio read operations to the parity
eda14cbcSMatt Macy *      columns' VDevs as well.
eda14cbcSMatt Macy */
eda14cbcSMatt Macystatic void
eda14cbcSMatt Macyvdev_raidz_io_start(zio_t *zio)
eda14cbcSMatt Macy{
eda14cbcSMatt Macy	vdev_t *vd = zio->io_vd;
eda14cbcSMatt Macy	vdev_t *tvd = vd->vdev_top;
7877fdebSMatt Macy	vdev_raidz_t *vdrz = vd->vdev_tsd;
e716630dSMartin Matuska	raidz_map_t *rm;
eda14cbcSMatt Macy
e716630dSMartin Matuska	uint64_t logical_width = vdev_raidz_get_logical_width(vdrz,
783d3ff6SMartin Matuska	    BP_GET_BIRTH(zio->io_bp));
e716630dSMartin Matuska	if (logical_width != vdrz->vd_physical_width) {
e716630dSMartin Matuska		zfs_locked_range_t *lr = NULL;
e716630dSMartin Matuska		uint64_t synced_offset = UINT64_MAX;
e716630dSMartin Matuska		uint64_t next_offset = UINT64_MAX;
e716630dSMartin Matuska		boolean_t use_scratch = B_FALSE;
e716630dSMartin Matuska		/*
e716630dSMartin Matuska		 * Note: when the expansion is completing, we set
e716630dSMartin Matuska		 * vre_state=DSS_FINISHED (in raidz_reflow_complete_sync())
e716630dSMartin Matuska		 * in a later txg than when we last update spa_ubsync's state
e716630dSMartin Matuska		 * (see the end of spa_raidz_expand_thread()).  Therefore we
e716630dSMartin Matuska		 * may see vre_state!=SCANNING before
e716630dSMartin Matuska		 * VDEV_TOP_ZAP_RAIDZ_EXPAND_STATE=DSS_FINISHED is reflected
e716630dSMartin Matuska		 * on disk, but the copying progress has been synced to disk
e716630dSMartin Matuska		 * (and reflected in spa_ubsync).  In this case it's fine to
e716630dSMartin Matuska		 * treat the expansion as completed, since if we crash there's
e716630dSMartin Matuska		 * no additional copying to do.
e716630dSMartin Matuska		 */
e716630dSMartin Matuska		if (vdrz->vn_vre.vre_state == DSS_SCANNING) {
e716630dSMartin Matuska			ASSERT3P(vd->vdev_spa->spa_raidz_expand, ==,
e716630dSMartin Matuska			    &vdrz->vn_vre);
e716630dSMartin Matuska			lr = zfs_rangelock_enter(&vdrz->vn_vre.vre_rangelock,
e716630dSMartin Matuska			    zio->io_offset, zio->io_size, RL_READER);
e716630dSMartin Matuska			use_scratch =
e716630dSMartin Matuska			    (RRSS_GET_STATE(&vd->vdev_spa->spa_ubsync) ==
e716630dSMartin Matuska			    RRSS_SCRATCH_VALID);
e716630dSMartin Matuska			synced_offset =
e716630dSMartin Matuska			    RRSS_GET_OFFSET(&vd->vdev_spa->spa_ubsync);
e716630dSMartin Matuska			next_offset = vdrz->vn_vre.vre_offset;
e716630dSMartin Matuska			/*
e716630dSMartin Matuska			 * If we haven't resumed expanding since importing the
e716630dSMartin Matuska			 * pool, vre_offset won't have been set yet.  In
e716630dSMartin Matuska			 * this case the next offset to be copied is the same
e716630dSMartin Matuska			 * as what was synced.
e716630dSMartin Matuska			 */
e716630dSMartin Matuska			if (next_offset == UINT64_MAX) {
e716630dSMartin Matuska				next_offset = synced_offset;
e716630dSMartin Matuska			}
e716630dSMartin Matuska		}
e716630dSMartin Matuska		if (use_scratch) {
e716630dSMartin Matuska			zfs_dbgmsg("zio=%px %s io_offset=%llu offset_synced="
e716630dSMartin Matuska			    "%lld next_offset=%lld use_scratch=%u",
e716630dSMartin Matuska			    zio,
e716630dSMartin Matuska			    zio->io_type == ZIO_TYPE_WRITE ? "WRITE" : "READ",
e716630dSMartin Matuska			    (long long)zio->io_offset,
e716630dSMartin Matuska			    (long long)synced_offset,
e716630dSMartin Matuska			    (long long)next_offset,
e716630dSMartin Matuska			    use_scratch);
e716630dSMartin Matuska		}
e716630dSMartin Matuska
e716630dSMartin Matuska		rm = vdev_raidz_map_alloc_expanded(zio,
e716630dSMartin Matuska		    tvd->vdev_ashift, vdrz->vd_physical_width,
e716630dSMartin Matuska		    logical_width, vdrz->vd_nparity,
e716630dSMartin Matuska		    synced_offset, next_offset, use_scratch);
e716630dSMartin Matuska		rm->rm_lr = lr;
e716630dSMartin Matuska	} else {
e716630dSMartin Matuska		rm = vdev_raidz_map_alloc(zio,
e716630dSMartin Matuska		    tvd->vdev_ashift, logical_width, vdrz->vd_nparity);
e716630dSMartin Matuska	}
e716630dSMartin Matuska	rm->rm_original_width = vdrz->vd_original_width;
e716630dSMartin Matuska
f9693befSMartin Matuska	zio->io_vsd = rm;
f9693befSMartin Matuska	zio->io_vsd_ops = &vdev_raidz_vsd_ops;
eda14cbcSMatt Macy	if (zio->io_type == ZIO_TYPE_WRITE) {
e716630dSMartin Matuska		for (int i = 0; i < rm->rm_nrows; i++) {
e716630dSMartin Matuska			vdev_raidz_io_start_write(zio, rm->rm_row[i]);
e716630dSMartin Matuska		}
e716630dSMartin Matuska
e716630dSMartin Matuska		if (logical_width == vdrz->vd_physical_width) {
e716630dSMartin Matuska			raidz_start_skip_writes(zio);
e716630dSMartin Matuska		}
7877fdebSMatt Macy	} else {
eda14cbcSMatt Macy		ASSERT(zio->io_type == ZIO_TYPE_READ);
e716630dSMartin Matuska		vdev_raidz_io_start_read(zio, rm);
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy
eda14cbcSMatt Macy	zio_execute(zio);
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
eda14cbcSMatt Macy/*
eda14cbcSMatt Macy * Report a checksum error for a child of a RAID-Z device.
eda14cbcSMatt Macy */
e92ffd9bSMartin Matuskavoid
e92ffd9bSMartin Matuskavdev_raidz_checksum_error(zio_t *zio, raidz_col_t *rc, abd_t *bad_data)
eda14cbcSMatt Macy{
eda14cbcSMatt Macy	vdev_t *vd = zio->io_vd->vdev_child[rc->rc_devidx];
eda14cbcSMatt Macy
7877fdebSMatt Macy	if (!(zio->io_flags & ZIO_FLAG_SPECULATIVE) &&
7877fdebSMatt Macy	    zio->io_priority != ZIO_PRIORITY_REBUILD) {
eda14cbcSMatt Macy		zio_bad_cksum_t zbc;
eda14cbcSMatt Macy		raidz_map_t *rm = zio->io_vsd;
eda14cbcSMatt Macy
eda14cbcSMatt Macy		zbc.zbc_has_cksum = 0;
eda14cbcSMatt Macy		zbc.zbc_injected = rm->rm_ecksuminjected;
eda14cbcSMatt Macy
2c48331dSMatt Macy		mutex_enter(&vd->vdev_stat_lock);
2c48331dSMatt Macy		vd->vdev_stat.vs_checksum_errors++;
2c48331dSMatt Macy		mutex_exit(&vd->vdev_stat_lock);
bb2d13b6SMartin Matuska		(void) zfs_ereport_post_checksum(zio->io_spa, vd,
bb2d13b6SMartin Matuska		    &zio->io_bookmark, zio, rc->rc_offset, rc->rc_size,
bb2d13b6SMartin Matuska		    rc->rc_abd, bad_data, &zbc);
2c48331dSMatt Macy	}
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
eda14cbcSMatt Macy/*
eda14cbcSMatt Macy * We keep track of whether or not there were any injected errors, so that
eda14cbcSMatt Macy * any ereports we generate can note it.
eda14cbcSMatt Macy */
eda14cbcSMatt Macystatic int
eda14cbcSMatt Macyraidz_checksum_verify(zio_t *zio)
eda14cbcSMatt Macy{
315ee00fSMartin Matuska	zio_bad_cksum_t zbc = {0};
eda14cbcSMatt Macy	raidz_map_t *rm = zio->io_vsd;
eda14cbcSMatt Macy
eda14cbcSMatt Macy	int ret = zio_checksum_error(zio, &zbc);
87bf66d4SMartin Matuska	/*
87bf66d4SMartin Matuska	 * Any Direct I/O read that has a checksum error must be treated as
87bf66d4SMartin Matuska	 * suspicious as the contents of the buffer could be getting
87bf66d4SMartin Matuska	 * manipulated while the I/O is taking place. The checksum verify error
87bf66d4SMartin Matuska	 * will be reported to the top-level RAIDZ VDEV.
87bf66d4SMartin Matuska	 */
87bf66d4SMartin Matuska	if (zio->io_flags & ZIO_FLAG_DIO_READ && ret == ECKSUM) {
87bf66d4SMartin Matuska		zio->io_error = ret;
87bf66d4SMartin Matuska		zio->io_flags |= ZIO_FLAG_DIO_CHKSUM_ERR;
87bf66d4SMartin Matuska		zio_dio_chksum_verify_error_report(zio);
87bf66d4SMartin Matuska		zio_checksum_verified(zio);
87bf66d4SMartin Matuska		return (0);
87bf66d4SMartin Matuska	}
87bf66d4SMartin Matuska
eda14cbcSMatt Macy	if (ret != 0 && zbc.zbc_injected != 0)
eda14cbcSMatt Macy		rm->rm_ecksuminjected = 1;
eda14cbcSMatt Macy
eda14cbcSMatt Macy	return (ret);
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
eda14cbcSMatt Macy/*
eda14cbcSMatt Macy * Generate the parity from the data columns. If we tried and were able to
eda14cbcSMatt Macy * read the parity without error, verify that the generated parity matches the
eda14cbcSMatt Macy * data we read. If it doesn't, we fire off a checksum error. Return the
7877fdebSMatt Macy * number of such failures.
eda14cbcSMatt Macy */
eda14cbcSMatt Macystatic int
7877fdebSMatt Macyraidz_parity_verify(zio_t *zio, raidz_row_t *rr)
eda14cbcSMatt Macy{
eda14cbcSMatt Macy	abd_t *orig[VDEV_RAIDZ_MAXPARITY];
eda14cbcSMatt Macy	int c, ret = 0;
7877fdebSMatt Macy	raidz_map_t *rm = zio->io_vsd;
eda14cbcSMatt Macy	raidz_col_t *rc;
eda14cbcSMatt Macy
eda14cbcSMatt Macy	blkptr_t *bp = zio->io_bp;
eda14cbcSMatt Macy	enum zio_checksum checksum = (bp == NULL ? zio->io_prop.zp_checksum :
eda14cbcSMatt Macy	    (BP_IS_GANG(bp) ? ZIO_CHECKSUM_GANG_HEADER : BP_GET_CHECKSUM(bp)));
eda14cbcSMatt Macy
eda14cbcSMatt Macy	if (checksum == ZIO_CHECKSUM_NOPARITY)
eda14cbcSMatt Macy		return (ret);
eda14cbcSMatt Macy
7877fdebSMatt Macy	for (c = 0; c < rr->rr_firstdatacol; c++) {
7877fdebSMatt Macy		rc = &rr->rr_col[c];
eda14cbcSMatt Macy		if (!rc->rc_tried || rc->rc_error != 0)
eda14cbcSMatt Macy			continue;
eda14cbcSMatt Macy
a0b956f5SMartin Matuska		orig[c] = rc->rc_abd;
a0b956f5SMartin Matuska		ASSERT3U(abd_get_size(rc->rc_abd), ==, rc->rc_size);
a0b956f5SMartin Matuska		rc->rc_abd = abd_alloc_linear(rc->rc_size, B_FALSE);
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy
7877fdebSMatt Macy	/*
e92ffd9bSMartin Matuska	 * Verify any empty sectors are zero filled to ensure the parity
e92ffd9bSMartin Matuska	 * is calculated correctly even if these non-data sectors are damaged.
e92ffd9bSMartin Matuska	 */
e92ffd9bSMartin Matuska	if (rr->rr_nempty && rr->rr_abd_empty != NULL)
e92ffd9bSMartin Matuska		ret += vdev_draid_map_verify_empty(zio, rr);
e92ffd9bSMartin Matuska
e92ffd9bSMartin Matuska	/*
7877fdebSMatt Macy	 * Regenerates parity even for !tried||rc_error!=0 columns.  This
7877fdebSMatt Macy	 * isn't harmful but it does have the side effect of fixing stuff
7877fdebSMatt Macy	 * we didn't realize was necessary (i.e. even if we return 0).
7877fdebSMatt Macy	 */
7877fdebSMatt Macy	vdev_raidz_generate_parity_row(rm, rr);
eda14cbcSMatt Macy
7877fdebSMatt Macy	for (c = 0; c < rr->rr_firstdatacol; c++) {
7877fdebSMatt Macy		rc = &rr->rr_col[c];
7877fdebSMatt Macy
eda14cbcSMatt Macy		if (!rc->rc_tried || rc->rc_error != 0)
eda14cbcSMatt Macy			continue;
7877fdebSMatt Macy
eda14cbcSMatt Macy		if (abd_cmp(orig[c], rc->rc_abd) != 0) {
e716630dSMartin Matuska			zfs_dbgmsg("found error on col=%u devidx=%u off %llx",
e716630dSMartin Matuska			    c, (int)rc->rc_devidx, (u_longlong_t)rc->rc_offset);
e92ffd9bSMartin Matuska			vdev_raidz_checksum_error(zio, rc, orig[c]);
eda14cbcSMatt Macy			rc->rc_error = SET_ERROR(ECKSUM);
eda14cbcSMatt Macy			ret++;
eda14cbcSMatt Macy		}
eda14cbcSMatt Macy		abd_free(orig[c]);
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy
eda14cbcSMatt Macy	return (ret);
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
eda14cbcSMatt Macystatic int
7877fdebSMatt Macyvdev_raidz_worst_error(raidz_row_t *rr)
eda14cbcSMatt Macy{
eda14cbcSMatt Macy	int error = 0;
eda14cbcSMatt Macy
e716630dSMartin Matuska	for (int c = 0; c < rr->rr_cols; c++) {
7877fdebSMatt Macy		error = zio_worst_error(error, rr->rr_col[c].rc_error);
e716630dSMartin Matuska		error = zio_worst_error(error, rr->rr_col[c].rc_shadow_error);
e716630dSMartin Matuska	}
eda14cbcSMatt Macy
eda14cbcSMatt Macy	return (error);
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
eda14cbcSMatt Macystatic void
7877fdebSMatt Macyvdev_raidz_io_done_verified(zio_t *zio, raidz_row_t *rr)
eda14cbcSMatt Macy{
eda14cbcSMatt Macy	int unexpected_errors = 0;
eda14cbcSMatt Macy	int parity_errors = 0;
eda14cbcSMatt Macy	int parity_untried = 0;
eda14cbcSMatt Macy	int data_errors = 0;
eda14cbcSMatt Macy
7877fdebSMatt Macy	ASSERT3U(zio->io_type, ==, ZIO_TYPE_READ);
eda14cbcSMatt Macy
7877fdebSMatt Macy	for (int c = 0; c < rr->rr_cols; c++) {
7877fdebSMatt Macy		raidz_col_t *rc = &rr->rr_col[c];
eda14cbcSMatt Macy
eda14cbcSMatt Macy		if (rc->rc_error) {
7877fdebSMatt Macy			if (c < rr->rr_firstdatacol)
eda14cbcSMatt Macy				parity_errors++;
eda14cbcSMatt Macy			else
eda14cbcSMatt Macy				data_errors++;
eda14cbcSMatt Macy
eda14cbcSMatt Macy			if (!rc->rc_skipped)
eda14cbcSMatt Macy				unexpected_errors++;
7877fdebSMatt Macy		} else if (c < rr->rr_firstdatacol && !rc->rc_tried) {
eda14cbcSMatt Macy			parity_untried++;
eda14cbcSMatt Macy		}
a0b956f5SMartin Matuska
a0b956f5SMartin Matuska		if (rc->rc_force_repair)
a0b956f5SMartin Matuska			unexpected_errors++;
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy
eda14cbcSMatt Macy	/*
7877fdebSMatt Macy	 * If we read more parity disks than were used for
7877fdebSMatt Macy	 * reconstruction, confirm that the other parity disks produced
7877fdebSMatt Macy	 * correct data.
7877fdebSMatt Macy	 *
7877fdebSMatt Macy	 * Note that we also regenerate parity when resilvering so we
7877fdebSMatt Macy	 * can write it out to failed devices later.
7877fdebSMatt Macy	 */
7877fdebSMatt Macy	if (parity_errors + parity_untried <
7877fdebSMatt Macy	    rr->rr_firstdatacol - data_errors ||
7877fdebSMatt Macy	    (zio->io_flags & ZIO_FLAG_RESILVER)) {
7877fdebSMatt Macy		int n = raidz_parity_verify(zio, rr);
7877fdebSMatt Macy		unexpected_errors += n;
7877fdebSMatt Macy	}
7877fdebSMatt Macy
7877fdebSMatt Macy	if (zio->io_error == 0 && spa_writeable(zio->io_spa) &&
7877fdebSMatt Macy	    (unexpected_errors > 0 || (zio->io_flags & ZIO_FLAG_RESILVER))) {
7877fdebSMatt Macy		/*
7877fdebSMatt Macy		 * Use the good data we have in hand to repair damaged children.
7877fdebSMatt Macy		 */
7877fdebSMatt Macy		for (int c = 0; c < rr->rr_cols; c++) {
7877fdebSMatt Macy			raidz_col_t *rc = &rr->rr_col[c];
7877fdebSMatt Macy			vdev_t *vd = zio->io_vd;
7877fdebSMatt Macy			vdev_t *cvd = vd->vdev_child[rc->rc_devidx];
7877fdebSMatt Macy
16038816SMartin Matuska			if (!rc->rc_allow_repair) {
16038816SMartin Matuska				continue;
16038816SMartin Matuska			} else if (!rc->rc_force_repair &&
16038816SMartin Matuska			    (rc->rc_error == 0 || rc->rc_size == 0)) {
7877fdebSMatt Macy				continue;
7877fdebSMatt Macy			}
87bf66d4SMartin Matuska			/*
87bf66d4SMartin Matuska			 * We do not allow self healing for Direct I/O reads.
87bf66d4SMartin Matuska			 * See comment in vdev_raid_row_alloc().
87bf66d4SMartin Matuska			 */
87bf66d4SMartin Matuska			ASSERT0(zio->io_flags & ZIO_FLAG_DIO_READ);
7877fdebSMatt Macy
e716630dSMartin Matuska			zfs_dbgmsg("zio=%px repairing c=%u devidx=%u "
e716630dSMartin Matuska			    "offset=%llx",
e716630dSMartin Matuska			    zio, c, rc->rc_devidx, (long long)rc->rc_offset);
e716630dSMartin Matuska
7877fdebSMatt Macy			zio_nowait(zio_vdev_child_io(zio, NULL, cvd,
7877fdebSMatt Macy			    rc->rc_offset, rc->rc_abd, rc->rc_size,
7877fdebSMatt Macy			    ZIO_TYPE_WRITE,
7877fdebSMatt Macy			    zio->io_priority == ZIO_PRIORITY_REBUILD ?
7877fdebSMatt Macy			    ZIO_PRIORITY_REBUILD : ZIO_PRIORITY_ASYNC_WRITE,
7877fdebSMatt Macy			    ZIO_FLAG_IO_REPAIR | (unexpected_errors ?
7877fdebSMatt Macy			    ZIO_FLAG_SELF_HEAL : 0), NULL, NULL));
7877fdebSMatt Macy		}
7877fdebSMatt Macy	}
e716630dSMartin Matuska
e716630dSMartin Matuska	/*
e716630dSMartin Matuska	 * Scrub or resilver i/o's: overwrite any shadow locations with the
e716630dSMartin Matuska	 * good data.  This ensures that if we've already copied this sector,
e716630dSMartin Matuska	 * it will be corrected if it was damaged.  This writes more than is
e716630dSMartin Matuska	 * necessary, but since expansion is paused during scrub/resilver, at
e716630dSMartin Matuska	 * most a single row will have a shadow location.
e716630dSMartin Matuska	 */
e716630dSMartin Matuska	if (zio->io_error == 0 && spa_writeable(zio->io_spa) &&
e716630dSMartin Matuska	    (zio->io_flags & (ZIO_FLAG_RESILVER | ZIO_FLAG_SCRUB))) {
e716630dSMartin Matuska		for (int c = 0; c < rr->rr_cols; c++) {
e716630dSMartin Matuska			raidz_col_t *rc = &rr->rr_col[c];
e716630dSMartin Matuska			vdev_t *vd = zio->io_vd;
e716630dSMartin Matuska
e716630dSMartin Matuska			if (rc->rc_shadow_devidx == INT_MAX || rc->rc_size == 0)
e716630dSMartin Matuska				continue;
e716630dSMartin Matuska			vdev_t *cvd = vd->vdev_child[rc->rc_shadow_devidx];
e716630dSMartin Matuska
e716630dSMartin Matuska			/*
e716630dSMartin Matuska			 * Note: We don't want to update the repair stats
e716630dSMartin Matuska			 * because that would incorrectly indicate that there
e716630dSMartin Matuska			 * was bad data to repair, which we aren't sure about.
e716630dSMartin Matuska			 * By clearing the SCAN_THREAD flag, we prevent this
e716630dSMartin Matuska			 * from happening, despite having the REPAIR flag set.
e716630dSMartin Matuska			 * We need to set SELF_HEAL so that this i/o can't be
e716630dSMartin Matuska			 * bypassed by zio_vdev_io_start().
e716630dSMartin Matuska			 */
e716630dSMartin Matuska			zio_t *cio = zio_vdev_child_io(zio, NULL, cvd,
e716630dSMartin Matuska			    rc->rc_shadow_offset, rc->rc_abd, rc->rc_size,
e716630dSMartin Matuska			    ZIO_TYPE_WRITE, ZIO_PRIORITY_ASYNC_WRITE,
e716630dSMartin Matuska			    ZIO_FLAG_IO_REPAIR | ZIO_FLAG_SELF_HEAL,
e716630dSMartin Matuska			    NULL, NULL);
e716630dSMartin Matuska			cio->io_flags &= ~ZIO_FLAG_SCAN_THREAD;
e716630dSMartin Matuska			zio_nowait(cio);
e716630dSMartin Matuska		}
e716630dSMartin Matuska	}
7877fdebSMatt Macy}
7877fdebSMatt Macy
7877fdebSMatt Macystatic void
7877fdebSMatt Macyraidz_restore_orig_data(raidz_map_t *rm)
7877fdebSMatt Macy{
7877fdebSMatt Macy	for (int i = 0; i < rm->rm_nrows; i++) {
7877fdebSMatt Macy		raidz_row_t *rr = rm->rm_row[i];
7877fdebSMatt Macy		for (int c = 0; c < rr->rr_cols; c++) {
7877fdebSMatt Macy			raidz_col_t *rc = &rr->rr_col[c];
7877fdebSMatt Macy			if (rc->rc_need_orig_restore) {
f9693befSMartin Matuska				abd_copy(rc->rc_abd,
7877fdebSMatt Macy				    rc->rc_orig_data, rc->rc_size);
7877fdebSMatt Macy				rc->rc_need_orig_restore = B_FALSE;
7877fdebSMatt Macy			}
7877fdebSMatt Macy		}
7877fdebSMatt Macy	}
7877fdebSMatt Macy}
7877fdebSMatt Macy
7877fdebSMatt Macy/*
e716630dSMartin Matuska * During raidz_reconstruct() for expanded VDEV, we need special consideration
e716630dSMartin Matuska * failure simulations.  See note in raidz_reconstruct() on simulating failure
e716630dSMartin Matuska * of a pre-expansion device.
e716630dSMartin Matuska *
e716630dSMartin Matuska * Treating logical child i as failed, return TRUE if the given column should
e716630dSMartin Matuska * be treated as failed.  The idea of logical children allows us to imagine
e716630dSMartin Matuska * that a disk silently failed before a RAIDZ expansion (reads from this disk
e716630dSMartin Matuska * succeed but return the wrong data).  Since the expansion doesn't verify
e716630dSMartin Matuska * checksums, the incorrect data will be moved to new locations spread among
e716630dSMartin Matuska * the children (going diagonally across them).
e716630dSMartin Matuska *
e716630dSMartin Matuska * Higher "logical child failures" (values of `i`) indicate these
e716630dSMartin Matuska * "pre-expansion failures".  The first physical_width values imagine that a
e716630dSMartin Matuska * current child failed; the next physical_width-1 values imagine that a
e716630dSMartin Matuska * child failed before the most recent expansion; the next physical_width-2
e716630dSMartin Matuska * values imagine a child failed in the expansion before that, etc.
e716630dSMartin Matuska */
e716630dSMartin Matuskastatic boolean_t
e716630dSMartin Matuskaraidz_simulate_failure(int physical_width, int original_width, int ashift,
e716630dSMartin Matuska    int i, raidz_col_t *rc)
e716630dSMartin Matuska{
e716630dSMartin Matuska	uint64_t sector_id =
e716630dSMartin Matuska	    physical_width * (rc->rc_offset >> ashift) +
e716630dSMartin Matuska	    rc->rc_devidx;
e716630dSMartin Matuska
e716630dSMartin Matuska	for (int w = physical_width; w >= original_width; w--) {
e716630dSMartin Matuska		if (i < w) {
e716630dSMartin Matuska			return (sector_id % w == i);
e716630dSMartin Matuska		} else {
e716630dSMartin Matuska			i -= w;
e716630dSMartin Matuska		}
e716630dSMartin Matuska	}
e716630dSMartin Matuska	ASSERT(!"invalid logical child id");
e716630dSMartin Matuska	return (B_FALSE);
e716630dSMartin Matuska}
e716630dSMartin Matuska
e716630dSMartin Matuska/*
7877fdebSMatt Macy * returns EINVAL if reconstruction of the block will not be possible
7877fdebSMatt Macy * returns ECKSUM if this specific reconstruction failed
7877fdebSMatt Macy * returns 0 on successful reconstruction
7877fdebSMatt Macy */
7877fdebSMatt Macystatic int
7877fdebSMatt Macyraidz_reconstruct(zio_t *zio, int *ltgts, int ntgts, int nparity)
7877fdebSMatt Macy{
7877fdebSMatt Macy	raidz_map_t *rm = zio->io_vsd;
e716630dSMartin Matuska	int physical_width = zio->io_vd->vdev_children;
e716630dSMartin Matuska	int original_width = (rm->rm_original_width != 0) ?
e716630dSMartin Matuska	    rm->rm_original_width : physical_width;
e716630dSMartin Matuska	int dbgmsg = zfs_flags & ZFS_DEBUG_RAIDZ_RECONSTRUCT;
e716630dSMartin Matuska
e716630dSMartin Matuska	if (dbgmsg) {
e716630dSMartin Matuska		zfs_dbgmsg("raidz_reconstruct_expanded(zio=%px ltgts=%u,%u,%u "
e716630dSMartin Matuska		    "ntgts=%u", zio, ltgts[0], ltgts[1], ltgts[2], ntgts);
e716630dSMartin Matuska	}
7877fdebSMatt Macy
7877fdebSMatt Macy	/* Reconstruct each row */
7877fdebSMatt Macy	for (int r = 0; r < rm->rm_nrows; r++) {
7877fdebSMatt Macy		raidz_row_t *rr = rm->rm_row[r];
7877fdebSMatt Macy		int my_tgts[VDEV_RAIDZ_MAXPARITY]; /* value is child id */
7877fdebSMatt Macy		int t = 0;
7877fdebSMatt Macy		int dead = 0;
7877fdebSMatt Macy		int dead_data = 0;
7877fdebSMatt Macy
e716630dSMartin Matuska		if (dbgmsg)
e716630dSMartin Matuska			zfs_dbgmsg("raidz_reconstruct_expanded(row=%u)", r);
e716630dSMartin Matuska
7877fdebSMatt Macy		for (int c = 0; c < rr->rr_cols; c++) {
7877fdebSMatt Macy			raidz_col_t *rc = &rr->rr_col[c];
7877fdebSMatt Macy			ASSERT0(rc->rc_need_orig_restore);
7877fdebSMatt Macy			if (rc->rc_error != 0) {
7877fdebSMatt Macy				dead++;
7877fdebSMatt Macy				if (c >= nparity)
7877fdebSMatt Macy					dead_data++;
7877fdebSMatt Macy				continue;
7877fdebSMatt Macy			}
7877fdebSMatt Macy			if (rc->rc_size == 0)
7877fdebSMatt Macy				continue;
7877fdebSMatt Macy			for (int lt = 0; lt < ntgts; lt++) {
e716630dSMartin Matuska				if (raidz_simulate_failure(physical_width,
e716630dSMartin Matuska				    original_width,
e716630dSMartin Matuska				    zio->io_vd->vdev_top->vdev_ashift,
e716630dSMartin Matuska				    ltgts[lt], rc)) {
7877fdebSMatt Macy					if (rc->rc_orig_data == NULL) {
7877fdebSMatt Macy						rc->rc_orig_data =
f9693befSMartin Matuska						    abd_alloc_linear(
f9693befSMartin Matuska						    rc->rc_size, B_TRUE);
f9693befSMartin Matuska						abd_copy(rc->rc_orig_data,
7877fdebSMatt Macy						    rc->rc_abd, rc->rc_size);
7877fdebSMatt Macy					}
7877fdebSMatt Macy					rc->rc_need_orig_restore = B_TRUE;
7877fdebSMatt Macy
7877fdebSMatt Macy					dead++;
7877fdebSMatt Macy					if (c >= nparity)
7877fdebSMatt Macy						dead_data++;
e716630dSMartin Matuska					/*
e716630dSMartin Matuska					 * Note: simulating failure of a
e716630dSMartin Matuska					 * pre-expansion device can hit more
e716630dSMartin Matuska					 * than one column, in which case we
e716630dSMartin Matuska					 * might try to simulate more failures
e716630dSMartin Matuska					 * than can be reconstructed, which is
e716630dSMartin Matuska					 * also more than the size of my_tgts.
e716630dSMartin Matuska					 * This check prevents accessing past
e716630dSMartin Matuska					 * the end of my_tgts.  The "dead >
e716630dSMartin Matuska					 * nparity" check below will fail this
e716630dSMartin Matuska					 * reconstruction attempt.
e716630dSMartin Matuska					 */
e716630dSMartin Matuska					if (t < VDEV_RAIDZ_MAXPARITY) {
7877fdebSMatt Macy						my_tgts[t++] = c;
e716630dSMartin Matuska						if (dbgmsg) {
e716630dSMartin Matuska							zfs_dbgmsg("simulating "
e716630dSMartin Matuska							    "failure of col %u "
e716630dSMartin Matuska							    "devidx %u", c,
e716630dSMartin Matuska							    (int)rc->rc_devidx);
e716630dSMartin Matuska						}
e716630dSMartin Matuska					}
7877fdebSMatt Macy					break;
7877fdebSMatt Macy				}
7877fdebSMatt Macy			}
7877fdebSMatt Macy		}
7877fdebSMatt Macy		if (dead > nparity) {
7877fdebSMatt Macy			/* reconstruction not possible */
e716630dSMartin Matuska			if (dbgmsg) {
e716630dSMartin Matuska				zfs_dbgmsg("reconstruction not possible; "
e716630dSMartin Matuska				    "too many failures");
e716630dSMartin Matuska			}
7877fdebSMatt Macy			raidz_restore_orig_data(rm);
7877fdebSMatt Macy			return (EINVAL);
7877fdebSMatt Macy		}
7877fdebSMatt Macy		if (dead_data > 0)
f9693befSMartin Matuska			vdev_raidz_reconstruct_row(rm, rr, my_tgts, t);
7877fdebSMatt Macy	}
7877fdebSMatt Macy
7877fdebSMatt Macy	/* Check for success */
7877fdebSMatt Macy	if (raidz_checksum_verify(zio) == 0) {
87bf66d4SMartin Matuska		if (zio->io_flags & ZIO_FLAG_DIO_CHKSUM_ERR)
87bf66d4SMartin Matuska			return (0);
7877fdebSMatt Macy
7877fdebSMatt Macy		/* Reconstruction succeeded - report errors */
7877fdebSMatt Macy		for (int i = 0; i < rm->rm_nrows; i++) {
7877fdebSMatt Macy			raidz_row_t *rr = rm->rm_row[i];
7877fdebSMatt Macy
7877fdebSMatt Macy			for (int c = 0; c < rr->rr_cols; c++) {
7877fdebSMatt Macy				raidz_col_t *rc = &rr->rr_col[c];
7877fdebSMatt Macy				if (rc->rc_need_orig_restore) {
7877fdebSMatt Macy					/*
7877fdebSMatt Macy					 * Note: if this is a parity column,
7877fdebSMatt Macy					 * we don't really know if it's wrong.
7877fdebSMatt Macy					 * We need to let
7877fdebSMatt Macy					 * vdev_raidz_io_done_verified() check
7877fdebSMatt Macy					 * it, and if we set rc_error, it will
7877fdebSMatt Macy					 * think that it is a "known" error
7877fdebSMatt Macy					 * that doesn't need to be checked
7877fdebSMatt Macy					 * or corrected.
7877fdebSMatt Macy					 */
7877fdebSMatt Macy					if (rc->rc_error == 0 &&
7877fdebSMatt Macy					    c >= rr->rr_firstdatacol) {
e92ffd9bSMartin Matuska						vdev_raidz_checksum_error(zio,
f9693befSMartin Matuska						    rc, rc->rc_orig_data);
7877fdebSMatt Macy						rc->rc_error =
7877fdebSMatt Macy						    SET_ERROR(ECKSUM);
7877fdebSMatt Macy					}
7877fdebSMatt Macy					rc->rc_need_orig_restore = B_FALSE;
7877fdebSMatt Macy				}
7877fdebSMatt Macy			}
7877fdebSMatt Macy
7877fdebSMatt Macy			vdev_raidz_io_done_verified(zio, rr);
7877fdebSMatt Macy		}
7877fdebSMatt Macy
7877fdebSMatt Macy		zio_checksum_verified(zio);
7877fdebSMatt Macy
e716630dSMartin Matuska		if (dbgmsg) {
e716630dSMartin Matuska			zfs_dbgmsg("reconstruction successful "
e716630dSMartin Matuska			    "(checksum verified)");
e716630dSMartin Matuska		}
7877fdebSMatt Macy		return (0);
7877fdebSMatt Macy	}
7877fdebSMatt Macy
7877fdebSMatt Macy	/* Reconstruction failed - restore original data */
7877fdebSMatt Macy	raidz_restore_orig_data(rm);
e716630dSMartin Matuska	if (dbgmsg) {
e716630dSMartin Matuska		zfs_dbgmsg("raidz_reconstruct_expanded(zio=%px) checksum "
e716630dSMartin Matuska		    "failed", zio);
e716630dSMartin Matuska	}
7877fdebSMatt Macy	return (ECKSUM);
7877fdebSMatt Macy}
7877fdebSMatt Macy
7877fdebSMatt Macy/*
7877fdebSMatt Macy * Iterate over all combinations of N bad vdevs and attempt a reconstruction.
7877fdebSMatt Macy * Note that the algorithm below is non-optimal because it doesn't take into
7877fdebSMatt Macy * account how reconstruction is actually performed. For example, with
7877fdebSMatt Macy * triple-parity RAID-Z the reconstruction procedure is the same if column 4
7877fdebSMatt Macy * is targeted as invalid as if columns 1 and 4 are targeted since in both
7877fdebSMatt Macy * cases we'd only use parity information in column 0.
7877fdebSMatt Macy *
7877fdebSMatt Macy * The order that we find the various possible combinations of failed
7877fdebSMatt Macy * disks is dictated by these rules:
7877fdebSMatt Macy * - Examine each "slot" (the "i" in tgts[i])
e716630dSMartin Matuska *   - Try to increment this slot (tgts[i] += 1)
7877fdebSMatt Macy *   - if we can't increment because it runs into the next slot,
7877fdebSMatt Macy *     reset our slot to the minimum, and examine the next slot
7877fdebSMatt Macy *
7877fdebSMatt Macy *  For example, with a 6-wide RAIDZ3, and no known errors (so we have to choose
7877fdebSMatt Macy *  3 columns to reconstruct), we will generate the following sequence:
7877fdebSMatt Macy *
7877fdebSMatt Macy *  STATE        ACTION
7877fdebSMatt Macy *  0 1 2        special case: skip since these are all parity
7877fdebSMatt Macy *  0 1   3      first slot: reset to 0; middle slot: increment to 2
7877fdebSMatt Macy *  0   2 3      first slot: increment to 1
7877fdebSMatt Macy *    1 2 3      first: reset to 0; middle: reset to 1; last: increment to 4
7877fdebSMatt Macy *  0 1     4    first: reset to 0; middle: increment to 2
7877fdebSMatt Macy *  0   2   4    first: increment to 1
7877fdebSMatt Macy *    1 2   4    first: reset to 0; middle: increment to 3
7877fdebSMatt Macy *  0     3 4    first: increment to 1
7877fdebSMatt Macy *    1   3 4    first: increment to 2
7877fdebSMatt Macy *      2 3 4    first: reset to 0; middle: reset to 1; last: increment to 5
7877fdebSMatt Macy *  0 1       5  first: reset to 0; middle: increment to 2
7877fdebSMatt Macy *  0   2     5  first: increment to 1
7877fdebSMatt Macy *    1 2     5  first: reset to 0; middle: increment to 3
7877fdebSMatt Macy *  0     3   5  first: increment to 1
7877fdebSMatt Macy *    1   3   5  first: increment to 2
7877fdebSMatt Macy *      2 3   5  first: reset to 0; middle: increment to 4
7877fdebSMatt Macy *  0       4 5  first: increment to 1
7877fdebSMatt Macy *    1     4 5  first: increment to 2
7877fdebSMatt Macy *      2   4 5  first: increment to 3
7877fdebSMatt Macy *        3 4 5  done
7877fdebSMatt Macy *
16038816SMartin Matuska * This strategy works for dRAID but is less efficient when there are a large
7877fdebSMatt Macy * number of child vdevs and therefore permutations to check. Furthermore,
e716630dSMartin Matuska * since the raidz_map_t rows likely do not overlap, reconstruction would be
7877fdebSMatt Macy * possible as long as there are no more than nparity data errors per row.
7877fdebSMatt Macy * These additional permutations are not currently checked but could be as
7877fdebSMatt Macy * a future improvement.
e716630dSMartin Matuska *
e716630dSMartin Matuska * Returns 0 on success, ECKSUM on failure.
7877fdebSMatt Macy */
7877fdebSMatt Macystatic int
7877fdebSMatt Macyvdev_raidz_combrec(zio_t *zio)
7877fdebSMatt Macy{
7877fdebSMatt Macy	int nparity = vdev_get_nparity(zio->io_vd);
7877fdebSMatt Macy	raidz_map_t *rm = zio->io_vsd;
e716630dSMartin Matuska	int physical_width = zio->io_vd->vdev_children;
e716630dSMartin Matuska	int original_width = (rm->rm_original_width != 0) ?
e716630dSMartin Matuska	    rm->rm_original_width : physical_width;
7877fdebSMatt Macy
7877fdebSMatt Macy	for (int i = 0; i < rm->rm_nrows; i++) {
7877fdebSMatt Macy		raidz_row_t *rr = rm->rm_row[i];
7877fdebSMatt Macy		int total_errors = 0;
7877fdebSMatt Macy
7877fdebSMatt Macy		for (int c = 0; c < rr->rr_cols; c++) {
7877fdebSMatt Macy			if (rr->rr_col[c].rc_error)
7877fdebSMatt Macy				total_errors++;
7877fdebSMatt Macy		}
7877fdebSMatt Macy
7877fdebSMatt Macy		if (total_errors > nparity)
7877fdebSMatt Macy			return (vdev_raidz_worst_error(rr));
7877fdebSMatt Macy	}
7877fdebSMatt Macy
7877fdebSMatt Macy	for (int num_failures = 1; num_failures <= nparity; num_failures++) {
7877fdebSMatt Macy		int tstore[VDEV_RAIDZ_MAXPARITY + 2];
7877fdebSMatt Macy		int *ltgts = &tstore[1]; /* value is logical child ID */
7877fdebSMatt Macy
e716630dSMartin Matuska
e716630dSMartin Matuska		/*
e716630dSMartin Matuska		 * Determine number of logical children, n.  See comment
e716630dSMartin Matuska		 * above raidz_simulate_failure().
e716630dSMartin Matuska		 */
e716630dSMartin Matuska		int n = 0;
e716630dSMartin Matuska		for (int w = physical_width;
e716630dSMartin Matuska		    w >= original_width; w--) {
e716630dSMartin Matuska			n += w;
e716630dSMartin Matuska		}
7877fdebSMatt Macy
7877fdebSMatt Macy		ASSERT3U(num_failures, <=, nparity);
7877fdebSMatt Macy		ASSERT3U(num_failures, <=, VDEV_RAIDZ_MAXPARITY);
7877fdebSMatt Macy
7877fdebSMatt Macy		/* Handle corner cases in combrec logic */
7877fdebSMatt Macy		ltgts[-1] = -1;
7877fdebSMatt Macy		for (int i = 0; i < num_failures; i++) {
7877fdebSMatt Macy			ltgts[i] = i;
7877fdebSMatt Macy		}
7877fdebSMatt Macy		ltgts[num_failures] = n;
7877fdebSMatt Macy
7877fdebSMatt Macy		for (;;) {
7877fdebSMatt Macy			int err = raidz_reconstruct(zio, ltgts, num_failures,
7877fdebSMatt Macy			    nparity);
7877fdebSMatt Macy			if (err == EINVAL) {
7877fdebSMatt Macy				/*
7877fdebSMatt Macy				 * Reconstruction not possible with this #
7877fdebSMatt Macy				 * failures; try more failures.
7877fdebSMatt Macy				 */
7877fdebSMatt Macy				break;
7877fdebSMatt Macy			} else if (err == 0)
7877fdebSMatt Macy				return (0);
7877fdebSMatt Macy
7877fdebSMatt Macy			/* Compute next targets to try */
7877fdebSMatt Macy			for (int t = 0; ; t++) {
7877fdebSMatt Macy				ASSERT3U(t, <, num_failures);
7877fdebSMatt Macy				ltgts[t]++;
7877fdebSMatt Macy				if (ltgts[t] == n) {
7877fdebSMatt Macy					/* try more failures */
7877fdebSMatt Macy					ASSERT3U(t, ==, num_failures - 1);
e716630dSMartin Matuska					if (zfs_flags &
e716630dSMartin Matuska					    ZFS_DEBUG_RAIDZ_RECONSTRUCT) {
e716630dSMartin Matuska						zfs_dbgmsg("reconstruction "
e716630dSMartin Matuska						    "failed for num_failures="
e716630dSMartin Matuska						    "%u; tried all "
e716630dSMartin Matuska						    "combinations",
e716630dSMartin Matuska						    num_failures);
e716630dSMartin Matuska					}
7877fdebSMatt Macy					break;
7877fdebSMatt Macy				}
7877fdebSMatt Macy
7877fdebSMatt Macy				ASSERT3U(ltgts[t], <, n);
7877fdebSMatt Macy				ASSERT3U(ltgts[t], <=, ltgts[t + 1]);
7877fdebSMatt Macy
7877fdebSMatt Macy				/*
7877fdebSMatt Macy				 * If that spot is available, we're done here.
7877fdebSMatt Macy				 * Try the next combination.
7877fdebSMatt Macy				 */
7877fdebSMatt Macy				if (ltgts[t] != ltgts[t + 1])
e716630dSMartin Matuska					break; // found next combination
7877fdebSMatt Macy
7877fdebSMatt Macy				/*
7877fdebSMatt Macy				 * Otherwise, reset this tgt to the minimum,
7877fdebSMatt Macy				 * and move on to the next tgt.
7877fdebSMatt Macy				 */
7877fdebSMatt Macy				ltgts[t] = ltgts[t - 1] + 1;
7877fdebSMatt Macy				ASSERT3U(ltgts[t], ==, t);
7877fdebSMatt Macy			}
7877fdebSMatt Macy
7877fdebSMatt Macy			/* Increase the number of failures and keep trying. */
7877fdebSMatt Macy			if (ltgts[num_failures - 1] == n)
7877fdebSMatt Macy				break;
7877fdebSMatt Macy		}
7877fdebSMatt Macy	}
e716630dSMartin Matuska	if (zfs_flags & ZFS_DEBUG_RAIDZ_RECONSTRUCT)
e716630dSMartin Matuska		zfs_dbgmsg("reconstruction failed for all num_failures");
7877fdebSMatt Macy	return (ECKSUM);
7877fdebSMatt Macy}
7877fdebSMatt Macy
7877fdebSMatt Macyvoid
7877fdebSMatt Macyvdev_raidz_reconstruct(raidz_map_t *rm, const int *t, int nt)
7877fdebSMatt Macy{
7877fdebSMatt Macy	for (uint64_t row = 0; row < rm->rm_nrows; row++) {
7877fdebSMatt Macy		raidz_row_t *rr = rm->rm_row[row];
7877fdebSMatt Macy		vdev_raidz_reconstruct_row(rm, rr, t, nt);
7877fdebSMatt Macy	}
7877fdebSMatt Macy}
7877fdebSMatt Macy
7877fdebSMatt Macy/*
7877fdebSMatt Macy * Complete a write IO operation on a RAIDZ VDev
7877fdebSMatt Macy *
7877fdebSMatt Macy * Outline:
7877fdebSMatt Macy *   1. Check for errors on the child IOs.
7877fdebSMatt Macy *   2. Return, setting an error code if too few child VDevs were written
7877fdebSMatt Macy *      to reconstruct the data later.  Note that partial writes are
7877fdebSMatt Macy *      considered successful if they can be reconstructed at all.
7877fdebSMatt Macy */
7877fdebSMatt Macystatic void
7877fdebSMatt Macyvdev_raidz_io_done_write_impl(zio_t *zio, raidz_row_t *rr)
7877fdebSMatt Macy{
e716630dSMartin Matuska	int normal_errors = 0;
e716630dSMartin Matuska	int shadow_errors = 0;
7877fdebSMatt Macy
7877fdebSMatt Macy	ASSERT3U(rr->rr_missingparity, <=, rr->rr_firstdatacol);
7877fdebSMatt Macy	ASSERT3U(rr->rr_missingdata, <=, rr->rr_cols - rr->rr_firstdatacol);
7877fdebSMatt Macy	ASSERT3U(zio->io_type, ==, ZIO_TYPE_WRITE);
7877fdebSMatt Macy
7877fdebSMatt Macy	for (int c = 0; c < rr->rr_cols; c++) {
7877fdebSMatt Macy		raidz_col_t *rc = &rr->rr_col[c];
7877fdebSMatt Macy
e716630dSMartin Matuska		if (rc->rc_error != 0) {
7877fdebSMatt Macy			ASSERT(rc->rc_error != ECKSUM);	/* child has no bp */
e716630dSMartin Matuska			normal_errors++;
e716630dSMartin Matuska		}
e716630dSMartin Matuska		if (rc->rc_shadow_error != 0) {
e716630dSMartin Matuska			ASSERT(rc->rc_shadow_error != ECKSUM);
e716630dSMartin Matuska			shadow_errors++;
7877fdebSMatt Macy		}
7877fdebSMatt Macy	}
7877fdebSMatt Macy
7877fdebSMatt Macy	/*
7877fdebSMatt Macy	 * Treat partial writes as a success. If we couldn't write enough
e716630dSMartin Matuska	 * columns to reconstruct the data, the I/O failed.  Otherwise, good
e716630dSMartin Matuska	 * enough.  Note that in the case of a shadow write (during raidz
e716630dSMartin Matuska	 * expansion), depending on if we crash, either the normal (old) or
e716630dSMartin Matuska	 * shadow (new) location may become the "real" version of the block,
e716630dSMartin Matuska	 * so both locations must have sufficient redundancy.
eda14cbcSMatt Macy	 *
eda14cbcSMatt Macy	 * Now that we support write reallocation, it would be better
eda14cbcSMatt Macy	 * to treat partial failure as real failure unless there are
eda14cbcSMatt Macy	 * no non-degraded top-level vdevs left, and not update DTLs
eda14cbcSMatt Macy	 * if we intend to reallocate.
eda14cbcSMatt Macy	 */
e716630dSMartin Matuska	if (normal_errors > rr->rr_firstdatacol ||
e716630dSMartin Matuska	    shadow_errors > rr->rr_firstdatacol) {
7877fdebSMatt Macy		zio->io_error = zio_worst_error(zio->io_error,
7877fdebSMatt Macy		    vdev_raidz_worst_error(rr));
7877fdebSMatt Macy	}
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
f9693befSMartin Matuskastatic void
7877fdebSMatt Macyvdev_raidz_io_done_reconstruct_known_missing(zio_t *zio, raidz_map_t *rm,
7877fdebSMatt Macy    raidz_row_t *rr)
7877fdebSMatt Macy{
7877fdebSMatt Macy	int parity_errors = 0;
7877fdebSMatt Macy	int parity_untried = 0;
7877fdebSMatt Macy	int data_errors = 0;
7877fdebSMatt Macy	int total_errors = 0;
7877fdebSMatt Macy
7877fdebSMatt Macy	ASSERT3U(rr->rr_missingparity, <=, rr->rr_firstdatacol);
7877fdebSMatt Macy	ASSERT3U(rr->rr_missingdata, <=, rr->rr_cols - rr->rr_firstdatacol);
7877fdebSMatt Macy
7877fdebSMatt Macy	for (int c = 0; c < rr->rr_cols; c++) {
7877fdebSMatt Macy		raidz_col_t *rc = &rr->rr_col[c];
7877fdebSMatt Macy
a0b956f5SMartin Matuska		/*
a0b956f5SMartin Matuska		 * If scrubbing and a replacing/sparing child vdev determined
a0b956f5SMartin Matuska		 * that not all of its children have an identical copy of the
a0b956f5SMartin Matuska		 * data, then clear the error so the column is treated like
a0b956f5SMartin Matuska		 * any other read and force a repair to correct the damage.
a0b956f5SMartin Matuska		 */
a0b956f5SMartin Matuska		if (rc->rc_error == ECKSUM) {
a0b956f5SMartin Matuska			ASSERT(zio->io_flags & ZIO_FLAG_SCRUB);
a0b956f5SMartin Matuska			vdev_raidz_checksum_error(zio, rc, rc->rc_abd);
a0b956f5SMartin Matuska			rc->rc_force_repair = 1;
a0b956f5SMartin Matuska			rc->rc_error = 0;
a0b956f5SMartin Matuska		}
7877fdebSMatt Macy
a0b956f5SMartin Matuska		if (rc->rc_error) {
7877fdebSMatt Macy			if (c < rr->rr_firstdatacol)
7877fdebSMatt Macy				parity_errors++;
7877fdebSMatt Macy			else
7877fdebSMatt Macy				data_errors++;
7877fdebSMatt Macy
7877fdebSMatt Macy			total_errors++;
7877fdebSMatt Macy		} else if (c < rr->rr_firstdatacol && !rc->rc_tried) {
7877fdebSMatt Macy			parity_untried++;
7877fdebSMatt Macy		}
7877fdebSMatt Macy	}
eda14cbcSMatt Macy
eda14cbcSMatt Macy	/*
7877fdebSMatt Macy	 * If there were data errors and the number of errors we saw was
7877fdebSMatt Macy	 * correctable -- less than or equal to the number of parity disks read
7877fdebSMatt Macy	 * -- reconstruct based on the missing data.
eda14cbcSMatt Macy	 */
7877fdebSMatt Macy	if (data_errors != 0 &&
7877fdebSMatt Macy	    total_errors <= rr->rr_firstdatacol - parity_untried) {
eda14cbcSMatt Macy		/*
eda14cbcSMatt Macy		 * We either attempt to read all the parity columns or
eda14cbcSMatt Macy		 * none of them. If we didn't try to read parity, we
eda14cbcSMatt Macy		 * wouldn't be here in the correctable case. There must
eda14cbcSMatt Macy		 * also have been fewer parity errors than parity
eda14cbcSMatt Macy		 * columns or, again, we wouldn't be in this code path.
eda14cbcSMatt Macy		 */
eda14cbcSMatt Macy		ASSERT(parity_untried == 0);
7877fdebSMatt Macy		ASSERT(parity_errors < rr->rr_firstdatacol);
eda14cbcSMatt Macy
eda14cbcSMatt Macy		/*
eda14cbcSMatt Macy		 * Identify the data columns that reported an error.
eda14cbcSMatt Macy		 */
7877fdebSMatt Macy		int n = 0;
7877fdebSMatt Macy		int tgts[VDEV_RAIDZ_MAXPARITY];
7877fdebSMatt Macy		for (int c = rr->rr_firstdatacol; c < rr->rr_cols; c++) {
7877fdebSMatt Macy			raidz_col_t *rc = &rr->rr_col[c];
eda14cbcSMatt Macy			if (rc->rc_error != 0) {
eda14cbcSMatt Macy				ASSERT(n < VDEV_RAIDZ_MAXPARITY);
eda14cbcSMatt Macy				tgts[n++] = c;
eda14cbcSMatt Macy			}
eda14cbcSMatt Macy		}
eda14cbcSMatt Macy
7877fdebSMatt Macy		ASSERT(rr->rr_firstdatacol >= n);
eda14cbcSMatt Macy
f9693befSMartin Matuska		vdev_raidz_reconstruct_row(rm, rr, tgts, n);
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
eda14cbcSMatt Macy/*
7877fdebSMatt Macy * Return the number of reads issued.
eda14cbcSMatt Macy */
7877fdebSMatt Macystatic int
7877fdebSMatt Macyvdev_raidz_read_all(zio_t *zio, raidz_row_t *rr)
7877fdebSMatt Macy{
7877fdebSMatt Macy	vdev_t *vd = zio->io_vd;
7877fdebSMatt Macy	int nread = 0;
eda14cbcSMatt Macy
7877fdebSMatt Macy	rr->rr_missingdata = 0;
7877fdebSMatt Macy	rr->rr_missingparity = 0;
7877fdebSMatt Macy
7877fdebSMatt Macy	/*
7877fdebSMatt Macy	 * If this rows contains empty sectors which are not required
7877fdebSMatt Macy	 * for a normal read then allocate an ABD for them now so they
7877fdebSMatt Macy	 * may be read, verified, and any needed repairs performed.
7877fdebSMatt Macy	 */
e716630dSMartin Matuska	if (rr->rr_nempty != 0 && rr->rr_abd_empty == NULL)
7877fdebSMatt Macy		vdev_draid_map_alloc_empty(zio, rr);
7877fdebSMatt Macy
7877fdebSMatt Macy	for (int c = 0; c < rr->rr_cols; c++) {
7877fdebSMatt Macy		raidz_col_t *rc = &rr->rr_col[c];
7877fdebSMatt Macy		if (rc->rc_tried || rc->rc_size == 0)
eda14cbcSMatt Macy			continue;
eda14cbcSMatt Macy
eda14cbcSMatt Macy		zio_nowait(zio_vdev_child_io(zio, NULL,
eda14cbcSMatt Macy		    vd->vdev_child[rc->rc_devidx],
eda14cbcSMatt Macy		    rc->rc_offset, rc->rc_abd, rc->rc_size,
eda14cbcSMatt Macy		    zio->io_type, zio->io_priority, 0,
eda14cbcSMatt Macy		    vdev_raidz_child_done, rc));
7877fdebSMatt Macy		nread++;
7877fdebSMatt Macy	}
7877fdebSMatt Macy	return (nread);
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
eda14cbcSMatt Macy/*
7877fdebSMatt Macy * We're here because either there were too many errors to even attempt
7877fdebSMatt Macy * reconstruction (total_errors == rm_first_datacol), or vdev_*_combrec()
7877fdebSMatt Macy * failed. In either case, there is enough bad data to prevent reconstruction.
7877fdebSMatt Macy * Start checksum ereports for all children which haven't failed.
eda14cbcSMatt Macy */
7877fdebSMatt Macystatic void
7877fdebSMatt Macyvdev_raidz_io_done_unrecoverable(zio_t *zio)
7877fdebSMatt Macy{
7877fdebSMatt Macy	raidz_map_t *rm = zio->io_vsd;
eda14cbcSMatt Macy
7877fdebSMatt Macy	for (int i = 0; i < rm->rm_nrows; i++) {
7877fdebSMatt Macy		raidz_row_t *rr = rm->rm_row[i];
eda14cbcSMatt Macy
7877fdebSMatt Macy		for (int c = 0; c < rr->rr_cols; c++) {
7877fdebSMatt Macy			raidz_col_t *rc = &rr->rr_col[c];
7877fdebSMatt Macy			vdev_t *cvd = zio->io_vd->vdev_child[rc->rc_devidx];
7877fdebSMatt Macy
2c48331dSMatt Macy			if (rc->rc_error != 0)
2c48331dSMatt Macy				continue;
2c48331dSMatt Macy
eda14cbcSMatt Macy			zio_bad_cksum_t zbc;
eda14cbcSMatt Macy			zbc.zbc_has_cksum = 0;
2c48331dSMatt Macy			zbc.zbc_injected = rm->rm_ecksuminjected;
eda14cbcSMatt Macy			mutex_enter(&cvd->vdev_stat_lock);
eda14cbcSMatt Macy			cvd->vdev_stat.vs_checksum_errors++;
eda14cbcSMatt Macy			mutex_exit(&cvd->vdev_stat_lock);
bb2d13b6SMartin Matuska			(void) zfs_ereport_start_checksum(zio->io_spa,
bb2d13b6SMartin Matuska			    cvd, &zio->io_bookmark, zio, rc->rc_offset,
bb2d13b6SMartin Matuska			    rc->rc_size, &zbc);
eda14cbcSMatt Macy		}
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
7877fdebSMatt Macyvoid
7877fdebSMatt Macyvdev_raidz_io_done(zio_t *zio)
7877fdebSMatt Macy{
7877fdebSMatt Macy	raidz_map_t *rm = zio->io_vsd;
7877fdebSMatt Macy
e716630dSMartin Matuska	ASSERT(zio->io_bp != NULL);
7877fdebSMatt Macy	if (zio->io_type == ZIO_TYPE_WRITE) {
7877fdebSMatt Macy		for (int i = 0; i < rm->rm_nrows; i++) {
7877fdebSMatt Macy			vdev_raidz_io_done_write_impl(zio, rm->rm_row[i]);
7877fdebSMatt Macy		}
7877fdebSMatt Macy	} else {
e716630dSMartin Matuska		if (rm->rm_phys_col) {
e716630dSMartin Matuska			/*
e716630dSMartin Matuska			 * This is an aggregated read.  Copy the data and status
e716630dSMartin Matuska			 * from the aggregate abd's to the individual rows.
e716630dSMartin Matuska			 */
e716630dSMartin Matuska			for (int i = 0; i < rm->rm_nrows; i++) {
e716630dSMartin Matuska				raidz_row_t *rr = rm->rm_row[i];
e716630dSMartin Matuska
e716630dSMartin Matuska				for (int c = 0; c < rr->rr_cols; c++) {
e716630dSMartin Matuska					raidz_col_t *rc = &rr->rr_col[c];
e716630dSMartin Matuska					if (rc->rc_tried || rc->rc_size == 0)
e716630dSMartin Matuska						continue;
e716630dSMartin Matuska
e716630dSMartin Matuska					raidz_col_t *prc =
e716630dSMartin Matuska					    &rm->rm_phys_col[rc->rc_devidx];
e716630dSMartin Matuska					rc->rc_error = prc->rc_error;
e716630dSMartin Matuska					rc->rc_tried = prc->rc_tried;
e716630dSMartin Matuska					rc->rc_skipped = prc->rc_skipped;
e716630dSMartin Matuska					if (c >= rr->rr_firstdatacol) {
e716630dSMartin Matuska						/*
e716630dSMartin Matuska						 * Note: this is slightly faster
e716630dSMartin Matuska						 * than using abd_copy_off().
e716630dSMartin Matuska						 */
e716630dSMartin Matuska						char *physbuf = abd_to_buf(
e716630dSMartin Matuska						    prc->rc_abd);
e716630dSMartin Matuska						void *physloc = physbuf +
e716630dSMartin Matuska						    rc->rc_offset -
e716630dSMartin Matuska						    prc->rc_offset;
e716630dSMartin Matuska
e716630dSMartin Matuska						abd_copy_from_buf(rc->rc_abd,
e716630dSMartin Matuska						    physloc, rc->rc_size);
e716630dSMartin Matuska					}
e716630dSMartin Matuska				}
e716630dSMartin Matuska			}
e716630dSMartin Matuska		}
e716630dSMartin Matuska
7877fdebSMatt Macy		for (int i = 0; i < rm->rm_nrows; i++) {
7877fdebSMatt Macy			raidz_row_t *rr = rm->rm_row[i];
7877fdebSMatt Macy			vdev_raidz_io_done_reconstruct_known_missing(zio,
7877fdebSMatt Macy			    rm, rr);
7877fdebSMatt Macy		}
7877fdebSMatt Macy
7877fdebSMatt Macy		if (raidz_checksum_verify(zio) == 0) {
87bf66d4SMartin Matuska			if (zio->io_flags & ZIO_FLAG_DIO_CHKSUM_ERR)
87bf66d4SMartin Matuska				goto done;
87bf66d4SMartin Matuska
7877fdebSMatt Macy			for (int i = 0; i < rm->rm_nrows; i++) {
7877fdebSMatt Macy				raidz_row_t *rr = rm->rm_row[i];
7877fdebSMatt Macy				vdev_raidz_io_done_verified(zio, rr);
7877fdebSMatt Macy			}
eda14cbcSMatt Macy			zio_checksum_verified(zio);
7877fdebSMatt Macy		} else {
eda14cbcSMatt Macy			/*
7877fdebSMatt Macy			 * A sequential resilver has no checksum which makes
7877fdebSMatt Macy			 * combinatoral reconstruction impossible. This code
7877fdebSMatt Macy			 * path is unreachable since raidz_checksum_verify()
7877fdebSMatt Macy			 * has no checksum to verify and must succeed.
eda14cbcSMatt Macy			 */
7877fdebSMatt Macy			ASSERT3U(zio->io_priority, !=, ZIO_PRIORITY_REBUILD);
eda14cbcSMatt Macy
7877fdebSMatt Macy			/*
7877fdebSMatt Macy			 * This isn't a typical situation -- either we got a
7877fdebSMatt Macy			 * read error or a child silently returned bad data.
7877fdebSMatt Macy			 * Read every block so we can try again with as much
7877fdebSMatt Macy			 * data and parity as we can track down. If we've
7877fdebSMatt Macy			 * already been through once before, all children will
7877fdebSMatt Macy			 * be marked as tried so we'll proceed to combinatorial
7877fdebSMatt Macy			 * reconstruction.
7877fdebSMatt Macy			 */
7877fdebSMatt Macy			int nread = 0;
7877fdebSMatt Macy			for (int i = 0; i < rm->rm_nrows; i++) {
7877fdebSMatt Macy				nread += vdev_raidz_read_all(zio,
7877fdebSMatt Macy				    rm->rm_row[i]);
7877fdebSMatt Macy			}
7877fdebSMatt Macy			if (nread != 0) {
7877fdebSMatt Macy				/*
7877fdebSMatt Macy				 * Normally our stage is VDEV_IO_DONE, but if
7877fdebSMatt Macy				 * we've already called redone(), it will have
7877fdebSMatt Macy				 * changed to VDEV_IO_START, in which case we
7877fdebSMatt Macy				 * don't want to call redone() again.
7877fdebSMatt Macy				 */
7877fdebSMatt Macy				if (zio->io_stage != ZIO_STAGE_VDEV_IO_START)
7877fdebSMatt Macy					zio_vdev_io_redone(zio);
7877fdebSMatt Macy				return;
7877fdebSMatt Macy			}
e716630dSMartin Matuska			/*
e716630dSMartin Matuska			 * It would be too expensive to try every possible
e716630dSMartin Matuska			 * combination of failed sectors in every row, so
e716630dSMartin Matuska			 * instead we try every combination of failed current or
e716630dSMartin Matuska			 * past physical disk. This means that if the incorrect
e716630dSMartin Matuska			 * sectors were all on Nparity disks at any point in the
e716630dSMartin Matuska			 * past, we will find the correct data.  The only known
e716630dSMartin Matuska			 * case where this is less durable than a non-expanded
e716630dSMartin Matuska			 * RAIDZ, is if we have a silent failure during
e716630dSMartin Matuska			 * expansion.  In that case, one block could be
e716630dSMartin Matuska			 * partially in the old format and partially in the
e716630dSMartin Matuska			 * new format, so we'd lost some sectors from the old
e716630dSMartin Matuska			 * format and some from the new format.
e716630dSMartin Matuska			 *
e716630dSMartin Matuska			 * e.g. logical_width=4 physical_width=6
e716630dSMartin Matuska			 * the 15 (6+5+4) possible failed disks are:
e716630dSMartin Matuska			 * width=6 child=0
e716630dSMartin Matuska			 * width=6 child=1
e716630dSMartin Matuska			 * width=6 child=2
e716630dSMartin Matuska			 * width=6 child=3
e716630dSMartin Matuska			 * width=6 child=4
e716630dSMartin Matuska			 * width=6 child=5
e716630dSMartin Matuska			 * width=5 child=0
e716630dSMartin Matuska			 * width=5 child=1
e716630dSMartin Matuska			 * width=5 child=2
e716630dSMartin Matuska			 * width=5 child=3
e716630dSMartin Matuska			 * width=5 child=4
e716630dSMartin Matuska			 * width=4 child=0
e716630dSMartin Matuska			 * width=4 child=1
e716630dSMartin Matuska			 * width=4 child=2
e716630dSMartin Matuska			 * width=4 child=3
e716630dSMartin Matuska			 * And we will try every combination of Nparity of these
e716630dSMartin Matuska			 * failing.
e716630dSMartin Matuska			 *
e716630dSMartin Matuska			 * As a first pass, we can generate every combo,
e716630dSMartin Matuska			 * and try reconstructing, ignoring any known
e716630dSMartin Matuska			 * failures.  If any row has too many known + simulated
e716630dSMartin Matuska			 * failures, then we bail on reconstructing with this
e716630dSMartin Matuska			 * number of simulated failures.  As an improvement,
e716630dSMartin Matuska			 * we could detect the number of whole known failures
e716630dSMartin Matuska			 * (i.e. we have known failures on these disks for
e716630dSMartin Matuska			 * every row; the disks never succeeded), and
e716630dSMartin Matuska			 * subtract that from the max # failures to simulate.
e716630dSMartin Matuska			 * We could go even further like the current
e716630dSMartin Matuska			 * combrec code, but that doesn't seem like it
e716630dSMartin Matuska			 * gains us very much.  If we simulate a failure
e716630dSMartin Matuska			 * that is also a known failure, that's fine.
e716630dSMartin Matuska			 */
7877fdebSMatt Macy			zio->io_error = vdev_raidz_combrec(zio);
7877fdebSMatt Macy			if (zio->io_error == ECKSUM &&
7877fdebSMatt Macy			    !(zio->io_flags & ZIO_FLAG_SPECULATIVE)) {
7877fdebSMatt Macy				vdev_raidz_io_done_unrecoverable(zio);
7877fdebSMatt Macy			}
eda14cbcSMatt Macy		}
eda14cbcSMatt Macy	}
87bf66d4SMartin Matuskadone:
e716630dSMartin Matuska	if (rm->rm_lr != NULL) {
e716630dSMartin Matuska		zfs_rangelock_exit(rm->rm_lr);
e716630dSMartin Matuska		rm->rm_lr = NULL;
e716630dSMartin Matuska	}
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
eda14cbcSMatt Macystatic void
eda14cbcSMatt Macyvdev_raidz_state_change(vdev_t *vd, int faulted, int degraded)
eda14cbcSMatt Macy{
7877fdebSMatt Macy	vdev_raidz_t *vdrz = vd->vdev_tsd;
7877fdebSMatt Macy	if (faulted > vdrz->vd_nparity)
eda14cbcSMatt Macy		vdev_set_state(vd, B_FALSE, VDEV_STATE_CANT_OPEN,
eda14cbcSMatt Macy		    VDEV_AUX_NO_REPLICAS);
eda14cbcSMatt Macy	else if (degraded + faulted != 0)
eda14cbcSMatt Macy		vdev_set_state(vd, B_FALSE, VDEV_STATE_DEGRADED, VDEV_AUX_NONE);
eda14cbcSMatt Macy	else
eda14cbcSMatt Macy		vdev_set_state(vd, B_FALSE, VDEV_STATE_HEALTHY, VDEV_AUX_NONE);
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
eda14cbcSMatt Macy/*
eda14cbcSMatt Macy * Determine if any portion of the provided block resides on a child vdev
eda14cbcSMatt Macy * with a dirty DTL and therefore needs to be resilvered.  The function
eda14cbcSMatt Macy * assumes that at least one DTL is dirty which implies that full stripe
eda14cbcSMatt Macy * width blocks must be resilvered.
eda14cbcSMatt Macy */
eda14cbcSMatt Macystatic boolean_t
7877fdebSMatt Macyvdev_raidz_need_resilver(vdev_t *vd, const dva_t *dva, size_t psize,
7877fdebSMatt Macy    uint64_t phys_birth)
eda14cbcSMatt Macy{
7877fdebSMatt Macy	vdev_raidz_t *vdrz = vd->vdev_tsd;
e716630dSMartin Matuska
e716630dSMartin Matuska	/*
e716630dSMartin Matuska	 * If we're in the middle of a RAIDZ expansion, this block may be in
e716630dSMartin Matuska	 * the old and/or new location.  For simplicity, always resilver it.
e716630dSMartin Matuska	 */
e716630dSMartin Matuska	if (vdrz->vn_vre.vre_state == DSS_SCANNING)
e716630dSMartin Matuska		return (B_TRUE);
e716630dSMartin Matuska
eda14cbcSMatt Macy	uint64_t dcols = vd->vdev_children;
7877fdebSMatt Macy	uint64_t nparity = vdrz->vd_nparity;
eda14cbcSMatt Macy	uint64_t ashift = vd->vdev_top->vdev_ashift;
eda14cbcSMatt Macy	/* The starting RAIDZ (parent) vdev sector of the block. */
7877fdebSMatt Macy	uint64_t b = DVA_GET_OFFSET(dva) >> ashift;
eda14cbcSMatt Macy	/* The zio's size in units of the vdev's minimum sector size. */
eda14cbcSMatt Macy	uint64_t s = ((psize - 1) >> ashift) + 1;
eda14cbcSMatt Macy	/* The first column for this stripe. */
eda14cbcSMatt Macy	uint64_t f = b % dcols;
eda14cbcSMatt Macy
7877fdebSMatt Macy	/* Unreachable by sequential resilver. */
7877fdebSMatt Macy	ASSERT3U(phys_birth, !=, TXG_UNKNOWN);
7877fdebSMatt Macy
7877fdebSMatt Macy	if (!vdev_dtl_contains(vd, DTL_PARTIAL, phys_birth, 1))
7877fdebSMatt Macy		return (B_FALSE);
7877fdebSMatt Macy
eda14cbcSMatt Macy	if (s + nparity >= dcols)
eda14cbcSMatt Macy		return (B_TRUE);
eda14cbcSMatt Macy
eda14cbcSMatt Macy	for (uint64_t c = 0; c < s + nparity; c++) {
eda14cbcSMatt Macy		uint64_t devidx = (f + c) % dcols;
eda14cbcSMatt Macy		vdev_t *cvd = vd->vdev_child[devidx];
eda14cbcSMatt Macy
eda14cbcSMatt Macy		/*
eda14cbcSMatt Macy		 * dsl_scan_need_resilver() already checked vd with
eda14cbcSMatt Macy		 * vdev_dtl_contains(). So here just check cvd with
eda14cbcSMatt Macy		 * vdev_dtl_empty(), cheaper and a good approximation.
eda14cbcSMatt Macy		 */
eda14cbcSMatt Macy		if (!vdev_dtl_empty(cvd, DTL_PARTIAL))
eda14cbcSMatt Macy			return (B_TRUE);
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy
eda14cbcSMatt Macy	return (B_FALSE);
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
eda14cbcSMatt Macystatic void
b59a0cdeSMartin Matuskavdev_raidz_xlate(vdev_t *cvd, const zfs_range_seg64_t *logical_rs,
b59a0cdeSMartin Matuska    zfs_range_seg64_t *physical_rs, zfs_range_seg64_t *remain_rs)
eda14cbcSMatt Macy{
e92ffd9bSMartin Matuska	(void) remain_rs;
e92ffd9bSMartin Matuska
eda14cbcSMatt Macy	vdev_t *raidvd = cvd->vdev_parent;
eda14cbcSMatt Macy	ASSERT(raidvd->vdev_ops == &vdev_raidz_ops);
eda14cbcSMatt Macy
e716630dSMartin Matuska	vdev_raidz_t *vdrz = raidvd->vdev_tsd;
e716630dSMartin Matuska
e716630dSMartin Matuska	if (vdrz->vn_vre.vre_state == DSS_SCANNING) {
e716630dSMartin Matuska		/*
e716630dSMartin Matuska		 * We're in the middle of expansion, in which case the
e716630dSMartin Matuska		 * translation is in flux.  Any answer we give may be wrong
e716630dSMartin Matuska		 * by the time we return, so it isn't safe for the caller to
e716630dSMartin Matuska		 * act on it.  Therefore we say that this range isn't present
e716630dSMartin Matuska		 * on any children.  The only consumers of this are "zpool
e716630dSMartin Matuska		 * initialize" and trimming, both of which are "best effort"
e716630dSMartin Matuska		 * anyway.
e716630dSMartin Matuska		 */
e716630dSMartin Matuska		physical_rs->rs_start = physical_rs->rs_end = 0;
e716630dSMartin Matuska		remain_rs->rs_start = remain_rs->rs_end = 0;
e716630dSMartin Matuska		return;
e716630dSMartin Matuska	}
e716630dSMartin Matuska
e716630dSMartin Matuska	uint64_t width = vdrz->vd_physical_width;
eda14cbcSMatt Macy	uint64_t tgt_col = cvd->vdev_id;
eda14cbcSMatt Macy	uint64_t ashift = raidvd->vdev_top->vdev_ashift;
eda14cbcSMatt Macy
eda14cbcSMatt Macy	/* make sure the offsets are block-aligned */
7877fdebSMatt Macy	ASSERT0(logical_rs->rs_start % (1 << ashift));
7877fdebSMatt Macy	ASSERT0(logical_rs->rs_end % (1 << ashift));
7877fdebSMatt Macy	uint64_t b_start = logical_rs->rs_start >> ashift;
7877fdebSMatt Macy	uint64_t b_end = logical_rs->rs_end >> ashift;
eda14cbcSMatt Macy
eda14cbcSMatt Macy	uint64_t start_row = 0;
eda14cbcSMatt Macy	if (b_start > tgt_col) /* avoid underflow */
eda14cbcSMatt Macy		start_row = ((b_start - tgt_col - 1) / width) + 1;
eda14cbcSMatt Macy
eda14cbcSMatt Macy	uint64_t end_row = 0;
eda14cbcSMatt Macy	if (b_end > tgt_col)
eda14cbcSMatt Macy		end_row = ((b_end - tgt_col - 1) / width) + 1;
eda14cbcSMatt Macy
7877fdebSMatt Macy	physical_rs->rs_start = start_row << ashift;
7877fdebSMatt Macy	physical_rs->rs_end = end_row << ashift;
eda14cbcSMatt Macy
7877fdebSMatt Macy	ASSERT3U(physical_rs->rs_start, <=, logical_rs->rs_start);
7877fdebSMatt Macy	ASSERT3U(physical_rs->rs_end - physical_rs->rs_start, <=,
7877fdebSMatt Macy	    logical_rs->rs_end - logical_rs->rs_start);
7877fdebSMatt Macy}
7877fdebSMatt Macy
e716630dSMartin Matuskastatic void
e716630dSMartin Matuskaraidz_reflow_sync(void *arg, dmu_tx_t *tx)
e716630dSMartin Matuska{
e716630dSMartin Matuska	spa_t *spa = arg;
e716630dSMartin Matuska	int txgoff = dmu_tx_get_txg(tx) & TXG_MASK;
e716630dSMartin Matuska	vdev_raidz_expand_t *vre = spa->spa_raidz_expand;
e716630dSMartin Matuska
e716630dSMartin Matuska	/*
e716630dSMartin Matuska	 * Ensure there are no i/os to the range that is being committed.
e716630dSMartin Matuska	 */
e716630dSMartin Matuska	uint64_t old_offset = RRSS_GET_OFFSET(&spa->spa_uberblock);
e716630dSMartin Matuska	ASSERT3U(vre->vre_offset_pertxg[txgoff], >=, old_offset);
e716630dSMartin Matuska
e716630dSMartin Matuska	mutex_enter(&vre->vre_lock);
e716630dSMartin Matuska	uint64_t new_offset =
e716630dSMartin Matuska	    MIN(vre->vre_offset_pertxg[txgoff], vre->vre_failed_offset);
e716630dSMartin Matuska	/*
e716630dSMartin Matuska	 * We should not have committed anything that failed.
e716630dSMartin Matuska	 */
e716630dSMartin Matuska	VERIFY3U(vre->vre_failed_offset, >=, old_offset);
e716630dSMartin Matuska	mutex_exit(&vre->vre_lock);
e716630dSMartin Matuska
e716630dSMartin Matuska	zfs_locked_range_t *lr = zfs_rangelock_enter(&vre->vre_rangelock,
e716630dSMartin Matuska	    old_offset, new_offset - old_offset,
e716630dSMartin Matuska	    RL_WRITER);
e716630dSMartin Matuska
e716630dSMartin Matuska	/*
e716630dSMartin Matuska	 * Update the uberblock that will be written when this txg completes.
e716630dSMartin Matuska	 */
e716630dSMartin Matuska	RAIDZ_REFLOW_SET(&spa->spa_uberblock,
e716630dSMartin Matuska	    RRSS_SCRATCH_INVALID_SYNCED_REFLOW, new_offset);
e716630dSMartin Matuska	vre->vre_offset_pertxg[txgoff] = 0;
e716630dSMartin Matuska	zfs_rangelock_exit(lr);
e716630dSMartin Matuska
e716630dSMartin Matuska	mutex_enter(&vre->vre_lock);
e716630dSMartin Matuska	vre->vre_bytes_copied += vre->vre_bytes_copied_pertxg[txgoff];
e716630dSMartin Matuska	vre->vre_bytes_copied_pertxg[txgoff] = 0;
e716630dSMartin Matuska	mutex_exit(&vre->vre_lock);
e716630dSMartin Matuska
e716630dSMartin Matuska	vdev_t *vd = vdev_lookup_top(spa, vre->vre_vdev_id);
e716630dSMartin Matuska	VERIFY0(zap_update(spa->spa_meta_objset,
e716630dSMartin Matuska	    vd->vdev_top_zap, VDEV_TOP_ZAP_RAIDZ_EXPAND_BYTES_COPIED,
e716630dSMartin Matuska	    sizeof (vre->vre_bytes_copied), 1, &vre->vre_bytes_copied, tx));
e716630dSMartin Matuska}
e716630dSMartin Matuska
e716630dSMartin Matuskastatic void
e716630dSMartin Matuskaraidz_reflow_complete_sync(void *arg, dmu_tx_t *tx)
e716630dSMartin Matuska{
e716630dSMartin Matuska	spa_t *spa = arg;
e716630dSMartin Matuska	vdev_raidz_expand_t *vre = spa->spa_raidz_expand;
e716630dSMartin Matuska	vdev_t *raidvd = vdev_lookup_top(spa, vre->vre_vdev_id);
e716630dSMartin Matuska	vdev_raidz_t *vdrz = raidvd->vdev_tsd;
e716630dSMartin Matuska
e716630dSMartin Matuska	for (int i = 0; i < TXG_SIZE; i++)
e716630dSMartin Matuska		VERIFY0(vre->vre_offset_pertxg[i]);
e716630dSMartin Matuska
e716630dSMartin Matuska	reflow_node_t *re = kmem_zalloc(sizeof (*re), KM_SLEEP);
e716630dSMartin Matuska	re->re_txg = tx->tx_txg + TXG_CONCURRENT_STATES;
e716630dSMartin Matuska	re->re_logical_width = vdrz->vd_physical_width;
e716630dSMartin Matuska	mutex_enter(&vdrz->vd_expand_lock);
e716630dSMartin Matuska	avl_add(&vdrz->vd_expand_txgs, re);
e716630dSMartin Matuska	mutex_exit(&vdrz->vd_expand_lock);
e716630dSMartin Matuska
e716630dSMartin Matuska	vdev_t *vd = vdev_lookup_top(spa, vre->vre_vdev_id);
e716630dSMartin Matuska
e716630dSMartin Matuska	/*
e716630dSMartin Matuska	 * Dirty the config so that the updated ZPOOL_CONFIG_RAIDZ_EXPAND_TXGS
e716630dSMartin Matuska	 * will get written (based on vd_expand_txgs).
e716630dSMartin Matuska	 */
e716630dSMartin Matuska	vdev_config_dirty(vd);
e716630dSMartin Matuska
e716630dSMartin Matuska	/*
e716630dSMartin Matuska	 * Before we change vre_state, the on-disk state must reflect that we
e716630dSMartin Matuska	 * have completed all copying, so that vdev_raidz_io_start() can use
e716630dSMartin Matuska	 * vre_state to determine if the reflow is in progress.  See also the
e716630dSMartin Matuska	 * end of spa_raidz_expand_thread().
e716630dSMartin Matuska	 */
e716630dSMartin Matuska	VERIFY3U(RRSS_GET_OFFSET(&spa->spa_ubsync), ==,
e716630dSMartin Matuska	    raidvd->vdev_ms_count << raidvd->vdev_ms_shift);
e716630dSMartin Matuska
e716630dSMartin Matuska	vre->vre_end_time = gethrestime_sec();
e716630dSMartin Matuska	vre->vre_state = DSS_FINISHED;
e716630dSMartin Matuska
e716630dSMartin Matuska	uint64_t state = vre->vre_state;
e716630dSMartin Matuska	VERIFY0(zap_update(spa->spa_meta_objset,
e716630dSMartin Matuska	    vd->vdev_top_zap, VDEV_TOP_ZAP_RAIDZ_EXPAND_STATE,
e716630dSMartin Matuska	    sizeof (state), 1, &state, tx));
e716630dSMartin Matuska
e716630dSMartin Matuska	uint64_t end_time = vre->vre_end_time;
e716630dSMartin Matuska	VERIFY0(zap_update(spa->spa_meta_objset,
e716630dSMartin Matuska	    vd->vdev_top_zap, VDEV_TOP_ZAP_RAIDZ_EXPAND_END_TIME,
e716630dSMartin Matuska	    sizeof (end_time), 1, &end_time, tx));
e716630dSMartin Matuska
e716630dSMartin Matuska	spa->spa_uberblock.ub_raidz_reflow_info = 0;
e716630dSMartin Matuska
e716630dSMartin Matuska	spa_history_log_internal(spa, "raidz vdev expansion completed",  tx,
e716630dSMartin Matuska	    "%s vdev %llu new width %llu", spa_name(spa),
e716630dSMartin Matuska	    (unsigned long long)vd->vdev_id,
e716630dSMartin Matuska	    (unsigned long long)vd->vdev_children);
e716630dSMartin Matuska
e716630dSMartin Matuska	spa->spa_raidz_expand = NULL;
e716630dSMartin Matuska	raidvd->vdev_rz_expanding = B_FALSE;
e716630dSMartin Matuska
e716630dSMartin Matuska	spa_async_request(spa, SPA_ASYNC_INITIALIZE_RESTART);
e716630dSMartin Matuska	spa_async_request(spa, SPA_ASYNC_TRIM_RESTART);
e716630dSMartin Matuska	spa_async_request(spa, SPA_ASYNC_AUTOTRIM_RESTART);
e716630dSMartin Matuska
e716630dSMartin Matuska	spa_notify_waiters(spa);
e716630dSMartin Matuska
e716630dSMartin Matuska	/*
e716630dSMartin Matuska	 * While we're in syncing context take the opportunity to
e716630dSMartin Matuska	 * setup a scrub. All the data has been sucessfully copied
e716630dSMartin Matuska	 * but we have not validated any checksums.
e716630dSMartin Matuska	 */
17aab35aSMartin Matuska	setup_sync_arg_t setup_sync_arg = {
17aab35aSMartin Matuska		.func = POOL_SCAN_SCRUB,
17aab35aSMartin Matuska		.txgstart = 0,
17aab35aSMartin Matuska		.txgend = 0,
17aab35aSMartin Matuska	};
17aab35aSMartin Matuska	if (zfs_scrub_after_expand &&
17aab35aSMartin Matuska	    dsl_scan_setup_check(&setup_sync_arg.func, tx) == 0) {
17aab35aSMartin Matuska		dsl_scan_setup_sync(&setup_sync_arg, tx);
17aab35aSMartin Matuska	}
e716630dSMartin Matuska}
e716630dSMartin Matuska
e716630dSMartin Matuska/*
17aab35aSMartin Matuska * State of one copy batch.
e716630dSMartin Matuska */
e716630dSMartin Matuskatypedef struct raidz_reflow_arg {
17aab35aSMartin Matuska	vdev_raidz_expand_t *rra_vre;	/* Global expantion state. */
17aab35aSMartin Matuska	zfs_locked_range_t *rra_lr;	/* Range lock of this batch. */
17aab35aSMartin Matuska	uint64_t rra_txg;	/* TXG of this batch. */
17aab35aSMartin Matuska	uint_t rra_ashift;	/* Ashift of the vdev. */
17aab35aSMartin Matuska	uint32_t rra_tbd;	/* Number of in-flight ZIOs. */
17aab35aSMartin Matuska	uint32_t rra_writes;	/* Number of write ZIOs. */
17aab35aSMartin Matuska	zio_t *rra_zio[];	/* Write ZIO pointers. */
e716630dSMartin Matuska} raidz_reflow_arg_t;
e716630dSMartin Matuska
e716630dSMartin Matuska/*
17aab35aSMartin Matuska * Write of the new location on one child is done.  Once all of them are done
17aab35aSMartin Matuska * we can unlock and free everything.
e716630dSMartin Matuska */
e716630dSMartin Matuskastatic void
e716630dSMartin Matuskaraidz_reflow_write_done(zio_t *zio)
e716630dSMartin Matuska{
e716630dSMartin Matuska	raidz_reflow_arg_t *rra = zio->io_private;
e716630dSMartin Matuska	vdev_raidz_expand_t *vre = rra->rra_vre;
e716630dSMartin Matuska
e716630dSMartin Matuska	abd_free(zio->io_abd);
e716630dSMartin Matuska
e716630dSMartin Matuska	mutex_enter(&vre->vre_lock);
e716630dSMartin Matuska	if (zio->io_error != 0) {
e716630dSMartin Matuska		/* Force a reflow pause on errors */
e716630dSMartin Matuska		vre->vre_failed_offset =
e716630dSMartin Matuska		    MIN(vre->vre_failed_offset, rra->rra_lr->lr_offset);
e716630dSMartin Matuska	}
e716630dSMartin Matuska	ASSERT3U(vre->vre_outstanding_bytes, >=, zio->io_size);
e716630dSMartin Matuska	vre->vre_outstanding_bytes -= zio->io_size;
e716630dSMartin Matuska	if (rra->rra_lr->lr_offset + rra->rra_lr->lr_length <
e716630dSMartin Matuska	    vre->vre_failed_offset) {
e716630dSMartin Matuska		vre->vre_bytes_copied_pertxg[rra->rra_txg & TXG_MASK] +=
e716630dSMartin Matuska		    zio->io_size;
e716630dSMartin Matuska	}
e716630dSMartin Matuska	cv_signal(&vre->vre_cv);
17aab35aSMartin Matuska	boolean_t done = (--rra->rra_tbd == 0);
e716630dSMartin Matuska	mutex_exit(&vre->vre_lock);
e716630dSMartin Matuska
17aab35aSMartin Matuska	if (!done)
17aab35aSMartin Matuska		return;
e716630dSMartin Matuska	spa_config_exit(zio->io_spa, SCL_STATE, zio->io_spa);
17aab35aSMartin Matuska	zfs_rangelock_exit(rra->rra_lr);
17aab35aSMartin Matuska	kmem_free(rra, sizeof (*rra) + sizeof (zio_t *) * rra->rra_writes);
e716630dSMartin Matuska}
e716630dSMartin Matuska
e716630dSMartin Matuska/*
17aab35aSMartin Matuska * Read of the old location on one child is done.  Once all of them are done
17aab35aSMartin Matuska * writes should have all the data and we can issue them.
e716630dSMartin Matuska */
e716630dSMartin Matuskastatic void
e716630dSMartin Matuskaraidz_reflow_read_done(zio_t *zio)
e716630dSMartin Matuska{
e716630dSMartin Matuska	raidz_reflow_arg_t *rra = zio->io_private;
e716630dSMartin Matuska	vdev_raidz_expand_t *vre = rra->rra_vre;
e716630dSMartin Matuska
17aab35aSMartin Matuska	/* Reads of only one block use write ABDs.  For bigger free gangs. */
17aab35aSMartin Matuska	if (zio->io_size > (1 << rra->rra_ashift))
17aab35aSMartin Matuska		abd_free(zio->io_abd);
17aab35aSMartin Matuska
e716630dSMartin Matuska	/*
e716630dSMartin Matuska	 * If the read failed, or if it was done on a vdev that is not fully
e716630dSMartin Matuska	 * healthy (e.g. a child that has a resilver in progress), we may not
e716630dSMartin Matuska	 * have the correct data.  Note that it's OK if the write proceeds.
e716630dSMartin Matuska	 * It may write garbage but the location is otherwise unused and we
e716630dSMartin Matuska	 * will retry later due to vre_failed_offset.
e716630dSMartin Matuska	 */
e716630dSMartin Matuska	if (zio->io_error != 0 || !vdev_dtl_empty(zio->io_vd, DTL_MISSING)) {
e716630dSMartin Matuska		zfs_dbgmsg("reflow read failed off=%llu size=%llu txg=%llu "
e716630dSMartin Matuska		    "err=%u partial_dtl_empty=%u missing_dtl_empty=%u",
e716630dSMartin Matuska		    (long long)rra->rra_lr->lr_offset,
e716630dSMartin Matuska		    (long long)rra->rra_lr->lr_length,
e716630dSMartin Matuska		    (long long)rra->rra_txg,
e716630dSMartin Matuska		    zio->io_error,
e716630dSMartin Matuska		    vdev_dtl_empty(zio->io_vd, DTL_PARTIAL),
e716630dSMartin Matuska		    vdev_dtl_empty(zio->io_vd, DTL_MISSING));
e716630dSMartin Matuska		mutex_enter(&vre->vre_lock);
e716630dSMartin Matuska		/* Force a reflow pause on errors */
e716630dSMartin Matuska		vre->vre_failed_offset =
e716630dSMartin Matuska		    MIN(vre->vre_failed_offset, rra->rra_lr->lr_offset);
e716630dSMartin Matuska		mutex_exit(&vre->vre_lock);
e716630dSMartin Matuska	}
e716630dSMartin Matuska
17aab35aSMartin Matuska	if (atomic_dec_32_nv(&rra->rra_tbd) > 0)
17aab35aSMartin Matuska		return;
dd215568SMartin Matuska	uint32_t writes = rra->rra_tbd = rra->rra_writes;
dd215568SMartin Matuska	for (uint64_t i = 0; i < writes; i++)
17aab35aSMartin Matuska		zio_nowait(rra->rra_zio[i]);
e716630dSMartin Matuska}
e716630dSMartin Matuska
e716630dSMartin Matuskastatic void
e716630dSMartin Matuskaraidz_reflow_record_progress(vdev_raidz_expand_t *vre, uint64_t offset,
e716630dSMartin Matuska    dmu_tx_t *tx)
e716630dSMartin Matuska{
e716630dSMartin Matuska	int txgoff = dmu_tx_get_txg(tx) & TXG_MASK;
e716630dSMartin Matuska	spa_t *spa = dmu_tx_pool(tx)->dp_spa;
e716630dSMartin Matuska
e716630dSMartin Matuska	if (offset == 0)
e716630dSMartin Matuska		return;
e716630dSMartin Matuska
e716630dSMartin Matuska	mutex_enter(&vre->vre_lock);
e716630dSMartin Matuska	ASSERT3U(vre->vre_offset, <=, offset);
e716630dSMartin Matuska	vre->vre_offset = offset;
e716630dSMartin Matuska	mutex_exit(&vre->vre_lock);
e716630dSMartin Matuska
e716630dSMartin Matuska	if (vre->vre_offset_pertxg[txgoff] == 0) {
e716630dSMartin Matuska		dsl_sync_task_nowait(dmu_tx_pool(tx), raidz_reflow_sync,
e716630dSMartin Matuska		    spa, tx);
e716630dSMartin Matuska	}
e716630dSMartin Matuska	vre->vre_offset_pertxg[txgoff] = offset;
e716630dSMartin Matuska}
e716630dSMartin Matuska
e716630dSMartin Matuskastatic boolean_t
e716630dSMartin Matuskavdev_raidz_expand_child_replacing(vdev_t *raidz_vd)
e716630dSMartin Matuska{
e716630dSMartin Matuska	for (int i = 0; i < raidz_vd->vdev_children; i++) {
e716630dSMartin Matuska		/* Quick check if a child is being replaced */
e716630dSMartin Matuska		if (!raidz_vd->vdev_child[i]->vdev_ops->vdev_op_leaf)
e716630dSMartin Matuska			return (B_TRUE);
e716630dSMartin Matuska	}
e716630dSMartin Matuska	return (B_FALSE);
e716630dSMartin Matuska}
e716630dSMartin Matuska
e716630dSMartin Matuskastatic boolean_t
b59a0cdeSMartin Matuskaraidz_reflow_impl(vdev_t *vd, vdev_raidz_expand_t *vre, zfs_range_tree_t *rt,
e716630dSMartin Matuska    dmu_tx_t *tx)
e716630dSMartin Matuska{
e716630dSMartin Matuska	spa_t *spa = vd->vdev_spa;
17aab35aSMartin Matuska	uint_t ashift = vd->vdev_top->vdev_ashift;
e716630dSMartin Matuska
b59a0cdeSMartin Matuska	zfs_range_seg_t *rs = zfs_range_tree_first(rt);
17aab35aSMartin Matuska	if (rt == NULL)
e716630dSMartin Matuska		return (B_FALSE);
b59a0cdeSMartin Matuska	uint64_t offset = zfs_rs_get_start(rs, rt);
e716630dSMartin Matuska	ASSERT(IS_P2ALIGNED(offset, 1 << ashift));
b59a0cdeSMartin Matuska	uint64_t size = zfs_rs_get_end(rs, rt) - offset;
e716630dSMartin Matuska	ASSERT3U(size, >=, 1 << ashift);
17aab35aSMartin Matuska	ASSERT(IS_P2ALIGNED(size, 1 << ashift));
e716630dSMartin Matuska
e716630dSMartin Matuska	uint64_t blkid = offset >> ashift;
17aab35aSMartin Matuska	uint_t old_children = vd->vdev_children - 1;
e716630dSMartin Matuska
e716630dSMartin Matuska	/*
e716630dSMartin Matuska	 * We can only progress to the point that writes will not overlap
e716630dSMartin Matuska	 * with blocks whose progress has not yet been recorded on disk.
e716630dSMartin Matuska	 * Since partially-copied rows are still read from the old location,
e716630dSMartin Matuska	 * we need to stop one row before the sector-wise overlap, to prevent
e716630dSMartin Matuska	 * row-wise overlap.
e716630dSMartin Matuska	 *
e716630dSMartin Matuska	 * Note that even if we are skipping over a large unallocated region,
e716630dSMartin Matuska	 * we can't move the on-disk progress to `offset`, because concurrent
e716630dSMartin Matuska	 * writes/allocations could still use the currently-unallocated
e716630dSMartin Matuska	 * region.
e716630dSMartin Matuska	 */
e716630dSMartin Matuska	uint64_t ubsync_blkid =
e716630dSMartin Matuska	    RRSS_GET_OFFSET(&spa->spa_ubsync) >> ashift;
e716630dSMartin Matuska	uint64_t next_overwrite_blkid = ubsync_blkid +
e716630dSMartin Matuska	    ubsync_blkid / old_children - old_children;
e716630dSMartin Matuska	VERIFY3U(next_overwrite_blkid, >, ubsync_blkid);
e716630dSMartin Matuska	if (blkid >= next_overwrite_blkid) {
e716630dSMartin Matuska		raidz_reflow_record_progress(vre,
e716630dSMartin Matuska		    next_overwrite_blkid << ashift, tx);
e716630dSMartin Matuska		return (B_TRUE);
e716630dSMartin Matuska	}
e716630dSMartin Matuska
17aab35aSMartin Matuska	size = MIN(size, raidz_expand_max_copy_bytes);
17aab35aSMartin Matuska	size = MIN(size, (uint64_t)old_children *
17aab35aSMartin Matuska	    MIN(zfs_max_recordsize, SPA_MAXBLOCKSIZE));
17aab35aSMartin Matuska	size = MAX(size, 1 << ashift);
17aab35aSMartin Matuska	uint_t blocks = MIN(size >> ashift, next_overwrite_blkid - blkid);
17aab35aSMartin Matuska	size = (uint64_t)blocks << ashift;
e716630dSMartin Matuska
b59a0cdeSMartin Matuska	zfs_range_tree_remove(rt, offset, size);
17aab35aSMartin Matuska
17aab35aSMartin Matuska	uint_t reads = MIN(blocks, old_children);
17aab35aSMartin Matuska	uint_t writes = MIN(blocks, vd->vdev_children);
17aab35aSMartin Matuska	raidz_reflow_arg_t *rra = kmem_zalloc(sizeof (*rra) +
17aab35aSMartin Matuska	    sizeof (zio_t *) * writes, KM_SLEEP);
e716630dSMartin Matuska	rra->rra_vre = vre;
e716630dSMartin Matuska	rra->rra_lr = zfs_rangelock_enter(&vre->vre_rangelock,
17aab35aSMartin Matuska	    offset, size, RL_WRITER);
e716630dSMartin Matuska	rra->rra_txg = dmu_tx_get_txg(tx);
17aab35aSMartin Matuska	rra->rra_ashift = ashift;
17aab35aSMartin Matuska	rra->rra_tbd = reads;
17aab35aSMartin Matuska	rra->rra_writes = writes;
e716630dSMartin Matuska
17aab35aSMartin Matuska	raidz_reflow_record_progress(vre, offset + size, tx);
e716630dSMartin Matuska
e716630dSMartin Matuska	/*
e716630dSMartin Matuska	 * SCL_STATE will be released when the read and write are done,
e716630dSMartin Matuska	 * by raidz_reflow_write_done().
e716630dSMartin Matuska	 */
e716630dSMartin Matuska	spa_config_enter(spa, SCL_STATE, spa, RW_READER);
e716630dSMartin Matuska
e716630dSMartin Matuska	/* check if a replacing vdev was added, if so treat it as an error */
e716630dSMartin Matuska	if (vdev_raidz_expand_child_replacing(vd)) {
e716630dSMartin Matuska		zfs_dbgmsg("replacing vdev encountered, reflow paused at "
e716630dSMartin Matuska		    "offset=%llu txg=%llu",
e716630dSMartin Matuska		    (long long)rra->rra_lr->lr_offset,
e716630dSMartin Matuska		    (long long)rra->rra_txg);
e716630dSMartin Matuska
e716630dSMartin Matuska		mutex_enter(&vre->vre_lock);
e716630dSMartin Matuska		vre->vre_failed_offset =
e716630dSMartin Matuska		    MIN(vre->vre_failed_offset, rra->rra_lr->lr_offset);
e716630dSMartin Matuska		cv_signal(&vre->vre_cv);
e716630dSMartin Matuska		mutex_exit(&vre->vre_lock);
e716630dSMartin Matuska
e716630dSMartin Matuska		/* drop everything we acquired */
e716630dSMartin Matuska		spa_config_exit(spa, SCL_STATE, spa);
17aab35aSMartin Matuska		zfs_rangelock_exit(rra->rra_lr);
17aab35aSMartin Matuska		kmem_free(rra, sizeof (*rra) + sizeof (zio_t *) * writes);
e716630dSMartin Matuska		return (B_TRUE);
e716630dSMartin Matuska	}
e716630dSMartin Matuska
17aab35aSMartin Matuska	mutex_enter(&vre->vre_lock);
17aab35aSMartin Matuska	vre->vre_outstanding_bytes += size;
17aab35aSMartin Matuska	mutex_exit(&vre->vre_lock);
e716630dSMartin Matuska
17aab35aSMartin Matuska	/* Allocate ABD and ZIO for each child we write. */
17aab35aSMartin Matuska	int txgoff = dmu_tx_get_txg(tx) & TXG_MASK;
17aab35aSMartin Matuska	zio_t *pio = spa->spa_txg_zio[txgoff];
17aab35aSMartin Matuska	uint_t b = blocks / vd->vdev_children;
17aab35aSMartin Matuska	uint_t bb = blocks % vd->vdev_children;
17aab35aSMartin Matuska	for (uint_t i = 0; i < writes; i++) {
17aab35aSMartin Matuska		uint_t n = b + (i < bb);
17aab35aSMartin Matuska		abd_t *abd = abd_alloc_for_io(n << ashift, B_FALSE);
17aab35aSMartin Matuska		rra->rra_zio[i] = zio_vdev_child_io(pio, NULL,
17aab35aSMartin Matuska		    vd->vdev_child[(blkid + i) % vd->vdev_children],
17aab35aSMartin Matuska		    ((blkid + i) / vd->vdev_children) << ashift,
17aab35aSMartin Matuska		    abd, n << ashift, ZIO_TYPE_WRITE, ZIO_PRIORITY_REMOVAL,
17aab35aSMartin Matuska		    ZIO_FLAG_CANFAIL, raidz_reflow_write_done, rra);
17aab35aSMartin Matuska	}
17aab35aSMartin Matuska
17aab35aSMartin Matuska	/*
17aab35aSMartin Matuska	 * Allocate and issue ZIO for each child we read.  For reads of only
17aab35aSMartin Matuska	 * one block we can use respective writer ABDs, since they will also
17aab35aSMartin Matuska	 * have only one block.  For bigger reads create gang ABDs and fill
17aab35aSMartin Matuska	 * them with respective blocks from writer ABDs.
17aab35aSMartin Matuska	 */
17aab35aSMartin Matuska	b = blocks / old_children;
17aab35aSMartin Matuska	bb = blocks % old_children;
17aab35aSMartin Matuska	for (uint_t i = 0; i < reads; i++) {
17aab35aSMartin Matuska		uint_t n = b + (i < bb);
17aab35aSMartin Matuska		abd_t *abd;
17aab35aSMartin Matuska		if (n > 1) {
17aab35aSMartin Matuska			abd = abd_alloc_gang();
17aab35aSMartin Matuska			for (uint_t j = 0; j < n; j++) {
17aab35aSMartin Matuska				uint_t b = j * old_children + i;
17aab35aSMartin Matuska				abd_t *cabd = abd_get_offset_size(
17aab35aSMartin Matuska				    rra->rra_zio[b % vd->vdev_children]->io_abd,
17aab35aSMartin Matuska				    (b / vd->vdev_children) << ashift,
17aab35aSMartin Matuska				    1 << ashift);
17aab35aSMartin Matuska				abd_gang_add(abd, cabd, B_TRUE);
17aab35aSMartin Matuska			}
17aab35aSMartin Matuska		} else {
17aab35aSMartin Matuska			abd = rra->rra_zio[i]->io_abd;
17aab35aSMartin Matuska		}
17aab35aSMartin Matuska		zio_nowait(zio_vdev_child_io(pio, NULL,
17aab35aSMartin Matuska		    vd->vdev_child[(blkid + i) % old_children],
17aab35aSMartin Matuska		    ((blkid + i) / old_children) << ashift, abd,
17aab35aSMartin Matuska		    n << ashift, ZIO_TYPE_READ, ZIO_PRIORITY_REMOVAL,
17aab35aSMartin Matuska		    ZIO_FLAG_CANFAIL, raidz_reflow_read_done, rra));
17aab35aSMartin Matuska	}
e716630dSMartin Matuska
e716630dSMartin Matuska	return (B_FALSE);
e716630dSMartin Matuska}
e716630dSMartin Matuska
e716630dSMartin Matuska/*
e716630dSMartin Matuska * For testing (ztest specific)
e716630dSMartin Matuska */
e716630dSMartin Matuskastatic void
e716630dSMartin Matuskaraidz_expand_pause(uint_t pause_point)
e716630dSMartin Matuska{
e716630dSMartin Matuska	while (raidz_expand_pause_point != 0 &&
e716630dSMartin Matuska	    raidz_expand_pause_point <= pause_point)
e716630dSMartin Matuska		delay(hz);
e716630dSMartin Matuska}
e716630dSMartin Matuska
e716630dSMartin Matuskastatic void
e716630dSMartin Matuskaraidz_scratch_child_done(zio_t *zio)
e716630dSMartin Matuska{
e716630dSMartin Matuska	zio_t *pio = zio->io_private;
e716630dSMartin Matuska
e716630dSMartin Matuska	mutex_enter(&pio->io_lock);
e716630dSMartin Matuska	pio->io_error = zio_worst_error(pio->io_error, zio->io_error);
e716630dSMartin Matuska	mutex_exit(&pio->io_lock);
e716630dSMartin Matuska}
e716630dSMartin Matuska
e716630dSMartin Matuska/*
e716630dSMartin Matuska * Reflow the beginning portion of the vdev into an intermediate scratch area
e716630dSMartin Matuska * in memory and on disk. This operation must be persisted on disk before we
e716630dSMartin Matuska * proceed to overwrite the beginning portion with the reflowed data.
e716630dSMartin Matuska *
e716630dSMartin Matuska * This multi-step task can fail to complete if disk errors are encountered
e716630dSMartin Matuska * and we can return here after a pause (waiting for disk to become healthy).
e716630dSMartin Matuska */
e716630dSMartin Matuskastatic void
e716630dSMartin Matuskaraidz_reflow_scratch_sync(void *arg, dmu_tx_t *tx)
e716630dSMartin Matuska{
e716630dSMartin Matuska	vdev_raidz_expand_t *vre = arg;
e716630dSMartin Matuska	spa_t *spa = dmu_tx_pool(tx)->dp_spa;
e716630dSMartin Matuska	zio_t *pio;
e716630dSMartin Matuska	int error;
e716630dSMartin Matuska
e716630dSMartin Matuska	spa_config_enter(spa, SCL_STATE, FTAG, RW_READER);
e716630dSMartin Matuska	vdev_t *raidvd = vdev_lookup_top(spa, vre->vre_vdev_id);
e716630dSMartin Matuska	int ashift = raidvd->vdev_ashift;
aca928a5SMartin Matuska	uint64_t write_size = P2ALIGN_TYPED(VDEV_BOOT_SIZE, 1 << ashift,
aca928a5SMartin Matuska	    uint64_t);
e716630dSMartin Matuska	uint64_t logical_size = write_size * raidvd->vdev_children;
e716630dSMartin Matuska	uint64_t read_size =
e716630dSMartin Matuska	    P2ROUNDUP(DIV_ROUND_UP(logical_size, (raidvd->vdev_children - 1)),
e716630dSMartin Matuska	    1 << ashift);
e716630dSMartin Matuska
e716630dSMartin Matuska	/*
e716630dSMartin Matuska	 * The scratch space must be large enough to get us to the point
e716630dSMartin Matuska	 * that one row does not overlap itself when moved.  This is checked
e716630dSMartin Matuska	 * by vdev_raidz_attach_check().
e716630dSMartin Matuska	 */
e716630dSMartin Matuska	VERIFY3U(write_size, >=, raidvd->vdev_children << ashift);
e716630dSMartin Matuska	VERIFY3U(write_size, <=, VDEV_BOOT_SIZE);
e716630dSMartin Matuska	VERIFY3U(write_size, <=, read_size);
e716630dSMartin Matuska
e716630dSMartin Matuska	zfs_locked_range_t *lr = zfs_rangelock_enter(&vre->vre_rangelock,
e716630dSMartin Matuska	    0, logical_size, RL_WRITER);
e716630dSMartin Matuska
e716630dSMartin Matuska	abd_t **abds = kmem_alloc(raidvd->vdev_children * sizeof (abd_t *),
e716630dSMartin Matuska	    KM_SLEEP);
e716630dSMartin Matuska	for (int i = 0; i < raidvd->vdev_children; i++) {
e716630dSMartin Matuska		abds[i] = abd_alloc_linear(read_size, B_FALSE);
e716630dSMartin Matuska	}
e716630dSMartin Matuska
e716630dSMartin Matuska	raidz_expand_pause(RAIDZ_EXPAND_PAUSE_PRE_SCRATCH_1);
e716630dSMartin Matuska
e716630dSMartin Matuska	/*
e716630dSMartin Matuska	 * If we have already written the scratch area then we must read from
e716630dSMartin Matuska	 * there, since new writes were redirected there while we were paused
e716630dSMartin Matuska	 * or the original location may have been partially overwritten with
e716630dSMartin Matuska	 * reflowed data.
e716630dSMartin Matuska	 */
e716630dSMartin Matuska	if (RRSS_GET_STATE(&spa->spa_ubsync) == RRSS_SCRATCH_VALID) {
e716630dSMartin Matuska		VERIFY3U(RRSS_GET_OFFSET(&spa->spa_ubsync), ==, logical_size);
e716630dSMartin Matuska		/*
e716630dSMartin Matuska		 * Read from scratch space.
e716630dSMartin Matuska		 */
e716630dSMartin Matuska		pio = zio_root(spa, NULL, NULL, ZIO_FLAG_CANFAIL);
e716630dSMartin Matuska		for (int i = 0; i < raidvd->vdev_children; i++) {
e716630dSMartin Matuska			/*
e716630dSMartin Matuska			 * Note: zio_vdev_child_io() adds VDEV_LABEL_START_SIZE
e716630dSMartin Matuska			 * to the offset to calculate the physical offset to
e716630dSMartin Matuska			 * write to.  Passing in a negative offset makes us
e716630dSMartin Matuska			 * access the scratch area.
e716630dSMartin Matuska			 */
e716630dSMartin Matuska			zio_nowait(zio_vdev_child_io(pio, NULL,
e716630dSMartin Matuska			    raidvd->vdev_child[i],
e716630dSMartin Matuska			    VDEV_BOOT_OFFSET - VDEV_LABEL_START_SIZE, abds[i],
17aab35aSMartin Matuska			    write_size, ZIO_TYPE_READ, ZIO_PRIORITY_REMOVAL,
e716630dSMartin Matuska			    ZIO_FLAG_CANFAIL, raidz_scratch_child_done, pio));
e716630dSMartin Matuska		}
e716630dSMartin Matuska		error = zio_wait(pio);
e716630dSMartin Matuska		if (error != 0) {
e716630dSMartin Matuska			zfs_dbgmsg("reflow: error %d reading scratch location",
e716630dSMartin Matuska			    error);
e716630dSMartin Matuska			goto io_error_exit;
e716630dSMartin Matuska		}
e716630dSMartin Matuska		goto overwrite;
e716630dSMartin Matuska	}
e716630dSMartin Matuska
e716630dSMartin Matuska	/*
e716630dSMartin Matuska	 * Read from original location.
e716630dSMartin Matuska	 */
e716630dSMartin Matuska	pio = zio_root(spa, NULL, NULL, ZIO_FLAG_CANFAIL);
e716630dSMartin Matuska	for (int i = 0; i < raidvd->vdev_children - 1; i++) {
e716630dSMartin Matuska		ASSERT0(vdev_is_dead(raidvd->vdev_child[i]));
e716630dSMartin Matuska		zio_nowait(zio_vdev_child_io(pio, NULL, raidvd->vdev_child[i],
e716630dSMartin Matuska		    0, abds[i], read_size, ZIO_TYPE_READ,
17aab35aSMartin Matuska		    ZIO_PRIORITY_REMOVAL, ZIO_FLAG_CANFAIL,
e716630dSMartin Matuska		    raidz_scratch_child_done, pio));
e716630dSMartin Matuska	}
e716630dSMartin Matuska	error = zio_wait(pio);
e716630dSMartin Matuska	if (error != 0) {
e716630dSMartin Matuska		zfs_dbgmsg("reflow: error %d reading original location", error);
e716630dSMartin Matuskaio_error_exit:
e716630dSMartin Matuska		for (int i = 0; i < raidvd->vdev_children; i++)
e716630dSMartin Matuska			abd_free(abds[i]);
e716630dSMartin Matuska		kmem_free(abds, raidvd->vdev_children * sizeof (abd_t *));
e716630dSMartin Matuska		zfs_rangelock_exit(lr);
e716630dSMartin Matuska		spa_config_exit(spa, SCL_STATE, FTAG);
e716630dSMartin Matuska		return;
e716630dSMartin Matuska	}
e716630dSMartin Matuska
e716630dSMartin Matuska	raidz_expand_pause(RAIDZ_EXPAND_PAUSE_PRE_SCRATCH_2);
e716630dSMartin Matuska
e716630dSMartin Matuska	/*
e716630dSMartin Matuska	 * Reflow in memory.
e716630dSMartin Matuska	 */
e716630dSMartin Matuska	uint64_t logical_sectors = logical_size >> ashift;
e716630dSMartin Matuska	for (int i = raidvd->vdev_children - 1; i < logical_sectors; i++) {
e716630dSMartin Matuska		int oldchild = i % (raidvd->vdev_children - 1);
e716630dSMartin Matuska		uint64_t oldoff = (i / (raidvd->vdev_children - 1)) << ashift;
e716630dSMartin Matuska
e716630dSMartin Matuska		int newchild = i % raidvd->vdev_children;
e716630dSMartin Matuska		uint64_t newoff = (i / raidvd->vdev_children) << ashift;
e716630dSMartin Matuska
e716630dSMartin Matuska		/* a single sector should not be copying over itself */
e716630dSMartin Matuska		ASSERT(!(newchild == oldchild && newoff == oldoff));
e716630dSMartin Matuska
e716630dSMartin Matuska		abd_copy_off(abds[newchild], abds[oldchild],
e716630dSMartin Matuska		    newoff, oldoff, 1 << ashift);
e716630dSMartin Matuska	}
e716630dSMartin Matuska
e716630dSMartin Matuska	/*
e716630dSMartin Matuska	 * Verify that we filled in everything we intended to (write_size on
e716630dSMartin Matuska	 * each child).
e716630dSMartin Matuska	 */
e716630dSMartin Matuska	VERIFY0(logical_sectors % raidvd->vdev_children);
e716630dSMartin Matuska	VERIFY3U((logical_sectors / raidvd->vdev_children) << ashift, ==,
e716630dSMartin Matuska	    write_size);
e716630dSMartin Matuska
e716630dSMartin Matuska	/*
e716630dSMartin Matuska	 * Write to scratch location (boot area).
e716630dSMartin Matuska	 */
e716630dSMartin Matuska	pio = zio_root(spa, NULL, NULL, ZIO_FLAG_CANFAIL);
e716630dSMartin Matuska	for (int i = 0; i < raidvd->vdev_children; i++) {
e716630dSMartin Matuska		/*
e716630dSMartin Matuska		 * Note: zio_vdev_child_io() adds VDEV_LABEL_START_SIZE to
e716630dSMartin Matuska		 * the offset to calculate the physical offset to write to.
e716630dSMartin Matuska		 * Passing in a negative offset lets us access the boot area.
e716630dSMartin Matuska		 */
e716630dSMartin Matuska		zio_nowait(zio_vdev_child_io(pio, NULL, raidvd->vdev_child[i],
e716630dSMartin Matuska		    VDEV_BOOT_OFFSET - VDEV_LABEL_START_SIZE, abds[i],
17aab35aSMartin Matuska		    write_size, ZIO_TYPE_WRITE, ZIO_PRIORITY_REMOVAL,
e716630dSMartin Matuska		    ZIO_FLAG_CANFAIL, raidz_scratch_child_done, pio));
e716630dSMartin Matuska	}
e716630dSMartin Matuska	error = zio_wait(pio);
e716630dSMartin Matuska	if (error != 0) {
e716630dSMartin Matuska		zfs_dbgmsg("reflow: error %d writing scratch location", error);
e716630dSMartin Matuska		goto io_error_exit;
e716630dSMartin Matuska	}
e716630dSMartin Matuska	pio = zio_root(spa, NULL, NULL, 0);
e716630dSMartin Matuska	zio_flush(pio, raidvd);
e716630dSMartin Matuska	zio_wait(pio);
e716630dSMartin Matuska
e716630dSMartin Matuska	zfs_dbgmsg("reflow: wrote %llu bytes (logical) to scratch area",
e716630dSMartin Matuska	    (long long)logical_size);
e716630dSMartin Matuska
e716630dSMartin Matuska	raidz_expand_pause(RAIDZ_EXPAND_PAUSE_PRE_SCRATCH_3);
e716630dSMartin Matuska
e716630dSMartin Matuska	/*
e716630dSMartin Matuska	 * Update uberblock to indicate that scratch space is valid.  This is
e716630dSMartin Matuska	 * needed because after this point, the real location may be
e716630dSMartin Matuska	 * overwritten.  If we crash, we need to get the data from the
e716630dSMartin Matuska	 * scratch space, rather than the real location.
e716630dSMartin Matuska	 *
e716630dSMartin Matuska	 * Note: ub_timestamp is bumped so that vdev_uberblock_compare()
e716630dSMartin Matuska	 * will prefer this uberblock.
e716630dSMartin Matuska	 */
e716630dSMartin Matuska	RAIDZ_REFLOW_SET(&spa->spa_ubsync, RRSS_SCRATCH_VALID, logical_size);
e716630dSMartin Matuska	spa->spa_ubsync.ub_timestamp++;
e716630dSMartin Matuska	ASSERT0(vdev_uberblock_sync_list(&spa->spa_root_vdev, 1,
e716630dSMartin Matuska	    &spa->spa_ubsync, ZIO_FLAG_CONFIG_WRITER));
e716630dSMartin Matuska	if (spa_multihost(spa))
e716630dSMartin Matuska		mmp_update_uberblock(spa, &spa->spa_ubsync);
e716630dSMartin Matuska
e716630dSMartin Matuska	zfs_dbgmsg("reflow: uberblock updated "
e716630dSMartin Matuska	    "(txg %llu, SCRATCH_VALID, size %llu, ts %llu)",
e716630dSMartin Matuska	    (long long)spa->spa_ubsync.ub_txg,
e716630dSMartin Matuska	    (long long)logical_size,
e716630dSMartin Matuska	    (long long)spa->spa_ubsync.ub_timestamp);
e716630dSMartin Matuska
e716630dSMartin Matuska	raidz_expand_pause(RAIDZ_EXPAND_PAUSE_SCRATCH_VALID);
e716630dSMartin Matuska
e716630dSMartin Matuska	/*
e716630dSMartin Matuska	 * Overwrite with reflow'ed data.
e716630dSMartin Matuska	 */
e716630dSMartin Matuskaoverwrite:
e716630dSMartin Matuska	pio = zio_root(spa, NULL, NULL, ZIO_FLAG_CANFAIL);
e716630dSMartin Matuska	for (int i = 0; i < raidvd->vdev_children; i++) {
e716630dSMartin Matuska		zio_nowait(zio_vdev_child_io(pio, NULL, raidvd->vdev_child[i],
e716630dSMartin Matuska		    0, abds[i], write_size, ZIO_TYPE_WRITE,
17aab35aSMartin Matuska		    ZIO_PRIORITY_REMOVAL, ZIO_FLAG_CANFAIL,
e716630dSMartin Matuska		    raidz_scratch_child_done, pio));
e716630dSMartin Matuska	}
e716630dSMartin Matuska	error = zio_wait(pio);
e716630dSMartin Matuska	if (error != 0) {
e716630dSMartin Matuska		/*
e716630dSMartin Matuska		 * When we exit early here and drop the range lock, new
e716630dSMartin Matuska		 * writes will go into the scratch area so we'll need to
e716630dSMartin Matuska		 * read from there when we return after pausing.
e716630dSMartin Matuska		 */
e716630dSMartin Matuska		zfs_dbgmsg("reflow: error %d writing real location", error);
e716630dSMartin Matuska		/*
e716630dSMartin Matuska		 * Update the uberblock that is written when this txg completes.
e716630dSMartin Matuska		 */
e716630dSMartin Matuska		RAIDZ_REFLOW_SET(&spa->spa_uberblock, RRSS_SCRATCH_VALID,
e716630dSMartin Matuska		    logical_size);
e716630dSMartin Matuska		goto io_error_exit;
e716630dSMartin Matuska	}
e716630dSMartin Matuska	pio = zio_root(spa, NULL, NULL, 0);
e716630dSMartin Matuska	zio_flush(pio, raidvd);
e716630dSMartin Matuska	zio_wait(pio);
e716630dSMartin Matuska
e716630dSMartin Matuska	zfs_dbgmsg("reflow: overwrote %llu bytes (logical) to real location",
e716630dSMartin Matuska	    (long long)logical_size);
e716630dSMartin Matuska	for (int i = 0; i < raidvd->vdev_children; i++)
e716630dSMartin Matuska		abd_free(abds[i]);
e716630dSMartin Matuska	kmem_free(abds, raidvd->vdev_children * sizeof (abd_t *));
e716630dSMartin Matuska
e716630dSMartin Matuska	raidz_expand_pause(RAIDZ_EXPAND_PAUSE_SCRATCH_REFLOWED);
e716630dSMartin Matuska
e716630dSMartin Matuska	/*
e716630dSMartin Matuska	 * Update uberblock to indicate that the initial part has been
e716630dSMartin Matuska	 * reflow'ed.  This is needed because after this point (when we exit
e716630dSMartin Matuska	 * the rangelock), we allow regular writes to this region, which will
e716630dSMartin Matuska	 * be written to the new location only (because reflow_offset_next ==
e716630dSMartin Matuska	 * reflow_offset_synced).  If we crashed and re-copied from the
e716630dSMartin Matuska	 * scratch space, we would lose the regular writes.
e716630dSMartin Matuska	 */
e716630dSMartin Matuska	RAIDZ_REFLOW_SET(&spa->spa_ubsync, RRSS_SCRATCH_INVALID_SYNCED,
e716630dSMartin Matuska	    logical_size);
e716630dSMartin Matuska	spa->spa_ubsync.ub_timestamp++;
e716630dSMartin Matuska	ASSERT0(vdev_uberblock_sync_list(&spa->spa_root_vdev, 1,
e716630dSMartin Matuska	    &spa->spa_ubsync, ZIO_FLAG_CONFIG_WRITER));
e716630dSMartin Matuska	if (spa_multihost(spa))
e716630dSMartin Matuska		mmp_update_uberblock(spa, &spa->spa_ubsync);
e716630dSMartin Matuska
e716630dSMartin Matuska	zfs_dbgmsg("reflow: uberblock updated "
e716630dSMartin Matuska	    "(txg %llu, SCRATCH_NOT_IN_USE, size %llu, ts %llu)",
e716630dSMartin Matuska	    (long long)spa->spa_ubsync.ub_txg,
e716630dSMartin Matuska	    (long long)logical_size,
e716630dSMartin Matuska	    (long long)spa->spa_ubsync.ub_timestamp);
e716630dSMartin Matuska
e716630dSMartin Matuska	raidz_expand_pause(RAIDZ_EXPAND_PAUSE_SCRATCH_POST_REFLOW_1);
e716630dSMartin Matuska
e716630dSMartin Matuska	/*
e716630dSMartin Matuska	 * Update progress.
e716630dSMartin Matuska	 */
e716630dSMartin Matuska	vre->vre_offset = logical_size;
e716630dSMartin Matuska	zfs_rangelock_exit(lr);
e716630dSMartin Matuska	spa_config_exit(spa, SCL_STATE, FTAG);
e716630dSMartin Matuska
e716630dSMartin Matuska	int txgoff = dmu_tx_get_txg(tx) & TXG_MASK;
e716630dSMartin Matuska	vre->vre_offset_pertxg[txgoff] = vre->vre_offset;
e716630dSMartin Matuska	vre->vre_bytes_copied_pertxg[txgoff] = vre->vre_bytes_copied;
e716630dSMartin Matuska	/*
e716630dSMartin Matuska	 * Note - raidz_reflow_sync() will update the uberblock state to
e716630dSMartin Matuska	 * RRSS_SCRATCH_INVALID_SYNCED_REFLOW
e716630dSMartin Matuska	 */
e716630dSMartin Matuska	raidz_reflow_sync(spa, tx);
e716630dSMartin Matuska
e716630dSMartin Matuska	raidz_expand_pause(RAIDZ_EXPAND_PAUSE_SCRATCH_POST_REFLOW_2);
e716630dSMartin Matuska}
e716630dSMartin Matuska
e716630dSMartin Matuska/*
e716630dSMartin Matuska * We crashed in the middle of raidz_reflow_scratch_sync(); complete its work
e716630dSMartin Matuska * here.  No other i/o can be in progress, so we don't need the vre_rangelock.
e716630dSMartin Matuska */
e716630dSMartin Matuskavoid
e716630dSMartin Matuskavdev_raidz_reflow_copy_scratch(spa_t *spa)
e716630dSMartin Matuska{
e716630dSMartin Matuska	vdev_raidz_expand_t *vre = spa->spa_raidz_expand;
e716630dSMartin Matuska	uint64_t logical_size = RRSS_GET_OFFSET(&spa->spa_uberblock);
e716630dSMartin Matuska	ASSERT3U(RRSS_GET_STATE(&spa->spa_uberblock), ==, RRSS_SCRATCH_VALID);
e716630dSMartin Matuska
e716630dSMartin Matuska	spa_config_enter(spa, SCL_STATE, FTAG, RW_READER);
e716630dSMartin Matuska	vdev_t *raidvd = vdev_lookup_top(spa, vre->vre_vdev_id);
e716630dSMartin Matuska	ASSERT0(logical_size % raidvd->vdev_children);
e716630dSMartin Matuska	uint64_t write_size = logical_size / raidvd->vdev_children;
e716630dSMartin Matuska
e716630dSMartin Matuska	zio_t *pio;
e716630dSMartin Matuska
e716630dSMartin Matuska	/*
e716630dSMartin Matuska	 * Read from scratch space.
e716630dSMartin Matuska	 */
e716630dSMartin Matuska	abd_t **abds = kmem_alloc(raidvd->vdev_children * sizeof (abd_t *),
e716630dSMartin Matuska	    KM_SLEEP);
e716630dSMartin Matuska	for (int i = 0; i < raidvd->vdev_children; i++) {
e716630dSMartin Matuska		abds[i] = abd_alloc_linear(write_size, B_FALSE);
e716630dSMartin Matuska	}
e716630dSMartin Matuska
e716630dSMartin Matuska	pio = zio_root(spa, NULL, NULL, 0);
e716630dSMartin Matuska	for (int i = 0; i < raidvd->vdev_children; i++) {
e716630dSMartin Matuska		/*
e716630dSMartin Matuska		 * Note: zio_vdev_child_io() adds VDEV_LABEL_START_SIZE to
e716630dSMartin Matuska		 * the offset to calculate the physical offset to write to.
e716630dSMartin Matuska		 * Passing in a negative offset lets us access the boot area.
e716630dSMartin Matuska		 */
e716630dSMartin Matuska		zio_nowait(zio_vdev_child_io(pio, NULL, raidvd->vdev_child[i],
e716630dSMartin Matuska		    VDEV_BOOT_OFFSET - VDEV_LABEL_START_SIZE, abds[i],
17aab35aSMartin Matuska		    write_size, ZIO_TYPE_READ, ZIO_PRIORITY_REMOVAL, 0,
e716630dSMartin Matuska		    raidz_scratch_child_done, pio));
e716630dSMartin Matuska	}
e716630dSMartin Matuska	zio_wait(pio);
e716630dSMartin Matuska
e716630dSMartin Matuska	/*
e716630dSMartin Matuska	 * Overwrite real location with reflow'ed data.
e716630dSMartin Matuska	 */
e716630dSMartin Matuska	pio = zio_root(spa, NULL, NULL, 0);
e716630dSMartin Matuska	for (int i = 0; i < raidvd->vdev_children; i++) {
e716630dSMartin Matuska		zio_nowait(zio_vdev_child_io(pio, NULL, raidvd->vdev_child[i],
e716630dSMartin Matuska		    0, abds[i], write_size, ZIO_TYPE_WRITE,
17aab35aSMartin Matuska		    ZIO_PRIORITY_REMOVAL, 0,
e716630dSMartin Matuska		    raidz_scratch_child_done, pio));
e716630dSMartin Matuska	}
e716630dSMartin Matuska	zio_wait(pio);
e716630dSMartin Matuska	pio = zio_root(spa, NULL, NULL, 0);
e716630dSMartin Matuska	zio_flush(pio, raidvd);
e716630dSMartin Matuska	zio_wait(pio);
e716630dSMartin Matuska
e716630dSMartin Matuska	zfs_dbgmsg("reflow recovery: overwrote %llu bytes (logical) "
e716630dSMartin Matuska	    "to real location", (long long)logical_size);
e716630dSMartin Matuska
e716630dSMartin Matuska	for (int i = 0; i < raidvd->vdev_children; i++)
e716630dSMartin Matuska		abd_free(abds[i]);
e716630dSMartin Matuska	kmem_free(abds, raidvd->vdev_children * sizeof (abd_t *));
e716630dSMartin Matuska
e716630dSMartin Matuska	/*
e716630dSMartin Matuska	 * Update uberblock.
e716630dSMartin Matuska	 */
e716630dSMartin Matuska	RAIDZ_REFLOW_SET(&spa->spa_ubsync,
e716630dSMartin Matuska	    RRSS_SCRATCH_INVALID_SYNCED_ON_IMPORT, logical_size);
e716630dSMartin Matuska	spa->spa_ubsync.ub_timestamp++;
e716630dSMartin Matuska	VERIFY0(vdev_uberblock_sync_list(&spa->spa_root_vdev, 1,
e716630dSMartin Matuska	    &spa->spa_ubsync, ZIO_FLAG_CONFIG_WRITER));
e716630dSMartin Matuska	if (spa_multihost(spa))
e716630dSMartin Matuska		mmp_update_uberblock(spa, &spa->spa_ubsync);
e716630dSMartin Matuska
e716630dSMartin Matuska	zfs_dbgmsg("reflow recovery: uberblock updated "
e716630dSMartin Matuska	    "(txg %llu, SCRATCH_NOT_IN_USE, size %llu, ts %llu)",
e716630dSMartin Matuska	    (long long)spa->spa_ubsync.ub_txg,
e716630dSMartin Matuska	    (long long)logical_size,
e716630dSMartin Matuska	    (long long)spa->spa_ubsync.ub_timestamp);
e716630dSMartin Matuska
e716630dSMartin Matuska	dmu_tx_t *tx = dmu_tx_create_assigned(spa->spa_dsl_pool,
e716630dSMartin Matuska	    spa_first_txg(spa));
e716630dSMartin Matuska	int txgoff = dmu_tx_get_txg(tx) & TXG_MASK;
e716630dSMartin Matuska	vre->vre_offset = logical_size;
e716630dSMartin Matuska	vre->vre_offset_pertxg[txgoff] = vre->vre_offset;
e716630dSMartin Matuska	vre->vre_bytes_copied_pertxg[txgoff] = vre->vre_bytes_copied;
e716630dSMartin Matuska	/*
e716630dSMartin Matuska	 * Note that raidz_reflow_sync() will update the uberblock once more
e716630dSMartin Matuska	 */
e716630dSMartin Matuska	raidz_reflow_sync(spa, tx);
e716630dSMartin Matuska
e716630dSMartin Matuska	dmu_tx_commit(tx);
e716630dSMartin Matuska
e716630dSMartin Matuska	spa_config_exit(spa, SCL_STATE, FTAG);
e716630dSMartin Matuska}
e716630dSMartin Matuska
e716630dSMartin Matuskastatic boolean_t
e716630dSMartin Matuskaspa_raidz_expand_thread_check(void *arg, zthr_t *zthr)
e716630dSMartin Matuska{
e716630dSMartin Matuska	(void) zthr;
e716630dSMartin Matuska	spa_t *spa = arg;
e716630dSMartin Matuska
e716630dSMartin Matuska	return (spa->spa_raidz_expand != NULL &&
e716630dSMartin Matuska	    !spa->spa_raidz_expand->vre_waiting_for_resilver);
e716630dSMartin Matuska}
e716630dSMartin Matuska
e716630dSMartin Matuska/*
e716630dSMartin Matuska * RAIDZ expansion background thread
e716630dSMartin Matuska *
e716630dSMartin Matuska * Can be called multiple times if the reflow is paused
e716630dSMartin Matuska */
e716630dSMartin Matuskastatic void
e716630dSMartin Matuskaspa_raidz_expand_thread(void *arg, zthr_t *zthr)
e716630dSMartin Matuska{
e716630dSMartin Matuska	spa_t *spa = arg;
e716630dSMartin Matuska	vdev_raidz_expand_t *vre = spa->spa_raidz_expand;
e716630dSMartin Matuska
e716630dSMartin Matuska	if (RRSS_GET_STATE(&spa->spa_ubsync) == RRSS_SCRATCH_VALID)
e716630dSMartin Matuska		vre->vre_offset = 0;
e716630dSMartin Matuska	else
e716630dSMartin Matuska		vre->vre_offset = RRSS_GET_OFFSET(&spa->spa_ubsync);
e716630dSMartin Matuska
e716630dSMartin Matuska	/* Reflow the begining portion using the scratch area */
e716630dSMartin Matuska	if (vre->vre_offset == 0) {
e716630dSMartin Matuska		VERIFY0(dsl_sync_task(spa_name(spa),
e716630dSMartin Matuska		    NULL, raidz_reflow_scratch_sync,
e716630dSMartin Matuska		    vre, 0, ZFS_SPACE_CHECK_NONE));
e716630dSMartin Matuska
e716630dSMartin Matuska		/* if we encountered errors then pause */
e716630dSMartin Matuska		if (vre->vre_offset == 0) {
e716630dSMartin Matuska			mutex_enter(&vre->vre_lock);
e716630dSMartin Matuska			vre->vre_waiting_for_resilver = B_TRUE;
e716630dSMartin Matuska			mutex_exit(&vre->vre_lock);
e716630dSMartin Matuska			return;
e716630dSMartin Matuska		}
e716630dSMartin Matuska	}
e716630dSMartin Matuska
e716630dSMartin Matuska	spa_config_enter(spa, SCL_CONFIG, FTAG, RW_READER);
e716630dSMartin Matuska	vdev_t *raidvd = vdev_lookup_top(spa, vre->vre_vdev_id);
e716630dSMartin Matuska
e716630dSMartin Matuska	uint64_t guid = raidvd->vdev_guid;
e716630dSMartin Matuska
e716630dSMartin Matuska	/* Iterate over all the remaining metaslabs */
e716630dSMartin Matuska	for (uint64_t i = vre->vre_offset >> raidvd->vdev_ms_shift;
e716630dSMartin Matuska	    i < raidvd->vdev_ms_count &&
e716630dSMartin Matuska	    !zthr_iscancelled(zthr) &&
e716630dSMartin Matuska	    vre->vre_failed_offset == UINT64_MAX; i++) {
e716630dSMartin Matuska		metaslab_t *msp = raidvd->vdev_ms[i];
e716630dSMartin Matuska
e716630dSMartin Matuska		metaslab_disable(msp);
e716630dSMartin Matuska		mutex_enter(&msp->ms_lock);
e716630dSMartin Matuska
e716630dSMartin Matuska		/*
e716630dSMartin Matuska		 * The metaslab may be newly created (for the expanded
e716630dSMartin Matuska		 * space), in which case its trees won't exist yet,
e716630dSMartin Matuska		 * so we need to bail out early.
e716630dSMartin Matuska		 */
e716630dSMartin Matuska		if (msp->ms_new) {
e716630dSMartin Matuska			mutex_exit(&msp->ms_lock);
e716630dSMartin Matuska			metaslab_enable(msp, B_FALSE, B_FALSE);
e716630dSMartin Matuska			continue;
e716630dSMartin Matuska		}
e716630dSMartin Matuska
e716630dSMartin Matuska		VERIFY0(metaslab_load(msp));
e716630dSMartin Matuska
e716630dSMartin Matuska		/*
e716630dSMartin Matuska		 * We want to copy everything except the free (allocatable)
e716630dSMartin Matuska		 * space.  Note that there may be a little bit more free
e716630dSMartin Matuska		 * space (e.g. in ms_defer), and it's fine to copy that too.
e716630dSMartin Matuska		 */
17aab35aSMartin Matuska		uint64_t shift, start;
b59a0cdeSMartin Matuska		zfs_range_seg_type_t type = metaslab_calculate_range_tree_type(
17aab35aSMartin Matuska		    raidvd, msp, &start, &shift);
b59a0cdeSMartin Matuska		zfs_range_tree_t *rt = zfs_range_tree_create(NULL, type, NULL,
17aab35aSMartin Matuska		    start, shift);
b59a0cdeSMartin Matuska		zfs_range_tree_add(rt, msp->ms_start, msp->ms_size);
b59a0cdeSMartin Matuska		zfs_range_tree_walk(msp->ms_allocatable, zfs_range_tree_remove,
b59a0cdeSMartin Matuska		    rt);
e716630dSMartin Matuska		mutex_exit(&msp->ms_lock);
e716630dSMartin Matuska
e716630dSMartin Matuska		/*
e716630dSMartin Matuska		 * Force the last sector of each metaslab to be copied.  This
e716630dSMartin Matuska		 * ensures that we advance the on-disk progress to the end of
e716630dSMartin Matuska		 * this metaslab while the metaslab is disabled.  Otherwise, we
e716630dSMartin Matuska		 * could move past this metaslab without advancing the on-disk
e716630dSMartin Matuska		 * progress, and then an allocation to this metaslab would not
e716630dSMartin Matuska		 * be copied.
e716630dSMartin Matuska		 */
e716630dSMartin Matuska		int sectorsz = 1 << raidvd->vdev_ashift;
e716630dSMartin Matuska		uint64_t ms_last_offset = msp->ms_start +
e716630dSMartin Matuska		    msp->ms_size - sectorsz;
b59a0cdeSMartin Matuska		if (!zfs_range_tree_contains(rt, ms_last_offset, sectorsz)) {
b59a0cdeSMartin Matuska			zfs_range_tree_add(rt, ms_last_offset, sectorsz);
e716630dSMartin Matuska		}
e716630dSMartin Matuska
e716630dSMartin Matuska		/*
e716630dSMartin Matuska		 * When we are resuming from a paused expansion (i.e.
e716630dSMartin Matuska		 * when importing a pool with a expansion in progress),
e716630dSMartin Matuska		 * discard any state that we have already processed.
e716630dSMartin Matuska		 */
17aab35aSMartin Matuska		if (vre->vre_offset > msp->ms_start) {
b59a0cdeSMartin Matuska			zfs_range_tree_clear(rt, msp->ms_start,
17aab35aSMartin Matuska			    vre->vre_offset - msp->ms_start);
17aab35aSMartin Matuska		}
e716630dSMartin Matuska
e716630dSMartin Matuska		while (!zthr_iscancelled(zthr) &&
b59a0cdeSMartin Matuska		    !zfs_range_tree_is_empty(rt) &&
e716630dSMartin Matuska		    vre->vre_failed_offset == UINT64_MAX) {
e716630dSMartin Matuska
e716630dSMartin Matuska			/*
e716630dSMartin Matuska			 * We need to periodically drop the config lock so that
e716630dSMartin Matuska			 * writers can get in.  Additionally, we can't wait
e716630dSMartin Matuska			 * for a txg to sync while holding a config lock
e716630dSMartin Matuska			 * (since a waiting writer could cause a 3-way deadlock
e716630dSMartin Matuska			 * with the sync thread, which also gets a config
e716630dSMartin Matuska			 * lock for reader).  So we can't hold the config lock
e716630dSMartin Matuska			 * while calling dmu_tx_assign().
e716630dSMartin Matuska			 */
e716630dSMartin Matuska			spa_config_exit(spa, SCL_CONFIG, FTAG);
e716630dSMartin Matuska
e716630dSMartin Matuska			/*
e716630dSMartin Matuska			 * If requested, pause the reflow when the amount
e716630dSMartin Matuska			 * specified by raidz_expand_max_reflow_bytes is reached
e716630dSMartin Matuska			 *
e716630dSMartin Matuska			 * This pause is only used during testing or debugging.
e716630dSMartin Matuska			 */
e716630dSMartin Matuska			while (raidz_expand_max_reflow_bytes != 0 &&
e716630dSMartin Matuska			    raidz_expand_max_reflow_bytes <=
e716630dSMartin Matuska			    vre->vre_bytes_copied && !zthr_iscancelled(zthr)) {
e716630dSMartin Matuska				delay(hz);
e716630dSMartin Matuska			}
e716630dSMartin Matuska
e716630dSMartin Matuska			mutex_enter(&vre->vre_lock);
e716630dSMartin Matuska			while (vre->vre_outstanding_bytes >
e716630dSMartin Matuska			    raidz_expand_max_copy_bytes) {
e716630dSMartin Matuska				cv_wait(&vre->vre_cv, &vre->vre_lock);
e716630dSMartin Matuska			}
e716630dSMartin Matuska			mutex_exit(&vre->vre_lock);
e716630dSMartin Matuska
e716630dSMartin Matuska			dmu_tx_t *tx =
e716630dSMartin Matuska			    dmu_tx_create_dd(spa_get_dsl(spa)->dp_mos_dir);
e716630dSMartin Matuska
*b1c1ee44SMartin Matuska			VERIFY0(dmu_tx_assign(tx,
*b1c1ee44SMartin Matuska			    DMU_TX_WAIT | DMU_TX_SUSPEND));
e716630dSMartin Matuska			uint64_t txg = dmu_tx_get_txg(tx);
e716630dSMartin Matuska
e716630dSMartin Matuska			/*
e716630dSMartin Matuska			 * Reacquire the vdev_config lock.  Theoretically, the
e716630dSMartin Matuska			 * vdev_t that we're expanding may have changed.
e716630dSMartin Matuska			 */
e716630dSMartin Matuska			spa_config_enter(spa, SCL_CONFIG, FTAG, RW_READER);
e716630dSMartin Matuska			raidvd = vdev_lookup_top(spa, vre->vre_vdev_id);
e716630dSMartin Matuska
e716630dSMartin Matuska			boolean_t needsync =
e716630dSMartin Matuska			    raidz_reflow_impl(raidvd, vre, rt, tx);
e716630dSMartin Matuska
e716630dSMartin Matuska			dmu_tx_commit(tx);
e716630dSMartin Matuska
e716630dSMartin Matuska			if (needsync) {
e716630dSMartin Matuska				spa_config_exit(spa, SCL_CONFIG, FTAG);
e716630dSMartin Matuska				txg_wait_synced(spa->spa_dsl_pool, txg);
e716630dSMartin Matuska				spa_config_enter(spa, SCL_CONFIG, FTAG,
e716630dSMartin Matuska				    RW_READER);
e716630dSMartin Matuska			}
e716630dSMartin Matuska		}
e716630dSMartin Matuska
e716630dSMartin Matuska		spa_config_exit(spa, SCL_CONFIG, FTAG);
e716630dSMartin Matuska
e716630dSMartin Matuska		metaslab_enable(msp, B_FALSE, B_FALSE);
b59a0cdeSMartin Matuska		zfs_range_tree_vacate(rt, NULL, NULL);
b59a0cdeSMartin Matuska		zfs_range_tree_destroy(rt);
e716630dSMartin Matuska
e716630dSMartin Matuska		spa_config_enter(spa, SCL_CONFIG, FTAG, RW_READER);
e716630dSMartin Matuska		raidvd = vdev_lookup_top(spa, vre->vre_vdev_id);
e716630dSMartin Matuska	}
e716630dSMartin Matuska
e716630dSMartin Matuska	spa_config_exit(spa, SCL_CONFIG, FTAG);
e716630dSMartin Matuska
e716630dSMartin Matuska	/*
e716630dSMartin Matuska	 * The txg_wait_synced() here ensures that all reflow zio's have
e716630dSMartin Matuska	 * completed, and vre_failed_offset has been set if necessary.  It
e716630dSMartin Matuska	 * also ensures that the progress of the last raidz_reflow_sync() is
e716630dSMartin Matuska	 * written to disk before raidz_reflow_complete_sync() changes the
e716630dSMartin Matuska	 * in-memory vre_state.  vdev_raidz_io_start() uses vre_state to
e716630dSMartin Matuska	 * determine if a reflow is in progress, in which case we may need to
e716630dSMartin Matuska	 * write to both old and new locations.  Therefore we can only change
e716630dSMartin Matuska	 * vre_state once this is not necessary, which is once the on-disk
e716630dSMartin Matuska	 * progress (in spa_ubsync) has been set past any possible writes (to
e716630dSMartin Matuska	 * the end of the last metaslab).
e716630dSMartin Matuska	 */
e716630dSMartin Matuska	txg_wait_synced(spa->spa_dsl_pool, 0);
e716630dSMartin Matuska
e716630dSMartin Matuska	if (!zthr_iscancelled(zthr) &&
e716630dSMartin Matuska	    vre->vre_offset == raidvd->vdev_ms_count << raidvd->vdev_ms_shift) {
e716630dSMartin Matuska		/*
e716630dSMartin Matuska		 * We are not being canceled or paused, so the reflow must be
e716630dSMartin Matuska		 * complete. In that case also mark it as completed on disk.
e716630dSMartin Matuska		 */
e716630dSMartin Matuska		ASSERT3U(vre->vre_failed_offset, ==, UINT64_MAX);
e716630dSMartin Matuska		VERIFY0(dsl_sync_task(spa_name(spa), NULL,
e716630dSMartin Matuska		    raidz_reflow_complete_sync, spa,
e716630dSMartin Matuska		    0, ZFS_SPACE_CHECK_NONE));
e716630dSMartin Matuska		(void) vdev_online(spa, guid, ZFS_ONLINE_EXPAND, NULL);
e716630dSMartin Matuska	} else {
e716630dSMartin Matuska		/*
e716630dSMartin Matuska		 * Wait for all copy zio's to complete and for all the
e716630dSMartin Matuska		 * raidz_reflow_sync() synctasks to be run.
e716630dSMartin Matuska		 */
e716630dSMartin Matuska		spa_history_log_internal(spa, "reflow pause",
e716630dSMartin Matuska		    NULL, "offset=%llu failed_offset=%lld",
e716630dSMartin Matuska		    (long long)vre->vre_offset,
e716630dSMartin Matuska		    (long long)vre->vre_failed_offset);
e716630dSMartin Matuska		mutex_enter(&vre->vre_lock);
e716630dSMartin Matuska		if (vre->vre_failed_offset != UINT64_MAX) {
e716630dSMartin Matuska			/*
e716630dSMartin Matuska			 * Reset progress so that we will retry everything
e716630dSMartin Matuska			 * after the point that something failed.
e716630dSMartin Matuska			 */
e716630dSMartin Matuska			vre->vre_offset = vre->vre_failed_offset;
e716630dSMartin Matuska			vre->vre_failed_offset = UINT64_MAX;
e716630dSMartin Matuska			vre->vre_waiting_for_resilver = B_TRUE;
e716630dSMartin Matuska		}
e716630dSMartin Matuska		mutex_exit(&vre->vre_lock);
e716630dSMartin Matuska	}
e716630dSMartin Matuska}
e716630dSMartin Matuska
e716630dSMartin Matuskavoid
e716630dSMartin Matuskaspa_start_raidz_expansion_thread(spa_t *spa)
e716630dSMartin Matuska{
e716630dSMartin Matuska	ASSERT3P(spa->spa_raidz_expand_zthr, ==, NULL);
e716630dSMartin Matuska	spa->spa_raidz_expand_zthr = zthr_create("raidz_expand",
e716630dSMartin Matuska	    spa_raidz_expand_thread_check, spa_raidz_expand_thread,
e716630dSMartin Matuska	    spa, defclsyspri);
e716630dSMartin Matuska}
e716630dSMartin Matuska
e716630dSMartin Matuskavoid
e716630dSMartin Matuskaraidz_dtl_reassessed(vdev_t *vd)
e716630dSMartin Matuska{
e716630dSMartin Matuska	spa_t *spa = vd->vdev_spa;
e716630dSMartin Matuska	if (spa->spa_raidz_expand != NULL) {
e716630dSMartin Matuska		vdev_raidz_expand_t *vre = spa->spa_raidz_expand;
e716630dSMartin Matuska		/*
e716630dSMartin Matuska		 * we get called often from vdev_dtl_reassess() so make
e716630dSMartin Matuska		 * sure it's our vdev and any replacing is complete
e716630dSMartin Matuska		 */
e716630dSMartin Matuska		if (vd->vdev_top->vdev_id == vre->vre_vdev_id &&
e716630dSMartin Matuska		    !vdev_raidz_expand_child_replacing(vd->vdev_top)) {
e716630dSMartin Matuska			mutex_enter(&vre->vre_lock);
e716630dSMartin Matuska			if (vre->vre_waiting_for_resilver) {
e716630dSMartin Matuska				vdev_dbgmsg(vd, "DTL reassessed, "
e716630dSMartin Matuska				    "continuing raidz expansion");
e716630dSMartin Matuska				vre->vre_waiting_for_resilver = B_FALSE;
e716630dSMartin Matuska				zthr_wakeup(spa->spa_raidz_expand_zthr);
e716630dSMartin Matuska			}
e716630dSMartin Matuska			mutex_exit(&vre->vre_lock);
e716630dSMartin Matuska		}
e716630dSMartin Matuska	}
e716630dSMartin Matuska}
e716630dSMartin Matuska
e716630dSMartin Matuskaint
e716630dSMartin Matuskavdev_raidz_attach_check(vdev_t *new_child)
e716630dSMartin Matuska{
e716630dSMartin Matuska	vdev_t *raidvd = new_child->vdev_parent;
e716630dSMartin Matuska	uint64_t new_children = raidvd->vdev_children;
e716630dSMartin Matuska
e716630dSMartin Matuska	/*
e716630dSMartin Matuska	 * We use the "boot" space as scratch space to handle overwriting the
e716630dSMartin Matuska	 * initial part of the vdev.  If it is too small, then this expansion
e716630dSMartin Matuska	 * is not allowed.  This would be very unusual (e.g. ashift > 13 and
e716630dSMartin Matuska	 * >200 children).
e716630dSMartin Matuska	 */
e716630dSMartin Matuska	if (new_children << raidvd->vdev_ashift > VDEV_BOOT_SIZE) {
e716630dSMartin Matuska		return (EINVAL);
e716630dSMartin Matuska	}
e716630dSMartin Matuska	return (0);
e716630dSMartin Matuska}
e716630dSMartin Matuska
e716630dSMartin Matuskavoid
e716630dSMartin Matuskavdev_raidz_attach_sync(void *arg, dmu_tx_t *tx)
e716630dSMartin Matuska{
e716630dSMartin Matuska	vdev_t *new_child = arg;
e716630dSMartin Matuska	spa_t *spa = new_child->vdev_spa;
e716630dSMartin Matuska	vdev_t *raidvd = new_child->vdev_parent;
e716630dSMartin Matuska	vdev_raidz_t *vdrz = raidvd->vdev_tsd;
e716630dSMartin Matuska	ASSERT3P(raidvd->vdev_ops, ==, &vdev_raidz_ops);
e716630dSMartin Matuska	ASSERT3P(raidvd->vdev_top, ==, raidvd);
e716630dSMartin Matuska	ASSERT3U(raidvd->vdev_children, >, vdrz->vd_original_width);
e716630dSMartin Matuska	ASSERT3U(raidvd->vdev_children, ==, vdrz->vd_physical_width + 1);
e716630dSMartin Matuska	ASSERT3P(raidvd->vdev_child[raidvd->vdev_children - 1], ==,
e716630dSMartin Matuska	    new_child);
e716630dSMartin Matuska
e716630dSMartin Matuska	spa_feature_incr(spa, SPA_FEATURE_RAIDZ_EXPANSION, tx);
e716630dSMartin Matuska
e716630dSMartin Matuska	vdrz->vd_physical_width++;
e716630dSMartin Matuska
e716630dSMartin Matuska	VERIFY0(spa->spa_uberblock.ub_raidz_reflow_info);
e716630dSMartin Matuska	vdrz->vn_vre.vre_vdev_id = raidvd->vdev_id;
e716630dSMartin Matuska	vdrz->vn_vre.vre_offset = 0;
e716630dSMartin Matuska	vdrz->vn_vre.vre_failed_offset = UINT64_MAX;
e716630dSMartin Matuska	spa->spa_raidz_expand = &vdrz->vn_vre;
e716630dSMartin Matuska	zthr_wakeup(spa->spa_raidz_expand_zthr);
e716630dSMartin Matuska
e716630dSMartin Matuska	/*
e716630dSMartin Matuska	 * Dirty the config so that ZPOOL_CONFIG_RAIDZ_EXPANDING will get
e716630dSMartin Matuska	 * written to the config.
e716630dSMartin Matuska	 */
e716630dSMartin Matuska	vdev_config_dirty(raidvd);
e716630dSMartin Matuska
e716630dSMartin Matuska	vdrz->vn_vre.vre_start_time = gethrestime_sec();
e716630dSMartin Matuska	vdrz->vn_vre.vre_end_time = 0;
e716630dSMartin Matuska	vdrz->vn_vre.vre_state = DSS_SCANNING;
e716630dSMartin Matuska	vdrz->vn_vre.vre_bytes_copied = 0;
e716630dSMartin Matuska
e716630dSMartin Matuska	uint64_t state = vdrz->vn_vre.vre_state;
e716630dSMartin Matuska	VERIFY0(zap_update(spa->spa_meta_objset,
e716630dSMartin Matuska	    raidvd->vdev_top_zap, VDEV_TOP_ZAP_RAIDZ_EXPAND_STATE,
e716630dSMartin Matuska	    sizeof (state), 1, &state, tx));
e716630dSMartin Matuska
e716630dSMartin Matuska	uint64_t start_time = vdrz->vn_vre.vre_start_time;
e716630dSMartin Matuska	VERIFY0(zap_update(spa->spa_meta_objset,
e716630dSMartin Matuska	    raidvd->vdev_top_zap, VDEV_TOP_ZAP_RAIDZ_EXPAND_START_TIME,
e716630dSMartin Matuska	    sizeof (start_time), 1, &start_time, tx));
e716630dSMartin Matuska
e716630dSMartin Matuska	(void) zap_remove(spa->spa_meta_objset,
e716630dSMartin Matuska	    raidvd->vdev_top_zap, VDEV_TOP_ZAP_RAIDZ_EXPAND_END_TIME, tx);
e716630dSMartin Matuska	(void) zap_remove(spa->spa_meta_objset,
e716630dSMartin Matuska	    raidvd->vdev_top_zap, VDEV_TOP_ZAP_RAIDZ_EXPAND_BYTES_COPIED, tx);
e716630dSMartin Matuska
e716630dSMartin Matuska	spa_history_log_internal(spa, "raidz vdev expansion started",  tx,
e716630dSMartin Matuska	    "%s vdev %llu new width %llu", spa_name(spa),
e716630dSMartin Matuska	    (unsigned long long)raidvd->vdev_id,
e716630dSMartin Matuska	    (unsigned long long)raidvd->vdev_children);
e716630dSMartin Matuska}
e716630dSMartin Matuska
e716630dSMartin Matuskaint
e716630dSMartin Matuskavdev_raidz_load(vdev_t *vd)
e716630dSMartin Matuska{
e716630dSMartin Matuska	vdev_raidz_t *vdrz = vd->vdev_tsd;
e716630dSMartin Matuska	int err;
e716630dSMartin Matuska
e716630dSMartin Matuska	uint64_t state = DSS_NONE;
e716630dSMartin Matuska	uint64_t start_time = 0;
e716630dSMartin Matuska	uint64_t end_time = 0;
e716630dSMartin Matuska	uint64_t bytes_copied = 0;
e716630dSMartin Matuska
e716630dSMartin Matuska	if (vd->vdev_top_zap != 0) {
e716630dSMartin Matuska		err = zap_lookup(vd->vdev_spa->spa_meta_objset,
e716630dSMartin Matuska		    vd->vdev_top_zap, VDEV_TOP_ZAP_RAIDZ_EXPAND_STATE,
e716630dSMartin Matuska		    sizeof (state), 1, &state);
e716630dSMartin Matuska		if (err != 0 && err != ENOENT)
e716630dSMartin Matuska			return (err);
e716630dSMartin Matuska
e716630dSMartin Matuska		err = zap_lookup(vd->vdev_spa->spa_meta_objset,
e716630dSMartin Matuska		    vd->vdev_top_zap, VDEV_TOP_ZAP_RAIDZ_EXPAND_START_TIME,
e716630dSMartin Matuska		    sizeof (start_time), 1, &start_time);
e716630dSMartin Matuska		if (err != 0 && err != ENOENT)
e716630dSMartin Matuska			return (err);
e716630dSMartin Matuska
e716630dSMartin Matuska		err = zap_lookup(vd->vdev_spa->spa_meta_objset,
e716630dSMartin Matuska		    vd->vdev_top_zap, VDEV_TOP_ZAP_RAIDZ_EXPAND_END_TIME,
e716630dSMartin Matuska		    sizeof (end_time), 1, &end_time);
e716630dSMartin Matuska		if (err != 0 && err != ENOENT)
e716630dSMartin Matuska			return (err);
e716630dSMartin Matuska
e716630dSMartin Matuska		err = zap_lookup(vd->vdev_spa->spa_meta_objset,
e716630dSMartin Matuska		    vd->vdev_top_zap, VDEV_TOP_ZAP_RAIDZ_EXPAND_BYTES_COPIED,
e716630dSMartin Matuska		    sizeof (bytes_copied), 1, &bytes_copied);
e716630dSMartin Matuska		if (err != 0 && err != ENOENT)
e716630dSMartin Matuska			return (err);
e716630dSMartin Matuska	}
e716630dSMartin Matuska
e716630dSMartin Matuska	/*
e716630dSMartin Matuska	 * If we are in the middle of expansion, vre_state should have
e716630dSMartin Matuska	 * already been set by vdev_raidz_init().
e716630dSMartin Matuska	 */
e716630dSMartin Matuska	EQUIV(vdrz->vn_vre.vre_state == DSS_SCANNING, state == DSS_SCANNING);
e716630dSMartin Matuska	vdrz->vn_vre.vre_state = (dsl_scan_state_t)state;
e716630dSMartin Matuska	vdrz->vn_vre.vre_start_time = start_time;
e716630dSMartin Matuska	vdrz->vn_vre.vre_end_time = end_time;
e716630dSMartin Matuska	vdrz->vn_vre.vre_bytes_copied = bytes_copied;
e716630dSMartin Matuska
e716630dSMartin Matuska	return (0);
e716630dSMartin Matuska}
e716630dSMartin Matuska
e716630dSMartin Matuskaint
e716630dSMartin Matuskaspa_raidz_expand_get_stats(spa_t *spa, pool_raidz_expand_stat_t *pres)
e716630dSMartin Matuska{
e716630dSMartin Matuska	vdev_raidz_expand_t *vre = spa->spa_raidz_expand;
e716630dSMartin Matuska
e716630dSMartin Matuska	if (vre == NULL) {
e716630dSMartin Matuska		/* no removal in progress; find most recent completed */
e716630dSMartin Matuska		for (int c = 0; c < spa->spa_root_vdev->vdev_children; c++) {
e716630dSMartin Matuska			vdev_t *vd = spa->spa_root_vdev->vdev_child[c];
e716630dSMartin Matuska			if (vd->vdev_ops == &vdev_raidz_ops) {
e716630dSMartin Matuska				vdev_raidz_t *vdrz = vd->vdev_tsd;
e716630dSMartin Matuska
e716630dSMartin Matuska				if (vdrz->vn_vre.vre_end_time != 0 &&
e716630dSMartin Matuska				    (vre == NULL ||
e716630dSMartin Matuska				    vdrz->vn_vre.vre_end_time >
e716630dSMartin Matuska				    vre->vre_end_time)) {
e716630dSMartin Matuska					vre = &vdrz->vn_vre;
e716630dSMartin Matuska				}
e716630dSMartin Matuska			}
e716630dSMartin Matuska		}
e716630dSMartin Matuska	}
e716630dSMartin Matuska
e716630dSMartin Matuska	if (vre == NULL) {
e716630dSMartin Matuska		return (SET_ERROR(ENOENT));
e716630dSMartin Matuska	}
e716630dSMartin Matuska
e716630dSMartin Matuska	pres->pres_state = vre->vre_state;
e716630dSMartin Matuska	pres->pres_expanding_vdev = vre->vre_vdev_id;
e716630dSMartin Matuska
e716630dSMartin Matuska	vdev_t *vd = vdev_lookup_top(spa, vre->vre_vdev_id);
e716630dSMartin Matuska	pres->pres_to_reflow = vd->vdev_stat.vs_alloc;
e716630dSMartin Matuska
e716630dSMartin Matuska	mutex_enter(&vre->vre_lock);
e716630dSMartin Matuska	pres->pres_reflowed = vre->vre_bytes_copied;
e716630dSMartin Matuska	for (int i = 0; i < TXG_SIZE; i++)
e716630dSMartin Matuska		pres->pres_reflowed += vre->vre_bytes_copied_pertxg[i];
e716630dSMartin Matuska	mutex_exit(&vre->vre_lock);
e716630dSMartin Matuska
e716630dSMartin Matuska	pres->pres_start_time = vre->vre_start_time;
e716630dSMartin Matuska	pres->pres_end_time = vre->vre_end_time;
e716630dSMartin Matuska	pres->pres_waiting_for_resilver = vre->vre_waiting_for_resilver;
e716630dSMartin Matuska
e716630dSMartin Matuska	return (0);
e716630dSMartin Matuska}
e716630dSMartin Matuska
7877fdebSMatt Macy/*
7877fdebSMatt Macy * Initialize private RAIDZ specific fields from the nvlist.
7877fdebSMatt Macy */
7877fdebSMatt Macystatic int
7877fdebSMatt Macyvdev_raidz_init(spa_t *spa, nvlist_t *nv, void **tsd)
7877fdebSMatt Macy{
7877fdebSMatt Macy	uint_t children;
7877fdebSMatt Macy	nvlist_t **child;
7877fdebSMatt Macy	int error = nvlist_lookup_nvlist_array(nv,
7877fdebSMatt Macy	    ZPOOL_CONFIG_CHILDREN, &child, &children);
7877fdebSMatt Macy	if (error != 0)
7877fdebSMatt Macy		return (SET_ERROR(EINVAL));
7877fdebSMatt Macy
e716630dSMartin Matuska	uint64_t nparity;
7877fdebSMatt Macy	if (nvlist_lookup_uint64(nv, ZPOOL_CONFIG_NPARITY, &nparity) == 0) {
7877fdebSMatt Macy		if (nparity == 0 || nparity > VDEV_RAIDZ_MAXPARITY)
7877fdebSMatt Macy			return (SET_ERROR(EINVAL));
7877fdebSMatt Macy
7877fdebSMatt Macy		/*
7877fdebSMatt Macy		 * Previous versions could only support 1 or 2 parity
7877fdebSMatt Macy		 * device.
7877fdebSMatt Macy		 */
7877fdebSMatt Macy		if (nparity > 1 && spa_version(spa) < SPA_VERSION_RAIDZ2)
7877fdebSMatt Macy			return (SET_ERROR(EINVAL));
7877fdebSMatt Macy		else if (nparity > 2 && spa_version(spa) < SPA_VERSION_RAIDZ3)
7877fdebSMatt Macy			return (SET_ERROR(EINVAL));
7877fdebSMatt Macy	} else {
7877fdebSMatt Macy		/*
7877fdebSMatt Macy		 * We require the parity to be specified for SPAs that
7877fdebSMatt Macy		 * support multiple parity levels.
7877fdebSMatt Macy		 */
7877fdebSMatt Macy		if (spa_version(spa) >= SPA_VERSION_RAIDZ2)
7877fdebSMatt Macy			return (SET_ERROR(EINVAL));
7877fdebSMatt Macy
7877fdebSMatt Macy		/*
7877fdebSMatt Macy		 * Otherwise, we default to 1 parity device for RAID-Z.
7877fdebSMatt Macy		 */
7877fdebSMatt Macy		nparity = 1;
7877fdebSMatt Macy	}
7877fdebSMatt Macy
e716630dSMartin Matuska	vdev_raidz_t *vdrz = kmem_zalloc(sizeof (*vdrz), KM_SLEEP);
e716630dSMartin Matuska	vdrz->vn_vre.vre_vdev_id = -1;
e716630dSMartin Matuska	vdrz->vn_vre.vre_offset = UINT64_MAX;
e716630dSMartin Matuska	vdrz->vn_vre.vre_failed_offset = UINT64_MAX;
e716630dSMartin Matuska	mutex_init(&vdrz->vn_vre.vre_lock, NULL, MUTEX_DEFAULT, NULL);
e716630dSMartin Matuska	cv_init(&vdrz->vn_vre.vre_cv, NULL, CV_DEFAULT, NULL);
e716630dSMartin Matuska	zfs_rangelock_init(&vdrz->vn_vre.vre_rangelock, NULL, NULL);
e716630dSMartin Matuska	mutex_init(&vdrz->vd_expand_lock, NULL, MUTEX_DEFAULT, NULL);
e716630dSMartin Matuska	avl_create(&vdrz->vd_expand_txgs, vdev_raidz_reflow_compare,
e716630dSMartin Matuska	    sizeof (reflow_node_t), offsetof(reflow_node_t, re_link));
e716630dSMartin Matuska
e716630dSMartin Matuska	vdrz->vd_physical_width = children;
7877fdebSMatt Macy	vdrz->vd_nparity = nparity;
7877fdebSMatt Macy
e716630dSMartin Matuska	/* note, the ID does not exist when creating a pool */
e716630dSMartin Matuska	(void) nvlist_lookup_uint64(nv, ZPOOL_CONFIG_ID,
e716630dSMartin Matuska	    &vdrz->vn_vre.vre_vdev_id);
e716630dSMartin Matuska
e716630dSMartin Matuska	boolean_t reflow_in_progress =
e716630dSMartin Matuska	    nvlist_exists(nv, ZPOOL_CONFIG_RAIDZ_EXPANDING);
e716630dSMartin Matuska	if (reflow_in_progress) {
e716630dSMartin Matuska		spa->spa_raidz_expand = &vdrz->vn_vre;
e716630dSMartin Matuska		vdrz->vn_vre.vre_state = DSS_SCANNING;
e716630dSMartin Matuska	}
e716630dSMartin Matuska
e716630dSMartin Matuska	vdrz->vd_original_width = children;
e716630dSMartin Matuska	uint64_t *txgs;
e716630dSMartin Matuska	unsigned int txgs_size = 0;
e716630dSMartin Matuska	error = nvlist_lookup_uint64_array(nv, ZPOOL_CONFIG_RAIDZ_EXPAND_TXGS,
e716630dSMartin Matuska	    &txgs, &txgs_size);
e716630dSMartin Matuska	if (error == 0) {
e716630dSMartin Matuska		for (int i = 0; i < txgs_size; i++) {
e716630dSMartin Matuska			reflow_node_t *re = kmem_zalloc(sizeof (*re), KM_SLEEP);
e716630dSMartin Matuska			re->re_txg = txgs[txgs_size - i - 1];
e716630dSMartin Matuska			re->re_logical_width = vdrz->vd_physical_width - i;
e716630dSMartin Matuska
e716630dSMartin Matuska			if (reflow_in_progress)
e716630dSMartin Matuska				re->re_logical_width--;
e716630dSMartin Matuska
e716630dSMartin Matuska			avl_add(&vdrz->vd_expand_txgs, re);
e716630dSMartin Matuska		}
e716630dSMartin Matuska
e716630dSMartin Matuska		vdrz->vd_original_width = vdrz->vd_physical_width - txgs_size;
e716630dSMartin Matuska	}
e716630dSMartin Matuska	if (reflow_in_progress) {
e716630dSMartin Matuska		vdrz->vd_original_width--;
e716630dSMartin Matuska		zfs_dbgmsg("reflow_in_progress, %u wide, %d prior expansions",
e716630dSMartin Matuska		    children, txgs_size);
e716630dSMartin Matuska	}
e716630dSMartin Matuska
7877fdebSMatt Macy	*tsd = vdrz;
7877fdebSMatt Macy
7877fdebSMatt Macy	return (0);
7877fdebSMatt Macy}
7877fdebSMatt Macy
7877fdebSMatt Macystatic void
7877fdebSMatt Macyvdev_raidz_fini(vdev_t *vd)
7877fdebSMatt Macy{
e716630dSMartin Matuska	vdev_raidz_t *vdrz = vd->vdev_tsd;
e716630dSMartin Matuska	if (vd->vdev_spa->spa_raidz_expand == &vdrz->vn_vre)
e716630dSMartin Matuska		vd->vdev_spa->spa_raidz_expand = NULL;
e716630dSMartin Matuska	reflow_node_t *re;
e716630dSMartin Matuska	void *cookie = NULL;
e716630dSMartin Matuska	avl_tree_t *tree = &vdrz->vd_expand_txgs;
e716630dSMartin Matuska	while ((re = avl_destroy_nodes(tree, &cookie)) != NULL)
e716630dSMartin Matuska		kmem_free(re, sizeof (*re));
e716630dSMartin Matuska	avl_destroy(&vdrz->vd_expand_txgs);
e716630dSMartin Matuska	mutex_destroy(&vdrz->vd_expand_lock);
e716630dSMartin Matuska	mutex_destroy(&vdrz->vn_vre.vre_lock);
e716630dSMartin Matuska	cv_destroy(&vdrz->vn_vre.vre_cv);
e716630dSMartin Matuska	zfs_rangelock_fini(&vdrz->vn_vre.vre_rangelock);
e716630dSMartin Matuska	kmem_free(vdrz, sizeof (*vdrz));
7877fdebSMatt Macy}
7877fdebSMatt Macy
7877fdebSMatt Macy/*
7877fdebSMatt Macy * Add RAIDZ specific fields to the config nvlist.
7877fdebSMatt Macy */
7877fdebSMatt Macystatic void
7877fdebSMatt Macyvdev_raidz_config_generate(vdev_t *vd, nvlist_t *nv)
7877fdebSMatt Macy{
7877fdebSMatt Macy	ASSERT3P(vd->vdev_ops, ==, &vdev_raidz_ops);
7877fdebSMatt Macy	vdev_raidz_t *vdrz = vd->vdev_tsd;
7877fdebSMatt Macy
7877fdebSMatt Macy	/*
7877fdebSMatt Macy	 * Make sure someone hasn't managed to sneak a fancy new vdev
7877fdebSMatt Macy	 * into a crufty old storage pool.
7877fdebSMatt Macy	 */
7877fdebSMatt Macy	ASSERT(vdrz->vd_nparity == 1 ||
7877fdebSMatt Macy	    (vdrz->vd_nparity <= 2 &&
7877fdebSMatt Macy	    spa_version(vd->vdev_spa) >= SPA_VERSION_RAIDZ2) ||
7877fdebSMatt Macy	    (vdrz->vd_nparity <= 3 &&
7877fdebSMatt Macy	    spa_version(vd->vdev_spa) >= SPA_VERSION_RAIDZ3));
7877fdebSMatt Macy
7877fdebSMatt Macy	/*
7877fdebSMatt Macy	 * Note that we'll add these even on storage pools where they
7877fdebSMatt Macy	 * aren't strictly required -- older software will just ignore
7877fdebSMatt Macy	 * it.
7877fdebSMatt Macy	 */
7877fdebSMatt Macy	fnvlist_add_uint64(nv, ZPOOL_CONFIG_NPARITY, vdrz->vd_nparity);
e716630dSMartin Matuska
e716630dSMartin Matuska	if (vdrz->vn_vre.vre_state == DSS_SCANNING) {
e716630dSMartin Matuska		fnvlist_add_boolean(nv, ZPOOL_CONFIG_RAIDZ_EXPANDING);
e716630dSMartin Matuska	}
e716630dSMartin Matuska
e716630dSMartin Matuska	mutex_enter(&vdrz->vd_expand_lock);
e716630dSMartin Matuska	if (!avl_is_empty(&vdrz->vd_expand_txgs)) {
e716630dSMartin Matuska		uint64_t count = avl_numnodes(&vdrz->vd_expand_txgs);
e716630dSMartin Matuska		uint64_t *txgs = kmem_alloc(sizeof (uint64_t) * count,
e716630dSMartin Matuska		    KM_SLEEP);
e716630dSMartin Matuska		uint64_t i = 0;
e716630dSMartin Matuska
e716630dSMartin Matuska		for (reflow_node_t *re = avl_first(&vdrz->vd_expand_txgs);
e716630dSMartin Matuska		    re != NULL; re = AVL_NEXT(&vdrz->vd_expand_txgs, re)) {
e716630dSMartin Matuska			txgs[i++] = re->re_txg;
e716630dSMartin Matuska		}
e716630dSMartin Matuska
e716630dSMartin Matuska		fnvlist_add_uint64_array(nv, ZPOOL_CONFIG_RAIDZ_EXPAND_TXGS,
e716630dSMartin Matuska		    txgs, count);
e716630dSMartin Matuska
e716630dSMartin Matuska		kmem_free(txgs, sizeof (uint64_t) * count);
e716630dSMartin Matuska	}
e716630dSMartin Matuska	mutex_exit(&vdrz->vd_expand_lock);
7877fdebSMatt Macy}
7877fdebSMatt Macy
7877fdebSMatt Macystatic uint64_t
7877fdebSMatt Macyvdev_raidz_nparity(vdev_t *vd)
7877fdebSMatt Macy{
7877fdebSMatt Macy	vdev_raidz_t *vdrz = vd->vdev_tsd;
7877fdebSMatt Macy	return (vdrz->vd_nparity);
7877fdebSMatt Macy}
7877fdebSMatt Macy
7877fdebSMatt Macystatic uint64_t
7877fdebSMatt Macyvdev_raidz_ndisks(vdev_t *vd)
7877fdebSMatt Macy{
7877fdebSMatt Macy	return (vd->vdev_children);
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
eda14cbcSMatt Macyvdev_ops_t vdev_raidz_ops = {
7877fdebSMatt Macy	.vdev_op_init = vdev_raidz_init,
7877fdebSMatt Macy	.vdev_op_fini = vdev_raidz_fini,
eda14cbcSMatt Macy	.vdev_op_open = vdev_raidz_open,
eda14cbcSMatt Macy	.vdev_op_close = vdev_raidz_close,
071ab5a1SMartin Matuska	.vdev_op_psize_to_asize = vdev_raidz_psize_to_asize,
071ab5a1SMartin Matuska	.vdev_op_asize_to_psize = vdev_raidz_asize_to_psize,
7877fdebSMatt Macy	.vdev_op_min_asize = vdev_raidz_min_asize,
7877fdebSMatt Macy	.vdev_op_min_alloc = NULL,
eda14cbcSMatt Macy	.vdev_op_io_start = vdev_raidz_io_start,
eda14cbcSMatt Macy	.vdev_op_io_done = vdev_raidz_io_done,
eda14cbcSMatt Macy	.vdev_op_state_change = vdev_raidz_state_change,
eda14cbcSMatt Macy	.vdev_op_need_resilver = vdev_raidz_need_resilver,
eda14cbcSMatt Macy	.vdev_op_hold = NULL,
eda14cbcSMatt Macy	.vdev_op_rele = NULL,
eda14cbcSMatt Macy	.vdev_op_remap = NULL,
eda14cbcSMatt Macy	.vdev_op_xlate = vdev_raidz_xlate,
7877fdebSMatt Macy	.vdev_op_rebuild_asize = NULL,
7877fdebSMatt Macy	.vdev_op_metaslab_init = NULL,
7877fdebSMatt Macy	.vdev_op_config_generate = vdev_raidz_config_generate,
7877fdebSMatt Macy	.vdev_op_nparity = vdev_raidz_nparity,
7877fdebSMatt Macy	.vdev_op_ndisks = vdev_raidz_ndisks,
eda14cbcSMatt Macy	.vdev_op_type = VDEV_TYPE_RAIDZ,	/* name of this vdev type */
eda14cbcSMatt Macy	.vdev_op_leaf = B_FALSE			/* not a leaf vdev */
eda14cbcSMatt Macy};
e716630dSMartin Matuska
e716630dSMartin MatuskaZFS_MODULE_PARAM(zfs_vdev, raidz_, expand_max_reflow_bytes, ULONG, ZMOD_RW,
e716630dSMartin Matuska	"For testing, pause RAIDZ expansion after reflowing this many bytes");
e716630dSMartin MatuskaZFS_MODULE_PARAM(zfs_vdev, raidz_, expand_max_copy_bytes, ULONG, ZMOD_RW,
e716630dSMartin Matuska	"Max amount of concurrent i/o for RAIDZ expansion");
e716630dSMartin MatuskaZFS_MODULE_PARAM(zfs_vdev, raidz_, io_aggregate_rows, ULONG, ZMOD_RW,
e716630dSMartin Matuska	"For expanded RAIDZ, aggregate reads that have more rows than this");
e716630dSMartin MatuskaZFS_MODULE_PARAM(zfs, zfs_, scrub_after_expand, INT, ZMOD_RW,
e716630dSMartin Matuska	"For expanded RAIDZ, automatically start a pool scrub when expansion "
e716630dSMartin Matuska	"completes");