fs/btrfs/raid56.c

c1d7c514SDavid Sterba// SPDX-License-Identifier: GPL-2.0
53b381b3SDavid Woodhouse/*
53b381b3SDavid Woodhouse * Copyright (C) 2012 Fusion-io  All rights reserved.
53b381b3SDavid Woodhouse * Copyright (C) 2012 Intel Corp. All rights reserved.
53b381b3SDavid Woodhouse */
c1d7c514SDavid Sterba
53b381b3SDavid Woodhouse#include <linux/sched.h>
53b381b3SDavid Woodhouse#include <linux/bio.h>
53b381b3SDavid Woodhouse#include <linux/slab.h>
53b381b3SDavid Woodhouse#include <linux/blkdev.h>
53b381b3SDavid Woodhouse#include <linux/raid/pq.h>
53b381b3SDavid Woodhouse#include <linux/hash.h>
53b381b3SDavid Woodhouse#include <linux/list_sort.h>
53b381b3SDavid Woodhouse#include <linux/raid/xor.h>
818e010bSDavid Sterba#include <linux/mm.h>
cea62800SJohannes Thumshirn#include "misc.h"
53b381b3SDavid Woodhouse#include "ctree.h"
53b381b3SDavid Woodhouse#include "disk-io.h"
53b381b3SDavid Woodhouse#include "volumes.h"
53b381b3SDavid Woodhouse#include "raid56.h"
53b381b3SDavid Woodhouse#include "async-thread.h"
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse/* set when additional merges to this rbio are not allowed */
53b381b3SDavid Woodhouse#define RBIO_RMW_LOCKED_BIT	1
53b381b3SDavid Woodhouse
4ae10b3aSChris Mason/*
4ae10b3aSChris Mason * set when this rbio is sitting in the hash, but it is just a cache
4ae10b3aSChris Mason * of past RMW
4ae10b3aSChris Mason */
4ae10b3aSChris Mason#define RBIO_CACHE_BIT		2
4ae10b3aSChris Mason
4ae10b3aSChris Mason/*
4ae10b3aSChris Mason * set when it is safe to trust the stripe_pages for caching
4ae10b3aSChris Mason */
4ae10b3aSChris Mason#define RBIO_CACHE_READY_BIT	3
4ae10b3aSChris Mason
4ae10b3aSChris Mason#define RBIO_CACHE_SIZE 1024
4ae10b3aSChris Mason
8a953348SDavid Sterba#define BTRFS_STRIPE_HASH_TABLE_BITS				11
8a953348SDavid Sterba
8a953348SDavid Sterba/* Used by the raid56 code to lock stripes for read/modify/write */
8a953348SDavid Sterbastruct btrfs_stripe_hash {
8a953348SDavid Sterba	struct list_head hash_list;
8a953348SDavid Sterba	spinlock_t lock;
8a953348SDavid Sterba};
8a953348SDavid Sterba
8a953348SDavid Sterba/* Used by the raid56 code to lock stripes for read/modify/write */
8a953348SDavid Sterbastruct btrfs_stripe_hash_table {
8a953348SDavid Sterba	struct list_head stripe_cache;
8a953348SDavid Sterba	spinlock_t cache_lock;
8a953348SDavid Sterba	int cache_size;
8a953348SDavid Sterba	struct btrfs_stripe_hash table[];
8a953348SDavid Sterba};
8a953348SDavid Sterba
eb357060SQu Wenruo/*
eb357060SQu Wenruo * A bvec like structure to present a sector inside a page.
eb357060SQu Wenruo *
eb357060SQu Wenruo * Unlike bvec we don't need bvlen, as it's fixed to sectorsize.
eb357060SQu Wenruo */
eb357060SQu Wenruostruct sector_ptr {
eb357060SQu Wenruo	struct page *page;
00425dd9SQu Wenruo	unsigned int pgoff:24;
00425dd9SQu Wenruo	unsigned int uptodate:8;
eb357060SQu Wenruo};
eb357060SQu Wenruo
1b94b556SMiao Xieenum btrfs_rbio_ops {
b4ee1782SOmar Sandoval	BTRFS_RBIO_WRITE,
b4ee1782SOmar Sandoval	BTRFS_RBIO_READ_REBUILD,
b4ee1782SOmar Sandoval	BTRFS_RBIO_PARITY_SCRUB,
b4ee1782SOmar Sandoval	BTRFS_RBIO_REBUILD_MISSING,
1b94b556SMiao Xie};
1b94b556SMiao Xie
53b381b3SDavid Woodhousestruct btrfs_raid_bio {
4c664611SQu Wenruo	struct btrfs_io_context *bioc;
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	/* while we're doing rmw on a stripe
53b381b3SDavid Woodhouse	 * we put it into a hash table so we can
53b381b3SDavid Woodhouse	 * lock the stripe and merge more rbios
53b381b3SDavid Woodhouse	 * into it.
53b381b3SDavid Woodhouse	 */
53b381b3SDavid Woodhouse	struct list_head hash_list;
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	/*
4ae10b3aSChris Mason	 * LRU list for the stripe cache
4ae10b3aSChris Mason	 */
4ae10b3aSChris Mason	struct list_head stripe_cache;
4ae10b3aSChris Mason
4ae10b3aSChris Mason	/*
53b381b3SDavid Woodhouse	 * for scheduling work in the helper threads
53b381b3SDavid Woodhouse	 */
53b381b3SDavid Woodhouse	struct btrfs_work work;
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	/*
53b381b3SDavid Woodhouse	 * bio list and bio_list_lock are used
53b381b3SDavid Woodhouse	 * to add more bios into the stripe
53b381b3SDavid Woodhouse	 * in hopes of avoiding the full rmw
53b381b3SDavid Woodhouse	 */
53b381b3SDavid Woodhouse	struct bio_list bio_list;
53b381b3SDavid Woodhouse	spinlock_t bio_list_lock;
53b381b3SDavid Woodhouse
6ac0f488SChris Mason	/* also protected by the bio_list_lock, the
6ac0f488SChris Mason	 * plug list is used by the plugging code
6ac0f488SChris Mason	 * to collect partial bios while plugged.  The
6ac0f488SChris Mason	 * stripe locking code also uses it to hand off
53b381b3SDavid Woodhouse	 * the stripe lock to the next pending IO
53b381b3SDavid Woodhouse	 */
53b381b3SDavid Woodhouse	struct list_head plug_list;
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	/*
53b381b3SDavid Woodhouse	 * flags that tell us if it is safe to
53b381b3SDavid Woodhouse	 * merge with this bio
53b381b3SDavid Woodhouse	 */
53b381b3SDavid Woodhouse	unsigned long flags;
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	/*
53b381b3SDavid Woodhouse	 * set if we're doing a parity rebuild
53b381b3SDavid Woodhouse	 * for a read from higher up, which is handled
53b381b3SDavid Woodhouse	 * differently from a parity rebuild as part of
53b381b3SDavid Woodhouse	 * rmw
53b381b3SDavid Woodhouse	 */
1b94b556SMiao Xie	enum btrfs_rbio_ops operation;
53b381b3SDavid Woodhouse
29b06838SQu Wenruo	/* Size of each individual stripe on disk */
29b06838SQu Wenruo	u32 stripe_len;
53b381b3SDavid Woodhouse
29b06838SQu Wenruo	/* How many pages there are for the full stripe including P/Q */
29b06838SQu Wenruo	u16 nr_pages;
53b381b3SDavid Woodhouse
94efbe19SQu Wenruo	/* How many sectors there are for the full stripe including P/Q */
94efbe19SQu Wenruo	u16 nr_sectors;
94efbe19SQu Wenruo
29b06838SQu Wenruo	/* Number of data stripes (no p/q) */
29b06838SQu Wenruo	u8 nr_data;
29b06838SQu Wenruo
29b06838SQu Wenruo	/* Numer of all stripes (including P/Q) */
29b06838SQu Wenruo	u8 real_stripes;
29b06838SQu Wenruo
29b06838SQu Wenruo	/* How many pages there are for each stripe */
29b06838SQu Wenruo	u8 stripe_npages;
29b06838SQu Wenruo
94efbe19SQu Wenruo	/* How many sectors there are for each stripe */
94efbe19SQu Wenruo	u8 stripe_nsectors;
94efbe19SQu Wenruo
29b06838SQu Wenruo	/* First bad stripe, -1 means no corruption */
29b06838SQu Wenruo	s8 faila;
29b06838SQu Wenruo
29b06838SQu Wenruo	/* Second bad stripe (for RAID6 use) */
29b06838SQu Wenruo	s8 failb;
29b06838SQu Wenruo
29b06838SQu Wenruo	/* Stripe number that we're scrubbing  */
29b06838SQu Wenruo	u8 scrubp;
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	/*
53b381b3SDavid Woodhouse	 * size of all the bios in the bio_list.  This
53b381b3SDavid Woodhouse	 * helps us decide if the rbio maps to a full
53b381b3SDavid Woodhouse	 * stripe or not
53b381b3SDavid Woodhouse	 */
53b381b3SDavid Woodhouse	int bio_list_bytes;
53b381b3SDavid Woodhouse
4245215dSMiao Xie	int generic_bio_cnt;
4245215dSMiao Xie
dec95574SElena Reshetova	refcount_t refs;
53b381b3SDavid Woodhouse
b89e1b01SMiao Xie	atomic_t stripes_pending;
b89e1b01SMiao Xie
b89e1b01SMiao Xie	atomic_t error;
53b381b3SDavid Woodhouse	/*
53b381b3SDavid Woodhouse	 * these are two arrays of pointers.  We allocate the
53b381b3SDavid Woodhouse	 * rbio big enough to hold them both and setup their
53b381b3SDavid Woodhouse	 * locations when the rbio is allocated
53b381b3SDavid Woodhouse	 */
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	/* pointers to pages that we allocated for
53b381b3SDavid Woodhouse	 * reading/writing stripes directly from the disk (including P/Q)
53b381b3SDavid Woodhouse	 */
53b381b3SDavid Woodhouse	struct page **stripe_pages;
53b381b3SDavid Woodhouse
00425dd9SQu Wenruo	/* Pointers to the sectors in the bio_list, for faster lookup */
00425dd9SQu Wenruo	struct sector_ptr *bio_sectors;
00425dd9SQu Wenruo
53b381b3SDavid Woodhouse	/*
eb357060SQu Wenruo	 * For subpage support, we need to map each sector to above
eb357060SQu Wenruo	 * stripe_pages.
5a6ac9eaSMiao Xie	 */
eb357060SQu Wenruo	struct sector_ptr *stripe_sectors;
eb357060SQu Wenruo
eb357060SQu Wenruo	/* Bitmap to record which horizontal stripe has data */
5a6ac9eaSMiao Xie	unsigned long *dbitmap;
1389053eSKees Cook
1389053eSKees Cook	/* allocated with real_stripes-many pointers for finish_*() calls */
1389053eSKees Cook	void **finish_pointers;
1389053eSKees Cook
94efbe19SQu Wenruo	/* Allocated with stripe_nsectors-many bits for finish_*() calls */
1389053eSKees Cook	unsigned long *finish_pbitmap;
53b381b3SDavid Woodhouse};
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhousestatic int __raid56_parity_recover(struct btrfs_raid_bio *rbio);
53b381b3SDavid Woodhousestatic noinline void finish_rmw(struct btrfs_raid_bio *rbio);
53b381b3SDavid Woodhousestatic void rmw_work(struct btrfs_work *work);
53b381b3SDavid Woodhousestatic void read_rebuild_work(struct btrfs_work *work);
53b381b3SDavid Woodhousestatic int fail_bio_stripe(struct btrfs_raid_bio *rbio, struct bio *bio);
53b381b3SDavid Woodhousestatic int fail_rbio_index(struct btrfs_raid_bio *rbio, int failed);
53b381b3SDavid Woodhousestatic void __free_raid_bio(struct btrfs_raid_bio *rbio);
53b381b3SDavid Woodhousestatic void index_rbio_pages(struct btrfs_raid_bio *rbio);
53b381b3SDavid Woodhousestatic int alloc_rbio_pages(struct btrfs_raid_bio *rbio);
53b381b3SDavid Woodhouse
5a6ac9eaSMiao Xiestatic noinline void finish_parity_scrub(struct btrfs_raid_bio *rbio,
5a6ac9eaSMiao Xie					 int need_check);
a81b747dSDavid Sterbastatic void scrub_parity_work(struct btrfs_work *work);
5a6ac9eaSMiao Xie
ac638859SDavid Sterbastatic void start_async_work(struct btrfs_raid_bio *rbio, btrfs_func_t work_func)
ac638859SDavid Sterba{
a0cac0ecSOmar Sandoval	btrfs_init_work(&rbio->work, work_func, NULL, NULL);
6a258d72SQu Wenruo	btrfs_queue_work(rbio->bioc->fs_info->rmw_workers, &rbio->work);
ac638859SDavid Sterba}
ac638859SDavid Sterba
53b381b3SDavid Woodhouse/*
53b381b3SDavid Woodhouse * the stripe hash table is used for locking, and to collect
53b381b3SDavid Woodhouse * bios in hopes of making a full stripe
53b381b3SDavid Woodhouse */
53b381b3SDavid Woodhouseint btrfs_alloc_stripe_hash_table(struct btrfs_fs_info *info)
53b381b3SDavid Woodhouse{
53b381b3SDavid Woodhouse	struct btrfs_stripe_hash_table *table;
53b381b3SDavid Woodhouse	struct btrfs_stripe_hash_table *x;
53b381b3SDavid Woodhouse	struct btrfs_stripe_hash *cur;
53b381b3SDavid Woodhouse	struct btrfs_stripe_hash *h;
53b381b3SDavid Woodhouse	int num_entries = 1 << BTRFS_STRIPE_HASH_TABLE_BITS;
53b381b3SDavid Woodhouse	int i;
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	if (info->stripe_hash_table)
53b381b3SDavid Woodhouse		return 0;
53b381b3SDavid Woodhouse
83c8266aSDavid Sterba	/*
83c8266aSDavid Sterba	 * The table is large, starting with order 4 and can go as high as
83c8266aSDavid Sterba	 * order 7 in case lock debugging is turned on.
83c8266aSDavid Sterba	 *
83c8266aSDavid Sterba	 * Try harder to allocate and fallback to vmalloc to lower the chance
83c8266aSDavid Sterba	 * of a failing mount.
83c8266aSDavid Sterba	 */
ee787f95SDavid Sterba	table = kvzalloc(struct_size(table, table, num_entries), GFP_KERNEL);
53b381b3SDavid Woodhouse	if (!table)
53b381b3SDavid Woodhouse		return -ENOMEM;
53b381b3SDavid Woodhouse
4ae10b3aSChris Mason	spin_lock_init(&table->cache_lock);
4ae10b3aSChris Mason	INIT_LIST_HEAD(&table->stripe_cache);
4ae10b3aSChris Mason
53b381b3SDavid Woodhouse	h = table->table;
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	for (i = 0; i < num_entries; i++) {
53b381b3SDavid Woodhouse		cur = h + i;
53b381b3SDavid Woodhouse		INIT_LIST_HEAD(&cur->hash_list);
53b381b3SDavid Woodhouse		spin_lock_init(&cur->lock);
53b381b3SDavid Woodhouse	}
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	x = cmpxchg(&info->stripe_hash_table, NULL, table);
f749303bSWang Shilong	kvfree(x);
53b381b3SDavid Woodhouse	return 0;
53b381b3SDavid Woodhouse}
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse/*
4ae10b3aSChris Mason * caching an rbio means to copy anything from the
ac26df8bSQu Wenruo * bio_sectors array into the stripe_pages array.  We
4ae10b3aSChris Mason * use the page uptodate bit in the stripe cache array
4ae10b3aSChris Mason * to indicate if it has valid data
4ae10b3aSChris Mason *
4ae10b3aSChris Mason * once the caching is done, we set the cache ready
4ae10b3aSChris Mason * bit.
4ae10b3aSChris Mason */
4ae10b3aSChris Masonstatic void cache_rbio_pages(struct btrfs_raid_bio *rbio)
4ae10b3aSChris Mason{
4ae10b3aSChris Mason	int i;
4ae10b3aSChris Mason	int ret;
4ae10b3aSChris Mason
4ae10b3aSChris Mason	ret = alloc_rbio_pages(rbio);
4ae10b3aSChris Mason	if (ret)
4ae10b3aSChris Mason		return;
4ae10b3aSChris Mason
00425dd9SQu Wenruo	for (i = 0; i < rbio->nr_sectors; i++) {
00425dd9SQu Wenruo		/* Some range not covered by bio (partial write), skip it */
00425dd9SQu Wenruo		if (!rbio->bio_sectors[i].page)
00425dd9SQu Wenruo			continue;
00425dd9SQu Wenruo
00425dd9SQu Wenruo		ASSERT(rbio->stripe_sectors[i].page);
00425dd9SQu Wenruo		memcpy_page(rbio->stripe_sectors[i].page,
00425dd9SQu Wenruo			    rbio->stripe_sectors[i].pgoff,
00425dd9SQu Wenruo			    rbio->bio_sectors[i].page,
00425dd9SQu Wenruo			    rbio->bio_sectors[i].pgoff,
00425dd9SQu Wenruo			    rbio->bioc->fs_info->sectorsize);
00425dd9SQu Wenruo		rbio->stripe_sectors[i].uptodate = 1;
00425dd9SQu Wenruo	}
4ae10b3aSChris Mason	set_bit(RBIO_CACHE_READY_BIT, &rbio->flags);
4ae10b3aSChris Mason}
4ae10b3aSChris Mason
4ae10b3aSChris Mason/*
53b381b3SDavid Woodhouse * we hash on the first logical address of the stripe
53b381b3SDavid Woodhouse */
53b381b3SDavid Woodhousestatic int rbio_bucket(struct btrfs_raid_bio *rbio)
53b381b3SDavid Woodhouse{
4c664611SQu Wenruo	u64 num = rbio->bioc->raid_map[0];
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	/*
53b381b3SDavid Woodhouse	 * we shift down quite a bit.  We're using byte
53b381b3SDavid Woodhouse	 * addressing, and most of the lower bits are zeros.
53b381b3SDavid Woodhouse	 * This tends to upset hash_64, and it consistently
53b381b3SDavid Woodhouse	 * returns just one or two different values.
53b381b3SDavid Woodhouse	 *
53b381b3SDavid Woodhouse	 * shifting off the lower bits fixes things.
53b381b3SDavid Woodhouse	 */
53b381b3SDavid Woodhouse	return hash_64(num >> 16, BTRFS_STRIPE_HASH_TABLE_BITS);
53b381b3SDavid Woodhouse}
53b381b3SDavid Woodhouse
d4e28d9bSQu Wenruostatic bool full_page_sectors_uptodate(struct btrfs_raid_bio *rbio,
d4e28d9bSQu Wenruo				       unsigned int page_nr)
d4e28d9bSQu Wenruo{
d4e28d9bSQu Wenruo	const u32 sectorsize = rbio->bioc->fs_info->sectorsize;
d4e28d9bSQu Wenruo	const u32 sectors_per_page = PAGE_SIZE / sectorsize;
d4e28d9bSQu Wenruo	int i;
d4e28d9bSQu Wenruo
d4e28d9bSQu Wenruo	ASSERT(page_nr < rbio->nr_pages);
d4e28d9bSQu Wenruo
d4e28d9bSQu Wenruo	for (i = sectors_per_page * page_nr;
d4e28d9bSQu Wenruo	     i < sectors_per_page * page_nr + sectors_per_page;
d4e28d9bSQu Wenruo	     i++) {
d4e28d9bSQu Wenruo		if (!rbio->stripe_sectors[i].uptodate)
d4e28d9bSQu Wenruo			return false;
d4e28d9bSQu Wenruo	}
d4e28d9bSQu Wenruo	return true;
d4e28d9bSQu Wenruo}
d4e28d9bSQu Wenruo
53b381b3SDavid Woodhouse/*
eb357060SQu Wenruo * Update the stripe_sectors[] array to use correct page and pgoff
eb357060SQu Wenruo *
eb357060SQu Wenruo * Should be called every time any page pointer in stripes_pages[] got modified.
eb357060SQu Wenruo */
eb357060SQu Wenruostatic void index_stripe_sectors(struct btrfs_raid_bio *rbio)
eb357060SQu Wenruo{
eb357060SQu Wenruo	const u32 sectorsize = rbio->bioc->fs_info->sectorsize;
eb357060SQu Wenruo	u32 offset;
eb357060SQu Wenruo	int i;
eb357060SQu Wenruo
eb357060SQu Wenruo	for (i = 0, offset = 0; i < rbio->nr_sectors; i++, offset += sectorsize) {
eb357060SQu Wenruo		int page_index = offset >> PAGE_SHIFT;
eb357060SQu Wenruo
eb357060SQu Wenruo		ASSERT(page_index < rbio->nr_pages);
eb357060SQu Wenruo		rbio->stripe_sectors[i].page = rbio->stripe_pages[page_index];
eb357060SQu Wenruo		rbio->stripe_sectors[i].pgoff = offset_in_page(offset);
eb357060SQu Wenruo	}
eb357060SQu Wenruo}
eb357060SQu Wenruo
eb357060SQu Wenruo/*
d4e28d9bSQu Wenruo * Stealing an rbio means taking all the uptodate pages from the stripe array
d4e28d9bSQu Wenruo * in the source rbio and putting them into the destination rbio.
d4e28d9bSQu Wenruo *
d4e28d9bSQu Wenruo * This will also update the involved stripe_sectors[] which are referring to
d4e28d9bSQu Wenruo * the old pages.
4ae10b3aSChris Mason */
4ae10b3aSChris Masonstatic void steal_rbio(struct btrfs_raid_bio *src, struct btrfs_raid_bio *dest)
4ae10b3aSChris Mason{
4ae10b3aSChris Mason	int i;
4ae10b3aSChris Mason	struct page *s;
4ae10b3aSChris Mason	struct page *d;
4ae10b3aSChris Mason
4ae10b3aSChris Mason	if (!test_bit(RBIO_CACHE_READY_BIT, &src->flags))
4ae10b3aSChris Mason		return;
4ae10b3aSChris Mason
4ae10b3aSChris Mason	for (i = 0; i < dest->nr_pages; i++) {
4ae10b3aSChris Mason		s = src->stripe_pages[i];
d4e28d9bSQu Wenruo		if (!s || !full_page_sectors_uptodate(src, i))
4ae10b3aSChris Mason			continue;
4ae10b3aSChris Mason
4ae10b3aSChris Mason		d = dest->stripe_pages[i];
4ae10b3aSChris Mason		if (d)
4ae10b3aSChris Mason			__free_page(d);
4ae10b3aSChris Mason
4ae10b3aSChris Mason		dest->stripe_pages[i] = s;
4ae10b3aSChris Mason		src->stripe_pages[i] = NULL;
4ae10b3aSChris Mason	}
eb357060SQu Wenruo	index_stripe_sectors(dest);
eb357060SQu Wenruo	index_stripe_sectors(src);
4ae10b3aSChris Mason}
4ae10b3aSChris Mason
4ae10b3aSChris Mason/*
53b381b3SDavid Woodhouse * merging means we take the bio_list from the victim and
53b381b3SDavid Woodhouse * splice it into the destination.  The victim should
53b381b3SDavid Woodhouse * be discarded afterwards.
53b381b3SDavid Woodhouse *
53b381b3SDavid Woodhouse * must be called with dest->rbio_list_lock held
53b381b3SDavid Woodhouse */
53b381b3SDavid Woodhousestatic void merge_rbio(struct btrfs_raid_bio *dest,
53b381b3SDavid Woodhouse		       struct btrfs_raid_bio *victim)
53b381b3SDavid Woodhouse{
53b381b3SDavid Woodhouse	bio_list_merge(&dest->bio_list, &victim->bio_list);
53b381b3SDavid Woodhouse	dest->bio_list_bytes += victim->bio_list_bytes;
4245215dSMiao Xie	dest->generic_bio_cnt += victim->generic_bio_cnt;
53b381b3SDavid Woodhouse	bio_list_init(&victim->bio_list);
53b381b3SDavid Woodhouse}
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse/*
4ae10b3aSChris Mason * used to prune items that are in the cache.  The caller
4ae10b3aSChris Mason * must hold the hash table lock.
4ae10b3aSChris Mason */
4ae10b3aSChris Masonstatic void __remove_rbio_from_cache(struct btrfs_raid_bio *rbio)
4ae10b3aSChris Mason{
4ae10b3aSChris Mason	int bucket = rbio_bucket(rbio);
4ae10b3aSChris Mason	struct btrfs_stripe_hash_table *table;
4ae10b3aSChris Mason	struct btrfs_stripe_hash *h;
4ae10b3aSChris Mason	int freeit = 0;
4ae10b3aSChris Mason
4ae10b3aSChris Mason	/*
4ae10b3aSChris Mason	 * check the bit again under the hash table lock.
4ae10b3aSChris Mason	 */
4ae10b3aSChris Mason	if (!test_bit(RBIO_CACHE_BIT, &rbio->flags))
4ae10b3aSChris Mason		return;
4ae10b3aSChris Mason
6a258d72SQu Wenruo	table = rbio->bioc->fs_info->stripe_hash_table;
4ae10b3aSChris Mason	h = table->table + bucket;
4ae10b3aSChris Mason
4ae10b3aSChris Mason	/* hold the lock for the bucket because we may be
4ae10b3aSChris Mason	 * removing it from the hash table
4ae10b3aSChris Mason	 */
4ae10b3aSChris Mason	spin_lock(&h->lock);
4ae10b3aSChris Mason
4ae10b3aSChris Mason	/*
4ae10b3aSChris Mason	 * hold the lock for the bio list because we need
4ae10b3aSChris Mason	 * to make sure the bio list is empty
4ae10b3aSChris Mason	 */
4ae10b3aSChris Mason	spin_lock(&rbio->bio_list_lock);
4ae10b3aSChris Mason
4ae10b3aSChris Mason	if (test_and_clear_bit(RBIO_CACHE_BIT, &rbio->flags)) {
4ae10b3aSChris Mason		list_del_init(&rbio->stripe_cache);
4ae10b3aSChris Mason		table->cache_size -= 1;
4ae10b3aSChris Mason		freeit = 1;
4ae10b3aSChris Mason
4ae10b3aSChris Mason		/* if the bio list isn't empty, this rbio is
4ae10b3aSChris Mason		 * still involved in an IO.  We take it out
4ae10b3aSChris Mason		 * of the cache list, and drop the ref that
4ae10b3aSChris Mason		 * was held for the list.
4ae10b3aSChris Mason		 *
4ae10b3aSChris Mason		 * If the bio_list was empty, we also remove
4ae10b3aSChris Mason		 * the rbio from the hash_table, and drop
4ae10b3aSChris Mason		 * the corresponding ref
4ae10b3aSChris Mason		 */
4ae10b3aSChris Mason		if (bio_list_empty(&rbio->bio_list)) {
4ae10b3aSChris Mason			if (!list_empty(&rbio->hash_list)) {
4ae10b3aSChris Mason				list_del_init(&rbio->hash_list);
dec95574SElena Reshetova				refcount_dec(&rbio->refs);
4ae10b3aSChris Mason				BUG_ON(!list_empty(&rbio->plug_list));
4ae10b3aSChris Mason			}
4ae10b3aSChris Mason		}
4ae10b3aSChris Mason	}
4ae10b3aSChris Mason
4ae10b3aSChris Mason	spin_unlock(&rbio->bio_list_lock);
4ae10b3aSChris Mason	spin_unlock(&h->lock);
4ae10b3aSChris Mason
4ae10b3aSChris Mason	if (freeit)
4ae10b3aSChris Mason		__free_raid_bio(rbio);
4ae10b3aSChris Mason}
4ae10b3aSChris Mason
4ae10b3aSChris Mason/*
4ae10b3aSChris Mason * prune a given rbio from the cache
4ae10b3aSChris Mason */
4ae10b3aSChris Masonstatic void remove_rbio_from_cache(struct btrfs_raid_bio *rbio)
4ae10b3aSChris Mason{
4ae10b3aSChris Mason	struct btrfs_stripe_hash_table *table;
4ae10b3aSChris Mason	unsigned long flags;
4ae10b3aSChris Mason
4ae10b3aSChris Mason	if (!test_bit(RBIO_CACHE_BIT, &rbio->flags))
4ae10b3aSChris Mason		return;
4ae10b3aSChris Mason
6a258d72SQu Wenruo	table = rbio->bioc->fs_info->stripe_hash_table;
4ae10b3aSChris Mason
4ae10b3aSChris Mason	spin_lock_irqsave(&table->cache_lock, flags);
4ae10b3aSChris Mason	__remove_rbio_from_cache(rbio);
4ae10b3aSChris Mason	spin_unlock_irqrestore(&table->cache_lock, flags);
4ae10b3aSChris Mason}
4ae10b3aSChris Mason
4ae10b3aSChris Mason/*
4ae10b3aSChris Mason * remove everything in the cache
4ae10b3aSChris Mason */
48a3b636SEric Sandeenstatic void btrfs_clear_rbio_cache(struct btrfs_fs_info *info)
4ae10b3aSChris Mason{
4ae10b3aSChris Mason	struct btrfs_stripe_hash_table *table;
4ae10b3aSChris Mason	unsigned long flags;
4ae10b3aSChris Mason	struct btrfs_raid_bio *rbio;
4ae10b3aSChris Mason
4ae10b3aSChris Mason	table = info->stripe_hash_table;
4ae10b3aSChris Mason
4ae10b3aSChris Mason	spin_lock_irqsave(&table->cache_lock, flags);
4ae10b3aSChris Mason	while (!list_empty(&table->stripe_cache)) {
4ae10b3aSChris Mason		rbio = list_entry(table->stripe_cache.next,
4ae10b3aSChris Mason				  struct btrfs_raid_bio,
4ae10b3aSChris Mason				  stripe_cache);
4ae10b3aSChris Mason		__remove_rbio_from_cache(rbio);
4ae10b3aSChris Mason	}
4ae10b3aSChris Mason	spin_unlock_irqrestore(&table->cache_lock, flags);
4ae10b3aSChris Mason}
4ae10b3aSChris Mason
4ae10b3aSChris Mason/*
4ae10b3aSChris Mason * remove all cached entries and free the hash table
4ae10b3aSChris Mason * used by unmount
53b381b3SDavid Woodhouse */
53b381b3SDavid Woodhousevoid btrfs_free_stripe_hash_table(struct btrfs_fs_info *info)
53b381b3SDavid Woodhouse{
53b381b3SDavid Woodhouse	if (!info->stripe_hash_table)
53b381b3SDavid Woodhouse		return;
4ae10b3aSChris Mason	btrfs_clear_rbio_cache(info);
f749303bSWang Shilong	kvfree(info->stripe_hash_table);
53b381b3SDavid Woodhouse	info->stripe_hash_table = NULL;
53b381b3SDavid Woodhouse}
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse/*
4ae10b3aSChris Mason * insert an rbio into the stripe cache.  It
4ae10b3aSChris Mason * must have already been prepared by calling
4ae10b3aSChris Mason * cache_rbio_pages
4ae10b3aSChris Mason *
4ae10b3aSChris Mason * If this rbio was already cached, it gets
4ae10b3aSChris Mason * moved to the front of the lru.
4ae10b3aSChris Mason *
4ae10b3aSChris Mason * If the size of the rbio cache is too big, we
4ae10b3aSChris Mason * prune an item.
4ae10b3aSChris Mason */
4ae10b3aSChris Masonstatic void cache_rbio(struct btrfs_raid_bio *rbio)
4ae10b3aSChris Mason{
4ae10b3aSChris Mason	struct btrfs_stripe_hash_table *table;
4ae10b3aSChris Mason	unsigned long flags;
4ae10b3aSChris Mason
4ae10b3aSChris Mason	if (!test_bit(RBIO_CACHE_READY_BIT, &rbio->flags))
4ae10b3aSChris Mason		return;
4ae10b3aSChris Mason
6a258d72SQu Wenruo	table = rbio->bioc->fs_info->stripe_hash_table;
4ae10b3aSChris Mason
4ae10b3aSChris Mason	spin_lock_irqsave(&table->cache_lock, flags);
4ae10b3aSChris Mason	spin_lock(&rbio->bio_list_lock);
4ae10b3aSChris Mason
4ae10b3aSChris Mason	/* bump our ref if we were not in the list before */
4ae10b3aSChris Mason	if (!test_and_set_bit(RBIO_CACHE_BIT, &rbio->flags))
dec95574SElena Reshetova		refcount_inc(&rbio->refs);
4ae10b3aSChris Mason
4ae10b3aSChris Mason	if (!list_empty(&rbio->stripe_cache)){
4ae10b3aSChris Mason		list_move(&rbio->stripe_cache, &table->stripe_cache);
4ae10b3aSChris Mason	} else {
4ae10b3aSChris Mason		list_add(&rbio->stripe_cache, &table->stripe_cache);
4ae10b3aSChris Mason		table->cache_size += 1;
4ae10b3aSChris Mason	}
4ae10b3aSChris Mason
4ae10b3aSChris Mason	spin_unlock(&rbio->bio_list_lock);
4ae10b3aSChris Mason
4ae10b3aSChris Mason	if (table->cache_size > RBIO_CACHE_SIZE) {
4ae10b3aSChris Mason		struct btrfs_raid_bio *found;
4ae10b3aSChris Mason
4ae10b3aSChris Mason		found = list_entry(table->stripe_cache.prev,
4ae10b3aSChris Mason				  struct btrfs_raid_bio,
4ae10b3aSChris Mason				  stripe_cache);
4ae10b3aSChris Mason
4ae10b3aSChris Mason		if (found != rbio)
4ae10b3aSChris Mason			__remove_rbio_from_cache(found);
4ae10b3aSChris Mason	}
4ae10b3aSChris Mason
4ae10b3aSChris Mason	spin_unlock_irqrestore(&table->cache_lock, flags);
4ae10b3aSChris Mason}
4ae10b3aSChris Mason
4ae10b3aSChris Mason/*
53b381b3SDavid Woodhouse * helper function to run the xor_blocks api.  It is only
53b381b3SDavid Woodhouse * able to do MAX_XOR_BLOCKS at a time, so we need to
53b381b3SDavid Woodhouse * loop through.
53b381b3SDavid Woodhouse */
53b381b3SDavid Woodhousestatic void run_xor(void **pages, int src_cnt, ssize_t len)
53b381b3SDavid Woodhouse{
53b381b3SDavid Woodhouse	int src_off = 0;
53b381b3SDavid Woodhouse	int xor_src_cnt = 0;
53b381b3SDavid Woodhouse	void *dest = pages[src_cnt];
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	while(src_cnt > 0) {
53b381b3SDavid Woodhouse		xor_src_cnt = min(src_cnt, MAX_XOR_BLOCKS);
53b381b3SDavid Woodhouse		xor_blocks(xor_src_cnt, len, dest, pages + src_off);
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse		src_cnt -= xor_src_cnt;
53b381b3SDavid Woodhouse		src_off += xor_src_cnt;
53b381b3SDavid Woodhouse	}
53b381b3SDavid Woodhouse}
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse/*
176571a1SDavid Sterba * Returns true if the bio list inside this rbio covers an entire stripe (no
176571a1SDavid Sterba * rmw required).
53b381b3SDavid Woodhouse */
53b381b3SDavid Woodhousestatic int rbio_is_full(struct btrfs_raid_bio *rbio)
53b381b3SDavid Woodhouse{
53b381b3SDavid Woodhouse	unsigned long flags;
176571a1SDavid Sterba	unsigned long size = rbio->bio_list_bytes;
176571a1SDavid Sterba	int ret = 1;
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	spin_lock_irqsave(&rbio->bio_list_lock, flags);
176571a1SDavid Sterba	if (size != rbio->nr_data * rbio->stripe_len)
176571a1SDavid Sterba		ret = 0;
176571a1SDavid Sterba	BUG_ON(size > rbio->nr_data * rbio->stripe_len);
53b381b3SDavid Woodhouse	spin_unlock_irqrestore(&rbio->bio_list_lock, flags);
176571a1SDavid Sterba
53b381b3SDavid Woodhouse	return ret;
53b381b3SDavid Woodhouse}
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse/*
53b381b3SDavid Woodhouse * returns 1 if it is safe to merge two rbios together.
53b381b3SDavid Woodhouse * The merging is safe if the two rbios correspond to
53b381b3SDavid Woodhouse * the same stripe and if they are both going in the same
53b381b3SDavid Woodhouse * direction (read vs write), and if neither one is
53b381b3SDavid Woodhouse * locked for final IO
53b381b3SDavid Woodhouse *
53b381b3SDavid Woodhouse * The caller is responsible for locking such that
53b381b3SDavid Woodhouse * rmw_locked is safe to test
53b381b3SDavid Woodhouse */
53b381b3SDavid Woodhousestatic int rbio_can_merge(struct btrfs_raid_bio *last,
53b381b3SDavid Woodhouse			  struct btrfs_raid_bio *cur)
53b381b3SDavid Woodhouse{
53b381b3SDavid Woodhouse	if (test_bit(RBIO_RMW_LOCKED_BIT, &last->flags) ||
53b381b3SDavid Woodhouse	    test_bit(RBIO_RMW_LOCKED_BIT, &cur->flags))
53b381b3SDavid Woodhouse		return 0;
53b381b3SDavid Woodhouse
4ae10b3aSChris Mason	/*
4ae10b3aSChris Mason	 * we can't merge with cached rbios, since the
4ae10b3aSChris Mason	 * idea is that when we merge the destination
4ae10b3aSChris Mason	 * rbio is going to run our IO for us.  We can
01327610SNicholas D Steeves	 * steal from cached rbios though, other functions
4ae10b3aSChris Mason	 * handle that.
4ae10b3aSChris Mason	 */
4ae10b3aSChris Mason	if (test_bit(RBIO_CACHE_BIT, &last->flags) ||
4ae10b3aSChris Mason	    test_bit(RBIO_CACHE_BIT, &cur->flags))
4ae10b3aSChris Mason		return 0;
4ae10b3aSChris Mason
4c664611SQu Wenruo	if (last->bioc->raid_map[0] != cur->bioc->raid_map[0])
53b381b3SDavid Woodhouse		return 0;
53b381b3SDavid Woodhouse
5a6ac9eaSMiao Xie	/* we can't merge with different operations */
5a6ac9eaSMiao Xie	if (last->operation != cur->operation)
53b381b3SDavid Woodhouse		return 0;
5a6ac9eaSMiao Xie	/*
5a6ac9eaSMiao Xie	 * We've need read the full stripe from the drive.
5a6ac9eaSMiao Xie	 * check and repair the parity and write the new results.
5a6ac9eaSMiao Xie	 *
5a6ac9eaSMiao Xie	 * We're not allowed to add any new bios to the
5a6ac9eaSMiao Xie	 * bio list here, anyone else that wants to
5a6ac9eaSMiao Xie	 * change this stripe needs to do their own rmw.
5a6ac9eaSMiao Xie	 */
db34be19SLiu Bo	if (last->operation == BTRFS_RBIO_PARITY_SCRUB)
5a6ac9eaSMiao Xie		return 0;
53b381b3SDavid Woodhouse
db34be19SLiu Bo	if (last->operation == BTRFS_RBIO_REBUILD_MISSING)
b4ee1782SOmar Sandoval		return 0;
b4ee1782SOmar Sandoval
cc54ff62SLiu Bo	if (last->operation == BTRFS_RBIO_READ_REBUILD) {
cc54ff62SLiu Bo		int fa = last->faila;
cc54ff62SLiu Bo		int fb = last->failb;
cc54ff62SLiu Bo		int cur_fa = cur->faila;
cc54ff62SLiu Bo		int cur_fb = cur->failb;
cc54ff62SLiu Bo
cc54ff62SLiu Bo		if (last->faila >= last->failb) {
cc54ff62SLiu Bo			fa = last->failb;
cc54ff62SLiu Bo			fb = last->faila;
cc54ff62SLiu Bo		}
cc54ff62SLiu Bo
cc54ff62SLiu Bo		if (cur->faila >= cur->failb) {
cc54ff62SLiu Bo			cur_fa = cur->failb;
cc54ff62SLiu Bo			cur_fb = cur->faila;
cc54ff62SLiu Bo		}
cc54ff62SLiu Bo
cc54ff62SLiu Bo		if (fa != cur_fa || fb != cur_fb)
cc54ff62SLiu Bo			return 0;
cc54ff62SLiu Bo	}
53b381b3SDavid Woodhouse	return 1;
53b381b3SDavid Woodhouse}
53b381b3SDavid Woodhouse
3e77605dSQu Wenruostatic unsigned int rbio_stripe_sector_index(const struct btrfs_raid_bio *rbio,
3e77605dSQu Wenruo					     unsigned int stripe_nr,
3e77605dSQu Wenruo					     unsigned int sector_nr)
3e77605dSQu Wenruo{
3e77605dSQu Wenruo	ASSERT(stripe_nr < rbio->real_stripes);
3e77605dSQu Wenruo	ASSERT(sector_nr < rbio->stripe_nsectors);
3e77605dSQu Wenruo
3e77605dSQu Wenruo	return stripe_nr * rbio->stripe_nsectors + sector_nr;
3e77605dSQu Wenruo}
3e77605dSQu Wenruo
3e77605dSQu Wenruo/* Return a sector from rbio->stripe_sectors, not from the bio list */
3e77605dSQu Wenruostatic struct sector_ptr *rbio_stripe_sector(const struct btrfs_raid_bio *rbio,
3e77605dSQu Wenruo					     unsigned int stripe_nr,
3e77605dSQu Wenruo					     unsigned int sector_nr)
3e77605dSQu Wenruo{
3e77605dSQu Wenruo	return &rbio->stripe_sectors[rbio_stripe_sector_index(rbio, stripe_nr,
3e77605dSQu Wenruo							      sector_nr)];
3e77605dSQu Wenruo}
3e77605dSQu Wenruo
1145059aSQu Wenruo/* Grab a sector inside P stripe */
1145059aSQu Wenruostatic struct sector_ptr *rbio_pstripe_sector(const struct btrfs_raid_bio *rbio,
1145059aSQu Wenruo					      unsigned int sector_nr)
b7178a5fSZhao Lei{
1145059aSQu Wenruo	return rbio_stripe_sector(rbio, rbio->nr_data, sector_nr);
b7178a5fSZhao Lei}
b7178a5fSZhao Lei
1145059aSQu Wenruo/* Grab a sector inside Q stripe, return NULL if not RAID6 */
1145059aSQu Wenruostatic struct sector_ptr *rbio_qstripe_sector(const struct btrfs_raid_bio *rbio,
1145059aSQu Wenruo					      unsigned int sector_nr)
53b381b3SDavid Woodhouse{
2c8cdd6eSMiao Xie	if (rbio->nr_data + 1 == rbio->real_stripes)
53b381b3SDavid Woodhouse		return NULL;
1145059aSQu Wenruo	return rbio_stripe_sector(rbio, rbio->nr_data + 1, sector_nr);
1145059aSQu Wenruo}
1145059aSQu Wenruo
53b381b3SDavid Woodhouse/*
53b381b3SDavid Woodhouse * The first stripe in the table for a logical address
53b381b3SDavid Woodhouse * has the lock.  rbios are added in one of three ways:
53b381b3SDavid Woodhouse *
53b381b3SDavid Woodhouse * 1) Nobody has the stripe locked yet.  The rbio is given
53b381b3SDavid Woodhouse * the lock and 0 is returned.  The caller must start the IO
53b381b3SDavid Woodhouse * themselves.
53b381b3SDavid Woodhouse *
53b381b3SDavid Woodhouse * 2) Someone has the stripe locked, but we're able to merge
53b381b3SDavid Woodhouse * with the lock owner.  The rbio is freed and the IO will
53b381b3SDavid Woodhouse * start automatically along with the existing rbio.  1 is returned.
53b381b3SDavid Woodhouse *
53b381b3SDavid Woodhouse * 3) Someone has the stripe locked, but we're not able to merge.
53b381b3SDavid Woodhouse * The rbio is added to the lock owner's plug list, or merged into
53b381b3SDavid Woodhouse * an rbio already on the plug list.  When the lock owner unlocks,
53b381b3SDavid Woodhouse * the next rbio on the list is run and the IO is started automatically.
53b381b3SDavid Woodhouse * 1 is returned
53b381b3SDavid Woodhouse *
53b381b3SDavid Woodhouse * If we return 0, the caller still owns the rbio and must continue with
53b381b3SDavid Woodhouse * IO submission.  If we return 1, the caller must assume the rbio has
53b381b3SDavid Woodhouse * already been freed.
53b381b3SDavid Woodhouse */
53b381b3SDavid Woodhousestatic noinline int lock_stripe_add(struct btrfs_raid_bio *rbio)
53b381b3SDavid Woodhouse{
721860d5SJohannes Thumshirn	struct btrfs_stripe_hash *h;
53b381b3SDavid Woodhouse	struct btrfs_raid_bio *cur;
53b381b3SDavid Woodhouse	struct btrfs_raid_bio *pending;
53b381b3SDavid Woodhouse	unsigned long flags;
53b381b3SDavid Woodhouse	struct btrfs_raid_bio *freeit = NULL;
4ae10b3aSChris Mason	struct btrfs_raid_bio *cache_drop = NULL;
53b381b3SDavid Woodhouse	int ret = 0;
53b381b3SDavid Woodhouse
6a258d72SQu Wenruo	h = rbio->bioc->fs_info->stripe_hash_table->table + rbio_bucket(rbio);
721860d5SJohannes Thumshirn
53b381b3SDavid Woodhouse	spin_lock_irqsave(&h->lock, flags);
53b381b3SDavid Woodhouse	list_for_each_entry(cur, &h->hash_list, hash_list) {
4c664611SQu Wenruo		if (cur->bioc->raid_map[0] != rbio->bioc->raid_map[0])
9d6cb1b0SJohannes Thumshirn			continue;
9d6cb1b0SJohannes Thumshirn
53b381b3SDavid Woodhouse		spin_lock(&cur->bio_list_lock);
53b381b3SDavid Woodhouse
9d6cb1b0SJohannes Thumshirn		/* Can we steal this cached rbio's pages? */
4ae10b3aSChris Mason		if (bio_list_empty(&cur->bio_list) &&
4ae10b3aSChris Mason		    list_empty(&cur->plug_list) &&
4ae10b3aSChris Mason		    test_bit(RBIO_CACHE_BIT, &cur->flags) &&
4ae10b3aSChris Mason		    !test_bit(RBIO_RMW_LOCKED_BIT, &cur->flags)) {
4ae10b3aSChris Mason			list_del_init(&cur->hash_list);
dec95574SElena Reshetova			refcount_dec(&cur->refs);
4ae10b3aSChris Mason
4ae10b3aSChris Mason			steal_rbio(cur, rbio);
4ae10b3aSChris Mason			cache_drop = cur;
4ae10b3aSChris Mason			spin_unlock(&cur->bio_list_lock);
4ae10b3aSChris Mason
4ae10b3aSChris Mason			goto lockit;
4ae10b3aSChris Mason		}
4ae10b3aSChris Mason
9d6cb1b0SJohannes Thumshirn		/* Can we merge into the lock owner? */
53b381b3SDavid Woodhouse		if (rbio_can_merge(cur, rbio)) {
53b381b3SDavid Woodhouse			merge_rbio(cur, rbio);
53b381b3SDavid Woodhouse			spin_unlock(&cur->bio_list_lock);
53b381b3SDavid Woodhouse			freeit = rbio;
53b381b3SDavid Woodhouse			ret = 1;
53b381b3SDavid Woodhouse			goto out;
53b381b3SDavid Woodhouse		}
53b381b3SDavid Woodhouse
4ae10b3aSChris Mason
53b381b3SDavid Woodhouse		/*
9d6cb1b0SJohannes Thumshirn		 * We couldn't merge with the running rbio, see if we can merge
9d6cb1b0SJohannes Thumshirn		 * with the pending ones.  We don't have to check for rmw_locked
9d6cb1b0SJohannes Thumshirn		 * because there is no way they are inside finish_rmw right now
53b381b3SDavid Woodhouse		 */
9d6cb1b0SJohannes Thumshirn		list_for_each_entry(pending, &cur->plug_list, plug_list) {
53b381b3SDavid Woodhouse			if (rbio_can_merge(pending, rbio)) {
53b381b3SDavid Woodhouse				merge_rbio(pending, rbio);
53b381b3SDavid Woodhouse				spin_unlock(&cur->bio_list_lock);
53b381b3SDavid Woodhouse				freeit = rbio;
53b381b3SDavid Woodhouse				ret = 1;
53b381b3SDavid Woodhouse				goto out;
53b381b3SDavid Woodhouse			}
53b381b3SDavid Woodhouse		}
53b381b3SDavid Woodhouse
9d6cb1b0SJohannes Thumshirn		/*
9d6cb1b0SJohannes Thumshirn		 * No merging, put us on the tail of the plug list, our rbio
9d6cb1b0SJohannes Thumshirn		 * will be started with the currently running rbio unlocks
53b381b3SDavid Woodhouse		 */
53b381b3SDavid Woodhouse		list_add_tail(&rbio->plug_list, &cur->plug_list);
53b381b3SDavid Woodhouse		spin_unlock(&cur->bio_list_lock);
53b381b3SDavid Woodhouse		ret = 1;
53b381b3SDavid Woodhouse		goto out;
53b381b3SDavid Woodhouse	}
4ae10b3aSChris Masonlockit:
dec95574SElena Reshetova	refcount_inc(&rbio->refs);
53b381b3SDavid Woodhouse	list_add(&rbio->hash_list, &h->hash_list);
53b381b3SDavid Woodhouseout:
53b381b3SDavid Woodhouse	spin_unlock_irqrestore(&h->lock, flags);
4ae10b3aSChris Mason	if (cache_drop)
4ae10b3aSChris Mason		remove_rbio_from_cache(cache_drop);
53b381b3SDavid Woodhouse	if (freeit)
53b381b3SDavid Woodhouse		__free_raid_bio(freeit);
53b381b3SDavid Woodhouse	return ret;
53b381b3SDavid Woodhouse}
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse/*
53b381b3SDavid Woodhouse * called as rmw or parity rebuild is completed.  If the plug list has more
53b381b3SDavid Woodhouse * rbios waiting for this stripe, the next one on the list will be started
53b381b3SDavid Woodhouse */
53b381b3SDavid Woodhousestatic noinline void unlock_stripe(struct btrfs_raid_bio *rbio)
53b381b3SDavid Woodhouse{
53b381b3SDavid Woodhouse	int bucket;
53b381b3SDavid Woodhouse	struct btrfs_stripe_hash *h;
53b381b3SDavid Woodhouse	unsigned long flags;
4ae10b3aSChris Mason	int keep_cache = 0;
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	bucket = rbio_bucket(rbio);
6a258d72SQu Wenruo	h = rbio->bioc->fs_info->stripe_hash_table->table + bucket;
53b381b3SDavid Woodhouse
4ae10b3aSChris Mason	if (list_empty(&rbio->plug_list))
4ae10b3aSChris Mason		cache_rbio(rbio);
4ae10b3aSChris Mason
53b381b3SDavid Woodhouse	spin_lock_irqsave(&h->lock, flags);
53b381b3SDavid Woodhouse	spin_lock(&rbio->bio_list_lock);
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	if (!list_empty(&rbio->hash_list)) {
4ae10b3aSChris Mason		/*
4ae10b3aSChris Mason		 * if we're still cached and there is no other IO
4ae10b3aSChris Mason		 * to perform, just leave this rbio here for others
4ae10b3aSChris Mason		 * to steal from later
4ae10b3aSChris Mason		 */
4ae10b3aSChris Mason		if (list_empty(&rbio->plug_list) &&
4ae10b3aSChris Mason		    test_bit(RBIO_CACHE_BIT, &rbio->flags)) {
4ae10b3aSChris Mason			keep_cache = 1;
4ae10b3aSChris Mason			clear_bit(RBIO_RMW_LOCKED_BIT, &rbio->flags);
4ae10b3aSChris Mason			BUG_ON(!bio_list_empty(&rbio->bio_list));
4ae10b3aSChris Mason			goto done;
4ae10b3aSChris Mason		}
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse		list_del_init(&rbio->hash_list);
dec95574SElena Reshetova		refcount_dec(&rbio->refs);
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse		/*
53b381b3SDavid Woodhouse		 * we use the plug list to hold all the rbios
53b381b3SDavid Woodhouse		 * waiting for the chance to lock this stripe.
53b381b3SDavid Woodhouse		 * hand the lock over to one of them.
53b381b3SDavid Woodhouse		 */
53b381b3SDavid Woodhouse		if (!list_empty(&rbio->plug_list)) {
53b381b3SDavid Woodhouse			struct btrfs_raid_bio *next;
53b381b3SDavid Woodhouse			struct list_head *head = rbio->plug_list.next;
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse			next = list_entry(head, struct btrfs_raid_bio,
53b381b3SDavid Woodhouse					  plug_list);
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse			list_del_init(&rbio->plug_list);
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse			list_add(&next->hash_list, &h->hash_list);
dec95574SElena Reshetova			refcount_inc(&next->refs);
53b381b3SDavid Woodhouse			spin_unlock(&rbio->bio_list_lock);
53b381b3SDavid Woodhouse			spin_unlock_irqrestore(&h->lock, flags);
53b381b3SDavid Woodhouse
1b94b556SMiao Xie			if (next->operation == BTRFS_RBIO_READ_REBUILD)
e66d8d5aSDavid Sterba				start_async_work(next, read_rebuild_work);
b4ee1782SOmar Sandoval			else if (next->operation == BTRFS_RBIO_REBUILD_MISSING) {
b4ee1782SOmar Sandoval				steal_rbio(rbio, next);
e66d8d5aSDavid Sterba				start_async_work(next, read_rebuild_work);
b4ee1782SOmar Sandoval			} else if (next->operation == BTRFS_RBIO_WRITE) {
4ae10b3aSChris Mason				steal_rbio(rbio, next);
cf6a4a75SDavid Sterba				start_async_work(next, rmw_work);
5a6ac9eaSMiao Xie			} else if (next->operation == BTRFS_RBIO_PARITY_SCRUB) {
5a6ac9eaSMiao Xie				steal_rbio(rbio, next);
a81b747dSDavid Sterba				start_async_work(next, scrub_parity_work);
4ae10b3aSChris Mason			}
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse			goto done_nolock;
53b381b3SDavid Woodhouse		}
53b381b3SDavid Woodhouse	}
4ae10b3aSChris Masondone:
53b381b3SDavid Woodhouse	spin_unlock(&rbio->bio_list_lock);
53b381b3SDavid Woodhouse	spin_unlock_irqrestore(&h->lock, flags);
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhousedone_nolock:
4ae10b3aSChris Mason	if (!keep_cache)
4ae10b3aSChris Mason		remove_rbio_from_cache(rbio);
53b381b3SDavid Woodhouse}
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhousestatic void __free_raid_bio(struct btrfs_raid_bio *rbio)
53b381b3SDavid Woodhouse{
53b381b3SDavid Woodhouse	int i;
53b381b3SDavid Woodhouse
dec95574SElena Reshetova	if (!refcount_dec_and_test(&rbio->refs))
53b381b3SDavid Woodhouse		return;
53b381b3SDavid Woodhouse
4ae10b3aSChris Mason	WARN_ON(!list_empty(&rbio->stripe_cache));
53b381b3SDavid Woodhouse	WARN_ON(!list_empty(&rbio->hash_list));
53b381b3SDavid Woodhouse	WARN_ON(!bio_list_empty(&rbio->bio_list));
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	for (i = 0; i < rbio->nr_pages; i++) {
53b381b3SDavid Woodhouse		if (rbio->stripe_pages[i]) {
53b381b3SDavid Woodhouse			__free_page(rbio->stripe_pages[i]);
53b381b3SDavid Woodhouse			rbio->stripe_pages[i] = NULL;
53b381b3SDavid Woodhouse		}
53b381b3SDavid Woodhouse	}
af8e2d1dSMiao Xie
4c664611SQu Wenruo	btrfs_put_bioc(rbio->bioc);
53b381b3SDavid Woodhouse	kfree(rbio);
53b381b3SDavid Woodhouse}
53b381b3SDavid Woodhouse
7583d8d0SLiu Bostatic void rbio_endio_bio_list(struct bio *cur, blk_status_t err)
53b381b3SDavid Woodhouse{
7583d8d0SLiu Bo	struct bio *next;
7583d8d0SLiu Bo
7583d8d0SLiu Bo	while (cur) {
7583d8d0SLiu Bo		next = cur->bi_next;
7583d8d0SLiu Bo		cur->bi_next = NULL;
7583d8d0SLiu Bo		cur->bi_status = err;
7583d8d0SLiu Bo		bio_endio(cur);
7583d8d0SLiu Bo		cur = next;
7583d8d0SLiu Bo	}
53b381b3SDavid Woodhouse}
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse/*
53b381b3SDavid Woodhouse * this frees the rbio and runs through all the bios in the
53b381b3SDavid Woodhouse * bio_list and calls end_io on them
53b381b3SDavid Woodhouse */
4e4cbee9SChristoph Hellwigstatic void rbio_orig_end_io(struct btrfs_raid_bio *rbio, blk_status_t err)
53b381b3SDavid Woodhouse{
53b381b3SDavid Woodhouse	struct bio *cur = bio_list_get(&rbio->bio_list);
7583d8d0SLiu Bo	struct bio *extra;
4245215dSMiao Xie
4245215dSMiao Xie	if (rbio->generic_bio_cnt)
6a258d72SQu Wenruo		btrfs_bio_counter_sub(rbio->bioc->fs_info, rbio->generic_bio_cnt);
4245215dSMiao Xie
7583d8d0SLiu Bo	/*
7583d8d0SLiu Bo	 * At this moment, rbio->bio_list is empty, however since rbio does not
7583d8d0SLiu Bo	 * always have RBIO_RMW_LOCKED_BIT set and rbio is still linked on the
7583d8d0SLiu Bo	 * hash list, rbio may be merged with others so that rbio->bio_list
7583d8d0SLiu Bo	 * becomes non-empty.
7583d8d0SLiu Bo	 * Once unlock_stripe() is done, rbio->bio_list will not be updated any
7583d8d0SLiu Bo	 * more and we can call bio_endio() on all queued bios.
7583d8d0SLiu Bo	 */
7583d8d0SLiu Bo	unlock_stripe(rbio);
7583d8d0SLiu Bo	extra = bio_list_get(&rbio->bio_list);
7583d8d0SLiu Bo	__free_raid_bio(rbio);
53b381b3SDavid Woodhouse
7583d8d0SLiu Bo	rbio_endio_bio_list(cur, err);
7583d8d0SLiu Bo	if (extra)
7583d8d0SLiu Bo		rbio_endio_bio_list(extra, err);
53b381b3SDavid Woodhouse}
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse/*
53b381b3SDavid Woodhouse * end io function used by finish_rmw.  When we finally
53b381b3SDavid Woodhouse * get here, we've written a full stripe
53b381b3SDavid Woodhouse */
4246a0b6SChristoph Hellwigstatic void raid_write_end_io(struct bio *bio)
53b381b3SDavid Woodhouse{
53b381b3SDavid Woodhouse	struct btrfs_raid_bio *rbio = bio->bi_private;
4e4cbee9SChristoph Hellwig	blk_status_t err = bio->bi_status;
a6111d11SZhao Lei	int max_errors;
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	if (err)
53b381b3SDavid Woodhouse		fail_bio_stripe(rbio, bio);
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	bio_put(bio);
53b381b3SDavid Woodhouse
b89e1b01SMiao Xie	if (!atomic_dec_and_test(&rbio->stripes_pending))
53b381b3SDavid Woodhouse		return;
53b381b3SDavid Woodhouse
58efbc9fSOmar Sandoval	err = BLK_STS_OK;
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	/* OK, we have read all the stripes we need to. */
a6111d11SZhao Lei	max_errors = (rbio->operation == BTRFS_RBIO_PARITY_SCRUB) ?
4c664611SQu Wenruo		     0 : rbio->bioc->max_errors;
a6111d11SZhao Lei	if (atomic_read(&rbio->error) > max_errors)
4e4cbee9SChristoph Hellwig		err = BLK_STS_IOERR;
53b381b3SDavid Woodhouse
4246a0b6SChristoph Hellwig	rbio_orig_end_io(rbio, err);
53b381b3SDavid Woodhouse}
53b381b3SDavid Woodhouse
3e77605dSQu Wenruo/**
3e77605dSQu Wenruo * Get a sector pointer specified by its @stripe_nr and @sector_nr
3e77605dSQu Wenruo *
3e77605dSQu Wenruo * @rbio:               The raid bio
3e77605dSQu Wenruo * @stripe_nr:          Stripe number, valid range [0, real_stripe)
3e77605dSQu Wenruo * @sector_nr:		Sector number inside the stripe,
3e77605dSQu Wenruo *			valid range [0, stripe_nsectors)
3e77605dSQu Wenruo * @bio_list_only:      Whether to use sectors inside the bio list only.
3e77605dSQu Wenruo *
3e77605dSQu Wenruo * The read/modify/write code wants to reuse the original bio page as much
3e77605dSQu Wenruo * as possible, and only use stripe_sectors as fallback.
3e77605dSQu Wenruo */
3e77605dSQu Wenruostatic struct sector_ptr *sector_in_rbio(struct btrfs_raid_bio *rbio,
3e77605dSQu Wenruo					 int stripe_nr, int sector_nr,
3e77605dSQu Wenruo					 bool bio_list_only)
3e77605dSQu Wenruo{
3e77605dSQu Wenruo	struct sector_ptr *sector;
3e77605dSQu Wenruo	int index;
3e77605dSQu Wenruo
3e77605dSQu Wenruo	ASSERT(stripe_nr >= 0 && stripe_nr < rbio->real_stripes);
3e77605dSQu Wenruo	ASSERT(sector_nr >= 0 && sector_nr < rbio->stripe_nsectors);
3e77605dSQu Wenruo
3e77605dSQu Wenruo	index = stripe_nr * rbio->stripe_nsectors + sector_nr;
3e77605dSQu Wenruo	ASSERT(index >= 0 && index < rbio->nr_sectors);
3e77605dSQu Wenruo
3e77605dSQu Wenruo	spin_lock_irq(&rbio->bio_list_lock);
3e77605dSQu Wenruo	sector = &rbio->bio_sectors[index];
3e77605dSQu Wenruo	if (sector->page || bio_list_only) {
3e77605dSQu Wenruo		/* Don't return sector without a valid page pointer */
3e77605dSQu Wenruo		if (!sector->page)
3e77605dSQu Wenruo			sector = NULL;
3e77605dSQu Wenruo		spin_unlock_irq(&rbio->bio_list_lock);
3e77605dSQu Wenruo		return sector;
3e77605dSQu Wenruo	}
3e77605dSQu Wenruo	spin_unlock_irq(&rbio->bio_list_lock);
3e77605dSQu Wenruo
3e77605dSQu Wenruo	return &rbio->stripe_sectors[index];
3e77605dSQu Wenruo}
3e77605dSQu Wenruo
53b381b3SDavid Woodhouse/*
53b381b3SDavid Woodhouse * allocation and initial setup for the btrfs_raid_bio.  Not
53b381b3SDavid Woodhouse * this does not allocate any pages for rbio->pages.
53b381b3SDavid Woodhouse */
2ff7e61eSJeff Mahoneystatic struct btrfs_raid_bio *alloc_rbio(struct btrfs_fs_info *fs_info,
4c664611SQu Wenruo					 struct btrfs_io_context *bioc,
cc353a8bSQu Wenruo					 u32 stripe_len)
53b381b3SDavid Woodhouse{
843de58bSQu Wenruo	const unsigned int real_stripes = bioc->num_stripes - bioc->num_tgtdevs;
843de58bSQu Wenruo	const unsigned int stripe_npages = stripe_len >> PAGE_SHIFT;
843de58bSQu Wenruo	const unsigned int num_pages = stripe_npages * real_stripes;
94efbe19SQu Wenruo	const unsigned int stripe_nsectors = stripe_len >> fs_info->sectorsize_bits;
94efbe19SQu Wenruo	const unsigned int num_sectors = stripe_nsectors * real_stripes;
53b381b3SDavid Woodhouse	struct btrfs_raid_bio *rbio;
53b381b3SDavid Woodhouse	int nr_data = 0;
53b381b3SDavid Woodhouse	void *p;
53b381b3SDavid Woodhouse
843de58bSQu Wenruo	ASSERT(IS_ALIGNED(stripe_len, PAGE_SIZE));
94efbe19SQu Wenruo	/* PAGE_SIZE must also be aligned to sectorsize for subpage support */
94efbe19SQu Wenruo	ASSERT(IS_ALIGNED(PAGE_SIZE, fs_info->sectorsize));
843de58bSQu Wenruo
1389053eSKees Cook	rbio = kzalloc(sizeof(*rbio) +
1389053eSKees Cook		       sizeof(*rbio->stripe_pages) * num_pages +
00425dd9SQu Wenruo		       sizeof(*rbio->bio_sectors) * num_sectors +
eb357060SQu Wenruo		       sizeof(*rbio->stripe_sectors) * num_sectors +
1389053eSKees Cook		       sizeof(*rbio->finish_pointers) * real_stripes +
94efbe19SQu Wenruo		       sizeof(*rbio->dbitmap) * BITS_TO_LONGS(stripe_nsectors) +
94efbe19SQu Wenruo		       sizeof(*rbio->finish_pbitmap) * BITS_TO_LONGS(stripe_nsectors),
1389053eSKees Cook		       GFP_NOFS);
af8e2d1dSMiao Xie	if (!rbio)
53b381b3SDavid Woodhouse		return ERR_PTR(-ENOMEM);
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	bio_list_init(&rbio->bio_list);
53b381b3SDavid Woodhouse	INIT_LIST_HEAD(&rbio->plug_list);
53b381b3SDavid Woodhouse	spin_lock_init(&rbio->bio_list_lock);
4ae10b3aSChris Mason	INIT_LIST_HEAD(&rbio->stripe_cache);
53b381b3SDavid Woodhouse	INIT_LIST_HEAD(&rbio->hash_list);
4c664611SQu Wenruo	rbio->bioc = bioc;
53b381b3SDavid Woodhouse	rbio->stripe_len = stripe_len;
53b381b3SDavid Woodhouse	rbio->nr_pages = num_pages;
94efbe19SQu Wenruo	rbio->nr_sectors = num_sectors;
2c8cdd6eSMiao Xie	rbio->real_stripes = real_stripes;
5a6ac9eaSMiao Xie	rbio->stripe_npages = stripe_npages;
94efbe19SQu Wenruo	rbio->stripe_nsectors = stripe_nsectors;
53b381b3SDavid Woodhouse	rbio->faila = -1;
53b381b3SDavid Woodhouse	rbio->failb = -1;
dec95574SElena Reshetova	refcount_set(&rbio->refs, 1);
b89e1b01SMiao Xie	atomic_set(&rbio->error, 0);
b89e1b01SMiao Xie	atomic_set(&rbio->stripes_pending, 0);
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	/*
ac26df8bSQu Wenruo	 * The stripe_pages, bio_sectors, etc arrays point to the extra memory
ac26df8bSQu Wenruo	 * we allocated past the end of the rbio.
53b381b3SDavid Woodhouse	 */
53b381b3SDavid Woodhouse	p = rbio + 1;
1389053eSKees Cook#define CONSUME_ALLOC(ptr, count)	do {				\
1389053eSKees Cook		ptr = p;						\
1389053eSKees Cook		p = (unsigned char *)p + sizeof(*(ptr)) * (count);	\
1389053eSKees Cook	} while (0)
1389053eSKees Cook	CONSUME_ALLOC(rbio->stripe_pages, num_pages);
00425dd9SQu Wenruo	CONSUME_ALLOC(rbio->bio_sectors, num_sectors);
eb357060SQu Wenruo	CONSUME_ALLOC(rbio->stripe_sectors, num_sectors);
1389053eSKees Cook	CONSUME_ALLOC(rbio->finish_pointers, real_stripes);
94efbe19SQu Wenruo	CONSUME_ALLOC(rbio->dbitmap, BITS_TO_LONGS(stripe_nsectors));
94efbe19SQu Wenruo	CONSUME_ALLOC(rbio->finish_pbitmap, BITS_TO_LONGS(stripe_nsectors));
1389053eSKees Cook#undef  CONSUME_ALLOC
53b381b3SDavid Woodhouse
4c664611SQu Wenruo	if (bioc->map_type & BTRFS_BLOCK_GROUP_RAID5)
10f11900SZhao Lei		nr_data = real_stripes - 1;
4c664611SQu Wenruo	else if (bioc->map_type & BTRFS_BLOCK_GROUP_RAID6)
2c8cdd6eSMiao Xie		nr_data = real_stripes - 2;
53b381b3SDavid Woodhouse	else
10f11900SZhao Lei		BUG();
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	rbio->nr_data = nr_data;
53b381b3SDavid Woodhouse	return rbio;
53b381b3SDavid Woodhouse}
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse/* allocate pages for all the stripes in the bio, including parity */
53b381b3SDavid Woodhousestatic int alloc_rbio_pages(struct btrfs_raid_bio *rbio)
53b381b3SDavid Woodhouse{
eb357060SQu Wenruo	int ret;
eb357060SQu Wenruo
eb357060SQu Wenruo	ret = btrfs_alloc_page_array(rbio->nr_pages, rbio->stripe_pages);
eb357060SQu Wenruo	if (ret < 0)
eb357060SQu Wenruo		return ret;
eb357060SQu Wenruo	/* Mapping all sectors */
eb357060SQu Wenruo	index_stripe_sectors(rbio);
eb357060SQu Wenruo	return 0;
53b381b3SDavid Woodhouse}
53b381b3SDavid Woodhouse
b7178a5fSZhao Lei/* only allocate pages for p/q stripes */
53b381b3SDavid Woodhousestatic int alloc_rbio_parity_pages(struct btrfs_raid_bio *rbio)
53b381b3SDavid Woodhouse{
f77183dcSQu Wenruo	const int data_pages = rbio->nr_data * rbio->stripe_npages;
eb357060SQu Wenruo	int ret;
53b381b3SDavid Woodhouse
eb357060SQu Wenruo	ret = btrfs_alloc_page_array(rbio->nr_pages - data_pages,
dd137dd1SSweet Tea Dorminy				     rbio->stripe_pages + data_pages);
eb357060SQu Wenruo	if (ret < 0)
eb357060SQu Wenruo		return ret;
eb357060SQu Wenruo
eb357060SQu Wenruo	index_stripe_sectors(rbio);
eb357060SQu Wenruo	return 0;
53b381b3SDavid Woodhouse}
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse/*
3e77605dSQu Wenruo * Add a single sector @sector into our list of bios for IO.
3e77605dSQu Wenruo *
3e77605dSQu Wenruo * Return 0 if everything went well.
3e77605dSQu Wenruo * Return <0 for error.
53b381b3SDavid Woodhouse */
3e77605dSQu Wenruostatic int rbio_add_io_sector(struct btrfs_raid_bio *rbio,
53b381b3SDavid Woodhouse			      struct bio_list *bio_list,
3e77605dSQu Wenruo			      struct sector_ptr *sector,
3e77605dSQu Wenruo			      unsigned int stripe_nr,
3e77605dSQu Wenruo			      unsigned int sector_nr,
e01bf588SChristoph Hellwig			      unsigned long bio_max_len,
e01bf588SChristoph Hellwig			      unsigned int opf)
53b381b3SDavid Woodhouse{
3e77605dSQu Wenruo	const u32 sectorsize = rbio->bioc->fs_info->sectorsize;
53b381b3SDavid Woodhouse	struct bio *last = bio_list->tail;
53b381b3SDavid Woodhouse	int ret;
53b381b3SDavid Woodhouse	struct bio *bio;
4c664611SQu Wenruo	struct btrfs_io_stripe *stripe;
53b381b3SDavid Woodhouse	u64 disk_start;
53b381b3SDavid Woodhouse
3e77605dSQu Wenruo	/*
3e77605dSQu Wenruo	 * Note: here stripe_nr has taken device replace into consideration,
3e77605dSQu Wenruo	 * thus it can be larger than rbio->real_stripe.
3e77605dSQu Wenruo	 * So here we check against bioc->num_stripes, not rbio->real_stripes.
3e77605dSQu Wenruo	 */
3e77605dSQu Wenruo	ASSERT(stripe_nr >= 0 && stripe_nr < rbio->bioc->num_stripes);
3e77605dSQu Wenruo	ASSERT(sector_nr >= 0 && sector_nr < rbio->stripe_nsectors);
3e77605dSQu Wenruo	ASSERT(sector->page);
3e77605dSQu Wenruo
3e77605dSQu Wenruo	/* We don't yet support subpage, thus pgoff should always be 0 */
3e77605dSQu Wenruo	ASSERT(sector->pgoff == 0);
3e77605dSQu Wenruo
4c664611SQu Wenruo	stripe = &rbio->bioc->stripes[stripe_nr];
3e77605dSQu Wenruo	disk_start = stripe->physical + sector_nr * sectorsize;
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	/* if the device is missing, just fail this stripe */
53b381b3SDavid Woodhouse	if (!stripe->dev->bdev)
53b381b3SDavid Woodhouse		return fail_rbio_index(rbio, stripe_nr);
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	/* see if we can add this page onto our existing bio */
53b381b3SDavid Woodhouse	if (last) {
1201b58bSDavid Sterba		u64 last_end = last->bi_iter.bi_sector << 9;
4f024f37SKent Overstreet		last_end += last->bi_iter.bi_size;
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse		/*
53b381b3SDavid Woodhouse		 * we can't merge these if they are from different
53b381b3SDavid Woodhouse		 * devices or if they are not contiguous
53b381b3SDavid Woodhouse		 */
f90ae76aSNikolay Borisov		if (last_end == disk_start && !last->bi_status &&
309dca30SChristoph Hellwig		    last->bi_bdev == stripe->dev->bdev) {
3e77605dSQu Wenruo			ret = bio_add_page(last, sector->page, sectorsize,
3e77605dSQu Wenruo					   sector->pgoff);
3e77605dSQu Wenruo			if (ret == sectorsize)
53b381b3SDavid Woodhouse				return 0;
53b381b3SDavid Woodhouse		}
53b381b3SDavid Woodhouse	}
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	/* put a new bio on the list */
e1b4b44eSChristoph Hellwig	bio = bio_alloc(stripe->dev->bdev, max(bio_max_len >> PAGE_SHIFT, 1UL),
e1b4b44eSChristoph Hellwig			opf, GFP_NOFS);
4f024f37SKent Overstreet	bio->bi_iter.bi_sector = disk_start >> 9;
e01bf588SChristoph Hellwig	bio->bi_private = rbio;
53b381b3SDavid Woodhouse
3e77605dSQu Wenruo	bio_add_page(bio, sector->page, sectorsize, sector->pgoff);
53b381b3SDavid Woodhouse	bio_list_add(bio_list, bio);
53b381b3SDavid Woodhouse	return 0;
53b381b3SDavid Woodhouse}
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse/*
53b381b3SDavid Woodhouse * while we're doing the read/modify/write cycle, we could
53b381b3SDavid Woodhouse * have errors in reading pages off the disk.  This checks
53b381b3SDavid Woodhouse * for errors and if we're not able to read the page it'll
53b381b3SDavid Woodhouse * trigger parity reconstruction.  The rmw will be finished
53b381b3SDavid Woodhouse * after we've reconstructed the failed stripes
53b381b3SDavid Woodhouse */
53b381b3SDavid Woodhousestatic void validate_rbio_for_rmw(struct btrfs_raid_bio *rbio)
53b381b3SDavid Woodhouse{
53b381b3SDavid Woodhouse	if (rbio->faila >= 0 || rbio->failb >= 0) {
2c8cdd6eSMiao Xie		BUG_ON(rbio->faila == rbio->real_stripes - 1);
53b381b3SDavid Woodhouse		__raid56_parity_recover(rbio);
53b381b3SDavid Woodhouse	} else {
53b381b3SDavid Woodhouse		finish_rmw(rbio);
53b381b3SDavid Woodhouse	}
53b381b3SDavid Woodhouse}
53b381b3SDavid Woodhouse
00425dd9SQu Wenruostatic void index_one_bio(struct btrfs_raid_bio *rbio, struct bio *bio)
00425dd9SQu Wenruo{
00425dd9SQu Wenruo	const u32 sectorsize = rbio->bioc->fs_info->sectorsize;
00425dd9SQu Wenruo	struct bio_vec bvec;
00425dd9SQu Wenruo	struct bvec_iter iter;
00425dd9SQu Wenruo	u32 offset = (bio->bi_iter.bi_sector << SECTOR_SHIFT) -
00425dd9SQu Wenruo		     rbio->bioc->raid_map[0];
00425dd9SQu Wenruo
00425dd9SQu Wenruo	if (bio_flagged(bio, BIO_CLONED))
00425dd9SQu Wenruo		bio->bi_iter = btrfs_bio(bio)->iter;
00425dd9SQu Wenruo
00425dd9SQu Wenruo	bio_for_each_segment(bvec, bio, iter) {
00425dd9SQu Wenruo		u32 bvec_offset;
00425dd9SQu Wenruo
00425dd9SQu Wenruo		for (bvec_offset = 0; bvec_offset < bvec.bv_len;
00425dd9SQu Wenruo		     bvec_offset += sectorsize, offset += sectorsize) {
00425dd9SQu Wenruo			int index = offset / sectorsize;
00425dd9SQu Wenruo			struct sector_ptr *sector = &rbio->bio_sectors[index];
00425dd9SQu Wenruo
00425dd9SQu Wenruo			sector->page = bvec.bv_page;
00425dd9SQu Wenruo			sector->pgoff = bvec.bv_offset + bvec_offset;
00425dd9SQu Wenruo			ASSERT(sector->pgoff < PAGE_SIZE);
00425dd9SQu Wenruo		}
00425dd9SQu Wenruo	}
00425dd9SQu Wenruo}
00425dd9SQu Wenruo
53b381b3SDavid Woodhouse/*
53b381b3SDavid Woodhouse * helper function to walk our bio list and populate the bio_pages array with
53b381b3SDavid Woodhouse * the result.  This seems expensive, but it is faster than constantly
53b381b3SDavid Woodhouse * searching through the bio list as we setup the IO in finish_rmw or stripe
53b381b3SDavid Woodhouse * reconstruction.
53b381b3SDavid Woodhouse *
53b381b3SDavid Woodhouse * This must be called before you trust the answers from page_in_rbio
53b381b3SDavid Woodhouse */
53b381b3SDavid Woodhousestatic void index_rbio_pages(struct btrfs_raid_bio *rbio)
53b381b3SDavid Woodhouse{
53b381b3SDavid Woodhouse	struct bio *bio;
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	spin_lock_irq(&rbio->bio_list_lock);
00425dd9SQu Wenruo	bio_list_for_each(bio, &rbio->bio_list)
00425dd9SQu Wenruo		index_one_bio(rbio, bio);
00425dd9SQu Wenruo
53b381b3SDavid Woodhouse	spin_unlock_irq(&rbio->bio_list_lock);
53b381b3SDavid Woodhouse}
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse/*
53b381b3SDavid Woodhouse * this is called from one of two situations.  We either
53b381b3SDavid Woodhouse * have a full stripe from the higher layers, or we've read all
53b381b3SDavid Woodhouse * the missing bits off disk.
53b381b3SDavid Woodhouse *
53b381b3SDavid Woodhouse * This will calculate the parity and then send down any
53b381b3SDavid Woodhouse * changed blocks.
53b381b3SDavid Woodhouse */
53b381b3SDavid Woodhousestatic noinline void finish_rmw(struct btrfs_raid_bio *rbio)
53b381b3SDavid Woodhouse{
4c664611SQu Wenruo	struct btrfs_io_context *bioc = rbio->bioc;
1145059aSQu Wenruo	const u32 sectorsize = bioc->fs_info->sectorsize;
1389053eSKees Cook	void **pointers = rbio->finish_pointers;
53b381b3SDavid Woodhouse	int nr_data = rbio->nr_data;
53b381b3SDavid Woodhouse	int stripe;
3e77605dSQu Wenruo	int sectornr;
c17af965SDavid Sterba	bool has_qstripe;
53b381b3SDavid Woodhouse	struct bio_list bio_list;
53b381b3SDavid Woodhouse	struct bio *bio;
53b381b3SDavid Woodhouse	int ret;
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	bio_list_init(&bio_list);
53b381b3SDavid Woodhouse
c17af965SDavid Sterba	if (rbio->real_stripes - rbio->nr_data == 1)
c17af965SDavid Sterba		has_qstripe = false;
c17af965SDavid Sterba	else if (rbio->real_stripes - rbio->nr_data == 2)
c17af965SDavid Sterba		has_qstripe = true;
c17af965SDavid Sterba	else
53b381b3SDavid Woodhouse		BUG();
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	/* at this point we either have a full stripe,
53b381b3SDavid Woodhouse	 * or we've read the full stripe from the drive.
53b381b3SDavid Woodhouse	 * recalculate the parity and write the new results.
53b381b3SDavid Woodhouse	 *
53b381b3SDavid Woodhouse	 * We're not allowed to add any new bios to the
53b381b3SDavid Woodhouse	 * bio list here, anyone else that wants to
53b381b3SDavid Woodhouse	 * change this stripe needs to do their own rmw.
53b381b3SDavid Woodhouse	 */
53b381b3SDavid Woodhouse	spin_lock_irq(&rbio->bio_list_lock);
53b381b3SDavid Woodhouse	set_bit(RBIO_RMW_LOCKED_BIT, &rbio->flags);
53b381b3SDavid Woodhouse	spin_unlock_irq(&rbio->bio_list_lock);
53b381b3SDavid Woodhouse
b89e1b01SMiao Xie	atomic_set(&rbio->error, 0);
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	/*
53b381b3SDavid Woodhouse	 * now that we've set rmw_locked, run through the
53b381b3SDavid Woodhouse	 * bio list one last time and map the page pointers
4ae10b3aSChris Mason	 *
4ae10b3aSChris Mason	 * We don't cache full rbios because we're assuming
4ae10b3aSChris Mason	 * the higher layers are unlikely to use this area of
4ae10b3aSChris Mason	 * the disk again soon.  If they do use it again,
4ae10b3aSChris Mason	 * hopefully they will send another full bio.
53b381b3SDavid Woodhouse	 */
53b381b3SDavid Woodhouse	index_rbio_pages(rbio);
4ae10b3aSChris Mason	if (!rbio_is_full(rbio))
4ae10b3aSChris Mason		cache_rbio_pages(rbio);
4ae10b3aSChris Mason	else
4ae10b3aSChris Mason		clear_bit(RBIO_CACHE_READY_BIT, &rbio->flags);
53b381b3SDavid Woodhouse
3e77605dSQu Wenruo	for (sectornr = 0; sectornr < rbio->stripe_nsectors; sectornr++) {
1145059aSQu Wenruo		struct sector_ptr *sector;
1145059aSQu Wenruo
1145059aSQu Wenruo		/* First collect one sector from each data stripe */
53b381b3SDavid Woodhouse		for (stripe = 0; stripe < nr_data; stripe++) {
1145059aSQu Wenruo			sector = sector_in_rbio(rbio, stripe, sectornr, 0);
1145059aSQu Wenruo			pointers[stripe] = kmap_local_page(sector->page) +
1145059aSQu Wenruo					   sector->pgoff;
53b381b3SDavid Woodhouse		}
53b381b3SDavid Woodhouse
1145059aSQu Wenruo		/* Then add the parity stripe */
1145059aSQu Wenruo		sector = rbio_pstripe_sector(rbio, sectornr);
1145059aSQu Wenruo		sector->uptodate = 1;
1145059aSQu Wenruo		pointers[stripe++] = kmap_local_page(sector->page) + sector->pgoff;
53b381b3SDavid Woodhouse
c17af965SDavid Sterba		if (has_qstripe) {
53b381b3SDavid Woodhouse			/*
1145059aSQu Wenruo			 * RAID6, add the qstripe and call the library function
1145059aSQu Wenruo			 * to fill in our p/q
53b381b3SDavid Woodhouse			 */
1145059aSQu Wenruo			sector = rbio_qstripe_sector(rbio, sectornr);
1145059aSQu Wenruo			sector->uptodate = 1;
1145059aSQu Wenruo			pointers[stripe++] = kmap_local_page(sector->page) +
1145059aSQu Wenruo					     sector->pgoff;
53b381b3SDavid Woodhouse
1145059aSQu Wenruo			raid6_call.gen_syndrome(rbio->real_stripes, sectorsize,
53b381b3SDavid Woodhouse						pointers);
53b381b3SDavid Woodhouse		} else {
53b381b3SDavid Woodhouse			/* raid5 */
1145059aSQu Wenruo			memcpy(pointers[nr_data], pointers[0], sectorsize);
1145059aSQu Wenruo			run_xor(pointers + 1, nr_data - 1, sectorsize);
53b381b3SDavid Woodhouse		}
94a0b58dSIra Weiny		for (stripe = stripe - 1; stripe >= 0; stripe--)
94a0b58dSIra Weiny			kunmap_local(pointers[stripe]);
53b381b3SDavid Woodhouse	}
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	/*
53b381b3SDavid Woodhouse	 * time to start writing.  Make bios for everything from the
53b381b3SDavid Woodhouse	 * higher layers (the bio_list in our rbio) and our p/q.  Ignore
53b381b3SDavid Woodhouse	 * everything else.
53b381b3SDavid Woodhouse	 */
2c8cdd6eSMiao Xie	for (stripe = 0; stripe < rbio->real_stripes; stripe++) {
3e77605dSQu Wenruo		for (sectornr = 0; sectornr < rbio->stripe_nsectors; sectornr++) {
3e77605dSQu Wenruo			struct sector_ptr *sector;
3e77605dSQu Wenruo
53b381b3SDavid Woodhouse			if (stripe < rbio->nr_data) {
3e77605dSQu Wenruo				sector = sector_in_rbio(rbio, stripe, sectornr, 1);
3e77605dSQu Wenruo				if (!sector)
53b381b3SDavid Woodhouse					continue;
53b381b3SDavid Woodhouse			} else {
3e77605dSQu Wenruo				sector = rbio_stripe_sector(rbio, stripe, sectornr);
53b381b3SDavid Woodhouse			}
53b381b3SDavid Woodhouse
3e77605dSQu Wenruo			ret = rbio_add_io_sector(rbio, &bio_list, sector, stripe,
3e77605dSQu Wenruo						 sectornr, rbio->stripe_len,
e01bf588SChristoph Hellwig						 REQ_OP_WRITE);
53b381b3SDavid Woodhouse			if (ret)
53b381b3SDavid Woodhouse				goto cleanup;
53b381b3SDavid Woodhouse		}
53b381b3SDavid Woodhouse	}
53b381b3SDavid Woodhouse
4c664611SQu Wenruo	if (likely(!bioc->num_tgtdevs))
2c8cdd6eSMiao Xie		goto write_data;
2c8cdd6eSMiao Xie
2c8cdd6eSMiao Xie	for (stripe = 0; stripe < rbio->real_stripes; stripe++) {
4c664611SQu Wenruo		if (!bioc->tgtdev_map[stripe])
2c8cdd6eSMiao Xie			continue;
2c8cdd6eSMiao Xie
3e77605dSQu Wenruo		for (sectornr = 0; sectornr < rbio->stripe_nsectors; sectornr++) {
3e77605dSQu Wenruo			struct sector_ptr *sector;
3e77605dSQu Wenruo
2c8cdd6eSMiao Xie			if (stripe < rbio->nr_data) {
3e77605dSQu Wenruo				sector = sector_in_rbio(rbio, stripe, sectornr, 1);
3e77605dSQu Wenruo				if (!sector)
2c8cdd6eSMiao Xie					continue;
2c8cdd6eSMiao Xie			} else {
3e77605dSQu Wenruo				sector = rbio_stripe_sector(rbio, stripe, sectornr);
2c8cdd6eSMiao Xie			}
2c8cdd6eSMiao Xie
3e77605dSQu Wenruo			ret = rbio_add_io_sector(rbio, &bio_list, sector,
4c664611SQu Wenruo					       rbio->bioc->tgtdev_map[stripe],
3e77605dSQu Wenruo					       sectornr, rbio->stripe_len,
e01bf588SChristoph Hellwig					       REQ_OP_WRITE);
2c8cdd6eSMiao Xie			if (ret)
2c8cdd6eSMiao Xie				goto cleanup;
2c8cdd6eSMiao Xie		}
2c8cdd6eSMiao Xie	}
2c8cdd6eSMiao Xie
2c8cdd6eSMiao Xiewrite_data:
b89e1b01SMiao Xie	atomic_set(&rbio->stripes_pending, bio_list_size(&bio_list));
b89e1b01SMiao Xie	BUG_ON(atomic_read(&rbio->stripes_pending) == 0);
53b381b3SDavid Woodhouse
bf28a605SNikolay Borisov	while ((bio = bio_list_pop(&bio_list))) {
53b381b3SDavid Woodhouse		bio->bi_end_io = raid_write_end_io;
4e49ea4aSMike Christie
4e49ea4aSMike Christie		submit_bio(bio);
53b381b3SDavid Woodhouse	}
53b381b3SDavid Woodhouse	return;
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhousecleanup:
58efbc9fSOmar Sandoval	rbio_orig_end_io(rbio, BLK_STS_IOERR);
785884fcSLiu Bo
785884fcSLiu Bo	while ((bio = bio_list_pop(&bio_list)))
785884fcSLiu Bo		bio_put(bio);
53b381b3SDavid Woodhouse}
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse/*
53b381b3SDavid Woodhouse * helper to find the stripe number for a given bio.  Used to figure out which
53b381b3SDavid Woodhouse * stripe has failed.  This expects the bio to correspond to a physical disk,
53b381b3SDavid Woodhouse * so it looks up based on physical sector numbers.
53b381b3SDavid Woodhouse */
53b381b3SDavid Woodhousestatic int find_bio_stripe(struct btrfs_raid_bio *rbio,
53b381b3SDavid Woodhouse			   struct bio *bio)
53b381b3SDavid Woodhouse{
4f024f37SKent Overstreet	u64 physical = bio->bi_iter.bi_sector;
53b381b3SDavid Woodhouse	int i;
4c664611SQu Wenruo	struct btrfs_io_stripe *stripe;
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	physical <<= 9;
53b381b3SDavid Woodhouse
4c664611SQu Wenruo	for (i = 0; i < rbio->bioc->num_stripes; i++) {
4c664611SQu Wenruo		stripe = &rbio->bioc->stripes[i];
83025863SNikolay Borisov		if (in_range(physical, stripe->physical, rbio->stripe_len) &&
309dca30SChristoph Hellwig		    stripe->dev->bdev && bio->bi_bdev == stripe->dev->bdev) {
53b381b3SDavid Woodhouse			return i;
53b381b3SDavid Woodhouse		}
53b381b3SDavid Woodhouse	}
53b381b3SDavid Woodhouse	return -1;
53b381b3SDavid Woodhouse}
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse/*
53b381b3SDavid Woodhouse * helper to find the stripe number for a given
53b381b3SDavid Woodhouse * bio (before mapping).  Used to figure out which stripe has
53b381b3SDavid Woodhouse * failed.  This looks up based on logical block numbers.
53b381b3SDavid Woodhouse */
53b381b3SDavid Woodhousestatic int find_logical_bio_stripe(struct btrfs_raid_bio *rbio,
53b381b3SDavid Woodhouse				   struct bio *bio)
53b381b3SDavid Woodhouse{
1201b58bSDavid Sterba	u64 logical = bio->bi_iter.bi_sector << 9;
53b381b3SDavid Woodhouse	int i;
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	for (i = 0; i < rbio->nr_data; i++) {
4c664611SQu Wenruo		u64 stripe_start = rbio->bioc->raid_map[i];
83025863SNikolay Borisov
83025863SNikolay Borisov		if (in_range(logical, stripe_start, rbio->stripe_len))
53b381b3SDavid Woodhouse			return i;
53b381b3SDavid Woodhouse	}
53b381b3SDavid Woodhouse	return -1;
53b381b3SDavid Woodhouse}
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse/*
53b381b3SDavid Woodhouse * returns -EIO if we had too many failures
53b381b3SDavid Woodhouse */
53b381b3SDavid Woodhousestatic int fail_rbio_index(struct btrfs_raid_bio *rbio, int failed)
53b381b3SDavid Woodhouse{
53b381b3SDavid Woodhouse	unsigned long flags;
53b381b3SDavid Woodhouse	int ret = 0;
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	spin_lock_irqsave(&rbio->bio_list_lock, flags);
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	/* we already know this stripe is bad, move on */
53b381b3SDavid Woodhouse	if (rbio->faila == failed || rbio->failb == failed)
53b381b3SDavid Woodhouse		goto out;
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	if (rbio->faila == -1) {
53b381b3SDavid Woodhouse		/* first failure on this rbio */
53b381b3SDavid Woodhouse		rbio->faila = failed;
b89e1b01SMiao Xie		atomic_inc(&rbio->error);
53b381b3SDavid Woodhouse	} else if (rbio->failb == -1) {
53b381b3SDavid Woodhouse		/* second failure on this rbio */
53b381b3SDavid Woodhouse		rbio->failb = failed;
b89e1b01SMiao Xie		atomic_inc(&rbio->error);
53b381b3SDavid Woodhouse	} else {
53b381b3SDavid Woodhouse		ret = -EIO;
53b381b3SDavid Woodhouse	}
53b381b3SDavid Woodhouseout:
53b381b3SDavid Woodhouse	spin_unlock_irqrestore(&rbio->bio_list_lock, flags);
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	return ret;
53b381b3SDavid Woodhouse}
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse/*
53b381b3SDavid Woodhouse * helper to fail a stripe based on a physical disk
53b381b3SDavid Woodhouse * bio.
53b381b3SDavid Woodhouse */
53b381b3SDavid Woodhousestatic int fail_bio_stripe(struct btrfs_raid_bio *rbio,
53b381b3SDavid Woodhouse			   struct bio *bio)
53b381b3SDavid Woodhouse{
53b381b3SDavid Woodhouse	int failed = find_bio_stripe(rbio, bio);
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	if (failed < 0)
53b381b3SDavid Woodhouse		return -EIO;
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	return fail_rbio_index(rbio, failed);
53b381b3SDavid Woodhouse}
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse/*
5fdb7afcSQu Wenruo * For subpage case, we can no longer set page Uptodate directly for
5fdb7afcSQu Wenruo * stripe_pages[], thus we need to locate the sector.
5fdb7afcSQu Wenruo */
5fdb7afcSQu Wenruostatic struct sector_ptr *find_stripe_sector(struct btrfs_raid_bio *rbio,
5fdb7afcSQu Wenruo					     struct page *page,
5fdb7afcSQu Wenruo					     unsigned int pgoff)
5fdb7afcSQu Wenruo{
5fdb7afcSQu Wenruo	int i;
5fdb7afcSQu Wenruo
5fdb7afcSQu Wenruo	for (i = 0; i < rbio->nr_sectors; i++) {
5fdb7afcSQu Wenruo		struct sector_ptr *sector = &rbio->stripe_sectors[i];
5fdb7afcSQu Wenruo
5fdb7afcSQu Wenruo		if (sector->page == page && sector->pgoff == pgoff)
5fdb7afcSQu Wenruo			return sector;
5fdb7afcSQu Wenruo	}
5fdb7afcSQu Wenruo	return NULL;
5fdb7afcSQu Wenruo}
5fdb7afcSQu Wenruo
5fdb7afcSQu Wenruo/*
53b381b3SDavid Woodhouse * this sets each page in the bio uptodate.  It should only be used on private
53b381b3SDavid Woodhouse * rbio pages, nothing that comes in from the higher layers
53b381b3SDavid Woodhouse */
5fdb7afcSQu Wenruostatic void set_bio_pages_uptodate(struct btrfs_raid_bio *rbio, struct bio *bio)
53b381b3SDavid Woodhouse{
5fdb7afcSQu Wenruo	const u32 sectorsize = rbio->bioc->fs_info->sectorsize;
0198e5b7SLiu Bo	struct bio_vec *bvec;
6dc4f100SMing Lei	struct bvec_iter_all iter_all;
53b381b3SDavid Woodhouse
0198e5b7SLiu Bo	ASSERT(!bio_flagged(bio, BIO_CLONED));
6592e58cSFilipe Manana
5fdb7afcSQu Wenruo	bio_for_each_segment_all(bvec, bio, iter_all) {
5fdb7afcSQu Wenruo		struct sector_ptr *sector;
5fdb7afcSQu Wenruo		int pgoff;
5fdb7afcSQu Wenruo
5fdb7afcSQu Wenruo		for (pgoff = bvec->bv_offset; pgoff - bvec->bv_offset < bvec->bv_len;
5fdb7afcSQu Wenruo		     pgoff += sectorsize) {
5fdb7afcSQu Wenruo			sector = find_stripe_sector(rbio, bvec->bv_page, pgoff);
5fdb7afcSQu Wenruo			ASSERT(sector);
5fdb7afcSQu Wenruo			if (sector)
5fdb7afcSQu Wenruo				sector->uptodate = 1;
5fdb7afcSQu Wenruo		}
5fdb7afcSQu Wenruo	}
53b381b3SDavid Woodhouse}
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse/*
53b381b3SDavid Woodhouse * end io for the read phase of the rmw cycle.  All the bios here are physical
53b381b3SDavid Woodhouse * stripe bios we've read from the disk so we can recalculate the parity of the
53b381b3SDavid Woodhouse * stripe.
53b381b3SDavid Woodhouse *
53b381b3SDavid Woodhouse * This will usually kick off finish_rmw once all the bios are read in, but it
53b381b3SDavid Woodhouse * may trigger parity reconstruction if we had any errors along the way
53b381b3SDavid Woodhouse */
4246a0b6SChristoph Hellwigstatic void raid_rmw_end_io(struct bio *bio)
53b381b3SDavid Woodhouse{
53b381b3SDavid Woodhouse	struct btrfs_raid_bio *rbio = bio->bi_private;
53b381b3SDavid Woodhouse
4e4cbee9SChristoph Hellwig	if (bio->bi_status)
53b381b3SDavid Woodhouse		fail_bio_stripe(rbio, bio);
53b381b3SDavid Woodhouse	else
5fdb7afcSQu Wenruo		set_bio_pages_uptodate(rbio, bio);
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	bio_put(bio);
53b381b3SDavid Woodhouse
b89e1b01SMiao Xie	if (!atomic_dec_and_test(&rbio->stripes_pending))
53b381b3SDavid Woodhouse		return;
53b381b3SDavid Woodhouse
4c664611SQu Wenruo	if (atomic_read(&rbio->error) > rbio->bioc->max_errors)
53b381b3SDavid Woodhouse		goto cleanup;
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	/*
53b381b3SDavid Woodhouse	 * this will normally call finish_rmw to start our write
53b381b3SDavid Woodhouse	 * but if there are any failed stripes we'll reconstruct
53b381b3SDavid Woodhouse	 * from parity first
53b381b3SDavid Woodhouse	 */
53b381b3SDavid Woodhouse	validate_rbio_for_rmw(rbio);
53b381b3SDavid Woodhouse	return;
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhousecleanup:
53b381b3SDavid Woodhouse
58efbc9fSOmar Sandoval	rbio_orig_end_io(rbio, BLK_STS_IOERR);
53b381b3SDavid Woodhouse}
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse/*
53b381b3SDavid Woodhouse * the stripe must be locked by the caller.  It will
53b381b3SDavid Woodhouse * unlock after all the writes are done
53b381b3SDavid Woodhouse */
53b381b3SDavid Woodhousestatic int raid56_rmw_stripe(struct btrfs_raid_bio *rbio)
53b381b3SDavid Woodhouse{
53b381b3SDavid Woodhouse	int bios_to_read = 0;
53b381b3SDavid Woodhouse	struct bio_list bio_list;
53b381b3SDavid Woodhouse	int ret;
3e77605dSQu Wenruo	int sectornr;
53b381b3SDavid Woodhouse	int stripe;
53b381b3SDavid Woodhouse	struct bio *bio;
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	bio_list_init(&bio_list);
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	ret = alloc_rbio_pages(rbio);
53b381b3SDavid Woodhouse	if (ret)
53b381b3SDavid Woodhouse		goto cleanup;
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	index_rbio_pages(rbio);
53b381b3SDavid Woodhouse
b89e1b01SMiao Xie	atomic_set(&rbio->error, 0);
53b381b3SDavid Woodhouse	/*
53b381b3SDavid Woodhouse	 * build a list of bios to read all the missing parts of this
53b381b3SDavid Woodhouse	 * stripe
53b381b3SDavid Woodhouse	 */
53b381b3SDavid Woodhouse	for (stripe = 0; stripe < rbio->nr_data; stripe++) {
3e77605dSQu Wenruo		for (sectornr = 0; sectornr < rbio->stripe_nsectors; sectornr++) {
3e77605dSQu Wenruo			struct sector_ptr *sector;
3e77605dSQu Wenruo
53b381b3SDavid Woodhouse			/*
3e77605dSQu Wenruo			 * We want to find all the sectors missing from the
3e77605dSQu Wenruo			 * rbio and read them from the disk.  If * sector_in_rbio()
3e77605dSQu Wenruo			 * finds a page in the bio list we don't need to read
3e77605dSQu Wenruo			 * it off the stripe.
53b381b3SDavid Woodhouse			 */
3e77605dSQu Wenruo			sector = sector_in_rbio(rbio, stripe, sectornr, 1);
3e77605dSQu Wenruo			if (sector)
53b381b3SDavid Woodhouse				continue;
53b381b3SDavid Woodhouse
3e77605dSQu Wenruo			sector = rbio_stripe_sector(rbio, stripe, sectornr);
4ae10b3aSChris Mason			/*
3e77605dSQu Wenruo			 * The bio cache may have handed us an uptodate page.
3e77605dSQu Wenruo			 * If so, be happy and use it.
4ae10b3aSChris Mason			 */
3e77605dSQu Wenruo			if (sector->uptodate)
4ae10b3aSChris Mason				continue;
4ae10b3aSChris Mason
3e77605dSQu Wenruo			ret = rbio_add_io_sector(rbio, &bio_list, sector,
3e77605dSQu Wenruo				       stripe, sectornr, rbio->stripe_len,
e01bf588SChristoph Hellwig				       REQ_OP_READ);
53b381b3SDavid Woodhouse			if (ret)
53b381b3SDavid Woodhouse				goto cleanup;
53b381b3SDavid Woodhouse		}
53b381b3SDavid Woodhouse	}
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	bios_to_read = bio_list_size(&bio_list);
53b381b3SDavid Woodhouse	if (!bios_to_read) {
53b381b3SDavid Woodhouse		/*
53b381b3SDavid Woodhouse		 * this can happen if others have merged with
53b381b3SDavid Woodhouse		 * us, it means there is nothing left to read.
53b381b3SDavid Woodhouse		 * But if there are missing devices it may not be
53b381b3SDavid Woodhouse		 * safe to do the full stripe write yet.
53b381b3SDavid Woodhouse		 */
53b381b3SDavid Woodhouse		goto finish;
53b381b3SDavid Woodhouse	}
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	/*
4c664611SQu Wenruo	 * The bioc may be freed once we submit the last bio. Make sure not to
4c664611SQu Wenruo	 * touch it after that.
53b381b3SDavid Woodhouse	 */
b89e1b01SMiao Xie	atomic_set(&rbio->stripes_pending, bios_to_read);
bf28a605SNikolay Borisov	while ((bio = bio_list_pop(&bio_list))) {
53b381b3SDavid Woodhouse		bio->bi_end_io = raid_rmw_end_io;
53b381b3SDavid Woodhouse
6a258d72SQu Wenruo		btrfs_bio_wq_end_io(rbio->bioc->fs_info, bio, BTRFS_WQ_ENDIO_RAID56);
53b381b3SDavid Woodhouse
4e49ea4aSMike Christie		submit_bio(bio);
53b381b3SDavid Woodhouse	}
53b381b3SDavid Woodhouse	/* the actual write will happen once the reads are done */
53b381b3SDavid Woodhouse	return 0;
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhousecleanup:
58efbc9fSOmar Sandoval	rbio_orig_end_io(rbio, BLK_STS_IOERR);
785884fcSLiu Bo
785884fcSLiu Bo	while ((bio = bio_list_pop(&bio_list)))
785884fcSLiu Bo		bio_put(bio);
785884fcSLiu Bo
53b381b3SDavid Woodhouse	return -EIO;
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhousefinish:
53b381b3SDavid Woodhouse	validate_rbio_for_rmw(rbio);
53b381b3SDavid Woodhouse	return 0;
53b381b3SDavid Woodhouse}
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse/*
53b381b3SDavid Woodhouse * if the upper layers pass in a full stripe, we thank them by only allocating
53b381b3SDavid Woodhouse * enough pages to hold the parity, and sending it all down quickly.
53b381b3SDavid Woodhouse */
53b381b3SDavid Woodhousestatic int full_stripe_write(struct btrfs_raid_bio *rbio)
53b381b3SDavid Woodhouse{
53b381b3SDavid Woodhouse	int ret;
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	ret = alloc_rbio_parity_pages(rbio);
3cd846d1SMiao Xie	if (ret) {
3cd846d1SMiao Xie		__free_raid_bio(rbio);
53b381b3SDavid Woodhouse		return ret;
3cd846d1SMiao Xie	}
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	ret = lock_stripe_add(rbio);
53b381b3SDavid Woodhouse	if (ret == 0)
53b381b3SDavid Woodhouse		finish_rmw(rbio);
53b381b3SDavid Woodhouse	return 0;
53b381b3SDavid Woodhouse}
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse/*
53b381b3SDavid Woodhouse * partial stripe writes get handed over to async helpers.
53b381b3SDavid Woodhouse * We're really hoping to merge a few more writes into this
53b381b3SDavid Woodhouse * rbio before calculating new parity
53b381b3SDavid Woodhouse */
53b381b3SDavid Woodhousestatic int partial_stripe_write(struct btrfs_raid_bio *rbio)
53b381b3SDavid Woodhouse{
53b381b3SDavid Woodhouse	int ret;
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	ret = lock_stripe_add(rbio);
53b381b3SDavid Woodhouse	if (ret == 0)
cf6a4a75SDavid Sterba		start_async_work(rbio, rmw_work);
53b381b3SDavid Woodhouse	return 0;
53b381b3SDavid Woodhouse}
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse/*
53b381b3SDavid Woodhouse * sometimes while we were reading from the drive to
53b381b3SDavid Woodhouse * recalculate parity, enough new bios come into create
53b381b3SDavid Woodhouse * a full stripe.  So we do a check here to see if we can
53b381b3SDavid Woodhouse * go directly to finish_rmw
53b381b3SDavid Woodhouse */
53b381b3SDavid Woodhousestatic int __raid56_parity_write(struct btrfs_raid_bio *rbio)
53b381b3SDavid Woodhouse{
53b381b3SDavid Woodhouse	/* head off into rmw land if we don't have a full stripe */
53b381b3SDavid Woodhouse	if (!rbio_is_full(rbio))
53b381b3SDavid Woodhouse		return partial_stripe_write(rbio);
53b381b3SDavid Woodhouse	return full_stripe_write(rbio);
53b381b3SDavid Woodhouse}
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse/*
6ac0f488SChris Mason * We use plugging call backs to collect full stripes.
6ac0f488SChris Mason * Any time we get a partial stripe write while plugged
6ac0f488SChris Mason * we collect it into a list.  When the unplug comes down,
6ac0f488SChris Mason * we sort the list by logical block number and merge
6ac0f488SChris Mason * everything we can into the same rbios
6ac0f488SChris Mason */
6ac0f488SChris Masonstruct btrfs_plug_cb {
6ac0f488SChris Mason	struct blk_plug_cb cb;
6ac0f488SChris Mason	struct btrfs_fs_info *info;
6ac0f488SChris Mason	struct list_head rbio_list;
6ac0f488SChris Mason	struct btrfs_work work;
6ac0f488SChris Mason};
6ac0f488SChris Mason
6ac0f488SChris Mason/*
6ac0f488SChris Mason * rbios on the plug list are sorted for easier merging.
6ac0f488SChris Mason */
4f0f586bSSami Tolvanenstatic int plug_cmp(void *priv, const struct list_head *a,
4f0f586bSSami Tolvanen		    const struct list_head *b)
6ac0f488SChris Mason{
214cc184SDavid Sterba	const struct btrfs_raid_bio *ra = container_of(a, struct btrfs_raid_bio,
6ac0f488SChris Mason						       plug_list);
214cc184SDavid Sterba	const struct btrfs_raid_bio *rb = container_of(b, struct btrfs_raid_bio,
6ac0f488SChris Mason						       plug_list);
4f024f37SKent Overstreet	u64 a_sector = ra->bio_list.head->bi_iter.bi_sector;
4f024f37SKent Overstreet	u64 b_sector = rb->bio_list.head->bi_iter.bi_sector;
6ac0f488SChris Mason
6ac0f488SChris Mason	if (a_sector < b_sector)
6ac0f488SChris Mason		return -1;
6ac0f488SChris Mason	if (a_sector > b_sector)
6ac0f488SChris Mason		return 1;
6ac0f488SChris Mason	return 0;
6ac0f488SChris Mason}
6ac0f488SChris Mason
6ac0f488SChris Masonstatic void run_plug(struct btrfs_plug_cb *plug)
6ac0f488SChris Mason{
6ac0f488SChris Mason	struct btrfs_raid_bio *cur;
6ac0f488SChris Mason	struct btrfs_raid_bio *last = NULL;
6ac0f488SChris Mason
6ac0f488SChris Mason	/*
6ac0f488SChris Mason	 * sort our plug list then try to merge
6ac0f488SChris Mason	 * everything we can in hopes of creating full
6ac0f488SChris Mason	 * stripes.
6ac0f488SChris Mason	 */
6ac0f488SChris Mason	list_sort(NULL, &plug->rbio_list, plug_cmp);
6ac0f488SChris Mason	while (!list_empty(&plug->rbio_list)) {
6ac0f488SChris Mason		cur = list_entry(plug->rbio_list.next,
6ac0f488SChris Mason				 struct btrfs_raid_bio, plug_list);
6ac0f488SChris Mason		list_del_init(&cur->plug_list);
6ac0f488SChris Mason
6ac0f488SChris Mason		if (rbio_is_full(cur)) {
c7b562c5SDavid Sterba			int ret;
c7b562c5SDavid Sterba
6ac0f488SChris Mason			/* we have a full stripe, send it down */
c7b562c5SDavid Sterba			ret = full_stripe_write(cur);
c7b562c5SDavid Sterba			BUG_ON(ret);
6ac0f488SChris Mason			continue;
6ac0f488SChris Mason		}
6ac0f488SChris Mason		if (last) {
6ac0f488SChris Mason			if (rbio_can_merge(last, cur)) {
6ac0f488SChris Mason				merge_rbio(last, cur);
6ac0f488SChris Mason				__free_raid_bio(cur);
6ac0f488SChris Mason				continue;
6ac0f488SChris Mason
6ac0f488SChris Mason			}
6ac0f488SChris Mason			__raid56_parity_write(last);
6ac0f488SChris Mason		}
6ac0f488SChris Mason		last = cur;
6ac0f488SChris Mason	}
6ac0f488SChris Mason	if (last) {
6ac0f488SChris Mason		__raid56_parity_write(last);
6ac0f488SChris Mason	}
6ac0f488SChris Mason	kfree(plug);
6ac0f488SChris Mason}
6ac0f488SChris Mason
6ac0f488SChris Mason/*
6ac0f488SChris Mason * if the unplug comes from schedule, we have to push the
6ac0f488SChris Mason * work off to a helper thread
6ac0f488SChris Mason */
6ac0f488SChris Masonstatic void unplug_work(struct btrfs_work *work)
6ac0f488SChris Mason{
6ac0f488SChris Mason	struct btrfs_plug_cb *plug;
6ac0f488SChris Mason	plug = container_of(work, struct btrfs_plug_cb, work);
6ac0f488SChris Mason	run_plug(plug);
6ac0f488SChris Mason}
6ac0f488SChris Mason
6ac0f488SChris Masonstatic void btrfs_raid_unplug(struct blk_plug_cb *cb, bool from_schedule)
6ac0f488SChris Mason{
6ac0f488SChris Mason	struct btrfs_plug_cb *plug;
6ac0f488SChris Mason	plug = container_of(cb, struct btrfs_plug_cb, cb);
6ac0f488SChris Mason
6ac0f488SChris Mason	if (from_schedule) {
a0cac0ecSOmar Sandoval		btrfs_init_work(&plug->work, unplug_work, NULL, NULL);
d05a33acSQu Wenruo		btrfs_queue_work(plug->info->rmw_workers,
6ac0f488SChris Mason				 &plug->work);
6ac0f488SChris Mason		return;
6ac0f488SChris Mason	}
6ac0f488SChris Mason	run_plug(plug);
6ac0f488SChris Mason}
6ac0f488SChris Mason
6ac0f488SChris Mason/*
53b381b3SDavid Woodhouse * our main entry point for writes from the rest of the FS.
53b381b3SDavid Woodhouse */
cc353a8bSQu Wenruoint raid56_parity_write(struct bio *bio, struct btrfs_io_context *bioc, u32 stripe_len)
53b381b3SDavid Woodhouse{
6a258d72SQu Wenruo	struct btrfs_fs_info *fs_info = bioc->fs_info;
53b381b3SDavid Woodhouse	struct btrfs_raid_bio *rbio;
6ac0f488SChris Mason	struct btrfs_plug_cb *plug = NULL;
6ac0f488SChris Mason	struct blk_plug_cb *cb;
4245215dSMiao Xie	int ret;
53b381b3SDavid Woodhouse
4c664611SQu Wenruo	rbio = alloc_rbio(fs_info, bioc, stripe_len);
af8e2d1dSMiao Xie	if (IS_ERR(rbio)) {
4c664611SQu Wenruo		btrfs_put_bioc(bioc);
53b381b3SDavid Woodhouse		return PTR_ERR(rbio);
af8e2d1dSMiao Xie	}
53b381b3SDavid Woodhouse	bio_list_add(&rbio->bio_list, bio);
4f024f37SKent Overstreet	rbio->bio_list_bytes = bio->bi_iter.bi_size;
1b94b556SMiao Xie	rbio->operation = BTRFS_RBIO_WRITE;
6ac0f488SChris Mason
0b246afaSJeff Mahoney	btrfs_bio_counter_inc_noblocked(fs_info);
4245215dSMiao Xie	rbio->generic_bio_cnt = 1;
4245215dSMiao Xie
6ac0f488SChris Mason	/*
6ac0f488SChris Mason	 * don't plug on full rbios, just get them out the door
6ac0f488SChris Mason	 * as quickly as we can
6ac0f488SChris Mason	 */
4245215dSMiao Xie	if (rbio_is_full(rbio)) {
4245215dSMiao Xie		ret = full_stripe_write(rbio);
4245215dSMiao Xie		if (ret)
0b246afaSJeff Mahoney			btrfs_bio_counter_dec(fs_info);
4245215dSMiao Xie		return ret;
4245215dSMiao Xie	}
6ac0f488SChris Mason
0b246afaSJeff Mahoney	cb = blk_check_plugged(btrfs_raid_unplug, fs_info, sizeof(*plug));
6ac0f488SChris Mason	if (cb) {
6ac0f488SChris Mason		plug = container_of(cb, struct btrfs_plug_cb, cb);
6ac0f488SChris Mason		if (!plug->info) {
0b246afaSJeff Mahoney			plug->info = fs_info;
6ac0f488SChris Mason			INIT_LIST_HEAD(&plug->rbio_list);
6ac0f488SChris Mason		}
6ac0f488SChris Mason		list_add_tail(&rbio->plug_list, &plug->rbio_list);
4245215dSMiao Xie		ret = 0;
6ac0f488SChris Mason	} else {
4245215dSMiao Xie		ret = __raid56_parity_write(rbio);
4245215dSMiao Xie		if (ret)
0b246afaSJeff Mahoney			btrfs_bio_counter_dec(fs_info);
53b381b3SDavid Woodhouse	}
4245215dSMiao Xie	return ret;
6ac0f488SChris Mason}
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse/*
53b381b3SDavid Woodhouse * all parity reconstruction happens here.  We've read in everything
53b381b3SDavid Woodhouse * we can find from the drives and this does the heavy lifting of
53b381b3SDavid Woodhouse * sorting the good from the bad.
53b381b3SDavid Woodhouse */
53b381b3SDavid Woodhousestatic void __raid_recover_end_io(struct btrfs_raid_bio *rbio)
53b381b3SDavid Woodhouse{
07e4d380SQu Wenruo	const u32 sectorsize = rbio->bioc->fs_info->sectorsize;
07e4d380SQu Wenruo	int sectornr, stripe;
53b381b3SDavid Woodhouse	void **pointers;
94a0b58dSIra Weiny	void **unmap_array;
53b381b3SDavid Woodhouse	int faila = -1, failb = -1;
58efbc9fSOmar Sandoval	blk_status_t err;
53b381b3SDavid Woodhouse	int i;
53b381b3SDavid Woodhouse
07e4d380SQu Wenruo	/*
07e4d380SQu Wenruo	 * This array stores the pointer for each sector, thus it has the extra
07e4d380SQu Wenruo	 * pgoff value added from each sector
07e4d380SQu Wenruo	 */
31e818feSDavid Sterba	pointers = kcalloc(rbio->real_stripes, sizeof(void *), GFP_NOFS);
53b381b3SDavid Woodhouse	if (!pointers) {
58efbc9fSOmar Sandoval		err = BLK_STS_RESOURCE;
53b381b3SDavid Woodhouse		goto cleanup_io;
53b381b3SDavid Woodhouse	}
53b381b3SDavid Woodhouse
94a0b58dSIra Weiny	/*
94a0b58dSIra Weiny	 * Store copy of pointers that does not get reordered during
94a0b58dSIra Weiny	 * reconstruction so that kunmap_local works.
94a0b58dSIra Weiny	 */
94a0b58dSIra Weiny	unmap_array = kcalloc(rbio->real_stripes, sizeof(void *), GFP_NOFS);
94a0b58dSIra Weiny	if (!unmap_array) {
94a0b58dSIra Weiny		err = BLK_STS_RESOURCE;
94a0b58dSIra Weiny		goto cleanup_pointers;
94a0b58dSIra Weiny	}
94a0b58dSIra Weiny
53b381b3SDavid Woodhouse	faila = rbio->faila;
53b381b3SDavid Woodhouse	failb = rbio->failb;
53b381b3SDavid Woodhouse
b4ee1782SOmar Sandoval	if (rbio->operation == BTRFS_RBIO_READ_REBUILD ||
b4ee1782SOmar Sandoval	    rbio->operation == BTRFS_RBIO_REBUILD_MISSING) {
53b381b3SDavid Woodhouse		spin_lock_irq(&rbio->bio_list_lock);
53b381b3SDavid Woodhouse		set_bit(RBIO_RMW_LOCKED_BIT, &rbio->flags);
53b381b3SDavid Woodhouse		spin_unlock_irq(&rbio->bio_list_lock);
53b381b3SDavid Woodhouse	}
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	index_rbio_pages(rbio);
53b381b3SDavid Woodhouse
07e4d380SQu Wenruo	for (sectornr = 0; sectornr < rbio->stripe_nsectors; sectornr++) {
07e4d380SQu Wenruo		struct sector_ptr *sector;
07e4d380SQu Wenruo
5a6ac9eaSMiao Xie		/*
5a6ac9eaSMiao Xie		 * Now we just use bitmap to mark the horizontal stripes in
5a6ac9eaSMiao Xie		 * which we have data when doing parity scrub.
5a6ac9eaSMiao Xie		 */
5a6ac9eaSMiao Xie		if (rbio->operation == BTRFS_RBIO_PARITY_SCRUB &&
07e4d380SQu Wenruo		    !test_bit(sectornr, rbio->dbitmap))
5a6ac9eaSMiao Xie			continue;
5a6ac9eaSMiao Xie
94a0b58dSIra Weiny		/*
07e4d380SQu Wenruo		 * Setup our array of pointers with sectors from each stripe
94a0b58dSIra Weiny		 *
94a0b58dSIra Weiny		 * NOTE: store a duplicate array of pointers to preserve the
94a0b58dSIra Weiny		 * pointer order
53b381b3SDavid Woodhouse		 */
2c8cdd6eSMiao Xie		for (stripe = 0; stripe < rbio->real_stripes; stripe++) {
53b381b3SDavid Woodhouse			/*
07e4d380SQu Wenruo			 * If we're rebuilding a read, we have to use
53b381b3SDavid Woodhouse			 * pages from the bio list
53b381b3SDavid Woodhouse			 */
b4ee1782SOmar Sandoval			if ((rbio->operation == BTRFS_RBIO_READ_REBUILD ||
b4ee1782SOmar Sandoval			     rbio->operation == BTRFS_RBIO_REBUILD_MISSING) &&
53b381b3SDavid Woodhouse			    (stripe == faila || stripe == failb)) {
07e4d380SQu Wenruo				sector = sector_in_rbio(rbio, stripe, sectornr, 0);
53b381b3SDavid Woodhouse			} else {
07e4d380SQu Wenruo				sector = rbio_stripe_sector(rbio, stripe, sectornr);
53b381b3SDavid Woodhouse			}
07e4d380SQu Wenruo			ASSERT(sector->page);
07e4d380SQu Wenruo			pointers[stripe] = kmap_local_page(sector->page) +
07e4d380SQu Wenruo					   sector->pgoff;
94a0b58dSIra Weiny			unmap_array[stripe] = pointers[stripe];
53b381b3SDavid Woodhouse		}
53b381b3SDavid Woodhouse
07e4d380SQu Wenruo		/* All raid6 handling here */
4c664611SQu Wenruo		if (rbio->bioc->map_type & BTRFS_BLOCK_GROUP_RAID6) {
07e4d380SQu Wenruo			/* Single failure, rebuild from parity raid5 style */
53b381b3SDavid Woodhouse			if (failb < 0) {
53b381b3SDavid Woodhouse				if (faila == rbio->nr_data) {
53b381b3SDavid Woodhouse					/*
53b381b3SDavid Woodhouse					 * Just the P stripe has failed, without
53b381b3SDavid Woodhouse					 * a bad data or Q stripe.
53b381b3SDavid Woodhouse					 * TODO, we should redo the xor here.
53b381b3SDavid Woodhouse					 */
58efbc9fSOmar Sandoval					err = BLK_STS_IOERR;
53b381b3SDavid Woodhouse					goto cleanup;
53b381b3SDavid Woodhouse				}
53b381b3SDavid Woodhouse				/*
53b381b3SDavid Woodhouse				 * a single failure in raid6 is rebuilt
53b381b3SDavid Woodhouse				 * in the pstripe code below
53b381b3SDavid Woodhouse				 */
53b381b3SDavid Woodhouse				goto pstripe;
53b381b3SDavid Woodhouse			}
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse			/* make sure our ps and qs are in order */
b7d2083aSNikolay Borisov			if (faila > failb)
b7d2083aSNikolay Borisov				swap(faila, failb);
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse			/* if the q stripe is failed, do a pstripe reconstruction
53b381b3SDavid Woodhouse			 * from the xors.
53b381b3SDavid Woodhouse			 * If both the q stripe and the P stripe are failed, we're
53b381b3SDavid Woodhouse			 * here due to a crc mismatch and we can't give them the
53b381b3SDavid Woodhouse			 * data they want
53b381b3SDavid Woodhouse			 */
4c664611SQu Wenruo			if (rbio->bioc->raid_map[failb] == RAID6_Q_STRIPE) {
4c664611SQu Wenruo				if (rbio->bioc->raid_map[faila] ==
8e5cfb55SZhao Lei				    RAID5_P_STRIPE) {
58efbc9fSOmar Sandoval					err = BLK_STS_IOERR;
53b381b3SDavid Woodhouse					goto cleanup;
53b381b3SDavid Woodhouse				}
53b381b3SDavid Woodhouse				/*
53b381b3SDavid Woodhouse				 * otherwise we have one bad data stripe and
53b381b3SDavid Woodhouse				 * a good P stripe.  raid5!
53b381b3SDavid Woodhouse				 */
53b381b3SDavid Woodhouse				goto pstripe;
53b381b3SDavid Woodhouse			}
53b381b3SDavid Woodhouse
4c664611SQu Wenruo			if (rbio->bioc->raid_map[failb] == RAID5_P_STRIPE) {
2c8cdd6eSMiao Xie				raid6_datap_recov(rbio->real_stripes,
07e4d380SQu Wenruo						  sectorsize, faila, pointers);
53b381b3SDavid Woodhouse			} else {
2c8cdd6eSMiao Xie				raid6_2data_recov(rbio->real_stripes,
07e4d380SQu Wenruo						  sectorsize, faila, failb,
53b381b3SDavid Woodhouse						  pointers);
53b381b3SDavid Woodhouse			}
53b381b3SDavid Woodhouse		} else {
53b381b3SDavid Woodhouse			void *p;
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse			/* rebuild from P stripe here (raid5 or raid6) */
53b381b3SDavid Woodhouse			BUG_ON(failb != -1);
53b381b3SDavid Woodhousepstripe:
53b381b3SDavid Woodhouse			/* Copy parity block into failed block to start with */
07e4d380SQu Wenruo			memcpy(pointers[faila], pointers[rbio->nr_data], sectorsize);
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse			/* rearrange the pointer array */
53b381b3SDavid Woodhouse			p = pointers[faila];
53b381b3SDavid Woodhouse			for (stripe = faila; stripe < rbio->nr_data - 1; stripe++)
53b381b3SDavid Woodhouse				pointers[stripe] = pointers[stripe + 1];
53b381b3SDavid Woodhouse			pointers[rbio->nr_data - 1] = p;
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse			/* xor in the rest */
07e4d380SQu Wenruo			run_xor(pointers, rbio->nr_data - 1, sectorsize);
53b381b3SDavid Woodhouse		}
53b381b3SDavid Woodhouse		/* if we're doing this rebuild as part of an rmw, go through
53b381b3SDavid Woodhouse		 * and set all of our private rbio pages in the
53b381b3SDavid Woodhouse		 * failed stripes as uptodate.  This way finish_rmw will
53b381b3SDavid Woodhouse		 * know they can be trusted.  If this was a read reconstruction,
53b381b3SDavid Woodhouse		 * other endio functions will fiddle the uptodate bits
53b381b3SDavid Woodhouse		 */
1b94b556SMiao Xie		if (rbio->operation == BTRFS_RBIO_WRITE) {
07e4d380SQu Wenruo			for (i = 0;  i < rbio->stripe_nsectors; i++) {
53b381b3SDavid Woodhouse				if (faila != -1) {
07e4d380SQu Wenruo					sector = rbio_stripe_sector(rbio, faila, i);
07e4d380SQu Wenruo					sector->uptodate = 1;
53b381b3SDavid Woodhouse				}
53b381b3SDavid Woodhouse				if (failb != -1) {
07e4d380SQu Wenruo					sector = rbio_stripe_sector(rbio, failb, i);
07e4d380SQu Wenruo					sector->uptodate = 1;
53b381b3SDavid Woodhouse				}
53b381b3SDavid Woodhouse			}
53b381b3SDavid Woodhouse		}
94a0b58dSIra Weiny		for (stripe = rbio->real_stripes - 1; stripe >= 0; stripe--)
94a0b58dSIra Weiny			kunmap_local(unmap_array[stripe]);
53b381b3SDavid Woodhouse	}
53b381b3SDavid Woodhouse
58efbc9fSOmar Sandoval	err = BLK_STS_OK;
53b381b3SDavid Woodhousecleanup:
94a0b58dSIra Weiny	kfree(unmap_array);
94a0b58dSIra Weinycleanup_pointers:
53b381b3SDavid Woodhouse	kfree(pointers);
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhousecleanup_io:
580c6efaSLiu Bo	/*
580c6efaSLiu Bo	 * Similar to READ_REBUILD, REBUILD_MISSING at this point also has a
580c6efaSLiu Bo	 * valid rbio which is consistent with ondisk content, thus such a
580c6efaSLiu Bo	 * valid rbio can be cached to avoid further disk reads.
580c6efaSLiu Bo	 */
580c6efaSLiu Bo	if (rbio->operation == BTRFS_RBIO_READ_REBUILD ||
580c6efaSLiu Bo	    rbio->operation == BTRFS_RBIO_REBUILD_MISSING) {
44ac474dSLiu Bo		/*
44ac474dSLiu Bo		 * - In case of two failures, where rbio->failb != -1:
44ac474dSLiu Bo		 *
44ac474dSLiu Bo		 *   Do not cache this rbio since the above read reconstruction
44ac474dSLiu Bo		 *   (raid6_datap_recov() or raid6_2data_recov()) may have
44ac474dSLiu Bo		 *   changed some content of stripes which are not identical to
44ac474dSLiu Bo		 *   on-disk content any more, otherwise, a later write/recover
44ac474dSLiu Bo		 *   may steal stripe_pages from this rbio and end up with
44ac474dSLiu Bo		 *   corruptions or rebuild failures.
44ac474dSLiu Bo		 *
44ac474dSLiu Bo		 * - In case of single failure, where rbio->failb == -1:
44ac474dSLiu Bo		 *
44ac474dSLiu Bo		 *   Cache this rbio iff the above read reconstruction is
52042d8eSAndrea Gelmini		 *   executed without problems.
44ac474dSLiu Bo		 */
44ac474dSLiu Bo		if (err == BLK_STS_OK && rbio->failb < 0)
4ae10b3aSChris Mason			cache_rbio_pages(rbio);
4ae10b3aSChris Mason		else
4ae10b3aSChris Mason			clear_bit(RBIO_CACHE_READY_BIT, &rbio->flags);
4ae10b3aSChris Mason
4246a0b6SChristoph Hellwig		rbio_orig_end_io(rbio, err);
58efbc9fSOmar Sandoval	} else if (err == BLK_STS_OK) {
53b381b3SDavid Woodhouse		rbio->faila = -1;
53b381b3SDavid Woodhouse		rbio->failb = -1;
5a6ac9eaSMiao Xie
5a6ac9eaSMiao Xie		if (rbio->operation == BTRFS_RBIO_WRITE)
53b381b3SDavid Woodhouse			finish_rmw(rbio);
5a6ac9eaSMiao Xie		else if (rbio->operation == BTRFS_RBIO_PARITY_SCRUB)
5a6ac9eaSMiao Xie			finish_parity_scrub(rbio, 0);
5a6ac9eaSMiao Xie		else
5a6ac9eaSMiao Xie			BUG();
53b381b3SDavid Woodhouse	} else {
4246a0b6SChristoph Hellwig		rbio_orig_end_io(rbio, err);
53b381b3SDavid Woodhouse	}
53b381b3SDavid Woodhouse}
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse/*
53b381b3SDavid Woodhouse * This is called only for stripes we've read from disk to
53b381b3SDavid Woodhouse * reconstruct the parity.
53b381b3SDavid Woodhouse */
4246a0b6SChristoph Hellwigstatic void raid_recover_end_io(struct bio *bio)
53b381b3SDavid Woodhouse{
53b381b3SDavid Woodhouse	struct btrfs_raid_bio *rbio = bio->bi_private;
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	/*
53b381b3SDavid Woodhouse	 * we only read stripe pages off the disk, set them
53b381b3SDavid Woodhouse	 * up to date if there were no errors
53b381b3SDavid Woodhouse	 */
4e4cbee9SChristoph Hellwig	if (bio->bi_status)
53b381b3SDavid Woodhouse		fail_bio_stripe(rbio, bio);
53b381b3SDavid Woodhouse	else
5fdb7afcSQu Wenruo		set_bio_pages_uptodate(rbio, bio);
53b381b3SDavid Woodhouse	bio_put(bio);
53b381b3SDavid Woodhouse
b89e1b01SMiao Xie	if (!atomic_dec_and_test(&rbio->stripes_pending))
53b381b3SDavid Woodhouse		return;
53b381b3SDavid Woodhouse
4c664611SQu Wenruo	if (atomic_read(&rbio->error) > rbio->bioc->max_errors)
58efbc9fSOmar Sandoval		rbio_orig_end_io(rbio, BLK_STS_IOERR);
53b381b3SDavid Woodhouse	else
53b381b3SDavid Woodhouse		__raid_recover_end_io(rbio);
53b381b3SDavid Woodhouse}
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse/*
53b381b3SDavid Woodhouse * reads everything we need off the disk to reconstruct
53b381b3SDavid Woodhouse * the parity. endio handlers trigger final reconstruction
53b381b3SDavid Woodhouse * when the IO is done.
53b381b3SDavid Woodhouse *
53b381b3SDavid Woodhouse * This is used both for reads from the higher layers and for
53b381b3SDavid Woodhouse * parity construction required to finish a rmw cycle.
53b381b3SDavid Woodhouse */
53b381b3SDavid Woodhousestatic int __raid56_parity_recover(struct btrfs_raid_bio *rbio)
53b381b3SDavid Woodhouse{
53b381b3SDavid Woodhouse	int bios_to_read = 0;
53b381b3SDavid Woodhouse	struct bio_list bio_list;
53b381b3SDavid Woodhouse	int ret;
3e77605dSQu Wenruo	int sectornr;
53b381b3SDavid Woodhouse	int stripe;
53b381b3SDavid Woodhouse	struct bio *bio;
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	bio_list_init(&bio_list);
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	ret = alloc_rbio_pages(rbio);
53b381b3SDavid Woodhouse	if (ret)
53b381b3SDavid Woodhouse		goto cleanup;
53b381b3SDavid Woodhouse
b89e1b01SMiao Xie	atomic_set(&rbio->error, 0);
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	/*
4ae10b3aSChris Mason	 * read everything that hasn't failed.  Thanks to the
4ae10b3aSChris Mason	 * stripe cache, it is possible that some or all of these
4ae10b3aSChris Mason	 * pages are going to be uptodate.
53b381b3SDavid Woodhouse	 */
2c8cdd6eSMiao Xie	for (stripe = 0; stripe < rbio->real_stripes; stripe++) {
5588383eSLiu Bo		if (rbio->faila == stripe || rbio->failb == stripe) {
b89e1b01SMiao Xie			atomic_inc(&rbio->error);
53b381b3SDavid Woodhouse			continue;
5588383eSLiu Bo		}
53b381b3SDavid Woodhouse
3e77605dSQu Wenruo		for (sectornr = 0; sectornr < rbio->stripe_nsectors; sectornr++) {
3e77605dSQu Wenruo			struct sector_ptr *sector;
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse			/*
53b381b3SDavid Woodhouse			 * the rmw code may have already read this
53b381b3SDavid Woodhouse			 * page in
53b381b3SDavid Woodhouse			 */
3e77605dSQu Wenruo			sector = rbio_stripe_sector(rbio, stripe, sectornr);
3e77605dSQu Wenruo			if (sector->uptodate)
53b381b3SDavid Woodhouse				continue;
53b381b3SDavid Woodhouse
3e77605dSQu Wenruo			ret = rbio_add_io_sector(rbio, &bio_list, sector,
3e77605dSQu Wenruo						 stripe, sectornr, rbio->stripe_len,
e01bf588SChristoph Hellwig						 REQ_OP_READ);
53b381b3SDavid Woodhouse			if (ret < 0)
53b381b3SDavid Woodhouse				goto cleanup;
53b381b3SDavid Woodhouse		}
53b381b3SDavid Woodhouse	}
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	bios_to_read = bio_list_size(&bio_list);
53b381b3SDavid Woodhouse	if (!bios_to_read) {
53b381b3SDavid Woodhouse		/*
53b381b3SDavid Woodhouse		 * we might have no bios to read just because the pages
53b381b3SDavid Woodhouse		 * were up to date, or we might have no bios to read because
53b381b3SDavid Woodhouse		 * the devices were gone.
53b381b3SDavid Woodhouse		 */
4c664611SQu Wenruo		if (atomic_read(&rbio->error) <= rbio->bioc->max_errors) {
53b381b3SDavid Woodhouse			__raid_recover_end_io(rbio);
813f8a0eSNikolay Borisov			return 0;
53b381b3SDavid Woodhouse		} else {
53b381b3SDavid Woodhouse			goto cleanup;
53b381b3SDavid Woodhouse		}
53b381b3SDavid Woodhouse	}
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	/*
4c664611SQu Wenruo	 * The bioc may be freed once we submit the last bio. Make sure not to
4c664611SQu Wenruo	 * touch it after that.
53b381b3SDavid Woodhouse	 */
b89e1b01SMiao Xie	atomic_set(&rbio->stripes_pending, bios_to_read);
bf28a605SNikolay Borisov	while ((bio = bio_list_pop(&bio_list))) {
53b381b3SDavid Woodhouse		bio->bi_end_io = raid_recover_end_io;
53b381b3SDavid Woodhouse
6a258d72SQu Wenruo		btrfs_bio_wq_end_io(rbio->bioc->fs_info, bio, BTRFS_WQ_ENDIO_RAID56);
53b381b3SDavid Woodhouse
4e49ea4aSMike Christie		submit_bio(bio);
53b381b3SDavid Woodhouse	}
813f8a0eSNikolay Borisov
53b381b3SDavid Woodhouse	return 0;
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhousecleanup:
b4ee1782SOmar Sandoval	if (rbio->operation == BTRFS_RBIO_READ_REBUILD ||
b4ee1782SOmar Sandoval	    rbio->operation == BTRFS_RBIO_REBUILD_MISSING)
58efbc9fSOmar Sandoval		rbio_orig_end_io(rbio, BLK_STS_IOERR);
785884fcSLiu Bo
785884fcSLiu Bo	while ((bio = bio_list_pop(&bio_list)))
785884fcSLiu Bo		bio_put(bio);
785884fcSLiu Bo
53b381b3SDavid Woodhouse	return -EIO;
53b381b3SDavid Woodhouse}
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse/*
53b381b3SDavid Woodhouse * the main entry point for reads from the higher layers.  This
53b381b3SDavid Woodhouse * is really only called when the normal read path had a failure,
53b381b3SDavid Woodhouse * so we assume the bio they send down corresponds to a failed part
53b381b3SDavid Woodhouse * of the drive.
53b381b3SDavid Woodhouse */
6a258d72SQu Wenruoint raid56_parity_recover(struct bio *bio, struct btrfs_io_context *bioc,
cc353a8bSQu Wenruo			  u32 stripe_len, int mirror_num, int generic_io)
53b381b3SDavid Woodhouse{
6a258d72SQu Wenruo	struct btrfs_fs_info *fs_info = bioc->fs_info;
53b381b3SDavid Woodhouse	struct btrfs_raid_bio *rbio;
53b381b3SDavid Woodhouse	int ret;
53b381b3SDavid Woodhouse
abad60c6SLiu Bo	if (generic_io) {
4c664611SQu Wenruo		ASSERT(bioc->mirror_num == mirror_num);
c3a3b19bSQu Wenruo		btrfs_bio(bio)->mirror_num = mirror_num;
abad60c6SLiu Bo	}
abad60c6SLiu Bo
4c664611SQu Wenruo	rbio = alloc_rbio(fs_info, bioc, stripe_len);
af8e2d1dSMiao Xie	if (IS_ERR(rbio)) {
6e9606d2SZhao Lei		if (generic_io)
4c664611SQu Wenruo			btrfs_put_bioc(bioc);
53b381b3SDavid Woodhouse		return PTR_ERR(rbio);
af8e2d1dSMiao Xie	}
53b381b3SDavid Woodhouse
1b94b556SMiao Xie	rbio->operation = BTRFS_RBIO_READ_REBUILD;
53b381b3SDavid Woodhouse	bio_list_add(&rbio->bio_list, bio);
4f024f37SKent Overstreet	rbio->bio_list_bytes = bio->bi_iter.bi_size;
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	rbio->faila = find_logical_bio_stripe(rbio, bio);
53b381b3SDavid Woodhouse	if (rbio->faila == -1) {
0b246afaSJeff Mahoney		btrfs_warn(fs_info,
4c664611SQu Wenruo"%s could not find the bad stripe in raid56 so that we cannot recover any more (bio has logical %llu len %llu, bioc has map_type %llu)",
1201b58bSDavid Sterba			   __func__, bio->bi_iter.bi_sector << 9,
4c664611SQu Wenruo			   (u64)bio->bi_iter.bi_size, bioc->map_type);
6e9606d2SZhao Lei		if (generic_io)
4c664611SQu Wenruo			btrfs_put_bioc(bioc);
53b381b3SDavid Woodhouse		kfree(rbio);
53b381b3SDavid Woodhouse		return -EIO;
53b381b3SDavid Woodhouse	}
53b381b3SDavid Woodhouse
4245215dSMiao Xie	if (generic_io) {
0b246afaSJeff Mahoney		btrfs_bio_counter_inc_noblocked(fs_info);
4245215dSMiao Xie		rbio->generic_bio_cnt = 1;
4245215dSMiao Xie	} else {
4c664611SQu Wenruo		btrfs_get_bioc(bioc);
4245215dSMiao Xie	}
4245215dSMiao Xie
53b381b3SDavid Woodhouse	/*
8810f751SLiu Bo	 * Loop retry:
8810f751SLiu Bo	 * for 'mirror == 2', reconstruct from all other stripes.
8810f751SLiu Bo	 * for 'mirror_num > 2', select a stripe to fail on every retry.
53b381b3SDavid Woodhouse	 */
8810f751SLiu Bo	if (mirror_num > 2) {
8810f751SLiu Bo		/*
8810f751SLiu Bo		 * 'mirror == 3' is to fail the p stripe and
8810f751SLiu Bo		 * reconstruct from the q stripe.  'mirror > 3' is to
8810f751SLiu Bo		 * fail a data stripe and reconstruct from p+q stripe.
8810f751SLiu Bo		 */
8810f751SLiu Bo		rbio->failb = rbio->real_stripes - (mirror_num - 1);
8810f751SLiu Bo		ASSERT(rbio->failb > 0);
8810f751SLiu Bo		if (rbio->failb <= rbio->faila)
8810f751SLiu Bo			rbio->failb--;
8810f751SLiu Bo	}
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	ret = lock_stripe_add(rbio);
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	/*
53b381b3SDavid Woodhouse	 * __raid56_parity_recover will end the bio with
53b381b3SDavid Woodhouse	 * any errors it hits.  We don't want to return
53b381b3SDavid Woodhouse	 * its error value up the stack because our caller
53b381b3SDavid Woodhouse	 * will end up calling bio_endio with any nonzero
53b381b3SDavid Woodhouse	 * return
53b381b3SDavid Woodhouse	 */
53b381b3SDavid Woodhouse	if (ret == 0)
53b381b3SDavid Woodhouse		__raid56_parity_recover(rbio);
53b381b3SDavid Woodhouse	/*
53b381b3SDavid Woodhouse	 * our rbio has been added to the list of
53b381b3SDavid Woodhouse	 * rbios that will be handled after the
53b381b3SDavid Woodhouse	 * currently lock owner is done
53b381b3SDavid Woodhouse	 */
53b381b3SDavid Woodhouse	return 0;
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse}
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhousestatic void rmw_work(struct btrfs_work *work)
53b381b3SDavid Woodhouse{
53b381b3SDavid Woodhouse	struct btrfs_raid_bio *rbio;
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	rbio = container_of(work, struct btrfs_raid_bio, work);
53b381b3SDavid Woodhouse	raid56_rmw_stripe(rbio);
53b381b3SDavid Woodhouse}
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhousestatic void read_rebuild_work(struct btrfs_work *work)
53b381b3SDavid Woodhouse{
53b381b3SDavid Woodhouse	struct btrfs_raid_bio *rbio;
53b381b3SDavid Woodhouse
53b381b3SDavid Woodhouse	rbio = container_of(work, struct btrfs_raid_bio, work);
53b381b3SDavid Woodhouse	__raid56_parity_recover(rbio);
53b381b3SDavid Woodhouse}
5a6ac9eaSMiao Xie
5a6ac9eaSMiao Xie/*
5a6ac9eaSMiao Xie * The following code is used to scrub/replace the parity stripe
5a6ac9eaSMiao Xie *
4c664611SQu Wenruo * Caller must have already increased bio_counter for getting @bioc.
ae6529c3SQu Wenruo *
5a6ac9eaSMiao Xie * Note: We need make sure all the pages that add into the scrub/replace
5a6ac9eaSMiao Xie * raid bio are correct and not be changed during the scrub/replace. That
5a6ac9eaSMiao Xie * is those pages just hold metadata or file data with checksum.
5a6ac9eaSMiao Xie */
5a6ac9eaSMiao Xie
6a258d72SQu Wenruostruct btrfs_raid_bio *raid56_parity_alloc_scrub_rbio(struct bio *bio,
6a258d72SQu Wenruo				struct btrfs_io_context *bioc,
cc353a8bSQu Wenruo				u32 stripe_len, struct btrfs_device *scrub_dev,
5a6ac9eaSMiao Xie				unsigned long *dbitmap, int stripe_nsectors)
5a6ac9eaSMiao Xie{
6a258d72SQu Wenruo	struct btrfs_fs_info *fs_info = bioc->fs_info;
5a6ac9eaSMiao Xie	struct btrfs_raid_bio *rbio;
5a6ac9eaSMiao Xie	int i;
5a6ac9eaSMiao Xie
4c664611SQu Wenruo	rbio = alloc_rbio(fs_info, bioc, stripe_len);
5a6ac9eaSMiao Xie	if (IS_ERR(rbio))
5a6ac9eaSMiao Xie		return NULL;
5a6ac9eaSMiao Xie	bio_list_add(&rbio->bio_list, bio);
5a6ac9eaSMiao Xie	/*
5a6ac9eaSMiao Xie	 * This is a special bio which is used to hold the completion handler
5a6ac9eaSMiao Xie	 * and make the scrub rbio is similar to the other types
5a6ac9eaSMiao Xie	 */
5a6ac9eaSMiao Xie	ASSERT(!bio->bi_iter.bi_size);
5a6ac9eaSMiao Xie	rbio->operation = BTRFS_RBIO_PARITY_SCRUB;
5a6ac9eaSMiao Xie
9cd3a7ebSLiu Bo	/*
4c664611SQu Wenruo	 * After mapping bioc with BTRFS_MAP_WRITE, parities have been sorted
9cd3a7ebSLiu Bo	 * to the end position, so this search can start from the first parity
9cd3a7ebSLiu Bo	 * stripe.
9cd3a7ebSLiu Bo	 */
9cd3a7ebSLiu Bo	for (i = rbio->nr_data; i < rbio->real_stripes; i++) {
4c664611SQu Wenruo		if (bioc->stripes[i].dev == scrub_dev) {
5a6ac9eaSMiao Xie			rbio->scrubp = i;
5a6ac9eaSMiao Xie			break;
5a6ac9eaSMiao Xie		}
5a6ac9eaSMiao Xie	}
9cd3a7ebSLiu Bo	ASSERT(i < rbio->real_stripes);
5a6ac9eaSMiao Xie
5a6ac9eaSMiao Xie	/* Now we just support the sectorsize equals to page size */
0b246afaSJeff Mahoney	ASSERT(fs_info->sectorsize == PAGE_SIZE);
5a6ac9eaSMiao Xie	ASSERT(rbio->stripe_npages == stripe_nsectors);
5a6ac9eaSMiao Xie	bitmap_copy(rbio->dbitmap, dbitmap, stripe_nsectors);
5a6ac9eaSMiao Xie
ae6529c3SQu Wenruo	/*
4c664611SQu Wenruo	 * We have already increased bio_counter when getting bioc, record it
ae6529c3SQu Wenruo	 * so we can free it at rbio_orig_end_io().
ae6529c3SQu Wenruo	 */
ae6529c3SQu Wenruo	rbio->generic_bio_cnt = 1;
ae6529c3SQu Wenruo
5a6ac9eaSMiao Xie	return rbio;
5a6ac9eaSMiao Xie}
5a6ac9eaSMiao Xie
b4ee1782SOmar Sandoval/* Used for both parity scrub and missing. */
b4ee1782SOmar Sandovalvoid raid56_add_scrub_pages(struct btrfs_raid_bio *rbio, struct page *page,
6346f6bfSQu Wenruo			    unsigned int pgoff, u64 logical)
5a6ac9eaSMiao Xie{
6346f6bfSQu Wenruo	const u32 sectorsize = rbio->bioc->fs_info->sectorsize;
5a6ac9eaSMiao Xie	int stripe_offset;
5a6ac9eaSMiao Xie	int index;
5a6ac9eaSMiao Xie
4c664611SQu Wenruo	ASSERT(logical >= rbio->bioc->raid_map[0]);
6346f6bfSQu Wenruo	ASSERT(logical + sectorsize <= rbio->bioc->raid_map[0] +
5a6ac9eaSMiao Xie				rbio->stripe_len * rbio->nr_data);
4c664611SQu Wenruo	stripe_offset = (int)(logical - rbio->bioc->raid_map[0]);
6346f6bfSQu Wenruo	index = stripe_offset / sectorsize;
6346f6bfSQu Wenruo	rbio->bio_sectors[index].page = page;
6346f6bfSQu Wenruo	rbio->bio_sectors[index].pgoff = pgoff;
5a6ac9eaSMiao Xie}
5a6ac9eaSMiao Xie
5a6ac9eaSMiao Xie/*
5a6ac9eaSMiao Xie * We just scrub the parity that we have correct data on the same horizontal,
5a6ac9eaSMiao Xie * so we needn't allocate all pages for all the stripes.
5a6ac9eaSMiao Xie */
5a6ac9eaSMiao Xiestatic int alloc_rbio_essential_pages(struct btrfs_raid_bio *rbio)
5a6ac9eaSMiao Xie{
*3907ce29SQu Wenruo	const u32 sectorsize = rbio->bioc->fs_info->sectorsize;
*3907ce29SQu Wenruo	int stripe;
*3907ce29SQu Wenruo	int sectornr;
5a6ac9eaSMiao Xie
*3907ce29SQu Wenruo	for_each_set_bit(sectornr, rbio->dbitmap, rbio->stripe_nsectors) {
*3907ce29SQu Wenruo		for (stripe = 0; stripe < rbio->real_stripes; stripe++) {
*3907ce29SQu Wenruo			struct page *page;
*3907ce29SQu Wenruo			int index = (stripe * rbio->stripe_nsectors + sectornr) *
*3907ce29SQu Wenruo				    sectorsize >> PAGE_SHIFT;
*3907ce29SQu Wenruo
5a6ac9eaSMiao Xie			if (rbio->stripe_pages[index])
5a6ac9eaSMiao Xie				continue;
5a6ac9eaSMiao Xie
b0ee5e1eSDavid Sterba			page = alloc_page(GFP_NOFS);
5a6ac9eaSMiao Xie			if (!page)
5a6ac9eaSMiao Xie				return -ENOMEM;
5a6ac9eaSMiao Xie			rbio->stripe_pages[index] = page;
5a6ac9eaSMiao Xie		}
5a6ac9eaSMiao Xie	}
eb357060SQu Wenruo	index_stripe_sectors(rbio);
5a6ac9eaSMiao Xie	return 0;
5a6ac9eaSMiao Xie}
5a6ac9eaSMiao Xie
5a6ac9eaSMiao Xiestatic noinline void finish_parity_scrub(struct btrfs_raid_bio *rbio,
5a6ac9eaSMiao Xie					 int need_check)
5a6ac9eaSMiao Xie{
4c664611SQu Wenruo	struct btrfs_io_context *bioc = rbio->bioc;
46900662SQu Wenruo	const u32 sectorsize = bioc->fs_info->sectorsize;
1389053eSKees Cook	void **pointers = rbio->finish_pointers;
1389053eSKees Cook	unsigned long *pbitmap = rbio->finish_pbitmap;
5a6ac9eaSMiao Xie	int nr_data = rbio->nr_data;
5a6ac9eaSMiao Xie	int stripe;
3e77605dSQu Wenruo	int sectornr;
c17af965SDavid Sterba	bool has_qstripe;
46900662SQu Wenruo	struct sector_ptr p_sector = { 0 };
46900662SQu Wenruo	struct sector_ptr q_sector = { 0 };
5a6ac9eaSMiao Xie	struct bio_list bio_list;
5a6ac9eaSMiao Xie	struct bio *bio;
76035976SMiao Xie	int is_replace = 0;
5a6ac9eaSMiao Xie	int ret;
5a6ac9eaSMiao Xie
5a6ac9eaSMiao Xie	bio_list_init(&bio_list);
5a6ac9eaSMiao Xie
c17af965SDavid Sterba	if (rbio->real_stripes - rbio->nr_data == 1)
c17af965SDavid Sterba		has_qstripe = false;
c17af965SDavid Sterba	else if (rbio->real_stripes - rbio->nr_data == 2)
c17af965SDavid Sterba		has_qstripe = true;
c17af965SDavid Sterba	else
5a6ac9eaSMiao Xie		BUG();
5a6ac9eaSMiao Xie
4c664611SQu Wenruo	if (bioc->num_tgtdevs && bioc->tgtdev_map[rbio->scrubp]) {
76035976SMiao Xie		is_replace = 1;
3e77605dSQu Wenruo		bitmap_copy(pbitmap, rbio->dbitmap, rbio->stripe_nsectors);
76035976SMiao Xie	}
76035976SMiao Xie
5a6ac9eaSMiao Xie	/*
5a6ac9eaSMiao Xie	 * Because the higher layers(scrubber) are unlikely to
5a6ac9eaSMiao Xie	 * use this area of the disk again soon, so don't cache
5a6ac9eaSMiao Xie	 * it.
5a6ac9eaSMiao Xie	 */
5a6ac9eaSMiao Xie	clear_bit(RBIO_CACHE_READY_BIT, &rbio->flags);
5a6ac9eaSMiao Xie
5a6ac9eaSMiao Xie	if (!need_check)
5a6ac9eaSMiao Xie		goto writeback;
5a6ac9eaSMiao Xie
46900662SQu Wenruo	p_sector.page = alloc_page(GFP_NOFS);
46900662SQu Wenruo	if (!p_sector.page)
5a6ac9eaSMiao Xie		goto cleanup;
46900662SQu Wenruo	p_sector.pgoff = 0;
46900662SQu Wenruo	p_sector.uptodate = 1;
5a6ac9eaSMiao Xie
c17af965SDavid Sterba	if (has_qstripe) {
d70cef0dSIra Weiny		/* RAID6, allocate and map temp space for the Q stripe */
46900662SQu Wenruo		q_sector.page = alloc_page(GFP_NOFS);
46900662SQu Wenruo		if (!q_sector.page) {
46900662SQu Wenruo			__free_page(p_sector.page);
46900662SQu Wenruo			p_sector.page = NULL;
5a6ac9eaSMiao Xie			goto cleanup;
5a6ac9eaSMiao Xie		}
46900662SQu Wenruo		q_sector.pgoff = 0;
46900662SQu Wenruo		q_sector.uptodate = 1;
46900662SQu Wenruo		pointers[rbio->real_stripes - 1] = kmap_local_page(q_sector.page);
5a6ac9eaSMiao Xie	}
5a6ac9eaSMiao Xie
5a6ac9eaSMiao Xie	atomic_set(&rbio->error, 0);
5a6ac9eaSMiao Xie
d70cef0dSIra Weiny	/* Map the parity stripe just once */
46900662SQu Wenruo	pointers[nr_data] = kmap_local_page(p_sector.page);
d70cef0dSIra Weiny
3e77605dSQu Wenruo	for_each_set_bit(sectornr, rbio->dbitmap, rbio->stripe_nsectors) {
46900662SQu Wenruo		struct sector_ptr *sector;
5a6ac9eaSMiao Xie		void *parity;
46900662SQu Wenruo
5a6ac9eaSMiao Xie		/* first collect one page from each data stripe */
5a6ac9eaSMiao Xie		for (stripe = 0; stripe < nr_data; stripe++) {
46900662SQu Wenruo			sector = sector_in_rbio(rbio, stripe, sectornr, 0);
46900662SQu Wenruo			pointers[stripe] = kmap_local_page(sector->page) +
46900662SQu Wenruo					   sector->pgoff;
5a6ac9eaSMiao Xie		}
5a6ac9eaSMiao Xie
c17af965SDavid Sterba		if (has_qstripe) {
d70cef0dSIra Weiny			/* RAID6, call the library function to fill in our P/Q */
46900662SQu Wenruo			raid6_call.gen_syndrome(rbio->real_stripes, sectorsize,
5a6ac9eaSMiao Xie						pointers);
5a6ac9eaSMiao Xie		} else {
5a6ac9eaSMiao Xie			/* raid5 */
46900662SQu Wenruo			memcpy(pointers[nr_data], pointers[0], sectorsize);
46900662SQu Wenruo			run_xor(pointers + 1, nr_data - 1, sectorsize);
5a6ac9eaSMiao Xie		}
5a6ac9eaSMiao Xie
01327610SNicholas D Steeves		/* Check scrubbing parity and repair it */
46900662SQu Wenruo		sector = rbio_stripe_sector(rbio, rbio->scrubp, sectornr);
46900662SQu Wenruo		parity = kmap_local_page(sector->page) + sector->pgoff;
46900662SQu Wenruo		if (memcmp(parity, pointers[rbio->scrubp], sectorsize) != 0)
46900662SQu Wenruo			memcpy(parity, pointers[rbio->scrubp], sectorsize);
5a6ac9eaSMiao Xie		else
5a6ac9eaSMiao Xie			/* Parity is right, needn't writeback */
3e77605dSQu Wenruo			bitmap_clear(rbio->dbitmap, sectornr, 1);
58c1a35cSIra Weiny		kunmap_local(parity);
5a6ac9eaSMiao Xie
94a0b58dSIra Weiny		for (stripe = nr_data - 1; stripe >= 0; stripe--)
94a0b58dSIra Weiny			kunmap_local(pointers[stripe]);
5a6ac9eaSMiao Xie	}
5a6ac9eaSMiao Xie
94a0b58dSIra Weiny	kunmap_local(pointers[nr_data]);
46900662SQu Wenruo	__free_page(p_sector.page);
46900662SQu Wenruo	p_sector.page = NULL;
46900662SQu Wenruo	if (q_sector.page) {
94a0b58dSIra Weiny		kunmap_local(pointers[rbio->real_stripes - 1]);
46900662SQu Wenruo		__free_page(q_sector.page);
46900662SQu Wenruo		q_sector.page = NULL;
d70cef0dSIra Weiny	}
5a6ac9eaSMiao Xie
5a6ac9eaSMiao Xiewriteback:
5a6ac9eaSMiao Xie	/*
5a6ac9eaSMiao Xie	 * time to start writing.  Make bios for everything from the
5a6ac9eaSMiao Xie	 * higher layers (the bio_list in our rbio) and our p/q.  Ignore
5a6ac9eaSMiao Xie	 * everything else.
5a6ac9eaSMiao Xie	 */
3e77605dSQu Wenruo	for_each_set_bit(sectornr, rbio->dbitmap, rbio->stripe_nsectors) {
3e77605dSQu Wenruo		struct sector_ptr *sector;
5a6ac9eaSMiao Xie
3e77605dSQu Wenruo		sector = rbio_stripe_sector(rbio, rbio->scrubp, sectornr);
3e77605dSQu Wenruo		ret = rbio_add_io_sector(rbio, &bio_list, sector, rbio->scrubp,
3e77605dSQu Wenruo					 sectornr, rbio->stripe_len, REQ_OP_WRITE);
5a6ac9eaSMiao Xie		if (ret)
5a6ac9eaSMiao Xie			goto cleanup;
5a6ac9eaSMiao Xie	}
5a6ac9eaSMiao Xie
76035976SMiao Xie	if (!is_replace)
76035976SMiao Xie		goto submit_write;
76035976SMiao Xie
3e77605dSQu Wenruo	for_each_set_bit(sectornr, pbitmap, rbio->stripe_nsectors) {
3e77605dSQu Wenruo		struct sector_ptr *sector;
76035976SMiao Xie
3e77605dSQu Wenruo		sector = rbio_stripe_sector(rbio, rbio->scrubp, sectornr);
3e77605dSQu Wenruo		ret = rbio_add_io_sector(rbio, &bio_list, sector,
4c664611SQu Wenruo				       bioc->tgtdev_map[rbio->scrubp],
3e77605dSQu Wenruo				       sectornr, rbio->stripe_len, REQ_OP_WRITE);
76035976SMiao Xie		if (ret)
76035976SMiao Xie			goto cleanup;
76035976SMiao Xie	}
76035976SMiao Xie
76035976SMiao Xiesubmit_write:
5a6ac9eaSMiao Xie	nr_data = bio_list_size(&bio_list);
5a6ac9eaSMiao Xie	if (!nr_data) {
5a6ac9eaSMiao Xie		/* Every parity is right */
58efbc9fSOmar Sandoval		rbio_orig_end_io(rbio, BLK_STS_OK);
5a6ac9eaSMiao Xie		return;
5a6ac9eaSMiao Xie	}
5a6ac9eaSMiao Xie
5a6ac9eaSMiao Xie	atomic_set(&rbio->stripes_pending, nr_data);
5a6ac9eaSMiao Xie
bf28a605SNikolay Borisov	while ((bio = bio_list_pop(&bio_list))) {
a6111d11SZhao Lei		bio->bi_end_io = raid_write_end_io;
4e49ea4aSMike Christie
4e49ea4aSMike Christie		submit_bio(bio);
5a6ac9eaSMiao Xie	}
5a6ac9eaSMiao Xie	return;
5a6ac9eaSMiao Xie
5a6ac9eaSMiao Xiecleanup:
58efbc9fSOmar Sandoval	rbio_orig_end_io(rbio, BLK_STS_IOERR);
785884fcSLiu Bo
785884fcSLiu Bo	while ((bio = bio_list_pop(&bio_list)))
785884fcSLiu Bo		bio_put(bio);
5a6ac9eaSMiao Xie}
5a6ac9eaSMiao Xie
5a6ac9eaSMiao Xiestatic inline int is_data_stripe(struct btrfs_raid_bio *rbio, int stripe)
5a6ac9eaSMiao Xie{
5a6ac9eaSMiao Xie	if (stripe >= 0 && stripe < rbio->nr_data)
5a6ac9eaSMiao Xie		return 1;
5a6ac9eaSMiao Xie	return 0;
5a6ac9eaSMiao Xie}
5a6ac9eaSMiao Xie
5a6ac9eaSMiao Xie/*
5a6ac9eaSMiao Xie * While we're doing the parity check and repair, we could have errors
5a6ac9eaSMiao Xie * in reading pages off the disk.  This checks for errors and if we're
5a6ac9eaSMiao Xie * not able to read the page it'll trigger parity reconstruction.  The
5a6ac9eaSMiao Xie * parity scrub will be finished after we've reconstructed the failed
5a6ac9eaSMiao Xie * stripes
5a6ac9eaSMiao Xie */
5a6ac9eaSMiao Xiestatic void validate_rbio_for_parity_scrub(struct btrfs_raid_bio *rbio)
5a6ac9eaSMiao Xie{
4c664611SQu Wenruo	if (atomic_read(&rbio->error) > rbio->bioc->max_errors)
5a6ac9eaSMiao Xie		goto cleanup;
5a6ac9eaSMiao Xie
5a6ac9eaSMiao Xie	if (rbio->faila >= 0 || rbio->failb >= 0) {
5a6ac9eaSMiao Xie		int dfail = 0, failp = -1;
5a6ac9eaSMiao Xie
5a6ac9eaSMiao Xie		if (is_data_stripe(rbio, rbio->faila))
5a6ac9eaSMiao Xie			dfail++;
5a6ac9eaSMiao Xie		else if (is_parity_stripe(rbio->faila))
5a6ac9eaSMiao Xie			failp = rbio->faila;
5a6ac9eaSMiao Xie
5a6ac9eaSMiao Xie		if (is_data_stripe(rbio, rbio->failb))
5a6ac9eaSMiao Xie			dfail++;
5a6ac9eaSMiao Xie		else if (is_parity_stripe(rbio->failb))
5a6ac9eaSMiao Xie			failp = rbio->failb;
5a6ac9eaSMiao Xie
5a6ac9eaSMiao Xie		/*
5a6ac9eaSMiao Xie		 * Because we can not use a scrubbing parity to repair
5a6ac9eaSMiao Xie		 * the data, so the capability of the repair is declined.
5a6ac9eaSMiao Xie		 * (In the case of RAID5, we can not repair anything)
5a6ac9eaSMiao Xie		 */
4c664611SQu Wenruo		if (dfail > rbio->bioc->max_errors - 1)
5a6ac9eaSMiao Xie			goto cleanup;
5a6ac9eaSMiao Xie
5a6ac9eaSMiao Xie		/*
5a6ac9eaSMiao Xie		 * If all data is good, only parity is correctly, just
5a6ac9eaSMiao Xie		 * repair the parity.
5a6ac9eaSMiao Xie		 */
5a6ac9eaSMiao Xie		if (dfail == 0) {
5a6ac9eaSMiao Xie			finish_parity_scrub(rbio, 0);
5a6ac9eaSMiao Xie			return;
5a6ac9eaSMiao Xie		}
5a6ac9eaSMiao Xie
5a6ac9eaSMiao Xie		/*
5a6ac9eaSMiao Xie		 * Here means we got one corrupted data stripe and one
5a6ac9eaSMiao Xie		 * corrupted parity on RAID6, if the corrupted parity
01327610SNicholas D Steeves		 * is scrubbing parity, luckily, use the other one to repair
5a6ac9eaSMiao Xie		 * the data, or we can not repair the data stripe.
5a6ac9eaSMiao Xie		 */
5a6ac9eaSMiao Xie		if (failp != rbio->scrubp)
5a6ac9eaSMiao Xie			goto cleanup;
5a6ac9eaSMiao Xie
5a6ac9eaSMiao Xie		__raid_recover_end_io(rbio);
5a6ac9eaSMiao Xie	} else {
5a6ac9eaSMiao Xie		finish_parity_scrub(rbio, 1);
5a6ac9eaSMiao Xie	}
5a6ac9eaSMiao Xie	return;
5a6ac9eaSMiao Xie
5a6ac9eaSMiao Xiecleanup:
58efbc9fSOmar Sandoval	rbio_orig_end_io(rbio, BLK_STS_IOERR);
5a6ac9eaSMiao Xie}
5a6ac9eaSMiao Xie
5a6ac9eaSMiao Xie/*
5a6ac9eaSMiao Xie * end io for the read phase of the rmw cycle.  All the bios here are physical
5a6ac9eaSMiao Xie * stripe bios we've read from the disk so we can recalculate the parity of the
5a6ac9eaSMiao Xie * stripe.
5a6ac9eaSMiao Xie *
5a6ac9eaSMiao Xie * This will usually kick off finish_rmw once all the bios are read in, but it
5a6ac9eaSMiao Xie * may trigger parity reconstruction if we had any errors along the way
5a6ac9eaSMiao Xie */
4246a0b6SChristoph Hellwigstatic void raid56_parity_scrub_end_io(struct bio *bio)
5a6ac9eaSMiao Xie{
5a6ac9eaSMiao Xie	struct btrfs_raid_bio *rbio = bio->bi_private;
5a6ac9eaSMiao Xie
4e4cbee9SChristoph Hellwig	if (bio->bi_status)
5a6ac9eaSMiao Xie		fail_bio_stripe(rbio, bio);
5a6ac9eaSMiao Xie	else
5fdb7afcSQu Wenruo		set_bio_pages_uptodate(rbio, bio);
5a6ac9eaSMiao Xie
5a6ac9eaSMiao Xie	bio_put(bio);
5a6ac9eaSMiao Xie
5a6ac9eaSMiao Xie	if (!atomic_dec_and_test(&rbio->stripes_pending))
5a6ac9eaSMiao Xie		return;
5a6ac9eaSMiao Xie
5a6ac9eaSMiao Xie	/*
5a6ac9eaSMiao Xie	 * this will normally call finish_rmw to start our write
5a6ac9eaSMiao Xie	 * but if there are any failed stripes we'll reconstruct
5a6ac9eaSMiao Xie	 * from parity first
5a6ac9eaSMiao Xie	 */
5a6ac9eaSMiao Xie	validate_rbio_for_parity_scrub(rbio);
5a6ac9eaSMiao Xie}
5a6ac9eaSMiao Xie
5a6ac9eaSMiao Xiestatic void raid56_parity_scrub_stripe(struct btrfs_raid_bio *rbio)
5a6ac9eaSMiao Xie{
5a6ac9eaSMiao Xie	int bios_to_read = 0;
5a6ac9eaSMiao Xie	struct bio_list bio_list;
5a6ac9eaSMiao Xie	int ret;
3e77605dSQu Wenruo	int sectornr;
5a6ac9eaSMiao Xie	int stripe;
5a6ac9eaSMiao Xie	struct bio *bio;
5a6ac9eaSMiao Xie
785884fcSLiu Bo	bio_list_init(&bio_list);
785884fcSLiu Bo
5a6ac9eaSMiao Xie	ret = alloc_rbio_essential_pages(rbio);
5a6ac9eaSMiao Xie	if (ret)
5a6ac9eaSMiao Xie		goto cleanup;
5a6ac9eaSMiao Xie
5a6ac9eaSMiao Xie	atomic_set(&rbio->error, 0);
5a6ac9eaSMiao Xie	/*
5a6ac9eaSMiao Xie	 * build a list of bios to read all the missing parts of this
5a6ac9eaSMiao Xie	 * stripe
5a6ac9eaSMiao Xie	 */
2c8cdd6eSMiao Xie	for (stripe = 0; stripe < rbio->real_stripes; stripe++) {
3e77605dSQu Wenruo		for_each_set_bit(sectornr , rbio->dbitmap, rbio->stripe_nsectors) {
3e77605dSQu Wenruo			struct sector_ptr *sector;
5a6ac9eaSMiao Xie			/*
3e77605dSQu Wenruo			 * We want to find all the sectors missing from the
3e77605dSQu Wenruo			 * rbio and read them from the disk.  If * sector_in_rbio()
3e77605dSQu Wenruo			 * finds a sector in the bio list we don't need to read
3e77605dSQu Wenruo			 * it off the stripe.
5a6ac9eaSMiao Xie			 */
3e77605dSQu Wenruo			sector = sector_in_rbio(rbio, stripe, sectornr, 1);
3e77605dSQu Wenruo			if (sector)
5a6ac9eaSMiao Xie				continue;
5a6ac9eaSMiao Xie
3e77605dSQu Wenruo			sector = rbio_stripe_sector(rbio, stripe, sectornr);
5a6ac9eaSMiao Xie			/*
3e77605dSQu Wenruo			 * The bio cache may have handed us an uptodate sector.
3e77605dSQu Wenruo			 * If so, be happy and use it.
5a6ac9eaSMiao Xie			 */
3e77605dSQu Wenruo			if (sector->uptodate)
5a6ac9eaSMiao Xie				continue;
5a6ac9eaSMiao Xie
3e77605dSQu Wenruo			ret = rbio_add_io_sector(rbio, &bio_list, sector,
3e77605dSQu Wenruo						 stripe, sectornr, rbio->stripe_len,
3e77605dSQu Wenruo						 REQ_OP_READ);
5a6ac9eaSMiao Xie			if (ret)
5a6ac9eaSMiao Xie				goto cleanup;
5a6ac9eaSMiao Xie		}
5a6ac9eaSMiao Xie	}
5a6ac9eaSMiao Xie
5a6ac9eaSMiao Xie	bios_to_read = bio_list_size(&bio_list);
5a6ac9eaSMiao Xie	if (!bios_to_read) {
5a6ac9eaSMiao Xie		/*
5a6ac9eaSMiao Xie		 * this can happen if others have merged with
5a6ac9eaSMiao Xie		 * us, it means there is nothing left to read.
5a6ac9eaSMiao Xie		 * But if there are missing devices it may not be
5a6ac9eaSMiao Xie		 * safe to do the full stripe write yet.
5a6ac9eaSMiao Xie		 */
5a6ac9eaSMiao Xie		goto finish;
5a6ac9eaSMiao Xie	}
5a6ac9eaSMiao Xie
5a6ac9eaSMiao Xie	/*
4c664611SQu Wenruo	 * The bioc may be freed once we submit the last bio. Make sure not to
4c664611SQu Wenruo	 * touch it after that.
5a6ac9eaSMiao Xie	 */
5a6ac9eaSMiao Xie	atomic_set(&rbio->stripes_pending, bios_to_read);
bf28a605SNikolay Borisov	while ((bio = bio_list_pop(&bio_list))) {
5a6ac9eaSMiao Xie		bio->bi_end_io = raid56_parity_scrub_end_io;
5a6ac9eaSMiao Xie
6a258d72SQu Wenruo		btrfs_bio_wq_end_io(rbio->bioc->fs_info, bio, BTRFS_WQ_ENDIO_RAID56);
5a6ac9eaSMiao Xie
4e49ea4aSMike Christie		submit_bio(bio);
5a6ac9eaSMiao Xie	}
5a6ac9eaSMiao Xie	/* the actual write will happen once the reads are done */
5a6ac9eaSMiao Xie	return;
5a6ac9eaSMiao Xie
5a6ac9eaSMiao Xiecleanup:
58efbc9fSOmar Sandoval	rbio_orig_end_io(rbio, BLK_STS_IOERR);
785884fcSLiu Bo
785884fcSLiu Bo	while ((bio = bio_list_pop(&bio_list)))
785884fcSLiu Bo		bio_put(bio);
785884fcSLiu Bo
5a6ac9eaSMiao Xie	return;
5a6ac9eaSMiao Xie
5a6ac9eaSMiao Xiefinish:
5a6ac9eaSMiao Xie	validate_rbio_for_parity_scrub(rbio);
5a6ac9eaSMiao Xie}
5a6ac9eaSMiao Xie
5a6ac9eaSMiao Xiestatic void scrub_parity_work(struct btrfs_work *work)
5a6ac9eaSMiao Xie{
5a6ac9eaSMiao Xie	struct btrfs_raid_bio *rbio;
5a6ac9eaSMiao Xie
5a6ac9eaSMiao Xie	rbio = container_of(work, struct btrfs_raid_bio, work);
5a6ac9eaSMiao Xie	raid56_parity_scrub_stripe(rbio);
5a6ac9eaSMiao Xie}
5a6ac9eaSMiao Xie
5a6ac9eaSMiao Xievoid raid56_parity_submit_scrub_rbio(struct btrfs_raid_bio *rbio)
5a6ac9eaSMiao Xie{
5a6ac9eaSMiao Xie	if (!lock_stripe_add(rbio))
a81b747dSDavid Sterba		start_async_work(rbio, scrub_parity_work);
5a6ac9eaSMiao Xie}
b4ee1782SOmar Sandoval
b4ee1782SOmar Sandoval/* The following code is used for dev replace of a missing RAID 5/6 device. */
b4ee1782SOmar Sandoval
b4ee1782SOmar Sandovalstruct btrfs_raid_bio *
6a258d72SQu Wenruoraid56_alloc_missing_rbio(struct bio *bio, struct btrfs_io_context *bioc,
6a258d72SQu Wenruo			  u64 length)
b4ee1782SOmar Sandoval{
6a258d72SQu Wenruo	struct btrfs_fs_info *fs_info = bioc->fs_info;
b4ee1782SOmar Sandoval	struct btrfs_raid_bio *rbio;
b4ee1782SOmar Sandoval
4c664611SQu Wenruo	rbio = alloc_rbio(fs_info, bioc, length);
b4ee1782SOmar Sandoval	if (IS_ERR(rbio))
b4ee1782SOmar Sandoval		return NULL;
b4ee1782SOmar Sandoval
b4ee1782SOmar Sandoval	rbio->operation = BTRFS_RBIO_REBUILD_MISSING;
b4ee1782SOmar Sandoval	bio_list_add(&rbio->bio_list, bio);
b4ee1782SOmar Sandoval	/*
b4ee1782SOmar Sandoval	 * This is a special bio which is used to hold the completion handler
b4ee1782SOmar Sandoval	 * and make the scrub rbio is similar to the other types
b4ee1782SOmar Sandoval	 */
b4ee1782SOmar Sandoval	ASSERT(!bio->bi_iter.bi_size);
b4ee1782SOmar Sandoval
b4ee1782SOmar Sandoval	rbio->faila = find_logical_bio_stripe(rbio, bio);
b4ee1782SOmar Sandoval	if (rbio->faila == -1) {
b4ee1782SOmar Sandoval		BUG();
b4ee1782SOmar Sandoval		kfree(rbio);
b4ee1782SOmar Sandoval		return NULL;
b4ee1782SOmar Sandoval	}
b4ee1782SOmar Sandoval
ae6529c3SQu Wenruo	/*
4c664611SQu Wenruo	 * When we get bioc, we have already increased bio_counter, record it
ae6529c3SQu Wenruo	 * so we can free it at rbio_orig_end_io()
ae6529c3SQu Wenruo	 */
ae6529c3SQu Wenruo	rbio->generic_bio_cnt = 1;
ae6529c3SQu Wenruo
b4ee1782SOmar Sandoval	return rbio;
b4ee1782SOmar Sandoval}
b4ee1782SOmar Sandoval
b4ee1782SOmar Sandovalvoid raid56_submit_missing_rbio(struct btrfs_raid_bio *rbio)
b4ee1782SOmar Sandoval{
b4ee1782SOmar Sandoval	if (!lock_stripe_add(rbio))
e66d8d5aSDavid Sterba		start_async_work(rbio, read_rebuild_work);
b4ee1782SOmar Sandoval}