linux/mm/migrate.c

b2441318SGreg Kroah-Hartman// SPDX-License-Identifier: GPL-2.0
b20a3503SChristoph Lameter/*
14e0f9bcSHugh Dickins * Memory Migration functionality - linux/mm/migrate.c
b20a3503SChristoph Lameter *
b20a3503SChristoph Lameter * Copyright (C) 2006 Silicon Graphics, Inc., Christoph Lameter
b20a3503SChristoph Lameter *
b20a3503SChristoph Lameter * Page migration was first developed in the context of the memory hotplug
b20a3503SChristoph Lameter * project. The main authors of the migration code are:
b20a3503SChristoph Lameter *
b20a3503SChristoph Lameter * IWAMOTO Toshihiro <iwamoto@valinux.co.jp>
b20a3503SChristoph Lameter * Hirokazu Takahashi <taka@valinux.co.jp>
b20a3503SChristoph Lameter * Dave Hansen <haveblue@us.ibm.com>
cde53535SChristoph Lameter * Christoph Lameter
b20a3503SChristoph Lameter */
b20a3503SChristoph Lameter
b20a3503SChristoph Lameter#include <linux/migrate.h>
b95f1b31SPaul Gortmaker#include <linux/export.h>
b20a3503SChristoph Lameter#include <linux/swap.h>
0697212aSChristoph Lameter#include <linux/swapops.h>
b20a3503SChristoph Lameter#include <linux/pagemap.h>
e23ca00bSChristoph Lameter#include <linux/buffer_head.h>
b20a3503SChristoph Lameter#include <linux/mm_inline.h>
b488893aSPavel Emelyanov#include <linux/nsproxy.h>
b20a3503SChristoph Lameter#include <linux/pagevec.h>
e9995ef9SHugh Dickins#include <linux/ksm.h>
b20a3503SChristoph Lameter#include <linux/rmap.h>
b20a3503SChristoph Lameter#include <linux/topology.h>
b20a3503SChristoph Lameter#include <linux/cpu.h>
b20a3503SChristoph Lameter#include <linux/cpuset.h>
04e62a29SChristoph Lameter#include <linux/writeback.h>
742755a1SChristoph Lameter#include <linux/mempolicy.h>
742755a1SChristoph Lameter#include <linux/vmalloc.h>
86c3a764SDavid Quigley#include <linux/security.h>
42cb14b1SHugh Dickins#include <linux/backing-dev.h>
bda807d4SMinchan Kim#include <linux/compaction.h>
4f5ca265SAdrian Bunk#include <linux/syscalls.h>
7addf443SDominik Brodowski#include <linux/compat.h>
290408d4SNaoya Horiguchi#include <linux/hugetlb.h>
8e6ac7faSAneesh Kumar K.V#include <linux/hugetlb_cgroup.h>
5a0e3ad6STejun Heo#include <linux/gfp.h>
df6ad698SJérôme Glisse#include <linux/pfn_t.h>
a5430ddaSJérôme Glisse#include <linux/memremap.h>
8315ada7SJérôme Glisse#include <linux/userfaultfd_k.h>
bf6bddf1SRafael Aquini#include <linux/balloon_compaction.h>
33c3fc71SVladimir Davydov#include <linux/page_idle.h>
d435edcaSVlastimil Babka#include <linux/page_owner.h>
6e84f315SIngo Molnar#include <linux/sched/mm.h>
197e7e52SLinus Torvalds#include <linux/ptrace.h>
34290e2cSRalph Campbell#include <linux/oom.h>
884a6e5dSDave Hansen#include <linux/memory.h>
ac16ec83SBaolin Wang#include <linux/random.h>
c574bbe9SHuang Ying#include <linux/sched/sysctl.h>
b20a3503SChristoph Lameter
0d1836c3SMichal Nazarewicz#include <asm/tlbflush.h>
0d1836c3SMichal Nazarewicz
7b2a2d4aSMel Gorman#include <trace/events/migrate.h>
7b2a2d4aSMel Gorman
b20a3503SChristoph Lameter#include "internal.h"
b20a3503SChristoph Lameter
9e5bcd61SYisheng Xieint isolate_movable_page(struct page *page, isolate_mode_t mode)
bda807d4SMinchan Kim{
bda807d4SMinchan Kim	struct address_space *mapping;
bda807d4SMinchan Kim
bda807d4SMinchan Kim	/*
bda807d4SMinchan Kim	 * Avoid burning cycles with pages that are yet under __free_pages(),
bda807d4SMinchan Kim	 * or just got freed under us.
bda807d4SMinchan Kim	 *
bda807d4SMinchan Kim	 * In case we 'win' a race for a movable page being freed under us and
bda807d4SMinchan Kim	 * raise its refcount preventing __free_pages() from doing its job
bda807d4SMinchan Kim	 * the put_page() at the end of this block will take care of
bda807d4SMinchan Kim	 * release this page, thus avoiding a nasty leakage.
bda807d4SMinchan Kim	 */
bda807d4SMinchan Kim	if (unlikely(!get_page_unless_zero(page)))
bda807d4SMinchan Kim		goto out;
bda807d4SMinchan Kim
bda807d4SMinchan Kim	/*
bda807d4SMinchan Kim	 * Check PageMovable before holding a PG_lock because page's owner
bda807d4SMinchan Kim	 * assumes anybody doesn't touch PG_lock of newly allocated page
8bb4e7a2SWei Yang	 * so unconditionally grabbing the lock ruins page's owner side.
bda807d4SMinchan Kim	 */
bda807d4SMinchan Kim	if (unlikely(!__PageMovable(page)))
bda807d4SMinchan Kim		goto out_putpage;
bda807d4SMinchan Kim	/*
bda807d4SMinchan Kim	 * As movable pages are not isolated from LRU lists, concurrent
bda807d4SMinchan Kim	 * compaction threads can race against page migration functions
bda807d4SMinchan Kim	 * as well as race against the releasing a page.
bda807d4SMinchan Kim	 *
bda807d4SMinchan Kim	 * In order to avoid having an already isolated movable page
bda807d4SMinchan Kim	 * being (wrongly) re-isolated while it is under migration,
bda807d4SMinchan Kim	 * or to avoid attempting to isolate pages being released,
bda807d4SMinchan Kim	 * lets be sure we have the page lock
bda807d4SMinchan Kim	 * before proceeding with the movable page isolation steps.
bda807d4SMinchan Kim	 */
bda807d4SMinchan Kim	if (unlikely(!trylock_page(page)))
bda807d4SMinchan Kim		goto out_putpage;
bda807d4SMinchan Kim
bda807d4SMinchan Kim	if (!PageMovable(page) || PageIsolated(page))
bda807d4SMinchan Kim		goto out_no_isolated;
bda807d4SMinchan Kim
bda807d4SMinchan Kim	mapping = page_mapping(page);
bda807d4SMinchan Kim	VM_BUG_ON_PAGE(!mapping, page);
bda807d4SMinchan Kim
bda807d4SMinchan Kim	if (!mapping->a_ops->isolate_page(page, mode))
bda807d4SMinchan Kim		goto out_no_isolated;
bda807d4SMinchan Kim
bda807d4SMinchan Kim	/* Driver shouldn't use PG_isolated bit of page->flags */
bda807d4SMinchan Kim	WARN_ON_ONCE(PageIsolated(page));
356ea386Sandrew.yang	SetPageIsolated(page);
bda807d4SMinchan Kim	unlock_page(page);
bda807d4SMinchan Kim
9e5bcd61SYisheng Xie	return 0;
bda807d4SMinchan Kim
bda807d4SMinchan Kimout_no_isolated:
bda807d4SMinchan Kim	unlock_page(page);
bda807d4SMinchan Kimout_putpage:
bda807d4SMinchan Kim	put_page(page);
bda807d4SMinchan Kimout:
9e5bcd61SYisheng Xie	return -EBUSY;
bda807d4SMinchan Kim}
bda807d4SMinchan Kim
606a6f71SMiaohe Linstatic void putback_movable_page(struct page *page)
bda807d4SMinchan Kim{
bda807d4SMinchan Kim	struct address_space *mapping;
bda807d4SMinchan Kim
bda807d4SMinchan Kim	mapping = page_mapping(page);
bda807d4SMinchan Kim	mapping->a_ops->putback_page(page);
356ea386Sandrew.yang	ClearPageIsolated(page);
bda807d4SMinchan Kim}
bda807d4SMinchan Kim
b20a3503SChristoph Lameter/*
5733c7d1SRafael Aquini * Put previously isolated pages back onto the appropriate lists
5733c7d1SRafael Aquini * from where they were once taken off for compaction/migration.
5733c7d1SRafael Aquini *
59c82b70SJoonsoo Kim * This function shall be used whenever the isolated pageset has been
59c82b70SJoonsoo Kim * built from lru, balloon, hugetlbfs page. See isolate_migratepages_range()
7ce82f4cSMiaohe Lin * and isolate_hugetlb().
5733c7d1SRafael Aquini */
5733c7d1SRafael Aquinivoid putback_movable_pages(struct list_head *l)
5733c7d1SRafael Aquini{
5733c7d1SRafael Aquini	struct page *page;
5733c7d1SRafael Aquini	struct page *page2;
5733c7d1SRafael Aquini
5733c7d1SRafael Aquini	list_for_each_entry_safe(page, page2, l, lru) {
31caf665SNaoya Horiguchi		if (unlikely(PageHuge(page))) {
31caf665SNaoya Horiguchi			putback_active_hugepage(page);
31caf665SNaoya Horiguchi			continue;
31caf665SNaoya Horiguchi		}
5733c7d1SRafael Aquini		list_del(&page->lru);
bda807d4SMinchan Kim		/*
bda807d4SMinchan Kim		 * We isolated non-lru movable page so here we can use
bda807d4SMinchan Kim		 * __PageMovable because LRU page's mapping cannot have
bda807d4SMinchan Kim		 * PAGE_MAPPING_MOVABLE.
bda807d4SMinchan Kim		 */
b1123ea6SMinchan Kim		if (unlikely(__PageMovable(page))) {
bda807d4SMinchan Kim			VM_BUG_ON_PAGE(!PageIsolated(page), page);
bda807d4SMinchan Kim			lock_page(page);
bda807d4SMinchan Kim			if (PageMovable(page))
bda807d4SMinchan Kim				putback_movable_page(page);
bf6bddf1SRafael Aquini			else
356ea386Sandrew.yang				ClearPageIsolated(page);
bda807d4SMinchan Kim			unlock_page(page);
bda807d4SMinchan Kim			put_page(page);
bda807d4SMinchan Kim		} else {
e8db67ebSNaoya Horiguchi			mod_node_page_state(page_pgdat(page), NR_ISOLATED_ANON +
6c357848SMatthew Wilcox (Oracle)					page_is_file_lru(page), -thp_nr_pages(page));
fc280fe8SRabin Vincent			putback_lru_page(page);
b20a3503SChristoph Lameter		}
b20a3503SChristoph Lameter	}
bda807d4SMinchan Kim}
b20a3503SChristoph Lameter
0697212aSChristoph Lameter/*
0697212aSChristoph Lameter * Restore a potential migration pte to a working pte entry
0697212aSChristoph Lameter */
2f031c6fSMatthew Wilcox (Oracle)static bool remove_migration_pte(struct folio *folio,
2f031c6fSMatthew Wilcox (Oracle)		struct vm_area_struct *vma, unsigned long addr, void *old)
0697212aSChristoph Lameter{
4eecb8b9SMatthew Wilcox (Oracle)	DEFINE_FOLIO_VMA_WALK(pvmw, old, vma, addr, PVMW_SYNC | PVMW_MIGRATION);
0697212aSChristoph Lameter
3fe87967SKirill A. Shutemov	while (page_vma_mapped_walk(&pvmw)) {
6c287605SDavid Hildenbrand		rmap_t rmap_flags = RMAP_NONE;
0697212aSChristoph Lameter		pte_t pte;
0697212aSChristoph Lameter		swp_entry_t entry;
4eecb8b9SMatthew Wilcox (Oracle)		struct page *new;
4eecb8b9SMatthew Wilcox (Oracle)		unsigned long idx = 0;
0697212aSChristoph Lameter
4eecb8b9SMatthew Wilcox (Oracle)		/* pgoff is invalid for ksm pages, but they are never large */
4eecb8b9SMatthew Wilcox (Oracle)		if (folio_test_large(folio) && !folio_test_hugetlb(folio))
4eecb8b9SMatthew Wilcox (Oracle)			idx = linear_page_index(vma, pvmw.address) - pvmw.pgoff;
4eecb8b9SMatthew Wilcox (Oracle)		new = folio_page(folio, idx);
0697212aSChristoph Lameter
616b8371SZi Yan#ifdef CONFIG_ARCH_ENABLE_THP_MIGRATION
616b8371SZi Yan		/* PMD-mapped THP migration entry */
616b8371SZi Yan		if (!pvmw.pte) {
4eecb8b9SMatthew Wilcox (Oracle)			VM_BUG_ON_FOLIO(folio_test_hugetlb(folio) ||
4eecb8b9SMatthew Wilcox (Oracle)					!folio_test_pmd_mappable(folio), folio);
616b8371SZi Yan			remove_migration_pmd(&pvmw, new);
616b8371SZi Yan			continue;
616b8371SZi Yan		}
616b8371SZi Yan#endif
616b8371SZi Yan
4eecb8b9SMatthew Wilcox (Oracle)		folio_get(folio);
6d2329f8SAndrea Arcangeli		pte = pte_mkold(mk_pte(new, READ_ONCE(vma->vm_page_prot)));
3fe87967SKirill A. Shutemov		if (pte_swp_soft_dirty(*pvmw.pte))
c3d16e16SCyrill Gorcunov			pte = pte_mksoft_dirty(pte);
d3cb8bf6SMel Gorman
3fe87967SKirill A. Shutemov		/*
3fe87967SKirill A. Shutemov		 * Recheck VMA as permissions can change since migration started
3fe87967SKirill A. Shutemov		 */
3fe87967SKirill A. Shutemov		entry = pte_to_swp_entry(*pvmw.pte);
4dd845b5SAlistair Popple		if (is_writable_migration_entry(entry))
d3cb8bf6SMel Gorman			pte = maybe_mkwrite(pte, vma);
f45ec5ffSPeter Xu		else if (pte_swp_uffd_wp(*pvmw.pte))
f45ec5ffSPeter Xu			pte = pte_mkuffd_wp(pte);
d3cb8bf6SMel Gorman
6c287605SDavid Hildenbrand		if (folio_test_anon(folio) && !is_readable_migration_entry(entry))
6c287605SDavid Hildenbrand			rmap_flags |= RMAP_EXCLUSIVE;
6c287605SDavid Hildenbrand
6128763fSRalph Campbell		if (unlikely(is_device_private_page(new))) {
4dd845b5SAlistair Popple			if (pte_write(pte))
4dd845b5SAlistair Popple				entry = make_writable_device_private_entry(
4dd845b5SAlistair Popple							page_to_pfn(new));
4dd845b5SAlistair Popple			else
4dd845b5SAlistair Popple				entry = make_readable_device_private_entry(
4dd845b5SAlistair Popple							page_to_pfn(new));
a5430ddaSJérôme Glisse			pte = swp_entry_to_pte(entry);
3d321bf8SRalph Campbell			if (pte_swp_soft_dirty(*pvmw.pte))
3d321bf8SRalph Campbell				pte = pte_swp_mksoft_dirty(pte);
f45ec5ffSPeter Xu			if (pte_swp_uffd_wp(*pvmw.pte))
ebdf8321SAlistair Popple				pte = pte_swp_mkuffd_wp(pte);
df6ad698SJérôme Glisse		}
a5430ddaSJérôme Glisse
3ef8fd7fSAndi Kleen#ifdef CONFIG_HUGETLB_PAGE
4eecb8b9SMatthew Wilcox (Oracle)		if (folio_test_hugetlb(folio)) {
79c1c594SChristophe Leroy			unsigned int shift = huge_page_shift(hstate_vma(vma));
79c1c594SChristophe Leroy
290408d4SNaoya Horiguchi			pte = pte_mkhuge(pte);
79c1c594SChristophe Leroy			pte = arch_make_huge_pte(pte, shift, vma->vm_flags);
4eecb8b9SMatthew Wilcox (Oracle)			if (folio_test_anon(folio))
28c5209dSDavid Hildenbrand				hugepage_add_anon_rmap(new, vma, pvmw.address,
6c287605SDavid Hildenbrand						       rmap_flags);
290408d4SNaoya Horiguchi			else
fb3d824dSDavid Hildenbrand				page_dup_file_rmap(new, true);
1eba86c0SPasha Tatashin			set_huge_pte_at(vma->vm_mm, pvmw.address, pvmw.pte, pte);
383321abSAneesh Kumar K.V		} else
383321abSAneesh Kumar K.V#endif
383321abSAneesh Kumar K.V		{
4eecb8b9SMatthew Wilcox (Oracle)			if (folio_test_anon(folio))
f1e2db12SDavid Hildenbrand				page_add_anon_rmap(new, vma, pvmw.address,
6c287605SDavid Hildenbrand						   rmap_flags);
04e62a29SChristoph Lameter			else
cea86fe2SHugh Dickins				page_add_file_rmap(new, vma, false);
1eba86c0SPasha Tatashin			set_pte_at(vma->vm_mm, pvmw.address, pvmw.pte, pte);
383321abSAneesh Kumar K.V		}
b7435507SHugh Dickins		if (vma->vm_flags & VM_LOCKED)
adb11e78SSebastian Andrzej Siewior			mlock_page_drain_local();
e125fe40SKirill A. Shutemov
4cc79b33SAnshuman Khandual		trace_remove_migration_pte(pvmw.address, pte_val(pte),
4cc79b33SAnshuman Khandual					   compound_order(new));
4cc79b33SAnshuman Khandual
04e62a29SChristoph Lameter		/* No need to invalidate - it was non-present before */
3fe87967SKirill A. Shutemov		update_mmu_cache(vma, pvmw.address, pvmw.pte);
3fe87967SKirill A. Shutemov	}
3fe87967SKirill A. Shutemov
e4b82222SMinchan Kim	return true;
0697212aSChristoph Lameter}
0697212aSChristoph Lameter
0697212aSChristoph Lameter/*
04e62a29SChristoph Lameter * Get rid of all migration entries and replace them by
04e62a29SChristoph Lameter * references to the indicated page.
04e62a29SChristoph Lameter */
4eecb8b9SMatthew Wilcox (Oracle)void remove_migration_ptes(struct folio *src, struct folio *dst, bool locked)
04e62a29SChristoph Lameter{
051ac83aSJoonsoo Kim	struct rmap_walk_control rwc = {
051ac83aSJoonsoo Kim		.rmap_one = remove_migration_pte,
4eecb8b9SMatthew Wilcox (Oracle)		.arg = src,
051ac83aSJoonsoo Kim	};
051ac83aSJoonsoo Kim
e388466dSKirill A. Shutemov	if (locked)
2f031c6fSMatthew Wilcox (Oracle)		rmap_walk_locked(dst, &rwc);
e388466dSKirill A. Shutemov	else
2f031c6fSMatthew Wilcox (Oracle)		rmap_walk(dst, &rwc);
04e62a29SChristoph Lameter}
04e62a29SChristoph Lameter
04e62a29SChristoph Lameter/*
0697212aSChristoph Lameter * Something used the pte of a page under migration. We need to
0697212aSChristoph Lameter * get to the page and wait until migration is finished.
0697212aSChristoph Lameter * When we return from this function the fault will be retried.
0697212aSChristoph Lameter */
e66f17ffSNaoya Horiguchivoid __migration_entry_wait(struct mm_struct *mm, pte_t *ptep,
30dad309SNaoya Horiguchi				spinlock_t *ptl)
0697212aSChristoph Lameter{
30dad309SNaoya Horiguchi	pte_t pte;
0697212aSChristoph Lameter	swp_entry_t entry;
0697212aSChristoph Lameter
30dad309SNaoya Horiguchi	spin_lock(ptl);
0697212aSChristoph Lameter	pte = *ptep;
0697212aSChristoph Lameter	if (!is_swap_pte(pte))
0697212aSChristoph Lameter		goto out;
0697212aSChristoph Lameter
0697212aSChristoph Lameter	entry = pte_to_swp_entry(pte);
0697212aSChristoph Lameter	if (!is_migration_entry(entry))
0697212aSChristoph Lameter		goto out;
0697212aSChristoph Lameter
ffa65753SAlistair Popple	migration_entry_wait_on_locked(entry, ptep, ptl);
0697212aSChristoph Lameter	return;
0697212aSChristoph Lameterout:
0697212aSChristoph Lameter	pte_unmap_unlock(ptep, ptl);
0697212aSChristoph Lameter}
0697212aSChristoph Lameter
30dad309SNaoya Horiguchivoid migration_entry_wait(struct mm_struct *mm, pmd_t *pmd,
30dad309SNaoya Horiguchi				unsigned long address)
30dad309SNaoya Horiguchi{
30dad309SNaoya Horiguchi	spinlock_t *ptl = pte_lockptr(mm, pmd);
30dad309SNaoya Horiguchi	pte_t *ptep = pte_offset_map(pmd, address);
30dad309SNaoya Horiguchi	__migration_entry_wait(mm, ptep, ptl);
30dad309SNaoya Horiguchi}
30dad309SNaoya Horiguchi
*ad1ac596SMiaohe Lin#ifdef CONFIG_HUGETLB_PAGE
*ad1ac596SMiaohe Linvoid __migration_entry_wait_huge(pte_t *ptep, spinlock_t *ptl)
30dad309SNaoya Horiguchi{
*ad1ac596SMiaohe Lin	pte_t pte;
*ad1ac596SMiaohe Lin
*ad1ac596SMiaohe Lin	spin_lock(ptl);
*ad1ac596SMiaohe Lin	pte = huge_ptep_get(ptep);
*ad1ac596SMiaohe Lin
*ad1ac596SMiaohe Lin	if (unlikely(!is_hugetlb_entry_migration(pte)))
*ad1ac596SMiaohe Lin		spin_unlock(ptl);
*ad1ac596SMiaohe Lin	else
*ad1ac596SMiaohe Lin		migration_entry_wait_on_locked(pte_to_swp_entry(pte), NULL, ptl);
30dad309SNaoya Horiguchi}
30dad309SNaoya Horiguchi
*ad1ac596SMiaohe Linvoid migration_entry_wait_huge(struct vm_area_struct *vma, pte_t *pte)
*ad1ac596SMiaohe Lin{
*ad1ac596SMiaohe Lin	spinlock_t *ptl = huge_pte_lockptr(hstate_vma(vma), vma->vm_mm, pte);
*ad1ac596SMiaohe Lin
*ad1ac596SMiaohe Lin	__migration_entry_wait_huge(pte, ptl);
*ad1ac596SMiaohe Lin}
*ad1ac596SMiaohe Lin#endif
*ad1ac596SMiaohe Lin
616b8371SZi Yan#ifdef CONFIG_ARCH_ENABLE_THP_MIGRATION
616b8371SZi Yanvoid pmd_migration_entry_wait(struct mm_struct *mm, pmd_t *pmd)
616b8371SZi Yan{
616b8371SZi Yan	spinlock_t *ptl;
616b8371SZi Yan
616b8371SZi Yan	ptl = pmd_lock(mm, pmd);
616b8371SZi Yan	if (!is_pmd_migration_entry(*pmd))
616b8371SZi Yan		goto unlock;
ffa65753SAlistair Popple	migration_entry_wait_on_locked(pmd_to_swp_entry(*pmd), NULL, ptl);
616b8371SZi Yan	return;
616b8371SZi Yanunlock:
616b8371SZi Yan	spin_unlock(ptl);
616b8371SZi Yan}
616b8371SZi Yan#endif
616b8371SZi Yan
f900482dSJan Karastatic int expected_page_refs(struct address_space *mapping, struct page *page)
0b3901b3SJan Kara{
0b3901b3SJan Kara	int expected_count = 1;
0b3901b3SJan Kara
f900482dSJan Kara	if (mapping)
3417013eSMatthew Wilcox (Oracle)		expected_count += compound_nr(page) + page_has_private(page);
0b3901b3SJan Kara	return expected_count;
0b3901b3SJan Kara}
0b3901b3SJan Kara
b20a3503SChristoph Lameter/*
c3fcf8a5SChristoph Lameter * Replace the page in the mapping.
5b5c7120SChristoph Lameter *
5b5c7120SChristoph Lameter * The number of remaining references must be:
5b5c7120SChristoph Lameter * 1 for anonymous pages without a mapping
5b5c7120SChristoph Lameter * 2 for pages with a mapping
266cf658SDavid Howells * 3 for pages with a mapping and PagePrivate/PagePrivate2 set.
b20a3503SChristoph Lameter */
3417013eSMatthew Wilcox (Oracle)int folio_migrate_mapping(struct address_space *mapping,
3417013eSMatthew Wilcox (Oracle)		struct folio *newfolio, struct folio *folio, int extra_count)
b20a3503SChristoph Lameter{
3417013eSMatthew Wilcox (Oracle)	XA_STATE(xas, &mapping->i_pages, folio_index(folio));
42cb14b1SHugh Dickins	struct zone *oldzone, *newzone;
42cb14b1SHugh Dickins	int dirty;
3417013eSMatthew Wilcox (Oracle)	int expected_count = expected_page_refs(mapping, &folio->page) + extra_count;
3417013eSMatthew Wilcox (Oracle)	long nr = folio_nr_pages(folio);
8763cb45SJérôme Glisse
6c5240aeSChristoph Lameter	if (!mapping) {
0e8c7d0fSChristoph Lameter		/* Anonymous page without mapping */
3417013eSMatthew Wilcox (Oracle)		if (folio_ref_count(folio) != expected_count)
6c5240aeSChristoph Lameter			return -EAGAIN;
cf4b769aSHugh Dickins
cf4b769aSHugh Dickins		/* No turning back from here */
3417013eSMatthew Wilcox (Oracle)		newfolio->index = folio->index;
3417013eSMatthew Wilcox (Oracle)		newfolio->mapping = folio->mapping;
3417013eSMatthew Wilcox (Oracle)		if (folio_test_swapbacked(folio))
3417013eSMatthew Wilcox (Oracle)			__folio_set_swapbacked(newfolio);
cf4b769aSHugh Dickins
78bd5209SRafael Aquini		return MIGRATEPAGE_SUCCESS;
6c5240aeSChristoph Lameter	}
6c5240aeSChristoph Lameter
3417013eSMatthew Wilcox (Oracle)	oldzone = folio_zone(folio);
3417013eSMatthew Wilcox (Oracle)	newzone = folio_zone(newfolio);
42cb14b1SHugh Dickins
89eb946aSMatthew Wilcox	xas_lock_irq(&xas);
3417013eSMatthew Wilcox (Oracle)	if (!folio_ref_freeze(folio, expected_count)) {
89eb946aSMatthew Wilcox		xas_unlock_irq(&xas);
e286781dSNick Piggin		return -EAGAIN;
e286781dSNick Piggin	}
e286781dSNick Piggin
b20a3503SChristoph Lameter	/*
3417013eSMatthew Wilcox (Oracle)	 * Now we know that no one else is looking at the folio:
cf4b769aSHugh Dickins	 * no turning back from here.
b20a3503SChristoph Lameter	 */
3417013eSMatthew Wilcox (Oracle)	newfolio->index = folio->index;
3417013eSMatthew Wilcox (Oracle)	newfolio->mapping = folio->mapping;
3417013eSMatthew Wilcox (Oracle)	folio_ref_add(newfolio, nr); /* add cache reference */
3417013eSMatthew Wilcox (Oracle)	if (folio_test_swapbacked(folio)) {
3417013eSMatthew Wilcox (Oracle)		__folio_set_swapbacked(newfolio);
3417013eSMatthew Wilcox (Oracle)		if (folio_test_swapcache(folio)) {
3417013eSMatthew Wilcox (Oracle)			folio_set_swapcache(newfolio);
3417013eSMatthew Wilcox (Oracle)			newfolio->private = folio_get_private(folio);
b20a3503SChristoph Lameter		}
6326fec1SNicholas Piggin	} else {
3417013eSMatthew Wilcox (Oracle)		VM_BUG_ON_FOLIO(folio_test_swapcache(folio), folio);
6326fec1SNicholas Piggin	}
b20a3503SChristoph Lameter
42cb14b1SHugh Dickins	/* Move dirty while page refs frozen and newpage not yet exposed */
3417013eSMatthew Wilcox (Oracle)	dirty = folio_test_dirty(folio);
42cb14b1SHugh Dickins	if (dirty) {
3417013eSMatthew Wilcox (Oracle)		folio_clear_dirty(folio);
3417013eSMatthew Wilcox (Oracle)		folio_set_dirty(newfolio);
42cb14b1SHugh Dickins	}
42cb14b1SHugh Dickins
3417013eSMatthew Wilcox (Oracle)	xas_store(&xas, newfolio);
7cf9c2c7SNick Piggin
7cf9c2c7SNick Piggin	/*
937a94c9SJacobo Giralt	 * Drop cache reference from old page by unfreezing
937a94c9SJacobo Giralt	 * to one less reference.
7cf9c2c7SNick Piggin	 * We know this isn't the last reference.
7cf9c2c7SNick Piggin	 */
3417013eSMatthew Wilcox (Oracle)	folio_ref_unfreeze(folio, expected_count - nr);
7cf9c2c7SNick Piggin
89eb946aSMatthew Wilcox	xas_unlock(&xas);
42cb14b1SHugh Dickins	/* Leave irq disabled to prevent preemption while updating stats */
42cb14b1SHugh Dickins
0e8c7d0fSChristoph Lameter	/*
0e8c7d0fSChristoph Lameter	 * If moved to a different zone then also account
0e8c7d0fSChristoph Lameter	 * the page for that zone. Other VM counters will be
0e8c7d0fSChristoph Lameter	 * taken care of when we establish references to the
0e8c7d0fSChristoph Lameter	 * new page and drop references to the old page.
0e8c7d0fSChristoph Lameter	 *
0e8c7d0fSChristoph Lameter	 * Note that anonymous pages are accounted for
4b9d0fabSMel Gorman	 * via NR_FILE_PAGES and NR_ANON_MAPPED if they
0e8c7d0fSChristoph Lameter	 * are mapped to swap space.
0e8c7d0fSChristoph Lameter	 */
42cb14b1SHugh Dickins	if (newzone != oldzone) {
0d1c2072SJohannes Weiner		struct lruvec *old_lruvec, *new_lruvec;
0d1c2072SJohannes Weiner		struct mem_cgroup *memcg;
0d1c2072SJohannes Weiner
3417013eSMatthew Wilcox (Oracle)		memcg = folio_memcg(folio);
0d1c2072SJohannes Weiner		old_lruvec = mem_cgroup_lruvec(memcg, oldzone->zone_pgdat);
0d1c2072SJohannes Weiner		new_lruvec = mem_cgroup_lruvec(memcg, newzone->zone_pgdat);
0d1c2072SJohannes Weiner
5c447d27SShakeel Butt		__mod_lruvec_state(old_lruvec, NR_FILE_PAGES, -nr);
5c447d27SShakeel Butt		__mod_lruvec_state(new_lruvec, NR_FILE_PAGES, nr);
3417013eSMatthew Wilcox (Oracle)		if (folio_test_swapbacked(folio) && !folio_test_swapcache(folio)) {
5c447d27SShakeel Butt			__mod_lruvec_state(old_lruvec, NR_SHMEM, -nr);
5c447d27SShakeel Butt			__mod_lruvec_state(new_lruvec, NR_SHMEM, nr);
4b02108aSKOSAKI Motohiro		}
b6038942SShakeel Butt#ifdef CONFIG_SWAP
3417013eSMatthew Wilcox (Oracle)		if (folio_test_swapcache(folio)) {
b6038942SShakeel Butt			__mod_lruvec_state(old_lruvec, NR_SWAPCACHE, -nr);
b6038942SShakeel Butt			__mod_lruvec_state(new_lruvec, NR_SWAPCACHE, nr);
b6038942SShakeel Butt		}
b6038942SShakeel Butt#endif
f56753acSChristoph Hellwig		if (dirty && mapping_can_writeback(mapping)) {
5c447d27SShakeel Butt			__mod_lruvec_state(old_lruvec, NR_FILE_DIRTY, -nr);
5c447d27SShakeel Butt			__mod_zone_page_state(oldzone, NR_ZONE_WRITE_PENDING, -nr);
5c447d27SShakeel Butt			__mod_lruvec_state(new_lruvec, NR_FILE_DIRTY, nr);
5c447d27SShakeel Butt			__mod_zone_page_state(newzone, NR_ZONE_WRITE_PENDING, nr);
42cb14b1SHugh Dickins		}
42cb14b1SHugh Dickins	}
42cb14b1SHugh Dickins	local_irq_enable();
b20a3503SChristoph Lameter
78bd5209SRafael Aquini	return MIGRATEPAGE_SUCCESS;
b20a3503SChristoph Lameter}
3417013eSMatthew Wilcox (Oracle)EXPORT_SYMBOL(folio_migrate_mapping);
b20a3503SChristoph Lameter
b20a3503SChristoph Lameter/*
290408d4SNaoya Horiguchi * The expected number of remaining references is the same as that
3417013eSMatthew Wilcox (Oracle) * of folio_migrate_mapping().
290408d4SNaoya Horiguchi */
290408d4SNaoya Horiguchiint migrate_huge_page_move_mapping(struct address_space *mapping,
290408d4SNaoya Horiguchi				   struct page *newpage, struct page *page)
290408d4SNaoya Horiguchi{
89eb946aSMatthew Wilcox	XA_STATE(xas, &mapping->i_pages, page_index(page));
290408d4SNaoya Horiguchi	int expected_count;
290408d4SNaoya Horiguchi
89eb946aSMatthew Wilcox	xas_lock_irq(&xas);
290408d4SNaoya Horiguchi	expected_count = 2 + page_has_private(page);
fe896d18SJoonsoo Kim	if (!page_ref_freeze(page, expected_count)) {
89eb946aSMatthew Wilcox		xas_unlock_irq(&xas);
290408d4SNaoya Horiguchi		return -EAGAIN;
290408d4SNaoya Horiguchi	}
290408d4SNaoya Horiguchi
cf4b769aSHugh Dickins	newpage->index = page->index;
cf4b769aSHugh Dickins	newpage->mapping = page->mapping;
6a93ca8fSJohannes Weiner
290408d4SNaoya Horiguchi	get_page(newpage);
290408d4SNaoya Horiguchi
89eb946aSMatthew Wilcox	xas_store(&xas, newpage);
290408d4SNaoya Horiguchi
fe896d18SJoonsoo Kim	page_ref_unfreeze(page, expected_count - 1);
290408d4SNaoya Horiguchi
89eb946aSMatthew Wilcox	xas_unlock_irq(&xas);
6a93ca8fSJohannes Weiner
78bd5209SRafael Aquini	return MIGRATEPAGE_SUCCESS;
290408d4SNaoya Horiguchi}
290408d4SNaoya Horiguchi
290408d4SNaoya Horiguchi/*
19138349SMatthew Wilcox (Oracle) * Copy the flags and some other ancillary information
b20a3503SChristoph Lameter */
19138349SMatthew Wilcox (Oracle)void folio_migrate_flags(struct folio *newfolio, struct folio *folio)
b20a3503SChristoph Lameter{
7851a45cSRik van Riel	int cpupid;
7851a45cSRik van Riel
19138349SMatthew Wilcox (Oracle)	if (folio_test_error(folio))
19138349SMatthew Wilcox (Oracle)		folio_set_error(newfolio);
19138349SMatthew Wilcox (Oracle)	if (folio_test_referenced(folio))
19138349SMatthew Wilcox (Oracle)		folio_set_referenced(newfolio);
19138349SMatthew Wilcox (Oracle)	if (folio_test_uptodate(folio))
19138349SMatthew Wilcox (Oracle)		folio_mark_uptodate(newfolio);
19138349SMatthew Wilcox (Oracle)	if (folio_test_clear_active(folio)) {
19138349SMatthew Wilcox (Oracle)		VM_BUG_ON_FOLIO(folio_test_unevictable(folio), folio);
19138349SMatthew Wilcox (Oracle)		folio_set_active(newfolio);
19138349SMatthew Wilcox (Oracle)	} else if (folio_test_clear_unevictable(folio))
19138349SMatthew Wilcox (Oracle)		folio_set_unevictable(newfolio);
19138349SMatthew Wilcox (Oracle)	if (folio_test_workingset(folio))
19138349SMatthew Wilcox (Oracle)		folio_set_workingset(newfolio);
19138349SMatthew Wilcox (Oracle)	if (folio_test_checked(folio))
19138349SMatthew Wilcox (Oracle)		folio_set_checked(newfolio);
6c287605SDavid Hildenbrand	/*
6c287605SDavid Hildenbrand	 * PG_anon_exclusive (-> PG_mappedtodisk) is always migrated via
6c287605SDavid Hildenbrand	 * migration entries. We can still have PG_anon_exclusive set on an
6c287605SDavid Hildenbrand	 * effectively unmapped and unreferenced first sub-pages of an
6c287605SDavid Hildenbrand	 * anonymous THP: we can simply copy it here via PG_mappedtodisk.
6c287605SDavid Hildenbrand	 */
19138349SMatthew Wilcox (Oracle)	if (folio_test_mappedtodisk(folio))
19138349SMatthew Wilcox (Oracle)		folio_set_mappedtodisk(newfolio);
b20a3503SChristoph Lameter
3417013eSMatthew Wilcox (Oracle)	/* Move dirty on pages not done by folio_migrate_mapping() */
19138349SMatthew Wilcox (Oracle)	if (folio_test_dirty(folio))
19138349SMatthew Wilcox (Oracle)		folio_set_dirty(newfolio);
b20a3503SChristoph Lameter
19138349SMatthew Wilcox (Oracle)	if (folio_test_young(folio))
19138349SMatthew Wilcox (Oracle)		folio_set_young(newfolio);
19138349SMatthew Wilcox (Oracle)	if (folio_test_idle(folio))
19138349SMatthew Wilcox (Oracle)		folio_set_idle(newfolio);
33c3fc71SVladimir Davydov
7851a45cSRik van Riel	/*
7851a45cSRik van Riel	 * Copy NUMA information to the new page, to prevent over-eager
7851a45cSRik van Riel	 * future migrations of this same page.
7851a45cSRik van Riel	 */
19138349SMatthew Wilcox (Oracle)	cpupid = page_cpupid_xchg_last(&folio->page, -1);
19138349SMatthew Wilcox (Oracle)	page_cpupid_xchg_last(&newfolio->page, cpupid);
7851a45cSRik van Riel
19138349SMatthew Wilcox (Oracle)	folio_migrate_ksm(newfolio, folio);
c8d6553bSHugh Dickins	/*
c8d6553bSHugh Dickins	 * Please do not reorder this without considering how mm/ksm.c's
c8d6553bSHugh Dickins	 * get_ksm_page() depends upon ksm_migrate_page() and PageSwapCache().
c8d6553bSHugh Dickins	 */
19138349SMatthew Wilcox (Oracle)	if (folio_test_swapcache(folio))
19138349SMatthew Wilcox (Oracle)		folio_clear_swapcache(folio);
19138349SMatthew Wilcox (Oracle)	folio_clear_private(folio);
ad2fa371SMuchun Song
ad2fa371SMuchun Song	/* page->private contains hugetlb specific flags */
19138349SMatthew Wilcox (Oracle)	if (!folio_test_hugetlb(folio))
19138349SMatthew Wilcox (Oracle)		folio->private = NULL;
b20a3503SChristoph Lameter
b20a3503SChristoph Lameter	/*
b20a3503SChristoph Lameter	 * If any waiters have accumulated on the new page then
b20a3503SChristoph Lameter	 * wake them up.
b20a3503SChristoph Lameter	 */
19138349SMatthew Wilcox (Oracle)	if (folio_test_writeback(newfolio))
19138349SMatthew Wilcox (Oracle)		folio_end_writeback(newfolio);
d435edcaSVlastimil Babka
6aeff241SYang Shi	/*
6aeff241SYang Shi	 * PG_readahead shares the same bit with PG_reclaim.  The above
6aeff241SYang Shi	 * end_page_writeback() may clear PG_readahead mistakenly, so set the
6aeff241SYang Shi	 * bit after that.
6aeff241SYang Shi	 */
19138349SMatthew Wilcox (Oracle)	if (folio_test_readahead(folio))
19138349SMatthew Wilcox (Oracle)		folio_set_readahead(newfolio);
6aeff241SYang Shi
19138349SMatthew Wilcox (Oracle)	folio_copy_owner(newfolio, folio);
74485cf2SJohannes Weiner
19138349SMatthew Wilcox (Oracle)	if (!folio_test_hugetlb(folio))
d21bba2bSMatthew Wilcox (Oracle)		mem_cgroup_migrate(folio, newfolio);
b20a3503SChristoph Lameter}
19138349SMatthew Wilcox (Oracle)EXPORT_SYMBOL(folio_migrate_flags);
2916ecc0SJérôme Glisse
715cbfd6SMatthew Wilcox (Oracle)void folio_migrate_copy(struct folio *newfolio, struct folio *folio)
2916ecc0SJérôme Glisse{
715cbfd6SMatthew Wilcox (Oracle)	folio_copy(newfolio, folio);
715cbfd6SMatthew Wilcox (Oracle)	folio_migrate_flags(newfolio, folio);
2916ecc0SJérôme Glisse}
715cbfd6SMatthew Wilcox (Oracle)EXPORT_SYMBOL(folio_migrate_copy);
b20a3503SChristoph Lameter
1d8b85ccSChristoph Lameter/************************************************************
1d8b85ccSChristoph Lameter *                    Migration functions
1d8b85ccSChristoph Lameter ***********************************************************/
1d8b85ccSChristoph Lameter
b20a3503SChristoph Lameter/*
bda807d4SMinchan Kim * Common logic to directly migrate a single LRU page suitable for
266cf658SDavid Howells * pages that do not use PagePrivate/PagePrivate2.
b20a3503SChristoph Lameter *
b20a3503SChristoph Lameter * Pages are locked upon entry and exit.
b20a3503SChristoph Lameter */
2d1db3b1SChristoph Lameterint migrate_page(struct address_space *mapping,
a6bc32b8SMel Gorman		struct page *newpage, struct page *page,
a6bc32b8SMel Gorman		enum migrate_mode mode)
b20a3503SChristoph Lameter{
3417013eSMatthew Wilcox (Oracle)	struct folio *newfolio = page_folio(newpage);
3417013eSMatthew Wilcox (Oracle)	struct folio *folio = page_folio(page);
b20a3503SChristoph Lameter	int rc;
b20a3503SChristoph Lameter
3417013eSMatthew Wilcox (Oracle)	BUG_ON(folio_test_writeback(folio));	/* Writeback must be complete */
b20a3503SChristoph Lameter
3417013eSMatthew Wilcox (Oracle)	rc = folio_migrate_mapping(mapping, newfolio, folio, 0);
b20a3503SChristoph Lameter
78bd5209SRafael Aquini	if (rc != MIGRATEPAGE_SUCCESS)
b20a3503SChristoph Lameter		return rc;
b20a3503SChristoph Lameter
2916ecc0SJérôme Glisse	if (mode != MIGRATE_SYNC_NO_COPY)
715cbfd6SMatthew Wilcox (Oracle)		folio_migrate_copy(newfolio, folio);
2916ecc0SJérôme Glisse	else
19138349SMatthew Wilcox (Oracle)		folio_migrate_flags(newfolio, folio);
78bd5209SRafael Aquini	return MIGRATEPAGE_SUCCESS;
b20a3503SChristoph Lameter}
b20a3503SChristoph LameterEXPORT_SYMBOL(migrate_page);
b20a3503SChristoph Lameter
9361401eSDavid Howells#ifdef CONFIG_BLOCK
84ade7c1SJan Kara/* Returns true if all buffers are successfully locked */
84ade7c1SJan Karastatic bool buffer_migrate_lock_buffers(struct buffer_head *head,
84ade7c1SJan Kara							enum migrate_mode mode)
84ade7c1SJan Kara{
84ade7c1SJan Kara	struct buffer_head *bh = head;
84ade7c1SJan Kara
84ade7c1SJan Kara	/* Simple case, sync compaction */
84ade7c1SJan Kara	if (mode != MIGRATE_ASYNC) {
84ade7c1SJan Kara		do {
84ade7c1SJan Kara			lock_buffer(bh);
84ade7c1SJan Kara			bh = bh->b_this_page;
84ade7c1SJan Kara
84ade7c1SJan Kara		} while (bh != head);
84ade7c1SJan Kara
84ade7c1SJan Kara		return true;
84ade7c1SJan Kara	}
84ade7c1SJan Kara
84ade7c1SJan Kara	/* async case, we cannot block on lock_buffer so use trylock_buffer */
84ade7c1SJan Kara	do {
84ade7c1SJan Kara		if (!trylock_buffer(bh)) {
84ade7c1SJan Kara			/*
84ade7c1SJan Kara			 * We failed to lock the buffer and cannot stall in
84ade7c1SJan Kara			 * async migration. Release the taken locks
84ade7c1SJan Kara			 */
84ade7c1SJan Kara			struct buffer_head *failed_bh = bh;
84ade7c1SJan Kara			bh = head;
84ade7c1SJan Kara			while (bh != failed_bh) {
84ade7c1SJan Kara				unlock_buffer(bh);
84ade7c1SJan Kara				bh = bh->b_this_page;
84ade7c1SJan Kara			}
84ade7c1SJan Kara			return false;
84ade7c1SJan Kara		}
84ade7c1SJan Kara
84ade7c1SJan Kara		bh = bh->b_this_page;
84ade7c1SJan Kara	} while (bh != head);
84ade7c1SJan Kara	return true;
84ade7c1SJan Kara}
84ade7c1SJan Kara
89cb0888SJan Karastatic int __buffer_migrate_page(struct address_space *mapping,
89cb0888SJan Kara		struct page *newpage, struct page *page, enum migrate_mode mode,
89cb0888SJan Kara		bool check_refs)
1d8b85ccSChristoph Lameter{
1d8b85ccSChristoph Lameter	struct buffer_head *bh, *head;
1d8b85ccSChristoph Lameter	int rc;
cc4f11e6SJan Kara	int expected_count;
1d8b85ccSChristoph Lameter
1d8b85ccSChristoph Lameter	if (!page_has_buffers(page))
a6bc32b8SMel Gorman		return migrate_page(mapping, newpage, page, mode);
1d8b85ccSChristoph Lameter
cc4f11e6SJan Kara	/* Check whether page does not have extra refs before we do more work */
f900482dSJan Kara	expected_count = expected_page_refs(mapping, page);
cc4f11e6SJan Kara	if (page_count(page) != expected_count)
cc4f11e6SJan Kara		return -EAGAIN;
cc4f11e6SJan Kara
1d8b85ccSChristoph Lameter	head = page_buffers(page);
cc4f11e6SJan Kara	if (!buffer_migrate_lock_buffers(head, mode))
cc4f11e6SJan Kara		return -EAGAIN;
1d8b85ccSChristoph Lameter
89cb0888SJan Kara	if (check_refs) {
89cb0888SJan Kara		bool busy;
89cb0888SJan Kara		bool invalidated = false;
89cb0888SJan Kara
89cb0888SJan Kararecheck_buffers:
89cb0888SJan Kara		busy = false;
89cb0888SJan Kara		spin_lock(&mapping->private_lock);
89cb0888SJan Kara		bh = head;
89cb0888SJan Kara		do {
89cb0888SJan Kara			if (atomic_read(&bh->b_count)) {
89cb0888SJan Kara				busy = true;
89cb0888SJan Kara				break;
89cb0888SJan Kara			}
89cb0888SJan Kara			bh = bh->b_this_page;
89cb0888SJan Kara		} while (bh != head);
89cb0888SJan Kara		if (busy) {
89cb0888SJan Kara			if (invalidated) {
89cb0888SJan Kara				rc = -EAGAIN;
89cb0888SJan Kara				goto unlock_buffers;
89cb0888SJan Kara			}
ebdf4de5SJan Kara			spin_unlock(&mapping->private_lock);
89cb0888SJan Kara			invalidate_bh_lrus();
89cb0888SJan Kara			invalidated = true;
89cb0888SJan Kara			goto recheck_buffers;
89cb0888SJan Kara		}
89cb0888SJan Kara	}
89cb0888SJan Kara
37109694SKeith Busch	rc = migrate_page_move_mapping(mapping, newpage, page, 0);
78bd5209SRafael Aquini	if (rc != MIGRATEPAGE_SUCCESS)
cc4f11e6SJan Kara		goto unlock_buffers;
1d8b85ccSChristoph Lameter
cd0f3715SGuoqing Jiang	attach_page_private(newpage, detach_page_private(page));
1d8b85ccSChristoph Lameter
1d8b85ccSChristoph Lameter	bh = head;
1d8b85ccSChristoph Lameter	do {
1d8b85ccSChristoph Lameter		set_bh_page(bh, newpage, bh_offset(bh));
1d8b85ccSChristoph Lameter		bh = bh->b_this_page;
1d8b85ccSChristoph Lameter
1d8b85ccSChristoph Lameter	} while (bh != head);
1d8b85ccSChristoph Lameter
2916ecc0SJérôme Glisse	if (mode != MIGRATE_SYNC_NO_COPY)
1d8b85ccSChristoph Lameter		migrate_page_copy(newpage, page);
2916ecc0SJérôme Glisse	else
2916ecc0SJérôme Glisse		migrate_page_states(newpage, page);
1d8b85ccSChristoph Lameter
cc4f11e6SJan Kara	rc = MIGRATEPAGE_SUCCESS;
cc4f11e6SJan Karaunlock_buffers:
ebdf4de5SJan Kara	if (check_refs)
ebdf4de5SJan Kara		spin_unlock(&mapping->private_lock);
1d8b85ccSChristoph Lameter	bh = head;
1d8b85ccSChristoph Lameter	do {
1d8b85ccSChristoph Lameter		unlock_buffer(bh);
1d8b85ccSChristoph Lameter		bh = bh->b_this_page;
1d8b85ccSChristoph Lameter
1d8b85ccSChristoph Lameter	} while (bh != head);
1d8b85ccSChristoph Lameter
cc4f11e6SJan Kara	return rc;
1d8b85ccSChristoph Lameter}
89cb0888SJan Kara
89cb0888SJan Kara/*
89cb0888SJan Kara * Migration function for pages with buffers. This function can only be used
89cb0888SJan Kara * if the underlying filesystem guarantees that no other references to "page"
89cb0888SJan Kara * exist. For example attached buffer heads are accessed only under page lock.
89cb0888SJan Kara */
89cb0888SJan Karaint buffer_migrate_page(struct address_space *mapping,
89cb0888SJan Kara		struct page *newpage, struct page *page, enum migrate_mode mode)
89cb0888SJan Kara{
89cb0888SJan Kara	return __buffer_migrate_page(mapping, newpage, page, mode, false);
89cb0888SJan Kara}
1d8b85ccSChristoph LameterEXPORT_SYMBOL(buffer_migrate_page);
89cb0888SJan Kara
89cb0888SJan Kara/*
89cb0888SJan Kara * Same as above except that this variant is more careful and checks that there
89cb0888SJan Kara * are also no buffer head references. This function is the right one for
89cb0888SJan Kara * mappings where buffer heads are directly looked up and referenced (such as
89cb0888SJan Kara * block device mappings).
89cb0888SJan Kara */
89cb0888SJan Karaint buffer_migrate_page_norefs(struct address_space *mapping,
89cb0888SJan Kara		struct page *newpage, struct page *page, enum migrate_mode mode)
89cb0888SJan Kara{
89cb0888SJan Kara	return __buffer_migrate_page(mapping, newpage, page, mode, true);
89cb0888SJan Kara}
9361401eSDavid Howells#endif
1d8b85ccSChristoph Lameter
04e62a29SChristoph Lameter/*
04e62a29SChristoph Lameter * Writeback a page to clean the dirty state
04e62a29SChristoph Lameter */
04e62a29SChristoph Lameterstatic int writeout(struct address_space *mapping, struct page *page)
04e62a29SChristoph Lameter{
4eecb8b9SMatthew Wilcox (Oracle)	struct folio *folio = page_folio(page);
04e62a29SChristoph Lameter	struct writeback_control wbc = {
04e62a29SChristoph Lameter		.sync_mode = WB_SYNC_NONE,
04e62a29SChristoph Lameter		.nr_to_write = 1,
04e62a29SChristoph Lameter		.range_start = 0,
04e62a29SChristoph Lameter		.range_end = LLONG_MAX,
04e62a29SChristoph Lameter		.for_reclaim = 1
04e62a29SChristoph Lameter	};
04e62a29SChristoph Lameter	int rc;
04e62a29SChristoph Lameter
04e62a29SChristoph Lameter	if (!mapping->a_ops->writepage)
04e62a29SChristoph Lameter		/* No write method for the address space */
04e62a29SChristoph Lameter		return -EINVAL;
04e62a29SChristoph Lameter
04e62a29SChristoph Lameter	if (!clear_page_dirty_for_io(page))
04e62a29SChristoph Lameter		/* Someone else already triggered a write */
04e62a29SChristoph Lameter		return -EAGAIN;
04e62a29SChristoph Lameter
04e62a29SChristoph Lameter	/*
04e62a29SChristoph Lameter	 * A dirty page may imply that the underlying filesystem has
04e62a29SChristoph Lameter	 * the page on some queue. So the page must be clean for
04e62a29SChristoph Lameter	 * migration. Writeout may mean we loose the lock and the
04e62a29SChristoph Lameter	 * page state is no longer what we checked for earlier.
04e62a29SChristoph Lameter	 * At this point we know that the migration attempt cannot
04e62a29SChristoph Lameter	 * be successful.
04e62a29SChristoph Lameter	 */
4eecb8b9SMatthew Wilcox (Oracle)	remove_migration_ptes(folio, folio, false);
04e62a29SChristoph Lameter
04e62a29SChristoph Lameter	rc = mapping->a_ops->writepage(page, &wbc);
04e62a29SChristoph Lameter
04e62a29SChristoph Lameter	if (rc != AOP_WRITEPAGE_ACTIVATE)
04e62a29SChristoph Lameter		/* unlocked. Relock */
04e62a29SChristoph Lameter		lock_page(page);
04e62a29SChristoph Lameter
bda8550dSHugh Dickins	return (rc < 0) ? -EIO : -EAGAIN;
04e62a29SChristoph Lameter}
04e62a29SChristoph Lameter
04e62a29SChristoph Lameter/*
04e62a29SChristoph Lameter * Default handling if a filesystem does not provide a migration function.
04e62a29SChristoph Lameter */
8351a6e4SChristoph Lameterstatic int fallback_migrate_page(struct address_space *mapping,
a6bc32b8SMel Gorman	struct page *newpage, struct page *page, enum migrate_mode mode)
8351a6e4SChristoph Lameter{
b969c4abSMel Gorman	if (PageDirty(page)) {
a6bc32b8SMel Gorman		/* Only writeback pages in full synchronous migration */
2916ecc0SJérôme Glisse		switch (mode) {
2916ecc0SJérôme Glisse		case MIGRATE_SYNC:
2916ecc0SJérôme Glisse		case MIGRATE_SYNC_NO_COPY:
2916ecc0SJérôme Glisse			break;
2916ecc0SJérôme Glisse		default:
b969c4abSMel Gorman			return -EBUSY;
2916ecc0SJérôme Glisse		}
04e62a29SChristoph Lameter		return writeout(mapping, page);
b969c4abSMel Gorman	}
8351a6e4SChristoph Lameter
8351a6e4SChristoph Lameter	/*
8351a6e4SChristoph Lameter	 * Buffers may be managed in a filesystem specific way.
8351a6e4SChristoph Lameter	 * We must have no buffers or drop them.
8351a6e4SChristoph Lameter	 */
266cf658SDavid Howells	if (page_has_private(page) &&
8351a6e4SChristoph Lameter	    !try_to_release_page(page, GFP_KERNEL))
806031bbSMel Gorman		return mode == MIGRATE_SYNC ? -EAGAIN : -EBUSY;
8351a6e4SChristoph Lameter
a6bc32b8SMel Gorman	return migrate_page(mapping, newpage, page, mode);
8351a6e4SChristoph Lameter}
8351a6e4SChristoph Lameter
1d8b85ccSChristoph Lameter/*
e24f0b8fSChristoph Lameter * Move a page to a newly allocated page
e24f0b8fSChristoph Lameter * The page is locked and all ptes have been successfully removed.
b20a3503SChristoph Lameter *
e24f0b8fSChristoph Lameter * The new page will have replaced the old page if this function
e24f0b8fSChristoph Lameter * is successful.
894bc310SLee Schermerhorn *
894bc310SLee Schermerhorn * Return value:
894bc310SLee Schermerhorn *   < 0 - error code
78bd5209SRafael Aquini *  MIGRATEPAGE_SUCCESS - success
b20a3503SChristoph Lameter */
e7e3ffebSMatthew Wilcox (Oracle)static int move_to_new_folio(struct folio *dst, struct folio *src,
5c3f9a67SHugh Dickins				enum migrate_mode mode)
b20a3503SChristoph Lameter{
e24f0b8fSChristoph Lameter	struct address_space *mapping;
bda807d4SMinchan Kim	int rc = -EAGAIN;
e7e3ffebSMatthew Wilcox (Oracle)	bool is_lru = !__PageMovable(&src->page);
b20a3503SChristoph Lameter
e7e3ffebSMatthew Wilcox (Oracle)	VM_BUG_ON_FOLIO(!folio_test_locked(src), src);
e7e3ffebSMatthew Wilcox (Oracle)	VM_BUG_ON_FOLIO(!folio_test_locked(dst), dst);
b20a3503SChristoph Lameter
e7e3ffebSMatthew Wilcox (Oracle)	mapping = folio_mapping(src);
bda807d4SMinchan Kim
bda807d4SMinchan Kim	if (likely(is_lru)) {
b20a3503SChristoph Lameter		if (!mapping)
e7e3ffebSMatthew Wilcox (Oracle)			rc = migrate_page(mapping, &dst->page, &src->page, mode);
6c5240aeSChristoph Lameter		else if (mapping->a_ops->migratepage)
b20a3503SChristoph Lameter			/*
bda807d4SMinchan Kim			 * Most pages have a mapping and most filesystems
bda807d4SMinchan Kim			 * provide a migratepage callback. Anonymous pages
bda807d4SMinchan Kim			 * are part of swap space which also has its own
bda807d4SMinchan Kim			 * migratepage callback. This is the most common path
bda807d4SMinchan Kim			 * for page migration.
b20a3503SChristoph Lameter			 */
e7e3ffebSMatthew Wilcox (Oracle)			rc = mapping->a_ops->migratepage(mapping, &dst->page,
e7e3ffebSMatthew Wilcox (Oracle)							&src->page, mode);
8351a6e4SChristoph Lameter		else
e7e3ffebSMatthew Wilcox (Oracle)			rc = fallback_migrate_page(mapping, &dst->page,
e7e3ffebSMatthew Wilcox (Oracle)							&src->page, mode);
bda807d4SMinchan Kim	} else {
bda807d4SMinchan Kim		/*
bda807d4SMinchan Kim		 * In case of non-lru page, it could be released after
bda807d4SMinchan Kim		 * isolation step. In that case, we shouldn't try migration.
bda807d4SMinchan Kim		 */
e7e3ffebSMatthew Wilcox (Oracle)		VM_BUG_ON_FOLIO(!folio_test_isolated(src), src);
e7e3ffebSMatthew Wilcox (Oracle)		if (!folio_test_movable(src)) {
bda807d4SMinchan Kim			rc = MIGRATEPAGE_SUCCESS;
e7e3ffebSMatthew Wilcox (Oracle)			folio_clear_isolated(src);
bda807d4SMinchan Kim			goto out;
bda807d4SMinchan Kim		}
bda807d4SMinchan Kim
e7e3ffebSMatthew Wilcox (Oracle)		rc = mapping->a_ops->migratepage(mapping, &dst->page,
e7e3ffebSMatthew Wilcox (Oracle)						&src->page, mode);
bda807d4SMinchan Kim		WARN_ON_ONCE(rc == MIGRATEPAGE_SUCCESS &&
e7e3ffebSMatthew Wilcox (Oracle)				!folio_test_isolated(src));
bda807d4SMinchan Kim	}
b20a3503SChristoph Lameter
5c3f9a67SHugh Dickins	/*
e7e3ffebSMatthew Wilcox (Oracle)	 * When successful, old pagecache src->mapping must be cleared before
e7e3ffebSMatthew Wilcox (Oracle)	 * src is freed; but stats require that PageAnon be left as PageAnon.
5c3f9a67SHugh Dickins	 */
5c3f9a67SHugh Dickins	if (rc == MIGRATEPAGE_SUCCESS) {
e7e3ffebSMatthew Wilcox (Oracle)		if (__PageMovable(&src->page)) {
e7e3ffebSMatthew Wilcox (Oracle)			VM_BUG_ON_FOLIO(!folio_test_isolated(src), src);
bda807d4SMinchan Kim
bda807d4SMinchan Kim			/*
bda807d4SMinchan Kim			 * We clear PG_movable under page_lock so any compactor
bda807d4SMinchan Kim			 * cannot try to migrate this page.
bda807d4SMinchan Kim			 */
e7e3ffebSMatthew Wilcox (Oracle)			folio_clear_isolated(src);
bda807d4SMinchan Kim		}
bda807d4SMinchan Kim
bda807d4SMinchan Kim		/*
e7e3ffebSMatthew Wilcox (Oracle)		 * Anonymous and movable src->mapping will be cleared by
bda807d4SMinchan Kim		 * free_pages_prepare so don't reset it here for keeping
bda807d4SMinchan Kim		 * the type to work PageAnon, for example.
bda807d4SMinchan Kim		 */
e7e3ffebSMatthew Wilcox (Oracle)		if (!folio_mapping_flags(src))
e7e3ffebSMatthew Wilcox (Oracle)			src->mapping = NULL;
d2b2c6ddSLars Persson
e7e3ffebSMatthew Wilcox (Oracle)		if (likely(!folio_is_zone_device(dst)))
e7e3ffebSMatthew Wilcox (Oracle)			flush_dcache_folio(dst);
3fe2011fSMel Gorman	}
bda807d4SMinchan Kimout:
e24f0b8fSChristoph Lameter	return rc;
e24f0b8fSChristoph Lameter}
e24f0b8fSChristoph Lameter
0dabec93SMinchan Kimstatic int __unmap_and_move(struct page *page, struct page *newpage,
9c620e2bSHugh Dickins				int force, enum migrate_mode mode)
e24f0b8fSChristoph Lameter{
4b8554c5SMatthew Wilcox (Oracle)	struct folio *folio = page_folio(page);
4eecb8b9SMatthew Wilcox (Oracle)	struct folio *dst = page_folio(newpage);
0dabec93SMinchan Kim	int rc = -EAGAIN;
213ecb31SBaolin Wang	bool page_was_mapped = false;
3f6c8272SMel Gorman	struct anon_vma *anon_vma = NULL;
bda807d4SMinchan Kim	bool is_lru = !__PageMovable(page);
95a402c3SChristoph Lameter
529ae9aaSNick Piggin	if (!trylock_page(page)) {
a6bc32b8SMel Gorman		if (!force || mode == MIGRATE_ASYNC)
0dabec93SMinchan Kim			goto out;
3e7d3449SMel Gorman
3e7d3449SMel Gorman		/*
3e7d3449SMel Gorman		 * It's not safe for direct compaction to call lock_page.
3e7d3449SMel Gorman		 * For example, during page readahead pages are added locked
3e7d3449SMel Gorman		 * to the LRU. Later, when the IO completes the pages are
3e7d3449SMel Gorman		 * marked uptodate and unlocked. However, the queueing
3e7d3449SMel Gorman		 * could be merging multiple pages for one bio (e.g.
d4388340SMatthew Wilcox (Oracle)		 * mpage_readahead). If an allocation happens for the
3e7d3449SMel Gorman		 * second or third page, the process can end up locking
3e7d3449SMel Gorman		 * the same page twice and deadlocking. Rather than
3e7d3449SMel Gorman		 * trying to be clever about what pages can be locked,
3e7d3449SMel Gorman		 * avoid the use of lock_page for direct compaction
3e7d3449SMel Gorman		 * altogether.
3e7d3449SMel Gorman		 */
3e7d3449SMel Gorman		if (current->flags & PF_MEMALLOC)
0dabec93SMinchan Kim			goto out;
3e7d3449SMel Gorman
e24f0b8fSChristoph Lameter		lock_page(page);
e24f0b8fSChristoph Lameter	}
e24f0b8fSChristoph Lameter
e24f0b8fSChristoph Lameter	if (PageWriteback(page)) {
11bc82d6SAndrea Arcangeli		/*
fed5b64aSJianguo Wu		 * Only in the case of a full synchronous migration is it
a6bc32b8SMel Gorman		 * necessary to wait for PageWriteback. In the async case,
a6bc32b8SMel Gorman		 * the retry loop is too short and in the sync-light case,
a6bc32b8SMel Gorman		 * the overhead of stalling is too much
11bc82d6SAndrea Arcangeli		 */
2916ecc0SJérôme Glisse		switch (mode) {
2916ecc0SJérôme Glisse		case MIGRATE_SYNC:
2916ecc0SJérôme Glisse		case MIGRATE_SYNC_NO_COPY:
2916ecc0SJérôme Glisse			break;
2916ecc0SJérôme Glisse		default:
11bc82d6SAndrea Arcangeli			rc = -EBUSY;
0a31bc97SJohannes Weiner			goto out_unlock;
11bc82d6SAndrea Arcangeli		}
11bc82d6SAndrea Arcangeli		if (!force)
0a31bc97SJohannes Weiner			goto out_unlock;
e24f0b8fSChristoph Lameter		wait_on_page_writeback(page);
e24f0b8fSChristoph Lameter	}
03f15c86SHugh Dickins
e24f0b8fSChristoph Lameter	/*
68a9843fSBaolin Wang	 * By try_to_migrate(), page->mapcount goes down to 0 here. In this case,
dc386d4dSKAMEZAWA Hiroyuki	 * we cannot notice that anon_vma is freed while we migrates a page.
1ce82b69SHugh Dickins	 * This get_anon_vma() delays freeing anon_vma pointer until the end
dc386d4dSKAMEZAWA Hiroyuki	 * of migration. File cache pages are no problem because of page_lock()
989f89c5SKAMEZAWA Hiroyuki	 * File Caches may use write_page() or lock_page() in migration, then,
989f89c5SKAMEZAWA Hiroyuki	 * just care Anon page here.
3fe2011fSMel Gorman	 *
03f15c86SHugh Dickins	 * Only page_get_anon_vma() understands the subtleties of
03f15c86SHugh Dickins	 * getting a hold on an anon_vma from outside one of its mms.
03f15c86SHugh Dickins	 * But if we cannot get anon_vma, then we won't need it anyway,
03f15c86SHugh Dickins	 * because that implies that the anon page is no longer mapped
03f15c86SHugh Dickins	 * (and cannot be remapped so long as we hold the page lock).
3fe2011fSMel Gorman	 */
03f15c86SHugh Dickins	if (PageAnon(page) && !PageKsm(page))
03f15c86SHugh Dickins		anon_vma = page_get_anon_vma(page);
62e1c553SShaohua Li
7db7671fSHugh Dickins	/*
7db7671fSHugh Dickins	 * Block others from accessing the new page when we get around to
7db7671fSHugh Dickins	 * establishing additional references. We are usually the only one
7db7671fSHugh Dickins	 * holding a reference to newpage at this point. We used to have a BUG
7db7671fSHugh Dickins	 * here if trylock_page(newpage) fails, but would like to allow for
7db7671fSHugh Dickins	 * cases where there might be a race with the previous use of newpage.
7db7671fSHugh Dickins	 * This is much like races on refcount of oldpage: just don't BUG().
7db7671fSHugh Dickins	 */
7db7671fSHugh Dickins	if (unlikely(!trylock_page(newpage)))
7db7671fSHugh Dickins		goto out_unlock;
7db7671fSHugh Dickins
bda807d4SMinchan Kim	if (unlikely(!is_lru)) {
e7e3ffebSMatthew Wilcox (Oracle)		rc = move_to_new_folio(dst, folio, mode);
bda807d4SMinchan Kim		goto out_unlock_both;
bda807d4SMinchan Kim	}
bda807d4SMinchan Kim
dc386d4dSKAMEZAWA Hiroyuki	/*
62e1c553SShaohua Li	 * Corner case handling:
62e1c553SShaohua Li	 * 1. When a new swap-cache page is read into, it is added to the LRU
62e1c553SShaohua Li	 * and treated as swapcache but it has no rmap yet.
62e1c553SShaohua Li	 * Calling try_to_unmap() against a page->mapping==NULL page will
62e1c553SShaohua Li	 * trigger a BUG.  So handle it here.
d12b8951SYang Shi	 * 2. An orphaned page (see truncate_cleanup_page) might have
62e1c553SShaohua Li	 * fs-private metadata. The page can be picked up due to memory
62e1c553SShaohua Li	 * offlining.  Everywhere else except page reclaim, the page is
62e1c553SShaohua Li	 * invisible to the vm, so the page can not be migrated.  So try to
62e1c553SShaohua Li	 * free the metadata, so the page can be freed.
dc386d4dSKAMEZAWA Hiroyuki	 */
62e1c553SShaohua Li	if (!page->mapping) {
309381feSSasha Levin		VM_BUG_ON_PAGE(PageAnon(page), page);
1ce82b69SHugh Dickins		if (page_has_private(page)) {
68189fefSMatthew Wilcox (Oracle)			try_to_free_buffers(folio);
7db7671fSHugh Dickins			goto out_unlock_both;
62e1c553SShaohua Li		}
7db7671fSHugh Dickins	} else if (page_mapped(page)) {
7db7671fSHugh Dickins		/* Establish migration ptes */
03f15c86SHugh Dickins		VM_BUG_ON_PAGE(PageAnon(page) && !PageKsm(page) && !anon_vma,
03f15c86SHugh Dickins				page);
4b8554c5SMatthew Wilcox (Oracle)		try_to_migrate(folio, 0);
213ecb31SBaolin Wang		page_was_mapped = true;
2ebba6b7SHugh Dickins	}
dc386d4dSKAMEZAWA Hiroyuki
e24f0b8fSChristoph Lameter	if (!page_mapped(page))
e7e3ffebSMatthew Wilcox (Oracle)		rc = move_to_new_folio(dst, folio, mode);
e24f0b8fSChristoph Lameter
c3096e67SHugh Dickins	/*
c3096e67SHugh Dickins	 * When successful, push newpage to LRU immediately: so that if it
c3096e67SHugh Dickins	 * turns out to be an mlocked page, remove_migration_ptes() will
c3096e67SHugh Dickins	 * automatically build up the correct newpage->mlock_count for it.
c3096e67SHugh Dickins	 *
c3096e67SHugh Dickins	 * We would like to do something similar for the old page, when
c3096e67SHugh Dickins	 * unsuccessful, and other cases when a page has been temporarily
c3096e67SHugh Dickins	 * isolated from the unevictable LRU: but this case is the easiest.
c3096e67SHugh Dickins	 */
c3096e67SHugh Dickins	if (rc == MIGRATEPAGE_SUCCESS) {
c3096e67SHugh Dickins		lru_cache_add(newpage);
5c3f9a67SHugh Dickins		if (page_was_mapped)
c3096e67SHugh Dickins			lru_add_drain();
c3096e67SHugh Dickins	}
c3096e67SHugh Dickins
5c3f9a67SHugh Dickins	if (page_was_mapped)
4eecb8b9SMatthew Wilcox (Oracle)		remove_migration_ptes(folio,
4eecb8b9SMatthew Wilcox (Oracle)			rc == MIGRATEPAGE_SUCCESS ? dst : folio, false);
3f6c8272SMel Gorman
7db7671fSHugh Dickinsout_unlock_both:
7db7671fSHugh Dickins	unlock_page(newpage);
7db7671fSHugh Dickinsout_unlock:
3f6c8272SMel Gorman	/* Drop an anon_vma reference if we took one */
76545066SRik van Riel	if (anon_vma)
9e60109fSPeter Zijlstra		put_anon_vma(anon_vma);
b20a3503SChristoph Lameter	unlock_page(page);
0dabec93SMinchan Kimout:
c6c919ebSMinchan Kim	/*
c3096e67SHugh Dickins	 * If migration is successful, decrease refcount of the newpage,
c6c919ebSMinchan Kim	 * which will not free the page because new page owner increased
c3096e67SHugh Dickins	 * refcounter.
c6c919ebSMinchan Kim	 */
c3096e67SHugh Dickins	if (rc == MIGRATEPAGE_SUCCESS)
c6c919ebSMinchan Kim		put_page(newpage);
c6c919ebSMinchan Kim
0dabec93SMinchan Kim	return rc;
0dabec93SMinchan Kim}
95a402c3SChristoph Lameter
0dabec93SMinchan Kim/*
0dabec93SMinchan Kim * Obtain the lock on page, remove all ptes and migrate the page
0dabec93SMinchan Kim * to the newly allocated page in newpage.
0dabec93SMinchan Kim */
6ec4476aSLinus Torvaldsstatic int unmap_and_move(new_page_t get_new_page,
ef2a5153SGeert Uytterhoeven				   free_page_t put_new_page,
ef2a5153SGeert Uytterhoeven				   unsigned long private, struct page *page,
add05cecSNaoya Horiguchi				   int force, enum migrate_mode mode,
dd4ae78aSYang Shi				   enum migrate_reason reason,
dd4ae78aSYang Shi				   struct list_head *ret)
0dabec93SMinchan Kim{
2def7424SHugh Dickins	int rc = MIGRATEPAGE_SUCCESS;
74d4a579SYang Shi	struct page *newpage = NULL;
0dabec93SMinchan Kim
94723aafSMichal Hocko	if (!thp_migration_supported() && PageTransHuge(page))
d532e2e5SYang Shi		return -ENOSYS;
94723aafSMichal Hocko
0dabec93SMinchan Kim	if (page_count(page) == 1) {
160088b3SMiaohe Lin		/* Page was freed from under us. So we are done. */
c6c919ebSMinchan Kim		ClearPageActive(page);
c6c919ebSMinchan Kim		ClearPageUnevictable(page);
160088b3SMiaohe Lin		/* free_pages_prepare() will clear PG_isolated. */
0dabec93SMinchan Kim		goto out;
0dabec93SMinchan Kim	}
0dabec93SMinchan Kim
74d4a579SYang Shi	newpage = get_new_page(page, private);
74d4a579SYang Shi	if (!newpage)
74d4a579SYang Shi		return -ENOMEM;
74d4a579SYang Shi
b653db77SMatthew Wilcox (Oracle)	newpage->private = 0;
9c620e2bSHugh Dickins	rc = __unmap_and_move(page, newpage, force, mode);
c6c919ebSMinchan Kim	if (rc == MIGRATEPAGE_SUCCESS)
7cd12b4aSVlastimil Babka		set_page_owner_migrate_reason(newpage, reason);
bf6bddf1SRafael Aquini
0dabec93SMinchan Kimout:
e24f0b8fSChristoph Lameter	if (rc != -EAGAIN) {
aaa994b3SChristoph Lameter		/*
aaa994b3SChristoph Lameter		 * A page that has been migrated has all references
aaa994b3SChristoph Lameter		 * removed and will be freed. A page that has not been
c23a0c99SRalph Campbell		 * migrated will have kept its references and be restored.
aaa994b3SChristoph Lameter		 */
aaa994b3SChristoph Lameter		list_del(&page->lru);
e24f0b8fSChristoph Lameter	}
68711a74SDavid Rientjes
95a402c3SChristoph Lameter	/*
c6c919ebSMinchan Kim	 * If migration is successful, releases reference grabbed during
c6c919ebSMinchan Kim	 * isolation. Otherwise, restore the page to right list unless
c6c919ebSMinchan Kim	 * we want to retry.
95a402c3SChristoph Lameter	 */
c6c919ebSMinchan Kim	if (rc == MIGRATEPAGE_SUCCESS) {
dd4ae78aSYang Shi		/*
dd4ae78aSYang Shi		 * Compaction can migrate also non-LRU pages which are
dd4ae78aSYang Shi		 * not accounted to NR_ISOLATED_*. They can be recognized
dd4ae78aSYang Shi		 * as __PageMovable
dd4ae78aSYang Shi		 */
dd4ae78aSYang Shi		if (likely(!__PageMovable(page)))
dd4ae78aSYang Shi			mod_node_page_state(page_pgdat(page), NR_ISOLATED_ANON +
dd4ae78aSYang Shi					page_is_file_lru(page), -thp_nr_pages(page));
dd4ae78aSYang Shi
79f5f8faSOscar Salvador		if (reason != MR_MEMORY_FAILURE)
c6c919ebSMinchan Kim			/*
79f5f8faSOscar Salvador			 * We release the page in page_handle_poison.
c6c919ebSMinchan Kim			 */
79f5f8faSOscar Salvador			put_page(page);
c6c919ebSMinchan Kim	} else {
dd4ae78aSYang Shi		if (rc != -EAGAIN)
dd4ae78aSYang Shi			list_add_tail(&page->lru, ret);
bda807d4SMinchan Kim
cf4b769aSHugh Dickins		if (put_new_page)
68711a74SDavid Rientjes			put_new_page(newpage, private);
c6c919ebSMinchan Kim		else
d6d86c0aSKonstantin Khlebnikov			put_page(newpage);
c6c919ebSMinchan Kim	}
68711a74SDavid Rientjes
e24f0b8fSChristoph Lameter	return rc;
e24f0b8fSChristoph Lameter}
b20a3503SChristoph Lameter
e24f0b8fSChristoph Lameter/*
290408d4SNaoya Horiguchi * Counterpart of unmap_and_move_page() for hugepage migration.
290408d4SNaoya Horiguchi *
290408d4SNaoya Horiguchi * This function doesn't wait the completion of hugepage I/O
290408d4SNaoya Horiguchi * because there is no race between I/O and migration for hugepage.
290408d4SNaoya Horiguchi * Note that currently hugepage I/O occurs only in direct I/O
290408d4SNaoya Horiguchi * where no lock is held and PG_writeback is irrelevant,
290408d4SNaoya Horiguchi * and writeback status of all subpages are counted in the reference
290408d4SNaoya Horiguchi * count of the head page (i.e. if all subpages of a 2MB hugepage are
290408d4SNaoya Horiguchi * under direct I/O, the reference of the head page is 512 and a bit more.)
290408d4SNaoya Horiguchi * This means that when we try to migrate hugepage whose subpages are
290408d4SNaoya Horiguchi * doing direct I/O, some references remain after try_to_unmap() and
290408d4SNaoya Horiguchi * hugepage migration fails without data corruption.
290408d4SNaoya Horiguchi *
290408d4SNaoya Horiguchi * There is also no race when direct I/O is issued on the page under migration,
290408d4SNaoya Horiguchi * because then pte is replaced with migration swap entry and direct I/O code
290408d4SNaoya Horiguchi * will wait in the page fault for migration to complete.
290408d4SNaoya Horiguchi */
290408d4SNaoya Horiguchistatic int unmap_and_move_huge_page(new_page_t get_new_page,
68711a74SDavid Rientjes				free_page_t put_new_page, unsigned long private,
68711a74SDavid Rientjes				struct page *hpage, int force,
dd4ae78aSYang Shi				enum migrate_mode mode, int reason,
dd4ae78aSYang Shi				struct list_head *ret)
290408d4SNaoya Horiguchi{
4eecb8b9SMatthew Wilcox (Oracle)	struct folio *dst, *src = page_folio(hpage);
2def7424SHugh Dickins	int rc = -EAGAIN;
2ebba6b7SHugh Dickins	int page_was_mapped = 0;
32665f2bSJoonsoo Kim	struct page *new_hpage;
290408d4SNaoya Horiguchi	struct anon_vma *anon_vma = NULL;
c0d0381aSMike Kravetz	struct address_space *mapping = NULL;
290408d4SNaoya Horiguchi
83467efbSNaoya Horiguchi	/*
7ed2c31dSAnshuman Khandual	 * Migratability of hugepages depends on architectures and their size.
83467efbSNaoya Horiguchi	 * This check is necessary because some callers of hugepage migration
83467efbSNaoya Horiguchi	 * like soft offline and memory hotremove don't walk through page
83467efbSNaoya Horiguchi	 * tables or check whether the hugepage is pmd-based or not before
83467efbSNaoya Horiguchi	 * kicking migration.
83467efbSNaoya Horiguchi	 */
100873d7SNaoya Horiguchi	if (!hugepage_migration_supported(page_hstate(hpage))) {
dd4ae78aSYang Shi		list_move_tail(&hpage->lru, ret);
83467efbSNaoya Horiguchi		return -ENOSYS;
32665f2bSJoonsoo Kim	}
83467efbSNaoya Horiguchi
71a64f61SMuchun Song	if (page_count(hpage) == 1) {
71a64f61SMuchun Song		/* page was freed from under us. So we are done. */
71a64f61SMuchun Song		putback_active_hugepage(hpage);
71a64f61SMuchun Song		return MIGRATEPAGE_SUCCESS;
71a64f61SMuchun Song	}
71a64f61SMuchun Song
666feb21SMichal Hocko	new_hpage = get_new_page(hpage, private);
290408d4SNaoya Horiguchi	if (!new_hpage)
290408d4SNaoya Horiguchi		return -ENOMEM;
4eecb8b9SMatthew Wilcox (Oracle)	dst = page_folio(new_hpage);
290408d4SNaoya Horiguchi
290408d4SNaoya Horiguchi	if (!trylock_page(hpage)) {
2916ecc0SJérôme Glisse		if (!force)
290408d4SNaoya Horiguchi			goto out;
2916ecc0SJérôme Glisse		switch (mode) {
2916ecc0SJérôme Glisse		case MIGRATE_SYNC:
2916ecc0SJérôme Glisse		case MIGRATE_SYNC_NO_COPY:
2916ecc0SJérôme Glisse			break;
2916ecc0SJérôme Glisse		default:
2916ecc0SJérôme Glisse			goto out;
2916ecc0SJérôme Glisse		}
290408d4SNaoya Horiguchi		lock_page(hpage);
290408d4SNaoya Horiguchi	}
290408d4SNaoya Horiguchi
cb6acd01SMike Kravetz	/*
cb6acd01SMike Kravetz	 * Check for pages which are in the process of being freed.  Without
cb6acd01SMike Kravetz	 * page_mapping() set, hugetlbfs specific move page routine will not
cb6acd01SMike Kravetz	 * be called and we could leak usage counts for subpools.
cb6acd01SMike Kravetz	 */
6acfb5baSMuchun Song	if (hugetlb_page_subpool(hpage) && !page_mapping(hpage)) {
cb6acd01SMike Kravetz		rc = -EBUSY;
cb6acd01SMike Kravetz		goto out_unlock;
cb6acd01SMike Kravetz	}
cb6acd01SMike Kravetz
746b18d4SPeter Zijlstra	if (PageAnon(hpage))
746b18d4SPeter Zijlstra		anon_vma = page_get_anon_vma(hpage);
290408d4SNaoya Horiguchi
7db7671fSHugh Dickins	if (unlikely(!trylock_page(new_hpage)))
7db7671fSHugh Dickins		goto put_anon;
7db7671fSHugh Dickins
2ebba6b7SHugh Dickins	if (page_mapped(hpage)) {
a98a2f0cSAlistair Popple		enum ttu_flags ttu = 0;
336bf30eSMike Kravetz
336bf30eSMike Kravetz		if (!PageAnon(hpage)) {
c0d0381aSMike Kravetz			/*
336bf30eSMike Kravetz			 * In shared mappings, try_to_unmap could potentially
336bf30eSMike Kravetz			 * call huge_pmd_unshare.  Because of this, take
336bf30eSMike Kravetz			 * semaphore in write mode here and set TTU_RMAP_LOCKED
336bf30eSMike Kravetz			 * to let lower levels know we have taken the lock.
c0d0381aSMike Kravetz			 */
c0d0381aSMike Kravetz			mapping = hugetlb_page_mapping_lock_write(hpage);
c0d0381aSMike Kravetz			if (unlikely(!mapping))
c0d0381aSMike Kravetz				goto unlock_put_anon;
c0d0381aSMike Kravetz
5202978bSMiaohe Lin			ttu = TTU_RMAP_LOCKED;
336bf30eSMike Kravetz		}
336bf30eSMike Kravetz
4b8554c5SMatthew Wilcox (Oracle)		try_to_migrate(src, ttu);
2ebba6b7SHugh Dickins		page_was_mapped = 1;
336bf30eSMike Kravetz
5202978bSMiaohe Lin		if (ttu & TTU_RMAP_LOCKED)
336bf30eSMike Kravetz			i_mmap_unlock_write(mapping);
2ebba6b7SHugh Dickins	}
290408d4SNaoya Horiguchi
290408d4SNaoya Horiguchi	if (!page_mapped(hpage))
e7e3ffebSMatthew Wilcox (Oracle)		rc = move_to_new_folio(dst, src, mode);
290408d4SNaoya Horiguchi
336bf30eSMike Kravetz	if (page_was_mapped)
4eecb8b9SMatthew Wilcox (Oracle)		remove_migration_ptes(src,
4eecb8b9SMatthew Wilcox (Oracle)			rc == MIGRATEPAGE_SUCCESS ? dst : src, false);
290408d4SNaoya Horiguchi
c0d0381aSMike Kravetzunlock_put_anon:
7db7671fSHugh Dickins	unlock_page(new_hpage);
7db7671fSHugh Dickins
7db7671fSHugh Dickinsput_anon:
fd4a4663SHugh Dickins	if (anon_vma)
9e60109fSPeter Zijlstra		put_anon_vma(anon_vma);
8e6ac7faSAneesh Kumar K.V
2def7424SHugh Dickins	if (rc == MIGRATEPAGE_SUCCESS) {
ab5ac90aSMichal Hocko		move_hugetlb_state(hpage, new_hpage, reason);
2def7424SHugh Dickins		put_new_page = NULL;
2def7424SHugh Dickins	}
8e6ac7faSAneesh Kumar K.V
cb6acd01SMike Kravetzout_unlock:
290408d4SNaoya Horiguchi	unlock_page(hpage);
09761333SHillf Dantonout:
dd4ae78aSYang Shi	if (rc == MIGRATEPAGE_SUCCESS)
b8ec1ceeSNaoya Horiguchi		putback_active_hugepage(hpage);
a04840c6SMiaohe Lin	else if (rc != -EAGAIN)
dd4ae78aSYang Shi		list_move_tail(&hpage->lru, ret);
68711a74SDavid Rientjes
68711a74SDavid Rientjes	/*
68711a74SDavid Rientjes	 * If migration was not successful and there's a freeing callback, use
68711a74SDavid Rientjes	 * it.  Otherwise, put_page() will drop the reference grabbed during
68711a74SDavid Rientjes	 * isolation.
68711a74SDavid Rientjes	 */
2def7424SHugh Dickins	if (put_new_page)
68711a74SDavid Rientjes		put_new_page(new_hpage, private);
68711a74SDavid Rientjes	else
3aaa76e1SNaoya Horiguchi		putback_active_hugepage(new_hpage);
68711a74SDavid Rientjes
290408d4SNaoya Horiguchi	return rc;
290408d4SNaoya Horiguchi}
290408d4SNaoya Horiguchi
d532e2e5SYang Shistatic inline int try_split_thp(struct page *page, struct page **page2,
d532e2e5SYang Shi				struct list_head *from)
d532e2e5SYang Shi{
d532e2e5SYang Shi	int rc = 0;
d532e2e5SYang Shi
d532e2e5SYang Shi	lock_page(page);
d532e2e5SYang Shi	rc = split_huge_page_to_list(page, from);
d532e2e5SYang Shi	unlock_page(page);
d532e2e5SYang Shi	if (!rc)
d532e2e5SYang Shi		list_safe_reset_next(page, *page2, lru);
d532e2e5SYang Shi
d532e2e5SYang Shi	return rc;
d532e2e5SYang Shi}
d532e2e5SYang Shi
290408d4SNaoya Horiguchi/*
c73e5c9cSSrivatsa S. Bhat * migrate_pages - migrate the pages specified in a list, to the free pages
c73e5c9cSSrivatsa S. Bhat *		   supplied as the target for the page migration
e24f0b8fSChristoph Lameter *
c73e5c9cSSrivatsa S. Bhat * @from:		The list of pages to be migrated.
c73e5c9cSSrivatsa S. Bhat * @get_new_page:	The function used to allocate free pages to be used
c73e5c9cSSrivatsa S. Bhat *			as the target of the page migration.
68711a74SDavid Rientjes * @put_new_page:	The function used to free target pages if migration
68711a74SDavid Rientjes *			fails, or NULL if no special handling is necessary.
c73e5c9cSSrivatsa S. Bhat * @private:		Private data to be passed on to get_new_page()
c73e5c9cSSrivatsa S. Bhat * @mode:		The migration mode that specifies the constraints for
c73e5c9cSSrivatsa S. Bhat *			page migration, if any.
c73e5c9cSSrivatsa S. Bhat * @reason:		The reason for page migration.
b5bade97SBaolin Wang * @ret_succeeded:	Set to the number of normal pages migrated successfully if
5ac95884SYang Shi *			the caller passes a non-NULL pointer.
e24f0b8fSChristoph Lameter *
c73e5c9cSSrivatsa S. Bhat * The function returns after 10 attempts or if no pages are movable any more
c73e5c9cSSrivatsa S. Bhat * because the list has become empty or no retryable pages exist any more.
dd4ae78aSYang Shi * It is caller's responsibility to call putback_movable_pages() to return pages
dd4ae78aSYang Shi * to the LRU or free list only if ret != 0.
e24f0b8fSChristoph Lameter *
5d39a7ebSBaolin Wang * Returns the number of {normal page, THP, hugetlb} that were not migrated, or
5d39a7ebSBaolin Wang * an error code. The number of THP splits will be considered as the number of
5d39a7ebSBaolin Wang * non-migrated THP, no matter how many subpages of the THP are migrated successfully.
e24f0b8fSChristoph Lameter */
9c620e2bSHugh Dickinsint migrate_pages(struct list_head *from, new_page_t get_new_page,
68711a74SDavid Rientjes		free_page_t put_new_page, unsigned long private,
5ac95884SYang Shi		enum migrate_mode mode, int reason, unsigned int *ret_succeeded)
e24f0b8fSChristoph Lameter{
e24f0b8fSChristoph Lameter	int retry = 1;
1a5bae25SAnshuman Khandual	int thp_retry = 1;
e24f0b8fSChristoph Lameter	int nr_failed = 0;
b5bade97SBaolin Wang	int nr_failed_pages = 0;
5647bc29SMel Gorman	int nr_succeeded = 0;
1a5bae25SAnshuman Khandual	int nr_thp_succeeded = 0;
1a5bae25SAnshuman Khandual	int nr_thp_failed = 0;
1a5bae25SAnshuman Khandual	int nr_thp_split = 0;
e24f0b8fSChristoph Lameter	int pass = 0;
1a5bae25SAnshuman Khandual	bool is_thp = false;
e24f0b8fSChristoph Lameter	struct page *page;
e24f0b8fSChristoph Lameter	struct page *page2;
1a5bae25SAnshuman Khandual	int rc, nr_subpages;
dd4ae78aSYang Shi	LIST_HEAD(ret_pages);
b5bade97SBaolin Wang	LIST_HEAD(thp_split_pages);
b0b515bfSYang Shi	bool nosplit = (reason == MR_NUMA_MISPLACED);
b5bade97SBaolin Wang	bool no_subpage_counting = false;
2d1db3b1SChristoph Lameter
7bc1aec5SLiam Mark	trace_mm_migrate_pages_start(mode, reason);
7bc1aec5SLiam Mark
b5bade97SBaolin Wangthp_subpage_migration:
1a5bae25SAnshuman Khandual	for (pass = 0; pass < 10 && (retry || thp_retry); pass++) {
e24f0b8fSChristoph Lameter		retry = 0;
1a5bae25SAnshuman Khandual		thp_retry = 0;
e24f0b8fSChristoph Lameter
e24f0b8fSChristoph Lameter		list_for_each_entry_safe(page, page2, from, lru) {
94723aafSMichal Hockoretry:
1a5bae25SAnshuman Khandual			/*
1a5bae25SAnshuman Khandual			 * THP statistics is based on the source huge page.
1a5bae25SAnshuman Khandual			 * Capture required information that might get lost
1a5bae25SAnshuman Khandual			 * during migration.
1a5bae25SAnshuman Khandual			 */
6c5c7b9fSZi Yan			is_thp = PageTransHuge(page) && !PageHuge(page);
5d39a7ebSBaolin Wang			nr_subpages = compound_nr(page);
e24f0b8fSChristoph Lameter			cond_resched();
e24f0b8fSChristoph Lameter
31caf665SNaoya Horiguchi			if (PageHuge(page))
31caf665SNaoya Horiguchi				rc = unmap_and_move_huge_page(get_new_page,
68711a74SDavid Rientjes						put_new_page, private, page,
dd4ae78aSYang Shi						pass > 2, mode, reason,
dd4ae78aSYang Shi						&ret_pages);
31caf665SNaoya Horiguchi			else
68711a74SDavid Rientjes				rc = unmap_and_move(get_new_page, put_new_page,
add05cecSNaoya Horiguchi						private, page, pass > 2, mode,
dd4ae78aSYang Shi						reason, &ret_pages);
dd4ae78aSYang Shi			/*
dd4ae78aSYang Shi			 * The rules are:
dd4ae78aSYang Shi			 *	Success: non hugetlb page will be freed, hugetlb
dd4ae78aSYang Shi			 *		 page will be put back
dd4ae78aSYang Shi			 *	-EAGAIN: stay on the from list
dd4ae78aSYang Shi			 *	-ENOMEM: stay on the from list
dd4ae78aSYang Shi			 *	Other errno: put on ret_pages list then splice to
dd4ae78aSYang Shi			 *		     from list
dd4ae78aSYang Shi			 */
e24f0b8fSChristoph Lameter			switch(rc) {
94723aafSMichal Hocko			/*
94723aafSMichal Hocko			 * THP migration might be unsupported or the
94723aafSMichal Hocko			 * allocation could've failed so we should
94723aafSMichal Hocko			 * retry on the same page with the THP split
94723aafSMichal Hocko			 * to base pages.
94723aafSMichal Hocko			 *
94723aafSMichal Hocko			 * Head page is retried immediately and tail
94723aafSMichal Hocko			 * pages are added to the tail of the list so
94723aafSMichal Hocko			 * we encounter them after the rest of the list
94723aafSMichal Hocko			 * is processed.
94723aafSMichal Hocko			 */
d532e2e5SYang Shi			case -ENOSYS:
d532e2e5SYang Shi				/* THP migration is unsupported */
6c5c7b9fSZi Yan				if (is_thp) {
b5bade97SBaolin Wang					nr_thp_failed++;
b5bade97SBaolin Wang					if (!try_split_thp(page, &page2, &thp_split_pages)) {
d532e2e5SYang Shi						nr_thp_split++;
d532e2e5SYang Shi						goto retry;
d532e2e5SYang Shi					}
f430893bSMiaohe Lin				/* Hugetlb migration is unsupported */
f430893bSMiaohe Lin				} else if (!no_subpage_counting) {
f430893bSMiaohe Lin					nr_failed++;
d532e2e5SYang Shi				}
d532e2e5SYang Shi
5d39a7ebSBaolin Wang				nr_failed_pages += nr_subpages;
d532e2e5SYang Shi				break;
d532e2e5SYang Shi			case -ENOMEM:
d532e2e5SYang Shi				/*
d532e2e5SYang Shi				 * When memory is low, don't bother to try to migrate
d532e2e5SYang Shi				 * other pages, just exit.
b0b515bfSYang Shi				 * THP NUMA faulting doesn't split THP to retry.
d532e2e5SYang Shi				 */
b0b515bfSYang Shi				if (is_thp && !nosplit) {
b5bade97SBaolin Wang					nr_thp_failed++;
b5bade97SBaolin Wang					if (!try_split_thp(page, &page2, &thp_split_pages)) {
1a5bae25SAnshuman Khandual						nr_thp_split++;
94723aafSMichal Hocko						goto retry;
94723aafSMichal Hocko					}
f430893bSMiaohe Lin				} else if (!no_subpage_counting) {
f430893bSMiaohe Lin					nr_failed++;
1a5bae25SAnshuman Khandual				}
b5bade97SBaolin Wang
5d39a7ebSBaolin Wang				nr_failed_pages += nr_subpages;
69a041ffSMiaohe Lin				/*
69a041ffSMiaohe Lin				 * There might be some subpages of fail-to-migrate THPs
69a041ffSMiaohe Lin				 * left in thp_split_pages list. Move them back to migration
69a041ffSMiaohe Lin				 * list so that they could be put back to the right list by
69a041ffSMiaohe Lin				 * the caller otherwise the page refcnt will be leaked.
69a041ffSMiaohe Lin				 */
69a041ffSMiaohe Lin				list_splice_init(&thp_split_pages, from);
69a041ffSMiaohe Lin				nr_thp_failed += thp_retry;
95a402c3SChristoph Lameter				goto out;
e24f0b8fSChristoph Lameter			case -EAGAIN:
f430893bSMiaohe Lin				if (is_thp)
1a5bae25SAnshuman Khandual					thp_retry++;
f430893bSMiaohe Lin				else
b20a3503SChristoph Lameter					retry++;
e24f0b8fSChristoph Lameter				break;
78bd5209SRafael Aquini			case MIGRATEPAGE_SUCCESS:
5d39a7ebSBaolin Wang				nr_succeeded += nr_subpages;
f430893bSMiaohe Lin				if (is_thp)
1a5bae25SAnshuman Khandual					nr_thp_succeeded++;
1a5bae25SAnshuman Khandual				break;
e24f0b8fSChristoph Lameter			default:
354a3363SNaoya Horiguchi				/*
d532e2e5SYang Shi				 * Permanent failure (-EBUSY, etc.):
354a3363SNaoya Horiguchi				 * unlike -EAGAIN case, the failed page is
354a3363SNaoya Horiguchi				 * removed from migration page list and not
354a3363SNaoya Horiguchi				 * retried in the next outer loop.
354a3363SNaoya Horiguchi				 */
f430893bSMiaohe Lin				if (is_thp)
1a5bae25SAnshuman Khandual					nr_thp_failed++;
f430893bSMiaohe Lin				else if (!no_subpage_counting)
b20a3503SChristoph Lameter					nr_failed++;
f430893bSMiaohe Lin
5d39a7ebSBaolin Wang				nr_failed_pages += nr_subpages;
e24f0b8fSChristoph Lameter				break;
b20a3503SChristoph Lameter			}
b20a3503SChristoph Lameter		}
e24f0b8fSChristoph Lameter	}
b5bade97SBaolin Wang	nr_failed += retry;
1a5bae25SAnshuman Khandual	nr_thp_failed += thp_retry;
b5bade97SBaolin Wang	/*
b5bade97SBaolin Wang	 * Try to migrate subpages of fail-to-migrate THPs, no nr_failed
b5bade97SBaolin Wang	 * counting in this round, since all subpages of a THP is counted
b5bade97SBaolin Wang	 * as 1 failure in the first round.
b5bade97SBaolin Wang	 */
b5bade97SBaolin Wang	if (!list_empty(&thp_split_pages)) {
b5bade97SBaolin Wang		/*
b5bade97SBaolin Wang		 * Move non-migrated pages (after 10 retries) to ret_pages
b5bade97SBaolin Wang		 * to avoid migrating them again.
b5bade97SBaolin Wang		 */
b5bade97SBaolin Wang		list_splice_init(from, &ret_pages);
b5bade97SBaolin Wang		list_splice_init(&thp_split_pages, from);
b5bade97SBaolin Wang		no_subpage_counting = true;
b5bade97SBaolin Wang		retry = 1;
b5bade97SBaolin Wang		goto thp_subpage_migration;
b5bade97SBaolin Wang	}
b5bade97SBaolin Wang
b5bade97SBaolin Wang	rc = nr_failed + nr_thp_failed;
95a402c3SChristoph Lameterout:
dd4ae78aSYang Shi	/*
dd4ae78aSYang Shi	 * Put the permanent failure page back to migration list, they
dd4ae78aSYang Shi	 * will be put back to the right list by the caller.
dd4ae78aSYang Shi	 */
dd4ae78aSYang Shi	list_splice(&ret_pages, from);
dd4ae78aSYang Shi
5647bc29SMel Gorman	count_vm_events(PGMIGRATE_SUCCESS, nr_succeeded);
b5bade97SBaolin Wang	count_vm_events(PGMIGRATE_FAIL, nr_failed_pages);
1a5bae25SAnshuman Khandual	count_vm_events(THP_MIGRATION_SUCCESS, nr_thp_succeeded);
1a5bae25SAnshuman Khandual	count_vm_events(THP_MIGRATION_FAIL, nr_thp_failed);
1a5bae25SAnshuman Khandual	count_vm_events(THP_MIGRATION_SPLIT, nr_thp_split);
b5bade97SBaolin Wang	trace_mm_migrate_pages(nr_succeeded, nr_failed_pages, nr_thp_succeeded,
1a5bae25SAnshuman Khandual			       nr_thp_failed, nr_thp_split, mode, reason);
7b2a2d4aSMel Gorman
5ac95884SYang Shi	if (ret_succeeded)
5ac95884SYang Shi		*ret_succeeded = nr_succeeded;
5ac95884SYang Shi
95a402c3SChristoph Lameter	return rc;
b20a3503SChristoph Lameter}
b20a3503SChristoph Lameter
19fc7bedSJoonsoo Kimstruct page *alloc_migration_target(struct page *page, unsigned long private)
b4b38223SJoonsoo Kim{
ffe06786SMatthew Wilcox (Oracle)	struct folio *folio = page_folio(page);
19fc7bedSJoonsoo Kim	struct migration_target_control *mtc;
19fc7bedSJoonsoo Kim	gfp_t gfp_mask;
b4b38223SJoonsoo Kim	unsigned int order = 0;
ffe06786SMatthew Wilcox (Oracle)	struct folio *new_folio = NULL;
19fc7bedSJoonsoo Kim	int nid;
19fc7bedSJoonsoo Kim	int zidx;
19fc7bedSJoonsoo Kim
19fc7bedSJoonsoo Kim	mtc = (struct migration_target_control *)private;
19fc7bedSJoonsoo Kim	gfp_mask = mtc->gfp_mask;
19fc7bedSJoonsoo Kim	nid = mtc->nid;
19fc7bedSJoonsoo Kim	if (nid == NUMA_NO_NODE)
ffe06786SMatthew Wilcox (Oracle)		nid = folio_nid(folio);
b4b38223SJoonsoo Kim
ffe06786SMatthew Wilcox (Oracle)	if (folio_test_hugetlb(folio)) {
ffe06786SMatthew Wilcox (Oracle)		struct hstate *h = page_hstate(&folio->page);
d92bbc27SJoonsoo Kim
19fc7bedSJoonsoo Kim		gfp_mask = htlb_modify_alloc_mask(h, gfp_mask);
19fc7bedSJoonsoo Kim		return alloc_huge_page_nodemask(h, nid, mtc->nmask, gfp_mask);
d92bbc27SJoonsoo Kim	}
b4b38223SJoonsoo Kim
ffe06786SMatthew Wilcox (Oracle)	if (folio_test_large(folio)) {
9933a0c8SJoonsoo Kim		/*
9933a0c8SJoonsoo Kim		 * clear __GFP_RECLAIM to make the migration callback
9933a0c8SJoonsoo Kim		 * consistent with regular THP allocations.
9933a0c8SJoonsoo Kim		 */
9933a0c8SJoonsoo Kim		gfp_mask &= ~__GFP_RECLAIM;
b4b38223SJoonsoo Kim		gfp_mask |= GFP_TRANSHUGE;
ffe06786SMatthew Wilcox (Oracle)		order = folio_order(folio);
b4b38223SJoonsoo Kim	}
ffe06786SMatthew Wilcox (Oracle)	zidx = zone_idx(folio_zone(folio));
19fc7bedSJoonsoo Kim	if (is_highmem_idx(zidx) || zidx == ZONE_MOVABLE)
b4b38223SJoonsoo Kim		gfp_mask |= __GFP_HIGHMEM;
b4b38223SJoonsoo Kim
ffe06786SMatthew Wilcox (Oracle)	new_folio = __folio_alloc(gfp_mask, order, nid, mtc->nmask);
b4b38223SJoonsoo Kim
ffe06786SMatthew Wilcox (Oracle)	return &new_folio->page;
b4b38223SJoonsoo Kim}
b4b38223SJoonsoo Kim
742755a1SChristoph Lameter#ifdef CONFIG_NUMA
742755a1SChristoph Lameter
a49bd4d7SMichal Hockostatic int store_status(int __user *status, int start, int value, int nr)
742755a1SChristoph Lameter{
a49bd4d7SMichal Hocko	while (nr-- > 0) {
a49bd4d7SMichal Hocko		if (put_user(value, status + start))
a49bd4d7SMichal Hocko			return -EFAULT;
a49bd4d7SMichal Hocko		start++;
a49bd4d7SMichal Hocko	}
742755a1SChristoph Lameter
a49bd4d7SMichal Hocko	return 0;
a49bd4d7SMichal Hocko}
742755a1SChristoph Lameter
a49bd4d7SMichal Hockostatic int do_move_pages_to_node(struct mm_struct *mm,
a49bd4d7SMichal Hocko		struct list_head *pagelist, int node)
a49bd4d7SMichal Hocko{
a49bd4d7SMichal Hocko	int err;
a0976311SJoonsoo Kim	struct migration_target_control mtc = {
a0976311SJoonsoo Kim		.nid = node,
a0976311SJoonsoo Kim		.gfp_mask = GFP_HIGHUSER_MOVABLE | __GFP_THISNODE,
a0976311SJoonsoo Kim	};
742755a1SChristoph Lameter
a0976311SJoonsoo Kim	err = migrate_pages(pagelist, alloc_migration_target, NULL,
5ac95884SYang Shi		(unsigned long)&mtc, MIGRATE_SYNC, MR_SYSCALL, NULL);
a49bd4d7SMichal Hocko	if (err)
a49bd4d7SMichal Hocko		putback_movable_pages(pagelist);
a49bd4d7SMichal Hocko	return err;
742755a1SChristoph Lameter}
742755a1SChristoph Lameter
742755a1SChristoph Lameter/*
a49bd4d7SMichal Hocko * Resolves the given address to a struct page, isolates it from the LRU and
a49bd4d7SMichal Hocko * puts it to the given pagelist.
e0153fc2SYang Shi * Returns:
e0153fc2SYang Shi *     errno - if the page cannot be found/isolated
e0153fc2SYang Shi *     0 - when it doesn't have to be migrated because it is already on the
e0153fc2SYang Shi *         target node
e0153fc2SYang Shi *     1 - when it has been queued
742755a1SChristoph Lameter */
a49bd4d7SMichal Hockostatic int add_page_for_migration(struct mm_struct *mm, unsigned long addr,
a49bd4d7SMichal Hocko		int node, struct list_head *pagelist, bool migrate_all)
742755a1SChristoph Lameter{
742755a1SChristoph Lameter	struct vm_area_struct *vma;
742755a1SChristoph Lameter	struct page *page;
a49bd4d7SMichal Hocko	int err;
742755a1SChristoph Lameter
d8ed45c5SMichel Lespinasse	mmap_read_lock(mm);
742755a1SChristoph Lameter	err = -EFAULT;
cb1c37b1SMiaohe Lin	vma = vma_lookup(mm, addr);
cb1c37b1SMiaohe Lin	if (!vma || !vma_migratable(vma))
a49bd4d7SMichal Hocko		goto out;
742755a1SChristoph Lameter
d899844eSKirill A. Shutemov	/* FOLL_DUMP to ignore special (like zero) pages */
87d2762eSMiaohe Lin	page = follow_page(vma, addr, FOLL_GET | FOLL_DUMP);
89f5b7daSLinus Torvalds
89f5b7daSLinus Torvalds	err = PTR_ERR(page);
89f5b7daSLinus Torvalds	if (IS_ERR(page))
a49bd4d7SMichal Hocko		goto out;
89f5b7daSLinus Torvalds
742755a1SChristoph Lameter	err = -ENOENT;
742755a1SChristoph Lameter	if (!page)
a49bd4d7SMichal Hocko		goto out;
742755a1SChristoph Lameter
a49bd4d7SMichal Hocko	err = 0;
a49bd4d7SMichal Hocko	if (page_to_nid(page) == node)
a49bd4d7SMichal Hocko		goto out_putpage;
742755a1SChristoph Lameter
742755a1SChristoph Lameter	err = -EACCES;
a49bd4d7SMichal Hocko	if (page_mapcount(page) > 1 && !migrate_all)
a49bd4d7SMichal Hocko		goto out_putpage;
742755a1SChristoph Lameter
e632a938SNaoya Horiguchi	if (PageHuge(page)) {
e8db67ebSNaoya Horiguchi		if (PageHead(page)) {
7ce82f4cSMiaohe Lin			err = isolate_hugetlb(page, pagelist);
7ce82f4cSMiaohe Lin			if (!err)
e0153fc2SYang Shi				err = 1;
e8db67ebSNaoya Horiguchi		}
a49bd4d7SMichal Hocko	} else {
a49bd4d7SMichal Hocko		struct page *head;
e632a938SNaoya Horiguchi
e8db67ebSNaoya Horiguchi		head = compound_head(page);
e8db67ebSNaoya Horiguchi		err = isolate_lru_page(head);
a49bd4d7SMichal Hocko		if (err)
a49bd4d7SMichal Hocko			goto out_putpage;
a49bd4d7SMichal Hocko
e0153fc2SYang Shi		err = 1;
a49bd4d7SMichal Hocko		list_add_tail(&head->lru, pagelist);
e8db67ebSNaoya Horiguchi		mod_node_page_state(page_pgdat(head),
9de4f22aSHuang Ying			NR_ISOLATED_ANON + page_is_file_lru(head),
6c357848SMatthew Wilcox (Oracle)			thp_nr_pages(head));
6d9c285aSKOSAKI Motohiro	}
a49bd4d7SMichal Hockoout_putpage:
742755a1SChristoph Lameter	/*
742755a1SChristoph Lameter	 * Either remove the duplicate refcount from
742755a1SChristoph Lameter	 * isolate_lru_page() or drop the page ref if it was
742755a1SChristoph Lameter	 * not isolated.
742755a1SChristoph Lameter	 */
742755a1SChristoph Lameter	put_page(page);
a49bd4d7SMichal Hockoout:
d8ed45c5SMichel Lespinasse	mmap_read_unlock(mm);
742755a1SChristoph Lameter	return err;
742755a1SChristoph Lameter}
742755a1SChristoph Lameter
7ca8783aSWei Yangstatic int move_pages_and_store_status(struct mm_struct *mm, int node,
7ca8783aSWei Yang		struct list_head *pagelist, int __user *status,
7ca8783aSWei Yang		int start, int i, unsigned long nr_pages)
7ca8783aSWei Yang{
7ca8783aSWei Yang	int err;
7ca8783aSWei Yang
5d7ae891SWei Yang	if (list_empty(pagelist))
5d7ae891SWei Yang		return 0;
5d7ae891SWei Yang
7ca8783aSWei Yang	err = do_move_pages_to_node(mm, pagelist, node);
7ca8783aSWei Yang	if (err) {
7ca8783aSWei Yang		/*
7ca8783aSWei Yang		 * Positive err means the number of failed
7ca8783aSWei Yang		 * pages to migrate.  Since we are going to
7ca8783aSWei Yang		 * abort and return the number of non-migrated
ab9dd4f8SLong Li		 * pages, so need to include the rest of the
7ca8783aSWei Yang		 * nr_pages that have not been attempted as
7ca8783aSWei Yang		 * well.
7ca8783aSWei Yang		 */
7ca8783aSWei Yang		if (err > 0)
7ca8783aSWei Yang			err += nr_pages - i - 1;
7ca8783aSWei Yang		return err;
7ca8783aSWei Yang	}
7ca8783aSWei Yang	return store_status(status, start, node, i - start);
7ca8783aSWei Yang}
7ca8783aSWei Yang
742755a1SChristoph Lameter/*
5e9a0f02SBrice Goglin * Migrate an array of page address onto an array of nodes and fill
5e9a0f02SBrice Goglin * the corresponding array of status.
5e9a0f02SBrice Goglin */
3268c63eSChristoph Lameterstatic int do_pages_move(struct mm_struct *mm, nodemask_t task_nodes,
5e9a0f02SBrice Goglin			 unsigned long nr_pages,
5e9a0f02SBrice Goglin			 const void __user * __user *pages,
5e9a0f02SBrice Goglin			 const int __user *nodes,
5e9a0f02SBrice Goglin			 int __user *status, int flags)
5e9a0f02SBrice Goglin{
a49bd4d7SMichal Hocko	int current_node = NUMA_NO_NODE;
a49bd4d7SMichal Hocko	LIST_HEAD(pagelist);
a49bd4d7SMichal Hocko	int start, i;
a49bd4d7SMichal Hocko	int err = 0, err1;
35282a2dSBrice Goglin
361a2a22SMinchan Kim	lru_cache_disable();
35282a2dSBrice Goglin
a49bd4d7SMichal Hocko	for (i = start = 0; i < nr_pages; i++) {
5e9a0f02SBrice Goglin		const void __user *p;
a49bd4d7SMichal Hocko		unsigned long addr;
5e9a0f02SBrice Goglin		int node;
5e9a0f02SBrice Goglin
3140a227SBrice Goglin		err = -EFAULT;
a49bd4d7SMichal Hocko		if (get_user(p, pages + i))
a49bd4d7SMichal Hocko			goto out_flush;
a49bd4d7SMichal Hocko		if (get_user(node, nodes + i))
a49bd4d7SMichal Hocko			goto out_flush;
057d3389SAndrey Konovalov		addr = (unsigned long)untagged_addr(p);
5e9a0f02SBrice Goglin
5e9a0f02SBrice Goglin		err = -ENODEV;
6f5a55f1SLinus Torvalds		if (node < 0 || node >= MAX_NUMNODES)
a49bd4d7SMichal Hocko			goto out_flush;
389162c2SLai Jiangshan		if (!node_state(node, N_MEMORY))
a49bd4d7SMichal Hocko			goto out_flush;
5e9a0f02SBrice Goglin
5e9a0f02SBrice Goglin		err = -EACCES;
5e9a0f02SBrice Goglin		if (!node_isset(node, task_nodes))
a49bd4d7SMichal Hocko			goto out_flush;
5e9a0f02SBrice Goglin
a49bd4d7SMichal Hocko		if (current_node == NUMA_NO_NODE) {
a49bd4d7SMichal Hocko			current_node = node;
a49bd4d7SMichal Hocko			start = i;
a49bd4d7SMichal Hocko		} else if (node != current_node) {
7ca8783aSWei Yang			err = move_pages_and_store_status(mm, current_node,
7ca8783aSWei Yang					&pagelist, status, start, i, nr_pages);
a49bd4d7SMichal Hocko			if (err)
a49bd4d7SMichal Hocko				goto out;
a49bd4d7SMichal Hocko			start = i;
a49bd4d7SMichal Hocko			current_node = node;
5e9a0f02SBrice Goglin		}
5e9a0f02SBrice Goglin
a49bd4d7SMichal Hocko		/*
a49bd4d7SMichal Hocko		 * Errors in the page lookup or isolation are not fatal and we simply
a49bd4d7SMichal Hocko		 * report them via status
a49bd4d7SMichal Hocko		 */
a49bd4d7SMichal Hocko		err = add_page_for_migration(mm, addr, current_node,
a49bd4d7SMichal Hocko				&pagelist, flags & MPOL_MF_MOVE_ALL);
e0153fc2SYang Shi
d08221a0SWei Yang		if (err > 0) {
e0153fc2SYang Shi			/* The page is successfully queued for migration */
e0153fc2SYang Shi			continue;
e0153fc2SYang Shi		}
3140a227SBrice Goglin
d08221a0SWei Yang		/*
65462462SJohn Hubbard		 * The move_pages() man page does not have an -EEXIST choice, so
65462462SJohn Hubbard		 * use -EFAULT instead.
65462462SJohn Hubbard		 */
65462462SJohn Hubbard		if (err == -EEXIST)
65462462SJohn Hubbard			err = -EFAULT;
65462462SJohn Hubbard
65462462SJohn Hubbard		/*
d08221a0SWei Yang		 * If the page is already on the target node (!err), store the
d08221a0SWei Yang		 * node, otherwise, store the err.
d08221a0SWei Yang		 */
d08221a0SWei Yang		err = store_status(status, i, err ? : current_node, 1);
a49bd4d7SMichal Hocko		if (err)
a49bd4d7SMichal Hocko			goto out_flush;
3140a227SBrice Goglin
7ca8783aSWei Yang		err = move_pages_and_store_status(mm, current_node, &pagelist,
7ca8783aSWei Yang				status, start, i, nr_pages);
a49bd4d7SMichal Hocko		if (err)
a49bd4d7SMichal Hocko			goto out;
a49bd4d7SMichal Hocko		current_node = NUMA_NO_NODE;
3140a227SBrice Goglin	}
a49bd4d7SMichal Hockoout_flush:
a49bd4d7SMichal Hocko	/* Make sure we do not overwrite the existing error */
7ca8783aSWei Yang	err1 = move_pages_and_store_status(mm, current_node, &pagelist,
7ca8783aSWei Yang				status, start, i, nr_pages);
dfe9aa23SWei Yang	if (err >= 0)
a49bd4d7SMichal Hocko		err = err1;
5e9a0f02SBrice Goglinout:
361a2a22SMinchan Kim	lru_cache_enable();
5e9a0f02SBrice Goglin	return err;
5e9a0f02SBrice Goglin}
5e9a0f02SBrice Goglin
5e9a0f02SBrice Goglin/*
2f007e74SBrice Goglin * Determine the nodes of an array of pages and store it in an array of status.
742755a1SChristoph Lameter */
80bba129SBrice Goglinstatic void do_pages_stat_array(struct mm_struct *mm, unsigned long nr_pages,
80bba129SBrice Goglin				const void __user **pages, int *status)
742755a1SChristoph Lameter{
2f007e74SBrice Goglin	unsigned long i;
742755a1SChristoph Lameter
d8ed45c5SMichel Lespinasse	mmap_read_lock(mm);
2f007e74SBrice Goglin
2f007e74SBrice Goglin	for (i = 0; i < nr_pages; i++) {
80bba129SBrice Goglin		unsigned long addr = (unsigned long)(*pages);
2f007e74SBrice Goglin		struct vm_area_struct *vma;
2f007e74SBrice Goglin		struct page *page;
c095adbcSKOSAKI Motohiro		int err = -EFAULT;
2f007e74SBrice Goglin
059b8b48SLiam Howlett		vma = vma_lookup(mm, addr);
059b8b48SLiam Howlett		if (!vma)
742755a1SChristoph Lameter			goto set_status;
742755a1SChristoph Lameter
d899844eSKirill A. Shutemov		/* FOLL_DUMP to ignore special (like zero) pages */
4cd61484SMiaohe Lin		page = follow_page(vma, addr, FOLL_GET | FOLL_DUMP);
89f5b7daSLinus Torvalds
89f5b7daSLinus Torvalds		err = PTR_ERR(page);
89f5b7daSLinus Torvalds		if (IS_ERR(page))
89f5b7daSLinus Torvalds			goto set_status;
89f5b7daSLinus Torvalds
4cd61484SMiaohe Lin		if (page) {
4cd61484SMiaohe Lin			err = page_to_nid(page);
4cd61484SMiaohe Lin			put_page(page);
4cd61484SMiaohe Lin		} else {
4cd61484SMiaohe Lin			err = -ENOENT;
4cd61484SMiaohe Lin		}
742755a1SChristoph Lameterset_status:
80bba129SBrice Goglin		*status = err;
80bba129SBrice Goglin
80bba129SBrice Goglin		pages++;
80bba129SBrice Goglin		status++;
80bba129SBrice Goglin	}
80bba129SBrice Goglin
d8ed45c5SMichel Lespinasse	mmap_read_unlock(mm);
80bba129SBrice Goglin}
80bba129SBrice Goglin
5b1b561bSArnd Bergmannstatic int get_compat_pages_array(const void __user *chunk_pages[],
5b1b561bSArnd Bergmann				  const void __user * __user *pages,
5b1b561bSArnd Bergmann				  unsigned long chunk_nr)
5b1b561bSArnd Bergmann{
5b1b561bSArnd Bergmann	compat_uptr_t __user *pages32 = (compat_uptr_t __user *)pages;
5b1b561bSArnd Bergmann	compat_uptr_t p;
5b1b561bSArnd Bergmann	int i;
5b1b561bSArnd Bergmann
5b1b561bSArnd Bergmann	for (i = 0; i < chunk_nr; i++) {
5b1b561bSArnd Bergmann		if (get_user(p, pages32 + i))
5b1b561bSArnd Bergmann			return -EFAULT;
5b1b561bSArnd Bergmann		chunk_pages[i] = compat_ptr(p);
5b1b561bSArnd Bergmann	}
5b1b561bSArnd Bergmann
5b1b561bSArnd Bergmann	return 0;
5b1b561bSArnd Bergmann}
5b1b561bSArnd Bergmann
80bba129SBrice Goglin/*
80bba129SBrice Goglin * Determine the nodes of a user array of pages and store it in
80bba129SBrice Goglin * a user array of status.
80bba129SBrice Goglin */
80bba129SBrice Goglinstatic int do_pages_stat(struct mm_struct *mm, unsigned long nr_pages,
80bba129SBrice Goglin			 const void __user * __user *pages,
80bba129SBrice Goglin			 int __user *status)
80bba129SBrice Goglin{
3eefb826SMiaohe Lin#define DO_PAGES_STAT_CHUNK_NR 16UL
80bba129SBrice Goglin	const void __user *chunk_pages[DO_PAGES_STAT_CHUNK_NR];
80bba129SBrice Goglin	int chunk_status[DO_PAGES_STAT_CHUNK_NR];
80bba129SBrice Goglin
87b8d1adSH. Peter Anvin	while (nr_pages) {
3eefb826SMiaohe Lin		unsigned long chunk_nr = min(nr_pages, DO_PAGES_STAT_CHUNK_NR);
87b8d1adSH. Peter Anvin
5b1b561bSArnd Bergmann		if (in_compat_syscall()) {
5b1b561bSArnd Bergmann			if (get_compat_pages_array(chunk_pages, pages,
5b1b561bSArnd Bergmann						   chunk_nr))
87b8d1adSH. Peter Anvin				break;
5b1b561bSArnd Bergmann		} else {
5b1b561bSArnd Bergmann			if (copy_from_user(chunk_pages, pages,
5b1b561bSArnd Bergmann				      chunk_nr * sizeof(*chunk_pages)))
5b1b561bSArnd Bergmann				break;
5b1b561bSArnd Bergmann		}
80bba129SBrice Goglin
80bba129SBrice Goglin		do_pages_stat_array(mm, chunk_nr, chunk_pages, chunk_status);
80bba129SBrice Goglin
87b8d1adSH. Peter Anvin		if (copy_to_user(status, chunk_status, chunk_nr * sizeof(*status)))
87b8d1adSH. Peter Anvin			break;
742755a1SChristoph Lameter
87b8d1adSH. Peter Anvin		pages += chunk_nr;
87b8d1adSH. Peter Anvin		status += chunk_nr;
87b8d1adSH. Peter Anvin		nr_pages -= chunk_nr;
87b8d1adSH. Peter Anvin	}
87b8d1adSH. Peter Anvin	return nr_pages ? -EFAULT : 0;
742755a1SChristoph Lameter}
742755a1SChristoph Lameter
4dc200ceSMiaohe Linstatic struct mm_struct *find_mm_struct(pid_t pid, nodemask_t *mem_nodes)
4dc200ceSMiaohe Lin{
4dc200ceSMiaohe Lin	struct task_struct *task;
4dc200ceSMiaohe Lin	struct mm_struct *mm;
4dc200ceSMiaohe Lin
4dc200ceSMiaohe Lin	/*
4dc200ceSMiaohe Lin	 * There is no need to check if current process has the right to modify
4dc200ceSMiaohe Lin	 * the specified process when they are same.
4dc200ceSMiaohe Lin	 */
4dc200ceSMiaohe Lin	if (!pid) {
4dc200ceSMiaohe Lin		mmget(current->mm);
4dc200ceSMiaohe Lin		*mem_nodes = cpuset_mems_allowed(current);
4dc200ceSMiaohe Lin		return current->mm;
4dc200ceSMiaohe Lin	}
4dc200ceSMiaohe Lin
4dc200ceSMiaohe Lin	/* Find the mm_struct */
4dc200ceSMiaohe Lin	rcu_read_lock();
4dc200ceSMiaohe Lin	task = find_task_by_vpid(pid);
4dc200ceSMiaohe Lin	if (!task) {
4dc200ceSMiaohe Lin		rcu_read_unlock();
4dc200ceSMiaohe Lin		return ERR_PTR(-ESRCH);
4dc200ceSMiaohe Lin	}
4dc200ceSMiaohe Lin	get_task_struct(task);
4dc200ceSMiaohe Lin
4dc200ceSMiaohe Lin	/*
4dc200ceSMiaohe Lin	 * Check if this process has the right to modify the specified
4dc200ceSMiaohe Lin	 * process. Use the regular "ptrace_may_access()" checks.
4dc200ceSMiaohe Lin	 */
4dc200ceSMiaohe Lin	if (!ptrace_may_access(task, PTRACE_MODE_READ_REALCREDS)) {
4dc200ceSMiaohe Lin		rcu_read_unlock();
4dc200ceSMiaohe Lin		mm = ERR_PTR(-EPERM);
4dc200ceSMiaohe Lin		goto out;
4dc200ceSMiaohe Lin	}
4dc200ceSMiaohe Lin	rcu_read_unlock();
4dc200ceSMiaohe Lin
4dc200ceSMiaohe Lin	mm = ERR_PTR(security_task_movememory(task));
4dc200ceSMiaohe Lin	if (IS_ERR(mm))
4dc200ceSMiaohe Lin		goto out;
4dc200ceSMiaohe Lin	*mem_nodes = cpuset_mems_allowed(task);
4dc200ceSMiaohe Lin	mm = get_task_mm(task);
4dc200ceSMiaohe Linout:
4dc200ceSMiaohe Lin	put_task_struct(task);
4dc200ceSMiaohe Lin	if (!mm)
4dc200ceSMiaohe Lin		mm = ERR_PTR(-EINVAL);
4dc200ceSMiaohe Lin	return mm;
4dc200ceSMiaohe Lin}
4dc200ceSMiaohe Lin
742755a1SChristoph Lameter/*
742755a1SChristoph Lameter * Move a list of pages in the address space of the currently executing
742755a1SChristoph Lameter * process.
742755a1SChristoph Lameter */
7addf443SDominik Brodowskistatic int kernel_move_pages(pid_t pid, unsigned long nr_pages,
7addf443SDominik Brodowski			     const void __user * __user *pages,
7addf443SDominik Brodowski			     const int __user *nodes,
7addf443SDominik Brodowski			     int __user *status, int flags)
742755a1SChristoph Lameter{
742755a1SChristoph Lameter	struct mm_struct *mm;
5e9a0f02SBrice Goglin	int err;
3268c63eSChristoph Lameter	nodemask_t task_nodes;
742755a1SChristoph Lameter
742755a1SChristoph Lameter	/* Check flags */
742755a1SChristoph Lameter	if (flags & ~(MPOL_MF_MOVE|MPOL_MF_MOVE_ALL))
742755a1SChristoph Lameter		return -EINVAL;
742755a1SChristoph Lameter
742755a1SChristoph Lameter	if ((flags & MPOL_MF_MOVE_ALL) && !capable(CAP_SYS_NICE))
742755a1SChristoph Lameter		return -EPERM;
742755a1SChristoph Lameter
4dc200ceSMiaohe Lin	mm = find_mm_struct(pid, &task_nodes);
4dc200ceSMiaohe Lin	if (IS_ERR(mm))
4dc200ceSMiaohe Lin		return PTR_ERR(mm);
6e8b09eaSSasha Levin
3268c63eSChristoph Lameter	if (nodes)
3268c63eSChristoph Lameter		err = do_pages_move(mm, task_nodes, nr_pages, pages,
3268c63eSChristoph Lameter				    nodes, status, flags);
3268c63eSChristoph Lameter	else
5e9a0f02SBrice Goglin		err = do_pages_stat(mm, nr_pages, pages, status);
3268c63eSChristoph Lameter
3268c63eSChristoph Lameter	mmput(mm);
3268c63eSChristoph Lameter	return err;
742755a1SChristoph Lameter}
742755a1SChristoph Lameter
7addf443SDominik BrodowskiSYSCALL_DEFINE6(move_pages, pid_t, pid, unsigned long, nr_pages,
7addf443SDominik Brodowski		const void __user * __user *, pages,
7addf443SDominik Brodowski		const int __user *, nodes,
7addf443SDominik Brodowski		int __user *, status, int, flags)
7addf443SDominik Brodowski{
7addf443SDominik Brodowski	return kernel_move_pages(pid, nr_pages, pages, nodes, status, flags);
7addf443SDominik Brodowski}
7addf443SDominik Brodowski
7039e1dbSPeter Zijlstra#ifdef CONFIG_NUMA_BALANCING
7039e1dbSPeter Zijlstra/*
7039e1dbSPeter Zijlstra * Returns true if this is a safe migration target node for misplaced NUMA
bc53008eSWei Yang * pages. Currently it only checks the watermarks which is crude.
7039e1dbSPeter Zijlstra */
7039e1dbSPeter Zijlstrastatic bool migrate_balanced_pgdat(struct pglist_data *pgdat,
3abef4e6SMel Gorman				   unsigned long nr_migrate_pages)
7039e1dbSPeter Zijlstra{
7039e1dbSPeter Zijlstra	int z;
599d0c95SMel Gorman
7039e1dbSPeter Zijlstra	for (z = pgdat->nr_zones - 1; z >= 0; z--) {
7039e1dbSPeter Zijlstra		struct zone *zone = pgdat->node_zones + z;
7039e1dbSPeter Zijlstra
bc53008eSWei Yang		if (!managed_zone(zone))
7039e1dbSPeter Zijlstra			continue;
7039e1dbSPeter Zijlstra
7039e1dbSPeter Zijlstra		/* Avoid waking kswapd by allocating pages_to_migrate pages. */
7039e1dbSPeter Zijlstra		if (!zone_watermark_ok(zone, 0,
7039e1dbSPeter Zijlstra				       high_wmark_pages(zone) +
7039e1dbSPeter Zijlstra				       nr_migrate_pages,
bfe9d006SHuang Ying				       ZONE_MOVABLE, 0))
7039e1dbSPeter Zijlstra			continue;
7039e1dbSPeter Zijlstra		return true;
7039e1dbSPeter Zijlstra	}
7039e1dbSPeter Zijlstra	return false;
7039e1dbSPeter Zijlstra}
7039e1dbSPeter Zijlstra
7039e1dbSPeter Zijlstrastatic struct page *alloc_misplaced_dst_page(struct page *page,
666feb21SMichal Hocko					   unsigned long data)
7039e1dbSPeter Zijlstra{
7039e1dbSPeter Zijlstra	int nid = (int) data;
c185e494SMatthew Wilcox (Oracle)	int order = compound_order(page);
c185e494SMatthew Wilcox (Oracle)	gfp_t gfp = __GFP_THISNODE;
c185e494SMatthew Wilcox (Oracle)	struct folio *new;
7039e1dbSPeter Zijlstra
c185e494SMatthew Wilcox (Oracle)	if (order > 0)
c185e494SMatthew Wilcox (Oracle)		gfp |= GFP_TRANSHUGE_LIGHT;
c185e494SMatthew Wilcox (Oracle)	else {
c185e494SMatthew Wilcox (Oracle)		gfp |= GFP_HIGHUSER_MOVABLE | __GFP_NOMEMALLOC | __GFP_NORETRY |
c185e494SMatthew Wilcox (Oracle)			__GFP_NOWARN;
c185e494SMatthew Wilcox (Oracle)		gfp &= ~__GFP_RECLAIM;
7039e1dbSPeter Zijlstra	}
c185e494SMatthew Wilcox (Oracle)	new = __folio_alloc_node(gfp, order, nid);
7039e1dbSPeter Zijlstra
c185e494SMatthew Wilcox (Oracle)	return &new->page;
c5b5a3ddSYang Shi}
c5b5a3ddSYang Shi
1c30e017SMel Gormanstatic int numamigrate_isolate_page(pg_data_t *pgdat, struct page *page)
b32967ffSMel Gorman{
2b9b624fSBaolin Wang	int nr_pages = thp_nr_pages(page);
c574bbe9SHuang Ying	int order = compound_order(page);
b32967ffSMel Gorman
c574bbe9SHuang Ying	VM_BUG_ON_PAGE(order && !PageTransHuge(page), page);
3abef4e6SMel Gorman
662aeea7SYang Shi	/* Do not migrate THP mapped by multiple processes */
662aeea7SYang Shi	if (PageTransHuge(page) && total_mapcount(page) > 1)
662aeea7SYang Shi		return 0;
662aeea7SYang Shi
b32967ffSMel Gorman	/* Avoid migrating to a node that is nearly full */
c574bbe9SHuang Ying	if (!migrate_balanced_pgdat(pgdat, nr_pages)) {
c574bbe9SHuang Ying		int z;
c574bbe9SHuang Ying
c574bbe9SHuang Ying		if (!(sysctl_numa_balancing_mode & NUMA_BALANCING_MEMORY_TIERING))
340ef390SHugh Dickins			return 0;
c574bbe9SHuang Ying		for (z = pgdat->nr_zones - 1; z >= 0; z--) {
bc53008eSWei Yang			if (managed_zone(pgdat->node_zones + z))
c574bbe9SHuang Ying				break;
c574bbe9SHuang Ying		}
c574bbe9SHuang Ying		wakeup_kswapd(pgdat->node_zones + z, 0, order, ZONE_MOVABLE);
c574bbe9SHuang Ying		return 0;
c574bbe9SHuang Ying	}
b32967ffSMel Gorman
340ef390SHugh Dickins	if (isolate_lru_page(page))
340ef390SHugh Dickins		return 0;
340ef390SHugh Dickins
b75454e1SMiaohe Lin	mod_node_page_state(page_pgdat(page), NR_ISOLATED_ANON + page_is_file_lru(page),
2b9b624fSBaolin Wang			    nr_pages);
b32967ffSMel Gorman
b32967ffSMel Gorman	/*
340ef390SHugh Dickins	 * Isolating the page has taken another reference, so the
340ef390SHugh Dickins	 * caller's reference can be safely dropped without the page
340ef390SHugh Dickins	 * disappearing underneath us during migration.
b32967ffSMel Gorman	 */
b32967ffSMel Gorman	put_page(page);
340ef390SHugh Dickins	return 1;
b32967ffSMel Gorman}
b32967ffSMel Gorman
a8f60772SMel Gorman/*
7039e1dbSPeter Zijlstra * Attempt to migrate a misplaced page to the specified destination
7039e1dbSPeter Zijlstra * node. Caller is expected to have an elevated reference count on
7039e1dbSPeter Zijlstra * the page that will be dropped by this function before returning.
7039e1dbSPeter Zijlstra */
1bc115d8SMel Gormanint migrate_misplaced_page(struct page *page, struct vm_area_struct *vma,
1bc115d8SMel Gorman			   int node)
7039e1dbSPeter Zijlstra{
a8f60772SMel Gorman	pg_data_t *pgdat = NODE_DATA(node);
340ef390SHugh Dickins	int isolated;
b32967ffSMel Gorman	int nr_remaining;
e39bb6beSHuang Ying	unsigned int nr_succeeded;
7039e1dbSPeter Zijlstra	LIST_HEAD(migratepages);
b5916c02SAneesh Kumar K.V	int nr_pages = thp_nr_pages(page);
c5b5a3ddSYang Shi
c5b5a3ddSYang Shi	/*
1bc115d8SMel Gorman	 * Don't migrate file pages that are mapped in multiple processes
1bc115d8SMel Gorman	 * with execute permissions as they are probably shared libraries.
7039e1dbSPeter Zijlstra	 */
7ee820eeSMiaohe Lin	if (page_mapcount(page) != 1 && page_is_file_lru(page) &&
7ee820eeSMiaohe Lin	    (vma->vm_flags & VM_EXEC))
7039e1dbSPeter Zijlstra		goto out;
7039e1dbSPeter Zijlstra
a8f60772SMel Gorman	/*
09a913a7SMel Gorman	 * Also do not migrate dirty pages as not all filesystems can move
09a913a7SMel Gorman	 * dirty pages in MIGRATE_ASYNC mode which is a waste of cycles.
09a913a7SMel Gorman	 */
9de4f22aSHuang Ying	if (page_is_file_lru(page) && PageDirty(page))
09a913a7SMel Gorman		goto out;
09a913a7SMel Gorman
b32967ffSMel Gorman	isolated = numamigrate_isolate_page(pgdat, page);
b32967ffSMel Gorman	if (!isolated)
7039e1dbSPeter Zijlstra		goto out;
7039e1dbSPeter Zijlstra
7039e1dbSPeter Zijlstra	list_add(&page->lru, &migratepages);
c185e494SMatthew Wilcox (Oracle)	nr_remaining = migrate_pages(&migratepages, alloc_misplaced_dst_page,
c185e494SMatthew Wilcox (Oracle)				     NULL, node, MIGRATE_ASYNC,
c185e494SMatthew Wilcox (Oracle)				     MR_NUMA_MISPLACED, &nr_succeeded);
7039e1dbSPeter Zijlstra	if (nr_remaining) {
59c82b70SJoonsoo Kim		if (!list_empty(&migratepages)) {
59c82b70SJoonsoo Kim			list_del(&page->lru);
c5fc5c3aSYang Shi			mod_node_page_state(page_pgdat(page), NR_ISOLATED_ANON +
c5fc5c3aSYang Shi					page_is_file_lru(page), -nr_pages);
59c82b70SJoonsoo Kim			putback_lru_page(page);
59c82b70SJoonsoo Kim		}
7039e1dbSPeter Zijlstra		isolated = 0;
e39bb6beSHuang Ying	}
e39bb6beSHuang Ying	if (nr_succeeded) {
e39bb6beSHuang Ying		count_vm_numa_events(NUMA_PAGE_MIGRATE, nr_succeeded);
e39bb6beSHuang Ying		if (!node_is_toptier(page_to_nid(page)) && node_is_toptier(node))
e39bb6beSHuang Ying			mod_node_page_state(pgdat, PGPROMOTE_SUCCESS,
e39bb6beSHuang Ying					    nr_succeeded);
e39bb6beSHuang Ying	}
7039e1dbSPeter Zijlstra	BUG_ON(!list_empty(&migratepages));
7039e1dbSPeter Zijlstra	return isolated;
340ef390SHugh Dickins
340ef390SHugh Dickinsout:
340ef390SHugh Dickins	put_page(page);
340ef390SHugh Dickins	return 0;
7039e1dbSPeter Zijlstra}
220018d3SMel Gorman#endif /* CONFIG_NUMA_BALANCING */
8763cb45SJérôme Glisse
dcee9bf5SHuang Ying/*
dcee9bf5SHuang Ying * node_demotion[] example:
dcee9bf5SHuang Ying *
dcee9bf5SHuang Ying * Consider a system with two sockets.  Each socket has
dcee9bf5SHuang Ying * three classes of memory attached: fast, medium and slow.
dcee9bf5SHuang Ying * Each memory class is placed in its own NUMA node.  The
dcee9bf5SHuang Ying * CPUs are placed in the node with the "fast" memory.  The
dcee9bf5SHuang Ying * 6 NUMA nodes (0-5) might be split among the sockets like
dcee9bf5SHuang Ying * this:
dcee9bf5SHuang Ying *
dcee9bf5SHuang Ying *	Socket A: 0, 1, 2
dcee9bf5SHuang Ying *	Socket B: 3, 4, 5
dcee9bf5SHuang Ying *
dcee9bf5SHuang Ying * When Node 0 fills up, its memory should be migrated to
dcee9bf5SHuang Ying * Node 1.  When Node 1 fills up, it should be migrated to
dcee9bf5SHuang Ying * Node 2.  The migration path start on the nodes with the
dcee9bf5SHuang Ying * processors (since allocations default to this node) and
dcee9bf5SHuang Ying * fast memory, progress through medium and end with the
dcee9bf5SHuang Ying * slow memory:
dcee9bf5SHuang Ying *
dcee9bf5SHuang Ying *	0 -> 1 -> 2 -> stop
dcee9bf5SHuang Ying *	3 -> 4 -> 5 -> stop
dcee9bf5SHuang Ying *
dcee9bf5SHuang Ying * This is represented in the node_demotion[] like this:
dcee9bf5SHuang Ying *
dcee9bf5SHuang Ying *	{  nr=1, nodes[0]=1 }, // Node 0 migrates to 1
dcee9bf5SHuang Ying *	{  nr=1, nodes[0]=2 }, // Node 1 migrates to 2
dcee9bf5SHuang Ying *	{  nr=0, nodes[0]=-1 }, // Node 2 does not migrate
dcee9bf5SHuang Ying *	{  nr=1, nodes[0]=4 }, // Node 3 migrates to 4
dcee9bf5SHuang Ying *	{  nr=1, nodes[0]=5 }, // Node 4 migrates to 5
dcee9bf5SHuang Ying *	{  nr=0, nodes[0]=-1 }, // Node 5 does not migrate
dcee9bf5SHuang Ying *
dcee9bf5SHuang Ying * Moreover some systems may have multiple slow memory nodes.
dcee9bf5SHuang Ying * Suppose a system has one socket with 3 memory nodes, node 0
dcee9bf5SHuang Ying * is fast memory type, and node 1/2 both are slow memory
dcee9bf5SHuang Ying * type, and the distance between fast memory node and slow
dcee9bf5SHuang Ying * memory node is same. So the migration path should be:
dcee9bf5SHuang Ying *
dcee9bf5SHuang Ying *	0 -> 1/2 -> stop
dcee9bf5SHuang Ying *
dcee9bf5SHuang Ying * This is represented in the node_demotion[] like this:
dcee9bf5SHuang Ying *	{ nr=2, {nodes[0]=1, nodes[1]=2} }, // Node 0 migrates to node 1 and node 2
dcee9bf5SHuang Ying *	{ nr=0, nodes[0]=-1, }, // Node 1 dose not migrate
dcee9bf5SHuang Ying *	{ nr=0, nodes[0]=-1, }, // Node 2 does not migrate
dcee9bf5SHuang Ying */
dcee9bf5SHuang Ying
dcee9bf5SHuang Ying/*
dcee9bf5SHuang Ying * Writes to this array occur without locking.  Cycles are
dcee9bf5SHuang Ying * not allowed: Node X demotes to Y which demotes to X...
dcee9bf5SHuang Ying *
dcee9bf5SHuang Ying * If multiple reads are performed, a single rcu_read_lock()
dcee9bf5SHuang Ying * must be held over all reads to ensure that no cycles are
dcee9bf5SHuang Ying * observed.
dcee9bf5SHuang Ying */
dcee9bf5SHuang Ying#define DEFAULT_DEMOTION_TARGET_NODES 15
dcee9bf5SHuang Ying
dcee9bf5SHuang Ying#if MAX_NUMNODES < DEFAULT_DEMOTION_TARGET_NODES
dcee9bf5SHuang Ying#define DEMOTION_TARGET_NODES	(MAX_NUMNODES - 1)
dcee9bf5SHuang Ying#else
dcee9bf5SHuang Ying#define DEMOTION_TARGET_NODES	DEFAULT_DEMOTION_TARGET_NODES
dcee9bf5SHuang Ying#endif
dcee9bf5SHuang Ying
dcee9bf5SHuang Yingstruct demotion_nodes {
dcee9bf5SHuang Ying	unsigned short nr;
dcee9bf5SHuang Ying	short nodes[DEMOTION_TARGET_NODES];
dcee9bf5SHuang Ying};
dcee9bf5SHuang Ying
dcee9bf5SHuang Yingstatic struct demotion_nodes *node_demotion __read_mostly;
dcee9bf5SHuang Ying
dcee9bf5SHuang Ying/**
dcee9bf5SHuang Ying * next_demotion_node() - Get the next node in the demotion path
dcee9bf5SHuang Ying * @node: The starting node to lookup the next node
dcee9bf5SHuang Ying *
dcee9bf5SHuang Ying * Return: node id for next memory node in the demotion path hierarchy
dcee9bf5SHuang Ying * from @node; NUMA_NO_NODE if @node is terminal.  This does not keep
dcee9bf5SHuang Ying * @node online or guarantee that it *continues* to be the next demotion
dcee9bf5SHuang Ying * target.
dcee9bf5SHuang Ying */
dcee9bf5SHuang Yingint next_demotion_node(int node)
dcee9bf5SHuang Ying{
dcee9bf5SHuang Ying	struct demotion_nodes *nd;
dcee9bf5SHuang Ying	unsigned short target_nr, index;
dcee9bf5SHuang Ying	int target;
dcee9bf5SHuang Ying
dcee9bf5SHuang Ying	if (!node_demotion)
dcee9bf5SHuang Ying		return NUMA_NO_NODE;
dcee9bf5SHuang Ying
dcee9bf5SHuang Ying	nd = &node_demotion[node];
dcee9bf5SHuang Ying
dcee9bf5SHuang Ying	/*
dcee9bf5SHuang Ying	 * node_demotion[] is updated without excluding this
dcee9bf5SHuang Ying	 * function from running.  RCU doesn't provide any
dcee9bf5SHuang Ying	 * compiler barriers, so the READ_ONCE() is required
dcee9bf5SHuang Ying	 * to avoid compiler reordering or read merging.
dcee9bf5SHuang Ying	 *
dcee9bf5SHuang Ying	 * Make sure to use RCU over entire code blocks if
dcee9bf5SHuang Ying	 * node_demotion[] reads need to be consistent.
dcee9bf5SHuang Ying	 */
dcee9bf5SHuang Ying	rcu_read_lock();
dcee9bf5SHuang Ying	target_nr = READ_ONCE(nd->nr);
dcee9bf5SHuang Ying
dcee9bf5SHuang Ying	switch (target_nr) {
dcee9bf5SHuang Ying	case 0:
dcee9bf5SHuang Ying		target = NUMA_NO_NODE;
dcee9bf5SHuang Ying		goto out;
dcee9bf5SHuang Ying	case 1:
dcee9bf5SHuang Ying		index = 0;
dcee9bf5SHuang Ying		break;
dcee9bf5SHuang Ying	default:
dcee9bf5SHuang Ying		/*
dcee9bf5SHuang Ying		 * If there are multiple target nodes, just select one
dcee9bf5SHuang Ying		 * target node randomly.
dcee9bf5SHuang Ying		 *
dcee9bf5SHuang Ying		 * In addition, we can also use round-robin to select
dcee9bf5SHuang Ying		 * target node, but we should introduce another variable
dcee9bf5SHuang Ying		 * for node_demotion[] to record last selected target node,
dcee9bf5SHuang Ying		 * that may cause cache ping-pong due to the changing of
dcee9bf5SHuang Ying		 * last target node. Or introducing per-cpu data to avoid
dcee9bf5SHuang Ying		 * caching issue, which seems more complicated. So selecting
dcee9bf5SHuang Ying		 * target node randomly seems better until now.
dcee9bf5SHuang Ying		 */
dcee9bf5SHuang Ying		index = get_random_int() % target_nr;
dcee9bf5SHuang Ying		break;
dcee9bf5SHuang Ying	}
dcee9bf5SHuang Ying
dcee9bf5SHuang Ying	target = READ_ONCE(nd->nodes[index]);
dcee9bf5SHuang Ying
dcee9bf5SHuang Yingout:
dcee9bf5SHuang Ying	rcu_read_unlock();
dcee9bf5SHuang Ying	return target;
dcee9bf5SHuang Ying}
dcee9bf5SHuang Ying
79c28a41SDave Hansen/* Disable reclaim-based migration. */
79c28a41SDave Hansenstatic void __disable_all_migrate_targets(void)
79c28a41SDave Hansen{
ac16ec83SBaolin Wang	int node, i;
79c28a41SDave Hansen
ac16ec83SBaolin Wang	if (!node_demotion)
ac16ec83SBaolin Wang		return;
ac16ec83SBaolin Wang
ac16ec83SBaolin Wang	for_each_online_node(node) {
ac16ec83SBaolin Wang		node_demotion[node].nr = 0;
ac16ec83SBaolin Wang		for (i = 0; i < DEMOTION_TARGET_NODES; i++)
ac16ec83SBaolin Wang			node_demotion[node].nodes[i] = NUMA_NO_NODE;
ac16ec83SBaolin Wang	}
79c28a41SDave Hansen}
79c28a41SDave Hansen
79c28a41SDave Hansenstatic void disable_all_migrate_targets(void)
79c28a41SDave Hansen{
79c28a41SDave Hansen	__disable_all_migrate_targets();
79c28a41SDave Hansen
79c28a41SDave Hansen	/*
79c28a41SDave Hansen	 * Ensure that the "disable" is visible across the system.
79c28a41SDave Hansen	 * Readers will see either a combination of before+disable
79c28a41SDave Hansen	 * state or disable+after.  They will never see before and
79c28a41SDave Hansen	 * after state together.
79c28a41SDave Hansen	 *
79c28a41SDave Hansen	 * The before+after state together might have cycles and
79c28a41SDave Hansen	 * could cause readers to do things like loop until this
79c28a41SDave Hansen	 * function finishes.  This ensures they can only see a
79c28a41SDave Hansen	 * single "bad" read and would, for instance, only loop
79c28a41SDave Hansen	 * once.
79c28a41SDave Hansen	 */
79c28a41SDave Hansen	synchronize_rcu();
79c28a41SDave Hansen}
79c28a41SDave Hansen
79c28a41SDave Hansen/*
79c28a41SDave Hansen * Find an automatic demotion target for 'node'.
79c28a41SDave Hansen * Failing here is OK.  It might just indicate
79c28a41SDave Hansen * being at the end of a chain.
79c28a41SDave Hansen */
ac16ec83SBaolin Wangstatic int establish_migrate_target(int node, nodemask_t *used,
ac16ec83SBaolin Wang				    int best_distance)
79c28a41SDave Hansen{
ac16ec83SBaolin Wang	int migration_target, index, val;
ac16ec83SBaolin Wang	struct demotion_nodes *nd;
79c28a41SDave Hansen
ac16ec83SBaolin Wang	if (!node_demotion)
79c28a41SDave Hansen		return NUMA_NO_NODE;
79c28a41SDave Hansen
ac16ec83SBaolin Wang	nd = &node_demotion[node];
ac16ec83SBaolin Wang
79c28a41SDave Hansen	migration_target = find_next_best_node(node, used);
79c28a41SDave Hansen	if (migration_target == NUMA_NO_NODE)
79c28a41SDave Hansen		return NUMA_NO_NODE;
79c28a41SDave Hansen
ac16ec83SBaolin Wang	/*
ac16ec83SBaolin Wang	 * If the node has been set a migration target node before,
ac16ec83SBaolin Wang	 * which means it's the best distance between them. Still
ac16ec83SBaolin Wang	 * check if this node can be demoted to other target nodes
ac16ec83SBaolin Wang	 * if they have a same best distance.
ac16ec83SBaolin Wang	 */
ac16ec83SBaolin Wang	if (best_distance != -1) {
ac16ec83SBaolin Wang		val = node_distance(node, migration_target);
ac16ec83SBaolin Wang		if (val > best_distance)
fc89213aSHuang Ying			goto out_clear;
ac16ec83SBaolin Wang	}
ac16ec83SBaolin Wang
ac16ec83SBaolin Wang	index = nd->nr;
ac16ec83SBaolin Wang	if (WARN_ONCE(index >= DEMOTION_TARGET_NODES,
ac16ec83SBaolin Wang		      "Exceeds maximum demotion target nodes\n"))
fc89213aSHuang Ying		goto out_clear;
ac16ec83SBaolin Wang
ac16ec83SBaolin Wang	nd->nodes[index] = migration_target;
ac16ec83SBaolin Wang	nd->nr++;
79c28a41SDave Hansen
79c28a41SDave Hansen	return migration_target;
fc89213aSHuang Yingout_clear:
fc89213aSHuang Ying	node_clear(migration_target, *used);
fc89213aSHuang Ying	return NUMA_NO_NODE;
79c28a41SDave Hansen}
79c28a41SDave Hansen
79c28a41SDave Hansen/*
79c28a41SDave Hansen * When memory fills up on a node, memory contents can be
79c28a41SDave Hansen * automatically migrated to another node instead of
79c28a41SDave Hansen * discarded at reclaim.
79c28a41SDave Hansen *
79c28a41SDave Hansen * Establish a "migration path" which will start at nodes
79c28a41SDave Hansen * with CPUs and will follow the priorities used to build the
79c28a41SDave Hansen * page allocator zonelists.
79c28a41SDave Hansen *
79c28a41SDave Hansen * The difference here is that cycles must be avoided.  If
79c28a41SDave Hansen * node0 migrates to node1, then neither node1, nor anything
ac16ec83SBaolin Wang * node1 migrates to can migrate to node0. Also one node can
ac16ec83SBaolin Wang * be migrated to multiple nodes if the target nodes all have
ac16ec83SBaolin Wang * a same best-distance against the source node.
79c28a41SDave Hansen *
79c28a41SDave Hansen * This function can run simultaneously with readers of
79c28a41SDave Hansen * node_demotion[].  However, it can not run simultaneously
79c28a41SDave Hansen * with itself.  Exclusion is provided by memory hotplug events
79c28a41SDave Hansen * being single-threaded.
79c28a41SDave Hansen */
79c28a41SDave Hansenstatic void __set_migration_target_nodes(void)
79c28a41SDave Hansen{
91925ab8SMiaohe Lin	nodemask_t next_pass;
91925ab8SMiaohe Lin	nodemask_t this_pass;
79c28a41SDave Hansen	nodemask_t used_targets = NODE_MASK_NONE;
ac16ec83SBaolin Wang	int node, best_distance;
79c28a41SDave Hansen
79c28a41SDave Hansen	/*
79c28a41SDave Hansen	 * Avoid any oddities like cycles that could occur
79c28a41SDave Hansen	 * from changes in the topology.  This will leave
79c28a41SDave Hansen	 * a momentary gap when migration is disabled.
79c28a41SDave Hansen	 */
79c28a41SDave Hansen	disable_all_migrate_targets();
79c28a41SDave Hansen
79c28a41SDave Hansen	/*
79c28a41SDave Hansen	 * Allocations go close to CPUs, first.  Assume that
79c28a41SDave Hansen	 * the migration path starts at the nodes with CPUs.
79c28a41SDave Hansen	 */
79c28a41SDave Hansen	next_pass = node_states[N_CPU];
79c28a41SDave Hansenagain:
79c28a41SDave Hansen	this_pass = next_pass;
79c28a41SDave Hansen	next_pass = NODE_MASK_NONE;
79c28a41SDave Hansen	/*
79c28a41SDave Hansen	 * To avoid cycles in the migration "graph", ensure
79c28a41SDave Hansen	 * that migration sources are not future targets by
79c28a41SDave Hansen	 * setting them in 'used_targets'.  Do this only
79c28a41SDave Hansen	 * once per pass so that multiple source nodes can
79c28a41SDave Hansen	 * share a target node.
79c28a41SDave Hansen	 *
79c28a41SDave Hansen	 * 'used_targets' will become unavailable in future
79c28a41SDave Hansen	 * passes.  This limits some opportunities for
79c28a41SDave Hansen	 * multiple source nodes to share a destination.
79c28a41SDave Hansen	 */
79c28a41SDave Hansen	nodes_or(used_targets, used_targets, this_pass);
ac16ec83SBaolin Wang
79c28a41SDave Hansen	for_each_node_mask(node, this_pass) {
ac16ec83SBaolin Wang		best_distance = -1;
ac16ec83SBaolin Wang
ac16ec83SBaolin Wang		/*
ac16ec83SBaolin Wang		 * Try to set up the migration path for the node, and the target
ac16ec83SBaolin Wang		 * migration nodes can be multiple, so doing a loop to find all
ac16ec83SBaolin Wang		 * the target nodes if they all have a best node distance.
ac16ec83SBaolin Wang		 */
ac16ec83SBaolin Wang		do {
ac16ec83SBaolin Wang			int target_node =
ac16ec83SBaolin Wang				establish_migrate_target(node, &used_targets,
ac16ec83SBaolin Wang							 best_distance);
79c28a41SDave Hansen
79c28a41SDave Hansen			if (target_node == NUMA_NO_NODE)
ac16ec83SBaolin Wang				break;
ac16ec83SBaolin Wang
ac16ec83SBaolin Wang			if (best_distance == -1)
ac16ec83SBaolin Wang				best_distance = node_distance(node, target_node);
79c28a41SDave Hansen
79c28a41SDave Hansen			/*
79c28a41SDave Hansen			 * Visit targets from this pass in the next pass.
79c28a41SDave Hansen			 * Eventually, every node will have been part of
79c28a41SDave Hansen			 * a pass, and will become set in 'used_targets'.
79c28a41SDave Hansen			 */
79c28a41SDave Hansen			node_set(target_node, next_pass);
ac16ec83SBaolin Wang		} while (1);
79c28a41SDave Hansen	}
79c28a41SDave Hansen	/*
79c28a41SDave Hansen	 * 'next_pass' contains nodes which became migration
79c28a41SDave Hansen	 * targets in this pass.  Make additional passes until
79c28a41SDave Hansen	 * no more migrations targets are available.
79c28a41SDave Hansen	 */
79c28a41SDave Hansen	if (!nodes_empty(next_pass))
79c28a41SDave Hansen		goto again;
79c28a41SDave Hansen}
79c28a41SDave Hansen
79c28a41SDave Hansen/*
79c28a41SDave Hansen * For callers that do not hold get_online_mems() already.
79c28a41SDave Hansen */
734c1570SOscar Salvadorvoid set_migration_target_nodes(void)
79c28a41SDave Hansen{
79c28a41SDave Hansen	get_online_mems();
79c28a41SDave Hansen	__set_migration_target_nodes();
79c28a41SDave Hansen	put_online_mems();
79c28a41SDave Hansen}
884a6e5dSDave Hansen
884a6e5dSDave Hansen/*
884a6e5dSDave Hansen * This leaves migrate-on-reclaim transiently disabled between
884a6e5dSDave Hansen * the MEM_GOING_OFFLINE and MEM_OFFLINE events.  This runs
884a6e5dSDave Hansen * whether reclaim-based migration is enabled or not, which
884a6e5dSDave Hansen * ensures that the user can turn reclaim-based migration at
884a6e5dSDave Hansen * any time without needing to recalculate migration targets.
884a6e5dSDave Hansen *
884a6e5dSDave Hansen * These callbacks already hold get_online_mems().  That is why
884a6e5dSDave Hansen * __set_migration_target_nodes() can be used as opposed to
884a6e5dSDave Hansen * set_migration_target_nodes().
884a6e5dSDave Hansen */
7d6e2d96SOscar Salvador#ifdef CONFIG_MEMORY_HOTPLUG
884a6e5dSDave Hansenstatic int __meminit migrate_on_reclaim_callback(struct notifier_block *self,
295be91fSDave Hansen						 unsigned long action, void *_arg)
884a6e5dSDave Hansen{
295be91fSDave Hansen	struct memory_notify *arg = _arg;
295be91fSDave Hansen
295be91fSDave Hansen	/*
295be91fSDave Hansen	 * Only update the node migration order when a node is
295be91fSDave Hansen	 * changing status, like online->offline.  This avoids
295be91fSDave Hansen	 * the overhead of synchronize_rcu() in most cases.
295be91fSDave Hansen	 */
295be91fSDave Hansen	if (arg->status_change_nid < 0)
295be91fSDave Hansen		return notifier_from_errno(0);
295be91fSDave Hansen
884a6e5dSDave Hansen	switch (action) {
884a6e5dSDave Hansen	case MEM_GOING_OFFLINE:
884a6e5dSDave Hansen		/*
884a6e5dSDave Hansen		 * Make sure there are not transient states where
884a6e5dSDave Hansen		 * an offline node is a migration target.  This
884a6e5dSDave Hansen		 * will leave migration disabled until the offline
884a6e5dSDave Hansen		 * completes and the MEM_OFFLINE case below runs.
884a6e5dSDave Hansen		 */
884a6e5dSDave Hansen		disable_all_migrate_targets();
884a6e5dSDave Hansen		break;
884a6e5dSDave Hansen	case MEM_OFFLINE:
884a6e5dSDave Hansen	case MEM_ONLINE:
884a6e5dSDave Hansen		/*
884a6e5dSDave Hansen		 * Recalculate the target nodes once the node
884a6e5dSDave Hansen		 * reaches its final state (online or offline).
884a6e5dSDave Hansen		 */
884a6e5dSDave Hansen		__set_migration_target_nodes();
884a6e5dSDave Hansen		break;
884a6e5dSDave Hansen	case MEM_CANCEL_OFFLINE:
884a6e5dSDave Hansen		/*
884a6e5dSDave Hansen		 * MEM_GOING_OFFLINE disabled all the migration
884a6e5dSDave Hansen		 * targets.  Reenable them.
884a6e5dSDave Hansen		 */
884a6e5dSDave Hansen		__set_migration_target_nodes();
884a6e5dSDave Hansen		break;
884a6e5dSDave Hansen	case MEM_GOING_ONLINE:
884a6e5dSDave Hansen	case MEM_CANCEL_ONLINE:
884a6e5dSDave Hansen		break;
884a6e5dSDave Hansen	}
884a6e5dSDave Hansen
884a6e5dSDave Hansen	return notifier_from_errno(0);
884a6e5dSDave Hansen}
7d6e2d96SOscar Salvador#endif
884a6e5dSDave Hansen
734c1570SOscar Salvadorvoid __init migrate_on_reclaim_init(void)
76af6a05SDave Hansen{
3f26c88bSMiaohe Lin	node_demotion = kcalloc(nr_node_ids,
ac16ec83SBaolin Wang				sizeof(struct demotion_nodes),
ac16ec83SBaolin Wang				GFP_KERNEL);
ac16ec83SBaolin Wang	WARN_ON(!node_demotion);
7d6e2d96SOscar Salvador#ifdef CONFIG_MEMORY_HOTPLUG
884a6e5dSDave Hansen	hotplug_memory_notifier(migrate_on_reclaim_callback, 100);
7d6e2d96SOscar Salvador#endif
734c1570SOscar Salvador	/*
734c1570SOscar Salvador	 * At this point, all numa nodes with memory/CPus have their state
734c1570SOscar Salvador	 * properly set, so we can build the demotion order now.
734c1570SOscar Salvador	 * Let us hold the cpu_hotplug lock just, as we could possibily have
734c1570SOscar Salvador	 * CPU hotplug events during boot.
734c1570SOscar Salvador	 */
734c1570SOscar Salvador	cpus_read_lock();
734c1570SOscar Salvador	set_migration_target_nodes();
734c1570SOscar Salvador	cpus_read_unlock();
884a6e5dSDave Hansen}
20f9ba4fSYang Shi
20f9ba4fSYang Shibool numa_demotion_enabled = false;
20f9ba4fSYang Shi
20f9ba4fSYang Shi#ifdef CONFIG_SYSFS
20f9ba4fSYang Shistatic ssize_t numa_demotion_enabled_show(struct kobject *kobj,
20f9ba4fSYang Shi					  struct kobj_attribute *attr, char *buf)
20f9ba4fSYang Shi{
20f9ba4fSYang Shi	return sysfs_emit(buf, "%s\n",
20f9ba4fSYang Shi			  numa_demotion_enabled ? "true" : "false");
20f9ba4fSYang Shi}
20f9ba4fSYang Shi
20f9ba4fSYang Shistatic ssize_t numa_demotion_enabled_store(struct kobject *kobj,
20f9ba4fSYang Shi					   struct kobj_attribute *attr,
20f9ba4fSYang Shi					   const char *buf, size_t count)
20f9ba4fSYang Shi{
717aeab4SJagdish Gediya	ssize_t ret;
717aeab4SJagdish Gediya
717aeab4SJagdish Gediya	ret = kstrtobool(buf, &numa_demotion_enabled);
717aeab4SJagdish Gediya	if (ret)
717aeab4SJagdish Gediya		return ret;
20f9ba4fSYang Shi
20f9ba4fSYang Shi	return count;
20f9ba4fSYang Shi}
20f9ba4fSYang Shi
20f9ba4fSYang Shistatic struct kobj_attribute numa_demotion_enabled_attr =
20f9ba4fSYang Shi	__ATTR(demotion_enabled, 0644, numa_demotion_enabled_show,
20f9ba4fSYang Shi	       numa_demotion_enabled_store);
20f9ba4fSYang Shi
20f9ba4fSYang Shistatic struct attribute *numa_attrs[] = {
20f9ba4fSYang Shi	&numa_demotion_enabled_attr.attr,
20f9ba4fSYang Shi	NULL,
20f9ba4fSYang Shi};
20f9ba4fSYang Shi
20f9ba4fSYang Shistatic const struct attribute_group numa_attr_group = {
20f9ba4fSYang Shi	.attrs = numa_attrs,
20f9ba4fSYang Shi};
20f9ba4fSYang Shi
20f9ba4fSYang Shistatic int __init numa_init_sysfs(void)
20f9ba4fSYang Shi{
20f9ba4fSYang Shi	int err;
20f9ba4fSYang Shi	struct kobject *numa_kobj;
20f9ba4fSYang Shi
20f9ba4fSYang Shi	numa_kobj = kobject_create_and_add("numa", mm_kobj);
20f9ba4fSYang Shi	if (!numa_kobj) {
20f9ba4fSYang Shi		pr_err("failed to create numa kobject\n");
20f9ba4fSYang Shi		return -ENOMEM;
20f9ba4fSYang Shi	}
20f9ba4fSYang Shi	err = sysfs_create_group(numa_kobj, &numa_attr_group);
20f9ba4fSYang Shi	if (err) {
20f9ba4fSYang Shi		pr_err("failed to register numa group\n");
20f9ba4fSYang Shi		goto delete_obj;
20f9ba4fSYang Shi	}
20f9ba4fSYang Shi	return 0;
20f9ba4fSYang Shi
20f9ba4fSYang Shidelete_obj:
20f9ba4fSYang Shi	kobject_put(numa_kobj);
20f9ba4fSYang Shi	return err;
20f9ba4fSYang Shi}
20f9ba4fSYang Shisubsys_initcall(numa_init_sysfs);
7d6e2d96SOscar Salvador#endif /* CONFIG_SYSFS */
7d6e2d96SOscar Salvador#endif /* CONFIG_NUMA */