jemalloc/src/hpa.c

*c43cad87SWarner Losh#include "jemalloc/internal/jemalloc_preamble.h"
*c43cad87SWarner Losh#include "jemalloc/internal/jemalloc_internal_includes.h"
*c43cad87SWarner Losh
*c43cad87SWarner Losh#include "jemalloc/internal/hpa.h"
*c43cad87SWarner Losh
*c43cad87SWarner Losh#include "jemalloc/internal/fb.h"
*c43cad87SWarner Losh#include "jemalloc/internal/witness.h"
*c43cad87SWarner Losh
*c43cad87SWarner Losh#define HPA_EDEN_SIZE (128 * HUGEPAGE)
*c43cad87SWarner Losh
*c43cad87SWarner Loshstatic edata_t *hpa_alloc(tsdn_t *tsdn, pai_t *self, size_t size,
*c43cad87SWarner Losh    size_t alignment, bool zero, bool guarded, bool frequent_reuse,
*c43cad87SWarner Losh    bool *deferred_work_generated);
*c43cad87SWarner Loshstatic size_t hpa_alloc_batch(tsdn_t *tsdn, pai_t *self, size_t size,
*c43cad87SWarner Losh    size_t nallocs, edata_list_active_t *results, bool *deferred_work_generated);
*c43cad87SWarner Loshstatic bool hpa_expand(tsdn_t *tsdn, pai_t *self, edata_t *edata,
*c43cad87SWarner Losh    size_t old_size, size_t new_size, bool zero, bool *deferred_work_generated);
*c43cad87SWarner Loshstatic bool hpa_shrink(tsdn_t *tsdn, pai_t *self, edata_t *edata,
*c43cad87SWarner Losh    size_t old_size, size_t new_size, bool *deferred_work_generated);
*c43cad87SWarner Loshstatic void hpa_dalloc(tsdn_t *tsdn, pai_t *self, edata_t *edata,
*c43cad87SWarner Losh    bool *deferred_work_generated);
*c43cad87SWarner Loshstatic void hpa_dalloc_batch(tsdn_t *tsdn, pai_t *self,
*c43cad87SWarner Losh    edata_list_active_t *list, bool *deferred_work_generated);
*c43cad87SWarner Loshstatic uint64_t hpa_time_until_deferred_work(tsdn_t *tsdn, pai_t *self);
*c43cad87SWarner Losh
*c43cad87SWarner Loshbool
*c43cad87SWarner Loshhpa_supported() {
*c43cad87SWarner Losh#ifdef _WIN32
*c43cad87SWarner Losh	/*
*c43cad87SWarner Losh	 * At least until the API and implementation is somewhat settled, we
*c43cad87SWarner Losh	 * don't want to try to debug the VM subsystem on the hardest-to-test
*c43cad87SWarner Losh	 * platform.
*c43cad87SWarner Losh	 */
*c43cad87SWarner Losh	return false;
*c43cad87SWarner Losh#endif
*c43cad87SWarner Losh	if (!pages_can_hugify) {
*c43cad87SWarner Losh		return false;
*c43cad87SWarner Losh	}
*c43cad87SWarner Losh	/*
*c43cad87SWarner Losh	 * We fundamentally rely on a address-space-hungry growth strategy for
*c43cad87SWarner Losh	 * hugepages.
*c43cad87SWarner Losh	 */
*c43cad87SWarner Losh	if (LG_SIZEOF_PTR != 3) {
*c43cad87SWarner Losh		return false;
*c43cad87SWarner Losh	}
*c43cad87SWarner Losh	/*
*c43cad87SWarner Losh	 * If we couldn't detect the value of HUGEPAGE, HUGEPAGE_PAGES becomes
*c43cad87SWarner Losh	 * this sentinel value -- see the comment in pages.h.
*c43cad87SWarner Losh	 */
*c43cad87SWarner Losh	if (HUGEPAGE_PAGES == 1) {
*c43cad87SWarner Losh		return false;
*c43cad87SWarner Losh	}
*c43cad87SWarner Losh	return true;
*c43cad87SWarner Losh}
*c43cad87SWarner Losh
*c43cad87SWarner Loshstatic void
*c43cad87SWarner Loshhpa_do_consistency_checks(hpa_shard_t *shard) {
*c43cad87SWarner Losh	assert(shard->base != NULL);
*c43cad87SWarner Losh}
*c43cad87SWarner Losh
*c43cad87SWarner Loshbool
*c43cad87SWarner Loshhpa_central_init(hpa_central_t *central, base_t *base, const hpa_hooks_t *hooks) {
*c43cad87SWarner Losh	/* malloc_conf processing should have filtered out these cases. */
*c43cad87SWarner Losh	assert(hpa_supported());
*c43cad87SWarner Losh	bool err;
*c43cad87SWarner Losh	err = malloc_mutex_init(&central->grow_mtx, "hpa_central_grow",
*c43cad87SWarner Losh	    WITNESS_RANK_HPA_CENTRAL_GROW, malloc_mutex_rank_exclusive);
*c43cad87SWarner Losh	if (err) {
*c43cad87SWarner Losh		return true;
*c43cad87SWarner Losh	}
*c43cad87SWarner Losh	err = malloc_mutex_init(&central->mtx, "hpa_central",
*c43cad87SWarner Losh	    WITNESS_RANK_HPA_CENTRAL, malloc_mutex_rank_exclusive);
*c43cad87SWarner Losh	if (err) {
*c43cad87SWarner Losh		return true;
*c43cad87SWarner Losh	}
*c43cad87SWarner Losh	central->base = base;
*c43cad87SWarner Losh	central->eden = NULL;
*c43cad87SWarner Losh	central->eden_len = 0;
*c43cad87SWarner Losh	central->age_counter = 0;
*c43cad87SWarner Losh	central->hooks = *hooks;
*c43cad87SWarner Losh	return false;
*c43cad87SWarner Losh}
*c43cad87SWarner Losh
*c43cad87SWarner Loshstatic hpdata_t *
*c43cad87SWarner Loshhpa_alloc_ps(tsdn_t *tsdn, hpa_central_t *central) {
*c43cad87SWarner Losh	return (hpdata_t *)base_alloc(tsdn, central->base, sizeof(hpdata_t),
*c43cad87SWarner Losh	    CACHELINE);
*c43cad87SWarner Losh}
*c43cad87SWarner Losh
*c43cad87SWarner Loshhpdata_t *
*c43cad87SWarner Loshhpa_central_extract(tsdn_t *tsdn, hpa_central_t *central, size_t size,
*c43cad87SWarner Losh    bool *oom) {
*c43cad87SWarner Losh	/* Don't yet support big allocations; these should get filtered out. */
*c43cad87SWarner Losh	assert(size <= HUGEPAGE);
*c43cad87SWarner Losh	/*
*c43cad87SWarner Losh	 * Should only try to extract from the central allocator if the local
*c43cad87SWarner Losh	 * shard is exhausted.  We should hold the grow_mtx on that shard.
*c43cad87SWarner Losh	 */
*c43cad87SWarner Losh	witness_assert_positive_depth_to_rank(
*c43cad87SWarner Losh	    tsdn_witness_tsdp_get(tsdn), WITNESS_RANK_HPA_SHARD_GROW);
*c43cad87SWarner Losh
*c43cad87SWarner Losh	malloc_mutex_lock(tsdn, &central->grow_mtx);
*c43cad87SWarner Losh	*oom = false;
*c43cad87SWarner Losh
*c43cad87SWarner Losh	hpdata_t *ps = NULL;
*c43cad87SWarner Losh
*c43cad87SWarner Losh	/* Is eden a perfect fit? */
*c43cad87SWarner Losh	if (central->eden != NULL && central->eden_len == HUGEPAGE) {
*c43cad87SWarner Losh		ps = hpa_alloc_ps(tsdn, central);
*c43cad87SWarner Losh		if (ps == NULL) {
*c43cad87SWarner Losh			*oom = true;
*c43cad87SWarner Losh			malloc_mutex_unlock(tsdn, &central->grow_mtx);
*c43cad87SWarner Losh			return NULL;
*c43cad87SWarner Losh		}
*c43cad87SWarner Losh		hpdata_init(ps, central->eden, central->age_counter++);
*c43cad87SWarner Losh		central->eden = NULL;
*c43cad87SWarner Losh		central->eden_len = 0;
*c43cad87SWarner Losh		malloc_mutex_unlock(tsdn, &central->grow_mtx);
*c43cad87SWarner Losh		return ps;
*c43cad87SWarner Losh	}
*c43cad87SWarner Losh
*c43cad87SWarner Losh	/*
*c43cad87SWarner Losh	 * We're about to try to allocate from eden by splitting.  If eden is
*c43cad87SWarner Losh	 * NULL, we have to allocate it too.  Otherwise, we just have to
*c43cad87SWarner Losh	 * allocate an edata_t for the new psset.
*c43cad87SWarner Losh	 */
*c43cad87SWarner Losh	if (central->eden == NULL) {
*c43cad87SWarner Losh		/*
*c43cad87SWarner Losh		 * During development, we're primarily concerned with systems
*c43cad87SWarner Losh		 * with overcommit.  Eventually, we should be more careful here.
*c43cad87SWarner Losh		 */
*c43cad87SWarner Losh		bool commit = true;
*c43cad87SWarner Losh		/* Allocate address space, bailing if we fail. */
*c43cad87SWarner Losh		void *new_eden = pages_map(NULL, HPA_EDEN_SIZE, HUGEPAGE,
*c43cad87SWarner Losh		    &commit);
*c43cad87SWarner Losh		if (new_eden == NULL) {
*c43cad87SWarner Losh			*oom = true;
*c43cad87SWarner Losh			malloc_mutex_unlock(tsdn, &central->grow_mtx);
*c43cad87SWarner Losh			return NULL;
*c43cad87SWarner Losh		}
*c43cad87SWarner Losh		ps = hpa_alloc_ps(tsdn, central);
*c43cad87SWarner Losh		if (ps == NULL) {
*c43cad87SWarner Losh			pages_unmap(new_eden, HPA_EDEN_SIZE);
*c43cad87SWarner Losh			*oom = true;
*c43cad87SWarner Losh			malloc_mutex_unlock(tsdn, &central->grow_mtx);
*c43cad87SWarner Losh			return NULL;
*c43cad87SWarner Losh		}
*c43cad87SWarner Losh		central->eden = new_eden;
*c43cad87SWarner Losh		central->eden_len = HPA_EDEN_SIZE;
*c43cad87SWarner Losh	} else {
*c43cad87SWarner Losh		/* Eden is already nonempty; only need an edata for ps. */
*c43cad87SWarner Losh		ps = hpa_alloc_ps(tsdn, central);
*c43cad87SWarner Losh		if (ps == NULL) {
*c43cad87SWarner Losh			*oom = true;
*c43cad87SWarner Losh			malloc_mutex_unlock(tsdn, &central->grow_mtx);
*c43cad87SWarner Losh			return NULL;
*c43cad87SWarner Losh		}
*c43cad87SWarner Losh	}
*c43cad87SWarner Losh	assert(ps != NULL);
*c43cad87SWarner Losh	assert(central->eden != NULL);
*c43cad87SWarner Losh	assert(central->eden_len > HUGEPAGE);
*c43cad87SWarner Losh	assert(central->eden_len % HUGEPAGE == 0);
*c43cad87SWarner Losh	assert(HUGEPAGE_ADDR2BASE(central->eden) == central->eden);
*c43cad87SWarner Losh
*c43cad87SWarner Losh	hpdata_init(ps, central->eden, central->age_counter++);
*c43cad87SWarner Losh
*c43cad87SWarner Losh	char *eden_char = (char *)central->eden;
*c43cad87SWarner Losh	eden_char += HUGEPAGE;
*c43cad87SWarner Losh	central->eden = (void *)eden_char;
*c43cad87SWarner Losh	central->eden_len -= HUGEPAGE;
*c43cad87SWarner Losh
*c43cad87SWarner Losh	malloc_mutex_unlock(tsdn, &central->grow_mtx);
*c43cad87SWarner Losh
*c43cad87SWarner Losh	return ps;
*c43cad87SWarner Losh}
*c43cad87SWarner Losh
*c43cad87SWarner Loshbool
*c43cad87SWarner Loshhpa_shard_init(hpa_shard_t *shard, hpa_central_t *central, emap_t *emap,
*c43cad87SWarner Losh    base_t *base, edata_cache_t *edata_cache, unsigned ind,
*c43cad87SWarner Losh    const hpa_shard_opts_t *opts) {
*c43cad87SWarner Losh	/* malloc_conf processing should have filtered out these cases. */
*c43cad87SWarner Losh	assert(hpa_supported());
*c43cad87SWarner Losh	bool err;
*c43cad87SWarner Losh	err = malloc_mutex_init(&shard->grow_mtx, "hpa_shard_grow",
*c43cad87SWarner Losh	    WITNESS_RANK_HPA_SHARD_GROW, malloc_mutex_rank_exclusive);
*c43cad87SWarner Losh	if (err) {
*c43cad87SWarner Losh		return true;
*c43cad87SWarner Losh	}
*c43cad87SWarner Losh	err = malloc_mutex_init(&shard->mtx, "hpa_shard",
*c43cad87SWarner Losh	    WITNESS_RANK_HPA_SHARD, malloc_mutex_rank_exclusive);
*c43cad87SWarner Losh	if (err) {
*c43cad87SWarner Losh		return true;
*c43cad87SWarner Losh	}
*c43cad87SWarner Losh
*c43cad87SWarner Losh	assert(edata_cache != NULL);
*c43cad87SWarner Losh	shard->central = central;
*c43cad87SWarner Losh	shard->base = base;
*c43cad87SWarner Losh	edata_cache_fast_init(&shard->ecf, edata_cache);
*c43cad87SWarner Losh	psset_init(&shard->psset);
*c43cad87SWarner Losh	shard->age_counter = 0;
*c43cad87SWarner Losh	shard->ind = ind;
*c43cad87SWarner Losh	shard->emap = emap;
*c43cad87SWarner Losh
*c43cad87SWarner Losh	shard->opts = *opts;
*c43cad87SWarner Losh
*c43cad87SWarner Losh	shard->npending_purge = 0;
*c43cad87SWarner Losh	nstime_init_zero(&shard->last_purge);
*c43cad87SWarner Losh
*c43cad87SWarner Losh	shard->stats.npurge_passes = 0;
*c43cad87SWarner Losh	shard->stats.npurges = 0;
*c43cad87SWarner Losh	shard->stats.nhugifies = 0;
*c43cad87SWarner Losh	shard->stats.ndehugifies = 0;
*c43cad87SWarner Losh
*c43cad87SWarner Losh	/*
*c43cad87SWarner Losh	 * Fill these in last, so that if an hpa_shard gets used despite
*c43cad87SWarner Losh	 * initialization failing, we'll at least crash instead of just
*c43cad87SWarner Losh	 * operating on corrupted data.
*c43cad87SWarner Losh	 */
*c43cad87SWarner Losh	shard->pai.alloc = &hpa_alloc;
*c43cad87SWarner Losh	shard->pai.alloc_batch = &hpa_alloc_batch;
*c43cad87SWarner Losh	shard->pai.expand = &hpa_expand;
*c43cad87SWarner Losh	shard->pai.shrink = &hpa_shrink;
*c43cad87SWarner Losh	shard->pai.dalloc = &hpa_dalloc;
*c43cad87SWarner Losh	shard->pai.dalloc_batch = &hpa_dalloc_batch;
*c43cad87SWarner Losh	shard->pai.time_until_deferred_work = &hpa_time_until_deferred_work;
*c43cad87SWarner Losh
*c43cad87SWarner Losh	hpa_do_consistency_checks(shard);
*c43cad87SWarner Losh
*c43cad87SWarner Losh	return false;
*c43cad87SWarner Losh}
*c43cad87SWarner Losh
*c43cad87SWarner Losh/*
*c43cad87SWarner Losh * Note that the stats functions here follow the usual stats naming conventions;
*c43cad87SWarner Losh * "merge" obtains the stats from some live object of instance, while "accum"
*c43cad87SWarner Losh * only combines the stats from one stats objet to another.  Hence the lack of
*c43cad87SWarner Losh * locking here.
*c43cad87SWarner Losh */
*c43cad87SWarner Loshstatic void
*c43cad87SWarner Loshhpa_shard_nonderived_stats_accum(hpa_shard_nonderived_stats_t *dst,
*c43cad87SWarner Losh    hpa_shard_nonderived_stats_t *src) {
*c43cad87SWarner Losh	dst->npurge_passes += src->npurge_passes;
*c43cad87SWarner Losh	dst->npurges += src->npurges;
*c43cad87SWarner Losh	dst->nhugifies += src->nhugifies;
*c43cad87SWarner Losh	dst->ndehugifies += src->ndehugifies;
*c43cad87SWarner Losh}
*c43cad87SWarner Losh
*c43cad87SWarner Loshvoid
*c43cad87SWarner Loshhpa_shard_stats_accum(hpa_shard_stats_t *dst, hpa_shard_stats_t *src) {
*c43cad87SWarner Losh	psset_stats_accum(&dst->psset_stats, &src->psset_stats);
*c43cad87SWarner Losh	hpa_shard_nonderived_stats_accum(&dst->nonderived_stats,
*c43cad87SWarner Losh	    &src->nonderived_stats);
*c43cad87SWarner Losh}
*c43cad87SWarner Losh
*c43cad87SWarner Loshvoid
*c43cad87SWarner Loshhpa_shard_stats_merge(tsdn_t *tsdn, hpa_shard_t *shard,
*c43cad87SWarner Losh    hpa_shard_stats_t *dst) {
*c43cad87SWarner Losh	hpa_do_consistency_checks(shard);
*c43cad87SWarner Losh
*c43cad87SWarner Losh	malloc_mutex_lock(tsdn, &shard->grow_mtx);
*c43cad87SWarner Losh	malloc_mutex_lock(tsdn, &shard->mtx);
*c43cad87SWarner Losh	psset_stats_accum(&dst->psset_stats, &shard->psset.stats);
*c43cad87SWarner Losh	hpa_shard_nonderived_stats_accum(&dst->nonderived_stats, &shard->stats);
*c43cad87SWarner Losh	malloc_mutex_unlock(tsdn, &shard->mtx);
*c43cad87SWarner Losh	malloc_mutex_unlock(tsdn, &shard->grow_mtx);
*c43cad87SWarner Losh}
*c43cad87SWarner Losh
*c43cad87SWarner Loshstatic bool
*c43cad87SWarner Loshhpa_good_hugification_candidate(hpa_shard_t *shard, hpdata_t *ps) {
*c43cad87SWarner Losh	/*
*c43cad87SWarner Losh	 * Note that this needs to be >= rather than just >, because of the
*c43cad87SWarner Losh	 * important special case in which the hugification threshold is exactly
*c43cad87SWarner Losh	 * HUGEPAGE.
*c43cad87SWarner Losh	 */
*c43cad87SWarner Losh	return hpdata_nactive_get(ps) * PAGE
*c43cad87SWarner Losh	    >= shard->opts.hugification_threshold;
*c43cad87SWarner Losh}
*c43cad87SWarner Losh
*c43cad87SWarner Loshstatic size_t
*c43cad87SWarner Loshhpa_adjusted_ndirty(tsdn_t *tsdn, hpa_shard_t *shard) {
*c43cad87SWarner Losh	malloc_mutex_assert_owner(tsdn, &shard->mtx);
*c43cad87SWarner Losh	return psset_ndirty(&shard->psset) - shard->npending_purge;
*c43cad87SWarner Losh}
*c43cad87SWarner Losh
*c43cad87SWarner Loshstatic size_t
*c43cad87SWarner Loshhpa_ndirty_max(tsdn_t *tsdn, hpa_shard_t *shard) {
*c43cad87SWarner Losh	malloc_mutex_assert_owner(tsdn, &shard->mtx);
*c43cad87SWarner Losh	if (shard->opts.dirty_mult == (fxp_t)-1) {
*c43cad87SWarner Losh		return (size_t)-1;
*c43cad87SWarner Losh	}
*c43cad87SWarner Losh	return fxp_mul_frac(psset_nactive(&shard->psset),
*c43cad87SWarner Losh	    shard->opts.dirty_mult);
*c43cad87SWarner Losh}
*c43cad87SWarner Losh
*c43cad87SWarner Loshstatic bool
*c43cad87SWarner Loshhpa_hugify_blocked_by_ndirty(tsdn_t *tsdn, hpa_shard_t *shard) {
*c43cad87SWarner Losh	malloc_mutex_assert_owner(tsdn, &shard->mtx);
*c43cad87SWarner Losh	hpdata_t *to_hugify = psset_pick_hugify(&shard->psset);
*c43cad87SWarner Losh	if (to_hugify == NULL) {
*c43cad87SWarner Losh		return false;
*c43cad87SWarner Losh	}
*c43cad87SWarner Losh	return hpa_adjusted_ndirty(tsdn, shard)
*c43cad87SWarner Losh	    + hpdata_nretained_get(to_hugify) > hpa_ndirty_max(tsdn, shard);
*c43cad87SWarner Losh}
*c43cad87SWarner Losh
*c43cad87SWarner Loshstatic bool
*c43cad87SWarner Loshhpa_should_purge(tsdn_t *tsdn, hpa_shard_t *shard) {
*c43cad87SWarner Losh	malloc_mutex_assert_owner(tsdn, &shard->mtx);
*c43cad87SWarner Losh	if (hpa_adjusted_ndirty(tsdn, shard) > hpa_ndirty_max(tsdn, shard)) {
*c43cad87SWarner Losh		return true;
*c43cad87SWarner Losh	}
*c43cad87SWarner Losh	if (hpa_hugify_blocked_by_ndirty(tsdn, shard)) {
*c43cad87SWarner Losh		return true;
*c43cad87SWarner Losh	}
*c43cad87SWarner Losh	return false;
*c43cad87SWarner Losh}
*c43cad87SWarner Losh
*c43cad87SWarner Loshstatic void
*c43cad87SWarner Loshhpa_update_purge_hugify_eligibility(tsdn_t *tsdn, hpa_shard_t *shard,
*c43cad87SWarner Losh    hpdata_t *ps) {
*c43cad87SWarner Losh	malloc_mutex_assert_owner(tsdn, &shard->mtx);
*c43cad87SWarner Losh	if (hpdata_changing_state_get(ps)) {
*c43cad87SWarner Losh		hpdata_purge_allowed_set(ps, false);
*c43cad87SWarner Losh		hpdata_disallow_hugify(ps);
*c43cad87SWarner Losh		return;
*c43cad87SWarner Losh	}
*c43cad87SWarner Losh	/*
*c43cad87SWarner Losh	 * Hugepages are distinctly costly to purge, so try to avoid it unless
*c43cad87SWarner Losh	 * they're *particularly* full of dirty pages.  Eventually, we should
*c43cad87SWarner Losh	 * use a smarter / more dynamic heuristic for situations where we have
*c43cad87SWarner Losh	 * to manually hugify.
*c43cad87SWarner Losh	 *
*c43cad87SWarner Losh	 * In situations where we don't manually hugify, this problem is
*c43cad87SWarner Losh	 * reduced.  The "bad" situation we're trying to avoid is one's that's
*c43cad87SWarner Losh	 * common in some Linux configurations (where both enabled and defrag
*c43cad87SWarner Losh	 * are set to madvise) that can lead to long latency spikes on the first
*c43cad87SWarner Losh	 * access after a hugification.  The ideal policy in such configurations
*c43cad87SWarner Losh	 * is probably time-based for both purging and hugifying; only hugify a
*c43cad87SWarner Losh	 * hugepage if it's met the criteria for some extended period of time,
*c43cad87SWarner Losh	 * and only dehugify it if it's failed to meet the criteria for an
*c43cad87SWarner Losh	 * extended period of time.  When background threads are on, we should
*c43cad87SWarner Losh	 * try to take this hit on one of them, as well.
*c43cad87SWarner Losh	 *
*c43cad87SWarner Losh	 * I think the ideal setting is THP always enabled, and defrag set to
*c43cad87SWarner Losh	 * deferred; in that case we don't need any explicit calls on the
*c43cad87SWarner Losh	 * allocator's end at all; we just try to pack allocations in a
*c43cad87SWarner Losh	 * hugepage-friendly manner and let the OS hugify in the background.
*c43cad87SWarner Losh	 */
*c43cad87SWarner Losh	hpdata_purge_allowed_set(ps, hpdata_ndirty_get(ps) > 0);
*c43cad87SWarner Losh	if (hpa_good_hugification_candidate(shard, ps)
*c43cad87SWarner Losh	    && !hpdata_huge_get(ps)) {
*c43cad87SWarner Losh		nstime_t now;
*c43cad87SWarner Losh		shard->central->hooks.curtime(&now, /* first_reading */ true);
*c43cad87SWarner Losh		hpdata_allow_hugify(ps, now);
*c43cad87SWarner Losh	}
*c43cad87SWarner Losh	/*
*c43cad87SWarner Losh	 * Once a hugepage has become eligible for hugification, we don't mark
*c43cad87SWarner Losh	 * it as ineligible just because it stops meeting the criteria (this
*c43cad87SWarner Losh	 * could lead to situations where a hugepage that spends most of its
*c43cad87SWarner Losh	 * time meeting the criteria never quite getting hugified if there are
*c43cad87SWarner Losh	 * intervening deallocations).  The idea is that the hugification delay
*c43cad87SWarner Losh	 * will allow them to get purged, reseting their "hugify-allowed" bit.
*c43cad87SWarner Losh	 * If they don't get purged, then the hugification isn't hurting and
*c43cad87SWarner Losh	 * might help.  As an exception, we don't hugify hugepages that are now
*c43cad87SWarner Losh	 * empty; it definitely doesn't help there until the hugepage gets
*c43cad87SWarner Losh	 * reused, which is likely not for a while.
*c43cad87SWarner Losh	 */
*c43cad87SWarner Losh	if (hpdata_nactive_get(ps) == 0) {
*c43cad87SWarner Losh		hpdata_disallow_hugify(ps);
*c43cad87SWarner Losh	}
*c43cad87SWarner Losh}
*c43cad87SWarner Losh
*c43cad87SWarner Loshstatic bool
*c43cad87SWarner Loshhpa_shard_has_deferred_work(tsdn_t *tsdn, hpa_shard_t *shard) {
*c43cad87SWarner Losh	malloc_mutex_assert_owner(tsdn, &shard->mtx);
*c43cad87SWarner Losh	hpdata_t *to_hugify = psset_pick_hugify(&shard->psset);
*c43cad87SWarner Losh	return to_hugify != NULL || hpa_should_purge(tsdn, shard);
*c43cad87SWarner Losh}
*c43cad87SWarner Losh
*c43cad87SWarner Losh/* Returns whether or not we purged anything. */
*c43cad87SWarner Loshstatic bool
*c43cad87SWarner Loshhpa_try_purge(tsdn_t *tsdn, hpa_shard_t *shard) {
*c43cad87SWarner Losh	malloc_mutex_assert_owner(tsdn, &shard->mtx);
*c43cad87SWarner Losh
*c43cad87SWarner Losh	hpdata_t *to_purge = psset_pick_purge(&shard->psset);
*c43cad87SWarner Losh	if (to_purge == NULL) {
*c43cad87SWarner Losh		return false;
*c43cad87SWarner Losh	}
*c43cad87SWarner Losh	assert(hpdata_purge_allowed_get(to_purge));
*c43cad87SWarner Losh	assert(!hpdata_changing_state_get(to_purge));
*c43cad87SWarner Losh
*c43cad87SWarner Losh	/*
*c43cad87SWarner Losh	 * Don't let anyone else purge or hugify this page while
*c43cad87SWarner Losh	 * we're purging it (allocations and deallocations are
*c43cad87SWarner Losh	 * OK).
*c43cad87SWarner Losh	 */
*c43cad87SWarner Losh	psset_update_begin(&shard->psset, to_purge);
*c43cad87SWarner Losh	assert(hpdata_alloc_allowed_get(to_purge));
*c43cad87SWarner Losh	hpdata_mid_purge_set(to_purge, true);
*c43cad87SWarner Losh	hpdata_purge_allowed_set(to_purge, false);
*c43cad87SWarner Losh	hpdata_disallow_hugify(to_purge);
*c43cad87SWarner Losh	/*
*c43cad87SWarner Losh	 * Unlike with hugification (where concurrent
*c43cad87SWarner Losh	 * allocations are allowed), concurrent allocation out
*c43cad87SWarner Losh	 * of a hugepage being purged is unsafe; we might hand
*c43cad87SWarner Losh	 * out an extent for an allocation and then purge it
*c43cad87SWarner Losh	 * (clearing out user data).
*c43cad87SWarner Losh	 */
*c43cad87SWarner Losh	hpdata_alloc_allowed_set(to_purge, false);
*c43cad87SWarner Losh	psset_update_end(&shard->psset, to_purge);
*c43cad87SWarner Losh
*c43cad87SWarner Losh	/* Gather all the metadata we'll need during the purge. */
*c43cad87SWarner Losh	bool dehugify = hpdata_huge_get(to_purge);
*c43cad87SWarner Losh	hpdata_purge_state_t purge_state;
*c43cad87SWarner Losh	size_t num_to_purge = hpdata_purge_begin(to_purge, &purge_state);
*c43cad87SWarner Losh
*c43cad87SWarner Losh	shard->npending_purge += num_to_purge;
*c43cad87SWarner Losh
*c43cad87SWarner Losh	malloc_mutex_unlock(tsdn, &shard->mtx);
*c43cad87SWarner Losh
*c43cad87SWarner Losh	/* Actually do the purging, now that the lock is dropped. */
*c43cad87SWarner Losh	if (dehugify) {
*c43cad87SWarner Losh		shard->central->hooks.dehugify(hpdata_addr_get(to_purge),
*c43cad87SWarner Losh		    HUGEPAGE);
*c43cad87SWarner Losh	}
*c43cad87SWarner Losh	size_t total_purged = 0;
*c43cad87SWarner Losh	uint64_t purges_this_pass = 0;
*c43cad87SWarner Losh	void *purge_addr;
*c43cad87SWarner Losh	size_t purge_size;
*c43cad87SWarner Losh	while (hpdata_purge_next(to_purge, &purge_state, &purge_addr,
*c43cad87SWarner Losh	    &purge_size)) {
*c43cad87SWarner Losh		total_purged += purge_size;
*c43cad87SWarner Losh		assert(total_purged <= HUGEPAGE);
*c43cad87SWarner Losh		purges_this_pass++;
*c43cad87SWarner Losh		shard->central->hooks.purge(purge_addr, purge_size);
*c43cad87SWarner Losh	}
*c43cad87SWarner Losh
*c43cad87SWarner Losh	malloc_mutex_lock(tsdn, &shard->mtx);
*c43cad87SWarner Losh	/* The shard updates */
*c43cad87SWarner Losh	shard->npending_purge -= num_to_purge;
*c43cad87SWarner Losh	shard->stats.npurge_passes++;
*c43cad87SWarner Losh	shard->stats.npurges += purges_this_pass;
*c43cad87SWarner Losh	shard->central->hooks.curtime(&shard->last_purge,
*c43cad87SWarner Losh	    /* first_reading */ false);
*c43cad87SWarner Losh	if (dehugify) {
*c43cad87SWarner Losh		shard->stats.ndehugifies++;
*c43cad87SWarner Losh	}
*c43cad87SWarner Losh
*c43cad87SWarner Losh	/* The hpdata updates. */
*c43cad87SWarner Losh	psset_update_begin(&shard->psset, to_purge);
*c43cad87SWarner Losh	if (dehugify) {
*c43cad87SWarner Losh		hpdata_dehugify(to_purge);
*c43cad87SWarner Losh	}
*c43cad87SWarner Losh	hpdata_purge_end(to_purge, &purge_state);
*c43cad87SWarner Losh	hpdata_mid_purge_set(to_purge, false);
*c43cad87SWarner Losh
*c43cad87SWarner Losh	hpdata_alloc_allowed_set(to_purge, true);
*c43cad87SWarner Losh	hpa_update_purge_hugify_eligibility(tsdn, shard, to_purge);
*c43cad87SWarner Losh
*c43cad87SWarner Losh	psset_update_end(&shard->psset, to_purge);
*c43cad87SWarner Losh
*c43cad87SWarner Losh	return true;
*c43cad87SWarner Losh}
*c43cad87SWarner Losh
*c43cad87SWarner Losh/* Returns whether or not we hugified anything. */
*c43cad87SWarner Loshstatic bool
*c43cad87SWarner Loshhpa_try_hugify(tsdn_t *tsdn, hpa_shard_t *shard) {
*c43cad87SWarner Losh	malloc_mutex_assert_owner(tsdn, &shard->mtx);
*c43cad87SWarner Losh
*c43cad87SWarner Losh	if (hpa_hugify_blocked_by_ndirty(tsdn, shard)) {
*c43cad87SWarner Losh		return false;
*c43cad87SWarner Losh	}
*c43cad87SWarner Losh
*c43cad87SWarner Losh	hpdata_t *to_hugify = psset_pick_hugify(&shard->psset);
*c43cad87SWarner Losh	if (to_hugify == NULL) {
*c43cad87SWarner Losh		return false;
*c43cad87SWarner Losh	}
*c43cad87SWarner Losh	assert(hpdata_hugify_allowed_get(to_hugify));
*c43cad87SWarner Losh	assert(!hpdata_changing_state_get(to_hugify));
*c43cad87SWarner Losh
*c43cad87SWarner Losh	/* Make sure that it's been hugifiable for long enough. */
*c43cad87SWarner Losh	nstime_t time_hugify_allowed = hpdata_time_hugify_allowed(to_hugify);
*c43cad87SWarner Losh	uint64_t millis = shard->central->hooks.ms_since(&time_hugify_allowed);
*c43cad87SWarner Losh	if (millis < shard->opts.hugify_delay_ms) {
*c43cad87SWarner Losh		return false;
*c43cad87SWarner Losh	}
*c43cad87SWarner Losh
*c43cad87SWarner Losh	/*
*c43cad87SWarner Losh	 * Don't let anyone else purge or hugify this page while
*c43cad87SWarner Losh	 * we're hugifying it (allocations and deallocations are
*c43cad87SWarner Losh	 * OK).
*c43cad87SWarner Losh	 */
*c43cad87SWarner Losh	psset_update_begin(&shard->psset, to_hugify);
*c43cad87SWarner Losh	hpdata_mid_hugify_set(to_hugify, true);
*c43cad87SWarner Losh	hpdata_purge_allowed_set(to_hugify, false);
*c43cad87SWarner Losh	hpdata_disallow_hugify(to_hugify);
*c43cad87SWarner Losh	assert(hpdata_alloc_allowed_get(to_hugify));
*c43cad87SWarner Losh	psset_update_end(&shard->psset, to_hugify);
*c43cad87SWarner Losh
*c43cad87SWarner Losh	malloc_mutex_unlock(tsdn, &shard->mtx);
*c43cad87SWarner Losh
*c43cad87SWarner Losh	shard->central->hooks.hugify(hpdata_addr_get(to_hugify), HUGEPAGE);
*c43cad87SWarner Losh
*c43cad87SWarner Losh	malloc_mutex_lock(tsdn, &shard->mtx);
*c43cad87SWarner Losh	shard->stats.nhugifies++;
*c43cad87SWarner Losh
*c43cad87SWarner Losh	psset_update_begin(&shard->psset, to_hugify);
*c43cad87SWarner Losh	hpdata_hugify(to_hugify);
*c43cad87SWarner Losh	hpdata_mid_hugify_set(to_hugify, false);
*c43cad87SWarner Losh	hpa_update_purge_hugify_eligibility(tsdn, shard, to_hugify);
*c43cad87SWarner Losh	psset_update_end(&shard->psset, to_hugify);
*c43cad87SWarner Losh
*c43cad87SWarner Losh	return true;
*c43cad87SWarner Losh}
*c43cad87SWarner Losh
*c43cad87SWarner Losh/*
*c43cad87SWarner Losh * Execution of deferred work is forced if it's triggered by an explicit
*c43cad87SWarner Losh * hpa_shard_do_deferred_work() call.
*c43cad87SWarner Losh */
*c43cad87SWarner Loshstatic void
*c43cad87SWarner Loshhpa_shard_maybe_do_deferred_work(tsdn_t *tsdn, hpa_shard_t *shard,
*c43cad87SWarner Losh    bool forced) {
*c43cad87SWarner Losh	malloc_mutex_assert_owner(tsdn, &shard->mtx);
*c43cad87SWarner Losh	if (!forced && shard->opts.deferral_allowed) {
*c43cad87SWarner Losh		return;
*c43cad87SWarner Losh	}
*c43cad87SWarner Losh	/*
*c43cad87SWarner Losh	 * If we're on a background thread, do work so long as there's work to
*c43cad87SWarner Losh	 * be done.  Otherwise, bound latency to not be *too* bad by doing at
*c43cad87SWarner Losh	 * most a small fixed number of operations.
*c43cad87SWarner Losh	 */
*c43cad87SWarner Losh	bool hugified = false;
*c43cad87SWarner Losh	bool purged = false;
*c43cad87SWarner Losh	size_t max_ops = (forced ? (size_t)-1 : 16);
*c43cad87SWarner Losh	size_t nops = 0;
*c43cad87SWarner Losh	do {
*c43cad87SWarner Losh		/*
*c43cad87SWarner Losh		 * Always purge before hugifying, to make sure we get some
*c43cad87SWarner Losh		 * ability to hit our quiescence targets.
*c43cad87SWarner Losh		 */
*c43cad87SWarner Losh		purged = false;
*c43cad87SWarner Losh		while (hpa_should_purge(tsdn, shard) && nops < max_ops) {
*c43cad87SWarner Losh			purged = hpa_try_purge(tsdn, shard);
*c43cad87SWarner Losh			if (purged) {
*c43cad87SWarner Losh				nops++;
*c43cad87SWarner Losh			}
*c43cad87SWarner Losh		}
*c43cad87SWarner Losh		hugified = hpa_try_hugify(tsdn, shard);
*c43cad87SWarner Losh		if (hugified) {
*c43cad87SWarner Losh			nops++;
*c43cad87SWarner Losh		}
*c43cad87SWarner Losh		malloc_mutex_assert_owner(tsdn, &shard->mtx);
*c43cad87SWarner Losh		malloc_mutex_assert_owner(tsdn, &shard->mtx);
*c43cad87SWarner Losh	} while ((hugified || purged) && nops < max_ops);
*c43cad87SWarner Losh}
*c43cad87SWarner Losh
*c43cad87SWarner Loshstatic edata_t *
*c43cad87SWarner Loshhpa_try_alloc_one_no_grow(tsdn_t *tsdn, hpa_shard_t *shard, size_t size,
*c43cad87SWarner Losh    bool *oom) {
*c43cad87SWarner Losh	bool err;
*c43cad87SWarner Losh	edata_t *edata = edata_cache_fast_get(tsdn, &shard->ecf);
*c43cad87SWarner Losh	if (edata == NULL) {
*c43cad87SWarner Losh		*oom = true;
*c43cad87SWarner Losh		return NULL;
*c43cad87SWarner Losh	}
*c43cad87SWarner Losh
*c43cad87SWarner Losh	hpdata_t *ps = psset_pick_alloc(&shard->psset, size);
*c43cad87SWarner Losh	if (ps == NULL) {
*c43cad87SWarner Losh		edata_cache_fast_put(tsdn, &shard->ecf, edata);
*c43cad87SWarner Losh		return NULL;
*c43cad87SWarner Losh	}
*c43cad87SWarner Losh
*c43cad87SWarner Losh	psset_update_begin(&shard->psset, ps);
*c43cad87SWarner Losh
*c43cad87SWarner Losh	if (hpdata_empty(ps)) {
*c43cad87SWarner Losh		/*
*c43cad87SWarner Losh		 * If the pageslab used to be empty, treat it as though it's
*c43cad87SWarner Losh		 * brand new for fragmentation-avoidance purposes; what we're
*c43cad87SWarner Losh		 * trying to approximate is the age of the allocations *in* that
*c43cad87SWarner Losh		 * pageslab, and the allocations in the new pageslab are
*c43cad87SWarner Losh		 * definitionally the youngest in this hpa shard.
*c43cad87SWarner Losh		 */
*c43cad87SWarner Losh		hpdata_age_set(ps, shard->age_counter++);
*c43cad87SWarner Losh	}
*c43cad87SWarner Losh
*c43cad87SWarner Losh	void *addr = hpdata_reserve_alloc(ps, size);
*c43cad87SWarner Losh	edata_init(edata, shard->ind, addr, size, /* slab */ false,
*c43cad87SWarner Losh	    SC_NSIZES, /* sn */ hpdata_age_get(ps), extent_state_active,
*c43cad87SWarner Losh	    /* zeroed */ false, /* committed */ true, EXTENT_PAI_HPA,
*c43cad87SWarner Losh	    EXTENT_NOT_HEAD);
*c43cad87SWarner Losh	edata_ps_set(edata, ps);
*c43cad87SWarner Losh
*c43cad87SWarner Losh	/*
*c43cad87SWarner Losh	 * This could theoretically be moved outside of the critical section,
*c43cad87SWarner Losh	 * but that introduces the potential for a race.  Without the lock, the
*c43cad87SWarner Losh	 * (initially nonempty, since this is the reuse pathway) pageslab we
*c43cad87SWarner Losh	 * allocated out of could become otherwise empty while the lock is
*c43cad87SWarner Losh	 * dropped.  This would force us to deal with a pageslab eviction down
*c43cad87SWarner Losh	 * the error pathway, which is a pain.
*c43cad87SWarner Losh	 */
*c43cad87SWarner Losh	err = emap_register_boundary(tsdn, shard->emap, edata,
*c43cad87SWarner Losh	    SC_NSIZES, /* slab */ false);
*c43cad87SWarner Losh	if (err) {
*c43cad87SWarner Losh		hpdata_unreserve(ps, edata_addr_get(edata),
*c43cad87SWarner Losh		    edata_size_get(edata));
*c43cad87SWarner Losh		/*
*c43cad87SWarner Losh		 * We should arguably reset dirty state here, but this would
*c43cad87SWarner Losh		 * require some sort of prepare + commit functionality that's a
*c43cad87SWarner Losh		 * little much to deal with for now.
*c43cad87SWarner Losh		 *
*c43cad87SWarner Losh		 * We don't have a do_deferred_work down this pathway, on the
*c43cad87SWarner Losh		 * principle that we didn't *really* affect shard state (we
*c43cad87SWarner Losh		 * tweaked the stats, but our tweaks weren't really accurate).
*c43cad87SWarner Losh		 */
*c43cad87SWarner Losh		psset_update_end(&shard->psset, ps);
*c43cad87SWarner Losh		edata_cache_fast_put(tsdn, &shard->ecf, edata);
*c43cad87SWarner Losh		*oom = true;
*c43cad87SWarner Losh		return NULL;
*c43cad87SWarner Losh	}
*c43cad87SWarner Losh
*c43cad87SWarner Losh	hpa_update_purge_hugify_eligibility(tsdn, shard, ps);
*c43cad87SWarner Losh	psset_update_end(&shard->psset, ps);
*c43cad87SWarner Losh	return edata;
*c43cad87SWarner Losh}
*c43cad87SWarner Losh
*c43cad87SWarner Loshstatic size_t
*c43cad87SWarner Loshhpa_try_alloc_batch_no_grow(tsdn_t *tsdn, hpa_shard_t *shard, size_t size,
*c43cad87SWarner Losh    bool *oom, size_t nallocs, edata_list_active_t *results,
*c43cad87SWarner Losh    bool *deferred_work_generated) {
*c43cad87SWarner Losh	malloc_mutex_lock(tsdn, &shard->mtx);
*c43cad87SWarner Losh	size_t nsuccess = 0;
*c43cad87SWarner Losh	for (; nsuccess < nallocs; nsuccess++) {
*c43cad87SWarner Losh		edata_t *edata = hpa_try_alloc_one_no_grow(tsdn, shard, size,
*c43cad87SWarner Losh		    oom);
*c43cad87SWarner Losh		if (edata == NULL) {
*c43cad87SWarner Losh			break;
*c43cad87SWarner Losh		}
*c43cad87SWarner Losh		edata_list_active_append(results, edata);
*c43cad87SWarner Losh	}
*c43cad87SWarner Losh
*c43cad87SWarner Losh	hpa_shard_maybe_do_deferred_work(tsdn, shard, /* forced */ false);
*c43cad87SWarner Losh	*deferred_work_generated = hpa_shard_has_deferred_work(tsdn, shard);
*c43cad87SWarner Losh	malloc_mutex_unlock(tsdn, &shard->mtx);
*c43cad87SWarner Losh	return nsuccess;
*c43cad87SWarner Losh}
*c43cad87SWarner Losh
*c43cad87SWarner Loshstatic size_t
*c43cad87SWarner Loshhpa_alloc_batch_psset(tsdn_t *tsdn, hpa_shard_t *shard, size_t size,
*c43cad87SWarner Losh    size_t nallocs, edata_list_active_t *results,
*c43cad87SWarner Losh    bool *deferred_work_generated) {
*c43cad87SWarner Losh	assert(size <= shard->opts.slab_max_alloc);
*c43cad87SWarner Losh	bool oom = false;
*c43cad87SWarner Losh
*c43cad87SWarner Losh	size_t nsuccess = hpa_try_alloc_batch_no_grow(tsdn, shard, size, &oom,
*c43cad87SWarner Losh	    nallocs, results, deferred_work_generated);
*c43cad87SWarner Losh
*c43cad87SWarner Losh	if (nsuccess == nallocs || oom) {
*c43cad87SWarner Losh		return nsuccess;
*c43cad87SWarner Losh	}
*c43cad87SWarner Losh
*c43cad87SWarner Losh	/*
*c43cad87SWarner Losh	 * We didn't OOM, but weren't able to fill everything requested of us;
*c43cad87SWarner Losh	 * try to grow.
*c43cad87SWarner Losh	 */
*c43cad87SWarner Losh	malloc_mutex_lock(tsdn, &shard->grow_mtx);
*c43cad87SWarner Losh	/*
*c43cad87SWarner Losh	 * Check for grow races; maybe some earlier thread expanded the psset
*c43cad87SWarner Losh	 * in between when we dropped the main mutex and grabbed the grow mutex.
*c43cad87SWarner Losh	 */
*c43cad87SWarner Losh	nsuccess += hpa_try_alloc_batch_no_grow(tsdn, shard, size, &oom,
*c43cad87SWarner Losh	    nallocs - nsuccess, results, deferred_work_generated);
*c43cad87SWarner Losh	if (nsuccess == nallocs || oom) {
*c43cad87SWarner Losh		malloc_mutex_unlock(tsdn, &shard->grow_mtx);
*c43cad87SWarner Losh		return nsuccess;
*c43cad87SWarner Losh	}
*c43cad87SWarner Losh
*c43cad87SWarner Losh	/*
*c43cad87SWarner Losh	 * Note that we don't hold shard->mtx here (while growing);
*c43cad87SWarner Losh	 * deallocations (and allocations of smaller sizes) may still succeed
*c43cad87SWarner Losh	 * while we're doing this potentially expensive system call.
*c43cad87SWarner Losh	 */
*c43cad87SWarner Losh	hpdata_t *ps = hpa_central_extract(tsdn, shard->central, size, &oom);
*c43cad87SWarner Losh	if (ps == NULL) {
*c43cad87SWarner Losh		malloc_mutex_unlock(tsdn, &shard->grow_mtx);
*c43cad87SWarner Losh		return nsuccess;
*c43cad87SWarner Losh	}
*c43cad87SWarner Losh
*c43cad87SWarner Losh	/*
*c43cad87SWarner Losh	 * We got the pageslab; allocate from it.  This does an unlock followed
*c43cad87SWarner Losh	 * by a lock on the same mutex, and holds the grow mutex while doing
*c43cad87SWarner Losh	 * deferred work, but this is an uncommon path; the simplicity is worth
*c43cad87SWarner Losh	 * it.
*c43cad87SWarner Losh	 */
*c43cad87SWarner Losh	malloc_mutex_lock(tsdn, &shard->mtx);
*c43cad87SWarner Losh	psset_insert(&shard->psset, ps);
*c43cad87SWarner Losh	malloc_mutex_unlock(tsdn, &shard->mtx);
*c43cad87SWarner Losh
*c43cad87SWarner Losh	nsuccess += hpa_try_alloc_batch_no_grow(tsdn, shard, size, &oom,
*c43cad87SWarner Losh	    nallocs - nsuccess, results, deferred_work_generated);
*c43cad87SWarner Losh	/*
*c43cad87SWarner Losh	 * Drop grow_mtx before doing deferred work; other threads blocked on it
*c43cad87SWarner Losh	 * should be allowed to proceed while we're working.
*c43cad87SWarner Losh	 */
*c43cad87SWarner Losh	malloc_mutex_unlock(tsdn, &shard->grow_mtx);
*c43cad87SWarner Losh
*c43cad87SWarner Losh	return nsuccess;
*c43cad87SWarner Losh}
*c43cad87SWarner Losh
*c43cad87SWarner Loshstatic hpa_shard_t *
*c43cad87SWarner Loshhpa_from_pai(pai_t *self) {
*c43cad87SWarner Losh	assert(self->alloc = &hpa_alloc);
*c43cad87SWarner Losh	assert(self->expand = &hpa_expand);
*c43cad87SWarner Losh	assert(self->shrink = &hpa_shrink);
*c43cad87SWarner Losh	assert(self->dalloc = &hpa_dalloc);
*c43cad87SWarner Losh	return (hpa_shard_t *)self;
*c43cad87SWarner Losh}
*c43cad87SWarner Losh
*c43cad87SWarner Loshstatic size_t
*c43cad87SWarner Loshhpa_alloc_batch(tsdn_t *tsdn, pai_t *self, size_t size, size_t nallocs,
*c43cad87SWarner Losh    edata_list_active_t *results, bool *deferred_work_generated) {
*c43cad87SWarner Losh	assert(nallocs > 0);
*c43cad87SWarner Losh	assert((size & PAGE_MASK) == 0);
*c43cad87SWarner Losh	witness_assert_depth_to_rank(tsdn_witness_tsdp_get(tsdn),
*c43cad87SWarner Losh	    WITNESS_RANK_CORE, 0);
*c43cad87SWarner Losh	hpa_shard_t *shard = hpa_from_pai(self);
*c43cad87SWarner Losh
*c43cad87SWarner Losh	if (size > shard->opts.slab_max_alloc) {
*c43cad87SWarner Losh		return 0;
*c43cad87SWarner Losh	}
*c43cad87SWarner Losh
*c43cad87SWarner Losh	size_t nsuccess = hpa_alloc_batch_psset(tsdn, shard, size, nallocs,
*c43cad87SWarner Losh	    results, deferred_work_generated);
*c43cad87SWarner Losh
*c43cad87SWarner Losh	witness_assert_depth_to_rank(tsdn_witness_tsdp_get(tsdn),
*c43cad87SWarner Losh	    WITNESS_RANK_CORE, 0);
*c43cad87SWarner Losh
*c43cad87SWarner Losh	/*
*c43cad87SWarner Losh	 * Guard the sanity checks with config_debug because the loop cannot be
*c43cad87SWarner Losh	 * proven non-circular by the compiler, even if everything within the
*c43cad87SWarner Losh	 * loop is optimized away.
*c43cad87SWarner Losh	 */
*c43cad87SWarner Losh	if (config_debug) {
*c43cad87SWarner Losh		edata_t *edata;
*c43cad87SWarner Losh		ql_foreach(edata, &results->head, ql_link_active) {
*c43cad87SWarner Losh			emap_assert_mapped(tsdn, shard->emap, edata);
*c43cad87SWarner Losh			assert(edata_pai_get(edata) == EXTENT_PAI_HPA);
*c43cad87SWarner Losh			assert(edata_state_get(edata) == extent_state_active);
*c43cad87SWarner Losh			assert(edata_arena_ind_get(edata) == shard->ind);
*c43cad87SWarner Losh			assert(edata_szind_get_maybe_invalid(edata) ==
*c43cad87SWarner Losh			    SC_NSIZES);
*c43cad87SWarner Losh			assert(!edata_slab_get(edata));
*c43cad87SWarner Losh			assert(edata_committed_get(edata));
*c43cad87SWarner Losh			assert(edata_base_get(edata) == edata_addr_get(edata));
*c43cad87SWarner Losh			assert(edata_base_get(edata) != NULL);
*c43cad87SWarner Losh		}
*c43cad87SWarner Losh	}
*c43cad87SWarner Losh	return nsuccess;
*c43cad87SWarner Losh}
*c43cad87SWarner Losh
*c43cad87SWarner Loshstatic edata_t *
*c43cad87SWarner Loshhpa_alloc(tsdn_t *tsdn, pai_t *self, size_t size, size_t alignment, bool zero,
*c43cad87SWarner Losh    bool guarded, bool frequent_reuse, bool *deferred_work_generated) {
*c43cad87SWarner Losh	assert((size & PAGE_MASK) == 0);
*c43cad87SWarner Losh	assert(!guarded);
*c43cad87SWarner Losh	witness_assert_depth_to_rank(tsdn_witness_tsdp_get(tsdn),
*c43cad87SWarner Losh	    WITNESS_RANK_CORE, 0);
*c43cad87SWarner Losh
*c43cad87SWarner Losh	/* We don't handle alignment or zeroing for now. */
*c43cad87SWarner Losh	if (alignment > PAGE || zero) {
*c43cad87SWarner Losh		return NULL;
*c43cad87SWarner Losh	}
*c43cad87SWarner Losh	/*
*c43cad87SWarner Losh	 * An alloc with alignment == PAGE and zero == false is equivalent to a
*c43cad87SWarner Losh	 * batch alloc of 1.  Just do that, so we can share code.
*c43cad87SWarner Losh	 */
*c43cad87SWarner Losh	edata_list_active_t results;
*c43cad87SWarner Losh	edata_list_active_init(&results);
*c43cad87SWarner Losh	size_t nallocs = hpa_alloc_batch(tsdn, self, size, /* nallocs */ 1,
*c43cad87SWarner Losh	    &results, deferred_work_generated);
*c43cad87SWarner Losh	assert(nallocs == 0 || nallocs == 1);
*c43cad87SWarner Losh	edata_t *edata = edata_list_active_first(&results);
*c43cad87SWarner Losh	return edata;
*c43cad87SWarner Losh}
*c43cad87SWarner Losh
*c43cad87SWarner Loshstatic bool
*c43cad87SWarner Loshhpa_expand(tsdn_t *tsdn, pai_t *self, edata_t *edata, size_t old_size,
*c43cad87SWarner Losh    size_t new_size, bool zero, bool *deferred_work_generated) {
*c43cad87SWarner Losh	/* Expand not yet supported. */
*c43cad87SWarner Losh	return true;
*c43cad87SWarner Losh}
*c43cad87SWarner Losh
*c43cad87SWarner Loshstatic bool
*c43cad87SWarner Loshhpa_shrink(tsdn_t *tsdn, pai_t *self, edata_t *edata,
*c43cad87SWarner Losh    size_t old_size, size_t new_size, bool *deferred_work_generated) {
*c43cad87SWarner Losh	/* Shrink not yet supported. */
*c43cad87SWarner Losh	return true;
*c43cad87SWarner Losh}
*c43cad87SWarner Losh
*c43cad87SWarner Loshstatic void
*c43cad87SWarner Loshhpa_dalloc_prepare_unlocked(tsdn_t *tsdn, hpa_shard_t *shard, edata_t *edata) {
*c43cad87SWarner Losh	malloc_mutex_assert_not_owner(tsdn, &shard->mtx);
*c43cad87SWarner Losh
*c43cad87SWarner Losh	assert(edata_pai_get(edata) == EXTENT_PAI_HPA);
*c43cad87SWarner Losh	assert(edata_state_get(edata) == extent_state_active);
*c43cad87SWarner Losh	assert(edata_arena_ind_get(edata) == shard->ind);
*c43cad87SWarner Losh	assert(edata_szind_get_maybe_invalid(edata) == SC_NSIZES);
*c43cad87SWarner Losh	assert(edata_committed_get(edata));
*c43cad87SWarner Losh	assert(edata_base_get(edata) != NULL);
*c43cad87SWarner Losh
*c43cad87SWarner Losh	/*
*c43cad87SWarner Losh	 * Another thread shouldn't be trying to touch the metadata of an
*c43cad87SWarner Losh	 * allocation being freed.  The one exception is a merge attempt from a
*c43cad87SWarner Losh	 * lower-addressed PAC extent; in this case we have a nominal race on
*c43cad87SWarner Losh	 * the edata metadata bits, but in practice the fact that the PAI bits
*c43cad87SWarner Losh	 * are different will prevent any further access.  The race is bad, but
*c43cad87SWarner Losh	 * benign in practice, and the long term plan is to track enough state
*c43cad87SWarner Losh	 * in the rtree to prevent these merge attempts in the first place.
*c43cad87SWarner Losh	 */
*c43cad87SWarner Losh	edata_addr_set(edata, edata_base_get(edata));
*c43cad87SWarner Losh	edata_zeroed_set(edata, false);
*c43cad87SWarner Losh	emap_deregister_boundary(tsdn, shard->emap, edata);
*c43cad87SWarner Losh}
*c43cad87SWarner Losh
*c43cad87SWarner Loshstatic void
*c43cad87SWarner Loshhpa_dalloc_locked(tsdn_t *tsdn, hpa_shard_t *shard, edata_t *edata) {
*c43cad87SWarner Losh	malloc_mutex_assert_owner(tsdn, &shard->mtx);
*c43cad87SWarner Losh
*c43cad87SWarner Losh	/*
*c43cad87SWarner Losh	 * Release the metadata early, to avoid having to remember to do it
*c43cad87SWarner Losh	 * while we're also doing tricky purging logic.  First, we need to grab
*c43cad87SWarner Losh	 * a few bits of metadata from it.
*c43cad87SWarner Losh	 *
*c43cad87SWarner Losh	 * Note that the shard mutex protects ps's metadata too; it wouldn't be
*c43cad87SWarner Losh	 * correct to try to read most information out of it without the lock.
*c43cad87SWarner Losh	 */
*c43cad87SWarner Losh	hpdata_t *ps = edata_ps_get(edata);
*c43cad87SWarner Losh	/* Currently, all edatas come from pageslabs. */
*c43cad87SWarner Losh	assert(ps != NULL);
*c43cad87SWarner Losh	void *unreserve_addr = edata_addr_get(edata);
*c43cad87SWarner Losh	size_t unreserve_size = edata_size_get(edata);
*c43cad87SWarner Losh	edata_cache_fast_put(tsdn, &shard->ecf, edata);
*c43cad87SWarner Losh
*c43cad87SWarner Losh	psset_update_begin(&shard->psset, ps);
*c43cad87SWarner Losh	hpdata_unreserve(ps, unreserve_addr, unreserve_size);
*c43cad87SWarner Losh	hpa_update_purge_hugify_eligibility(tsdn, shard, ps);
*c43cad87SWarner Losh	psset_update_end(&shard->psset, ps);
*c43cad87SWarner Losh}
*c43cad87SWarner Losh
*c43cad87SWarner Loshstatic void
*c43cad87SWarner Loshhpa_dalloc_batch(tsdn_t *tsdn, pai_t *self, edata_list_active_t *list,
*c43cad87SWarner Losh    bool *deferred_work_generated) {
*c43cad87SWarner Losh	hpa_shard_t *shard = hpa_from_pai(self);
*c43cad87SWarner Losh
*c43cad87SWarner Losh	edata_t *edata;
*c43cad87SWarner Losh	ql_foreach(edata, &list->head, ql_link_active) {
*c43cad87SWarner Losh		hpa_dalloc_prepare_unlocked(tsdn, shard, edata);
*c43cad87SWarner Losh	}
*c43cad87SWarner Losh
*c43cad87SWarner Losh	malloc_mutex_lock(tsdn, &shard->mtx);
*c43cad87SWarner Losh	/* Now, remove from the list. */
*c43cad87SWarner Losh	while ((edata = edata_list_active_first(list)) != NULL) {
*c43cad87SWarner Losh		edata_list_active_remove(list, edata);
*c43cad87SWarner Losh		hpa_dalloc_locked(tsdn, shard, edata);
*c43cad87SWarner Losh	}
*c43cad87SWarner Losh	hpa_shard_maybe_do_deferred_work(tsdn, shard, /* forced */ false);
*c43cad87SWarner Losh	*deferred_work_generated =
*c43cad87SWarner Losh	    hpa_shard_has_deferred_work(tsdn, shard);
*c43cad87SWarner Losh
*c43cad87SWarner Losh	malloc_mutex_unlock(tsdn, &shard->mtx);
*c43cad87SWarner Losh}
*c43cad87SWarner Losh
*c43cad87SWarner Loshstatic void
*c43cad87SWarner Loshhpa_dalloc(tsdn_t *tsdn, pai_t *self, edata_t *edata,
*c43cad87SWarner Losh    bool *deferred_work_generated) {
*c43cad87SWarner Losh	assert(!edata_guarded_get(edata));
*c43cad87SWarner Losh	/* Just a dalloc_batch of size 1; this lets us share logic. */
*c43cad87SWarner Losh	edata_list_active_t dalloc_list;
*c43cad87SWarner Losh	edata_list_active_init(&dalloc_list);
*c43cad87SWarner Losh	edata_list_active_append(&dalloc_list, edata);
*c43cad87SWarner Losh	hpa_dalloc_batch(tsdn, self, &dalloc_list, deferred_work_generated);
*c43cad87SWarner Losh}
*c43cad87SWarner Losh
*c43cad87SWarner Losh/*
*c43cad87SWarner Losh * Calculate time until either purging or hugification ought to happen.
*c43cad87SWarner Losh * Called by background threads.
*c43cad87SWarner Losh */
*c43cad87SWarner Loshstatic uint64_t
*c43cad87SWarner Loshhpa_time_until_deferred_work(tsdn_t *tsdn, pai_t *self) {
*c43cad87SWarner Losh	hpa_shard_t *shard = hpa_from_pai(self);
*c43cad87SWarner Losh	uint64_t time_ns = BACKGROUND_THREAD_DEFERRED_MAX;
*c43cad87SWarner Losh
*c43cad87SWarner Losh	malloc_mutex_lock(tsdn, &shard->mtx);
*c43cad87SWarner Losh
*c43cad87SWarner Losh	hpdata_t *to_hugify = psset_pick_hugify(&shard->psset);
*c43cad87SWarner Losh	if (to_hugify != NULL) {
*c43cad87SWarner Losh		nstime_t time_hugify_allowed =
*c43cad87SWarner Losh		    hpdata_time_hugify_allowed(to_hugify);
*c43cad87SWarner Losh		uint64_t since_hugify_allowed_ms =
*c43cad87SWarner Losh		    shard->central->hooks.ms_since(&time_hugify_allowed);
*c43cad87SWarner Losh		/*
*c43cad87SWarner Losh		 * If not enough time has passed since hugification was allowed,
*c43cad87SWarner Losh		 * sleep for the rest.
*c43cad87SWarner Losh		 */
*c43cad87SWarner Losh		if (since_hugify_allowed_ms < shard->opts.hugify_delay_ms) {
*c43cad87SWarner Losh			time_ns = shard->opts.hugify_delay_ms -
*c43cad87SWarner Losh			    since_hugify_allowed_ms;
*c43cad87SWarner Losh			time_ns *= 1000 * 1000;
*c43cad87SWarner Losh		} else {
*c43cad87SWarner Losh			malloc_mutex_unlock(tsdn, &shard->mtx);
*c43cad87SWarner Losh			return BACKGROUND_THREAD_DEFERRED_MIN;
*c43cad87SWarner Losh		}
*c43cad87SWarner Losh	}
*c43cad87SWarner Losh
*c43cad87SWarner Losh	if (hpa_should_purge(tsdn, shard)) {
*c43cad87SWarner Losh		/*
*c43cad87SWarner Losh		 * If we haven't purged before, no need to check interval
*c43cad87SWarner Losh		 * between purges. Simply purge as soon as possible.
*c43cad87SWarner Losh		 */
*c43cad87SWarner Losh		if (shard->stats.npurge_passes == 0) {
*c43cad87SWarner Losh			malloc_mutex_unlock(tsdn, &shard->mtx);
*c43cad87SWarner Losh			return BACKGROUND_THREAD_DEFERRED_MIN;
*c43cad87SWarner Losh		}
*c43cad87SWarner Losh		uint64_t since_last_purge_ms = shard->central->hooks.ms_since(
*c43cad87SWarner Losh		    &shard->last_purge);
*c43cad87SWarner Losh
*c43cad87SWarner Losh		if (since_last_purge_ms < shard->opts.min_purge_interval_ms) {
*c43cad87SWarner Losh			uint64_t until_purge_ns;
*c43cad87SWarner Losh			until_purge_ns = shard->opts.min_purge_interval_ms -
*c43cad87SWarner Losh			    since_last_purge_ms;
*c43cad87SWarner Losh			until_purge_ns *= 1000 * 1000;
*c43cad87SWarner Losh
*c43cad87SWarner Losh			if (until_purge_ns < time_ns) {
*c43cad87SWarner Losh				time_ns = until_purge_ns;
*c43cad87SWarner Losh			}
*c43cad87SWarner Losh		} else {
*c43cad87SWarner Losh			time_ns = BACKGROUND_THREAD_DEFERRED_MIN;
*c43cad87SWarner Losh		}
*c43cad87SWarner Losh	}
*c43cad87SWarner Losh	malloc_mutex_unlock(tsdn, &shard->mtx);
*c43cad87SWarner Losh	return time_ns;
*c43cad87SWarner Losh}
*c43cad87SWarner Losh
*c43cad87SWarner Loshvoid
*c43cad87SWarner Loshhpa_shard_disable(tsdn_t *tsdn, hpa_shard_t *shard) {
*c43cad87SWarner Losh	hpa_do_consistency_checks(shard);
*c43cad87SWarner Losh
*c43cad87SWarner Losh	malloc_mutex_lock(tsdn, &shard->mtx);
*c43cad87SWarner Losh	edata_cache_fast_disable(tsdn, &shard->ecf);
*c43cad87SWarner Losh	malloc_mutex_unlock(tsdn, &shard->mtx);
*c43cad87SWarner Losh}
*c43cad87SWarner Losh
*c43cad87SWarner Loshstatic void
*c43cad87SWarner Loshhpa_shard_assert_stats_empty(psset_bin_stats_t *bin_stats) {
*c43cad87SWarner Losh	assert(bin_stats->npageslabs == 0);
*c43cad87SWarner Losh	assert(bin_stats->nactive == 0);
*c43cad87SWarner Losh}
*c43cad87SWarner Losh
*c43cad87SWarner Loshstatic void
*c43cad87SWarner Loshhpa_assert_empty(tsdn_t *tsdn, hpa_shard_t *shard, psset_t *psset) {
*c43cad87SWarner Losh	malloc_mutex_assert_owner(tsdn, &shard->mtx);
*c43cad87SWarner Losh	for (int huge = 0; huge <= 1; huge++) {
*c43cad87SWarner Losh		hpa_shard_assert_stats_empty(&psset->stats.full_slabs[huge]);
*c43cad87SWarner Losh		for (pszind_t i = 0; i < PSSET_NPSIZES; i++) {
*c43cad87SWarner Losh			hpa_shard_assert_stats_empty(
*c43cad87SWarner Losh			    &psset->stats.nonfull_slabs[i][huge]);
*c43cad87SWarner Losh		}
*c43cad87SWarner Losh	}
*c43cad87SWarner Losh}
*c43cad87SWarner Losh
*c43cad87SWarner Loshvoid
*c43cad87SWarner Loshhpa_shard_destroy(tsdn_t *tsdn, hpa_shard_t *shard) {
*c43cad87SWarner Losh	hpa_do_consistency_checks(shard);
*c43cad87SWarner Losh	/*
*c43cad87SWarner Losh	 * By the time we're here, the arena code should have dalloc'd all the
*c43cad87SWarner Losh	 * active extents, which means we should have eventually evicted
*c43cad87SWarner Losh	 * everything from the psset, so it shouldn't be able to serve even a
*c43cad87SWarner Losh	 * 1-page allocation.
*c43cad87SWarner Losh	 */
*c43cad87SWarner Losh	if (config_debug) {
*c43cad87SWarner Losh		malloc_mutex_lock(tsdn, &shard->mtx);
*c43cad87SWarner Losh		hpa_assert_empty(tsdn, shard, &shard->psset);
*c43cad87SWarner Losh		malloc_mutex_unlock(tsdn, &shard->mtx);
*c43cad87SWarner Losh	}
*c43cad87SWarner Losh	hpdata_t *ps;
*c43cad87SWarner Losh	while ((ps = psset_pick_alloc(&shard->psset, PAGE)) != NULL) {
*c43cad87SWarner Losh		/* There should be no allocations anywhere. */
*c43cad87SWarner Losh		assert(hpdata_empty(ps));
*c43cad87SWarner Losh		psset_remove(&shard->psset, ps);
*c43cad87SWarner Losh		shard->central->hooks.unmap(hpdata_addr_get(ps), HUGEPAGE);
*c43cad87SWarner Losh	}
*c43cad87SWarner Losh}
*c43cad87SWarner Losh
*c43cad87SWarner Loshvoid
*c43cad87SWarner Loshhpa_shard_set_deferral_allowed(tsdn_t *tsdn, hpa_shard_t *shard,
*c43cad87SWarner Losh    bool deferral_allowed) {
*c43cad87SWarner Losh	hpa_do_consistency_checks(shard);
*c43cad87SWarner Losh
*c43cad87SWarner Losh	malloc_mutex_lock(tsdn, &shard->mtx);
*c43cad87SWarner Losh	bool deferral_previously_allowed = shard->opts.deferral_allowed;
*c43cad87SWarner Losh	shard->opts.deferral_allowed = deferral_allowed;
*c43cad87SWarner Losh	if (deferral_previously_allowed && !deferral_allowed) {
*c43cad87SWarner Losh		hpa_shard_maybe_do_deferred_work(tsdn, shard,
*c43cad87SWarner Losh		    /* forced */ true);
*c43cad87SWarner Losh	}
*c43cad87SWarner Losh	malloc_mutex_unlock(tsdn, &shard->mtx);
*c43cad87SWarner Losh}
*c43cad87SWarner Losh
*c43cad87SWarner Loshvoid
*c43cad87SWarner Loshhpa_shard_do_deferred_work(tsdn_t *tsdn, hpa_shard_t *shard) {
*c43cad87SWarner Losh	hpa_do_consistency_checks(shard);
*c43cad87SWarner Losh
*c43cad87SWarner Losh	malloc_mutex_lock(tsdn, &shard->mtx);
*c43cad87SWarner Losh	hpa_shard_maybe_do_deferred_work(tsdn, shard, /* forced */ true);
*c43cad87SWarner Losh	malloc_mutex_unlock(tsdn, &shard->mtx);
*c43cad87SWarner Losh}
*c43cad87SWarner Losh
*c43cad87SWarner Loshvoid
*c43cad87SWarner Loshhpa_shard_prefork3(tsdn_t *tsdn, hpa_shard_t *shard) {
*c43cad87SWarner Losh	hpa_do_consistency_checks(shard);
*c43cad87SWarner Losh
*c43cad87SWarner Losh	malloc_mutex_prefork(tsdn, &shard->grow_mtx);
*c43cad87SWarner Losh}
*c43cad87SWarner Losh
*c43cad87SWarner Loshvoid
*c43cad87SWarner Loshhpa_shard_prefork4(tsdn_t *tsdn, hpa_shard_t *shard) {
*c43cad87SWarner Losh	hpa_do_consistency_checks(shard);
*c43cad87SWarner Losh
*c43cad87SWarner Losh	malloc_mutex_prefork(tsdn, &shard->mtx);
*c43cad87SWarner Losh}
*c43cad87SWarner Losh
*c43cad87SWarner Loshvoid
*c43cad87SWarner Loshhpa_shard_postfork_parent(tsdn_t *tsdn, hpa_shard_t *shard) {
*c43cad87SWarner Losh	hpa_do_consistency_checks(shard);
*c43cad87SWarner Losh
*c43cad87SWarner Losh	malloc_mutex_postfork_parent(tsdn, &shard->grow_mtx);
*c43cad87SWarner Losh	malloc_mutex_postfork_parent(tsdn, &shard->mtx);
*c43cad87SWarner Losh}
*c43cad87SWarner Losh
*c43cad87SWarner Loshvoid
*c43cad87SWarner Loshhpa_shard_postfork_child(tsdn_t *tsdn, hpa_shard_t *shard) {
*c43cad87SWarner Losh	hpa_do_consistency_checks(shard);
*c43cad87SWarner Losh
*c43cad87SWarner Losh	malloc_mutex_postfork_child(tsdn, &shard->grow_mtx);
*c43cad87SWarner Losh	malloc_mutex_postfork_child(tsdn, &shard->mtx);
*c43cad87SWarner Losh}