linux/zfs/zpl_super.c

61145dc2SMartin Matuska// SPDX-License-Identifier: CDDL-1.0
eda14cbcSMatt Macy/*
eda14cbcSMatt Macy * CDDL HEADER START
eda14cbcSMatt Macy *
eda14cbcSMatt Macy * The contents of this file are subject to the terms of the
eda14cbcSMatt Macy * Common Development and Distribution License (the "License").
eda14cbcSMatt Macy * You may not use this file except in compliance with the License.
eda14cbcSMatt Macy *
eda14cbcSMatt Macy * You can obtain a copy of the license at usr/src/OPENSOLARIS.LICENSE
271171e0SMartin Matuska * or https://opensource.org/licenses/CDDL-1.0.
eda14cbcSMatt Macy * See the License for the specific language governing permissions
eda14cbcSMatt Macy * and limitations under the License.
eda14cbcSMatt Macy *
eda14cbcSMatt Macy * When distributing Covered Code, include this CDDL HEADER in each
eda14cbcSMatt Macy * file and include the License file at usr/src/OPENSOLARIS.LICENSE.
eda14cbcSMatt Macy * If applicable, add the following below this CDDL HEADER, with the
eda14cbcSMatt Macy * fields enclosed by brackets "[]" replaced with your own identifying
eda14cbcSMatt Macy * information: Portions Copyright [yyyy] [name of copyright owner]
eda14cbcSMatt Macy *
eda14cbcSMatt Macy * CDDL HEADER END
eda14cbcSMatt Macy */
eda14cbcSMatt Macy/*
eda14cbcSMatt Macy * Copyright (c) 2011, Lawrence Livermore National Security, LLC.
2a58b312SMartin Matuska * Copyright (c) 2023, Datto Inc. All rights reserved.
113e6074SMartin Matuska * Copyright (c) 2025, Klara, Inc.
*e6e941e6SMartin Matuska * Copyright (c) 2025, Rob Norris <robn@despairlabs.com>
eda14cbcSMatt Macy */
eda14cbcSMatt Macy
eda14cbcSMatt Macy
eda14cbcSMatt Macy#include <sys/zfs_znode.h>
eda14cbcSMatt Macy#include <sys/zfs_vfsops.h>
eda14cbcSMatt Macy#include <sys/zfs_vnops.h>
eda14cbcSMatt Macy#include <sys/zfs_ctldir.h>
eda14cbcSMatt Macy#include <sys/zpl.h>
7a7741afSMartin Matuska#include <linux/iversion.h>
3a896071SMartin Matuska#include <linux/version.h>
*e6e941e6SMartin Matuska#include <linux/vfs_compat.h>
eda14cbcSMatt Macy
113e6074SMartin Matuska/*
113e6074SMartin Matuska * What to do when the last reference to an inode is released. If 0, the kernel
113e6074SMartin Matuska * will cache it on the superblock. If 1, the inode will be freed immediately.
113e6074SMartin Matuska * See zpl_drop_inode().
113e6074SMartin Matuska */
113e6074SMartin Matuskaint zfs_delete_inode = 0;
113e6074SMartin Matuska
113e6074SMartin Matuska/*
113e6074SMartin Matuska * What to do when the last reference to a dentry is released. If 0, the kernel
113e6074SMartin Matuska * will cache it until the entry (file) is destroyed. If 1, the dentry will be
113e6074SMartin Matuska * marked for cleanup, at which time its inode reference will be released. See
113e6074SMartin Matuska * zpl_dentry_delete().
113e6074SMartin Matuska */
113e6074SMartin Matuskaint zfs_delete_dentry = 0;
eda14cbcSMatt Macy
eda14cbcSMatt Macystatic struct inode *
eda14cbcSMatt Macyzpl_inode_alloc(struct super_block *sb)
eda14cbcSMatt Macy{
eda14cbcSMatt Macy	struct inode *ip;
eda14cbcSMatt Macy
eda14cbcSMatt Macy	VERIFY3S(zfs_inode_alloc(sb, &ip), ==, 0);
eda14cbcSMatt Macy	inode_set_iversion(ip, 1);
eda14cbcSMatt Macy
eda14cbcSMatt Macy	return (ip);
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
df58e8b1SMartin Matuska#ifdef HAVE_SOPS_FREE_INODE
df58e8b1SMartin Matuskastatic void
df58e8b1SMartin Matuskazpl_inode_free(struct inode *ip)
df58e8b1SMartin Matuska{
d0abb9a6SMartin Matuska	ASSERT0(atomic_read(&ip->i_count));
df58e8b1SMartin Matuska	zfs_inode_free(ip);
df58e8b1SMartin Matuska}
df58e8b1SMartin Matuska#endif
df58e8b1SMartin Matuska
eda14cbcSMatt Macystatic void
eda14cbcSMatt Macyzpl_inode_destroy(struct inode *ip)
eda14cbcSMatt Macy{
d0abb9a6SMartin Matuska	ASSERT0(atomic_read(&ip->i_count));
eda14cbcSMatt Macy	zfs_inode_destroy(ip);
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
eda14cbcSMatt Macy/*
eda14cbcSMatt Macy * Called from __mark_inode_dirty() to reflect that something in the
eda14cbcSMatt Macy * inode has changed.  We use it to ensure the znode system attributes
eda14cbcSMatt Macy * are always strictly update to date with respect to the inode.
eda14cbcSMatt Macy */
eda14cbcSMatt Macystatic void
eda14cbcSMatt Macyzpl_dirty_inode(struct inode *ip, int flags)
eda14cbcSMatt Macy{
eda14cbcSMatt Macy	fstrans_cookie_t cookie;
eda14cbcSMatt Macy
eda14cbcSMatt Macy	cookie = spl_fstrans_mark();
eda14cbcSMatt Macy	zfs_dirty_inode(ip, flags);
eda14cbcSMatt Macy	spl_fstrans_unmark(cookie);
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
eda14cbcSMatt Macy/*
113e6074SMartin Matuska * ->drop_inode() is called when the last reference to an inode is released.
113e6074SMartin Matuska * Its return value indicates if the inode should be destroyed immediately, or
113e6074SMartin Matuska * cached on the superblock structure.
eda14cbcSMatt Macy *
113e6074SMartin Matuska * By default (zfs_delete_inode=0), we call generic_drop_inode(), which returns
113e6074SMartin Matuska * "destroy immediately" if the inode is unhashed and has no links (roughly: no
113e6074SMartin Matuska * longer exists on disk). On datasets with millions of rarely-accessed files,
113e6074SMartin Matuska * this can cause a large amount of memory to be "pinned" by cached inodes,
113e6074SMartin Matuska * which in turn pin their associated dnodes and dbufs, until the kernel starts
113e6074SMartin Matuska * reporting memory pressure and requests OpenZFS release some memory (see
113e6074SMartin Matuska * zfs_prune()).
113e6074SMartin Matuska *
*e6e941e6SMartin Matuska * When set to 1, we call generic_delete_inode(), which always returns "destroy
113e6074SMartin Matuska * immediately", resulting in inodes being destroyed immediately, releasing
113e6074SMartin Matuska * their associated dnodes and dbufs to the dbuf cached and the ARC to be
113e6074SMartin Matuska * evicted as normal.
113e6074SMartin Matuska *
113e6074SMartin Matuska * Note that the "last reference" doesn't always mean the last _userspace_
113e6074SMartin Matuska * reference; the dentry cache also holds a reference, so "busy" inodes will
113e6074SMartin Matuska * still be kept alive that way (subject to dcache tuning).
113e6074SMartin Matuska */
113e6074SMartin Matuskastatic int
113e6074SMartin Matuskazpl_drop_inode(struct inode *ip)
113e6074SMartin Matuska{
113e6074SMartin Matuska	if (zfs_delete_inode)
113e6074SMartin Matuska		return (generic_delete_inode(ip));
113e6074SMartin Matuska	return (generic_drop_inode(ip));
113e6074SMartin Matuska}
113e6074SMartin Matuska
113e6074SMartin Matuska/*
eda14cbcSMatt Macy * The ->evict_inode() callback must minimally truncate the inode pages,
eda14cbcSMatt Macy * and call clear_inode().  For 2.6.35 and later kernels this will
eda14cbcSMatt Macy * simply update the inode state, with the sync occurring before the
eda14cbcSMatt Macy * truncate in evict().  For earlier kernels clear_inode() maps to
eda14cbcSMatt Macy * end_writeback() which is responsible for completing all outstanding
eda14cbcSMatt Macy * write back.  In either case, once this is done it is safe to cleanup
eda14cbcSMatt Macy * any remaining inode specific data via zfs_inactive().
eda14cbcSMatt Macy * remaining filesystem specific data.
eda14cbcSMatt Macy */
eda14cbcSMatt Macystatic void
eda14cbcSMatt Macyzpl_evict_inode(struct inode *ip)
eda14cbcSMatt Macy{
eda14cbcSMatt Macy	fstrans_cookie_t cookie;
eda14cbcSMatt Macy
eda14cbcSMatt Macy	cookie = spl_fstrans_mark();
eda14cbcSMatt Macy	truncate_setsize(ip, 0);
eda14cbcSMatt Macy	clear_inode(ip);
eda14cbcSMatt Macy	zfs_inactive(ip);
eda14cbcSMatt Macy	spl_fstrans_unmark(cookie);
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
eda14cbcSMatt Macystatic void
eda14cbcSMatt Macyzpl_put_super(struct super_block *sb)
eda14cbcSMatt Macy{
eda14cbcSMatt Macy	fstrans_cookie_t cookie;
eda14cbcSMatt Macy	int error;
eda14cbcSMatt Macy
eda14cbcSMatt Macy	cookie = spl_fstrans_mark();
eda14cbcSMatt Macy	error = -zfs_umount(sb);
eda14cbcSMatt Macy	spl_fstrans_unmark(cookie);
eda14cbcSMatt Macy	ASSERT3S(error, <=, 0);
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
3a896071SMartin Matuska/*
3a896071SMartin Matuska * zfs_sync() is the underlying implementation for the sync(2) and syncfs(2)
3a896071SMartin Matuska * syscalls, via sb->s_op->sync_fs().
3a896071SMartin Matuska *
3a896071SMartin Matuska * Before kernel 5.17 (torvalds/linux@5679897eb104), syncfs() ->
3a896071SMartin Matuska * sync_filesystem() would ignore the return from sync_fs(), instead only
3a896071SMartin Matuska * considing the error from syncing the underlying block device (sb->s_dev).
3a896071SMartin Matuska * Since OpenZFS doesn't _have_ an underlying block device, there's no way for
3a896071SMartin Matuska * us to report a sync directly.
3a896071SMartin Matuska *
3a896071SMartin Matuska * However, in 5.8 (torvalds/linux@735e4ae5ba28) the superblock gained an extra
3a896071SMartin Matuska * error store `s_wb_err`, to carry errors seen on page writeback since the
3a896071SMartin Matuska * last call to syncfs(). If sync_filesystem() does not return an error, any
3a896071SMartin Matuska * existing writeback error on the superblock will be used instead (and cleared
3a896071SMartin Matuska * either way). We don't use this (page writeback is a different thing for us),
3a896071SMartin Matuska * so for 5.8-5.17 we can use that instead to get syncfs() to return the error.
3a896071SMartin Matuska *
3a896071SMartin Matuska * Before 5.8, we have no other good options - no matter what happens, the
3a896071SMartin Matuska * userspace program will be told the call has succeeded, and so we must make
3a896071SMartin Matuska * it so, Therefore, when we are asked to wait for sync to complete (wait ==
3a896071SMartin Matuska * 1), if zfs_sync() has returned an error we have no choice but to block,
3a896071SMartin Matuska * regardless of the reason.
3a896071SMartin Matuska *
3a896071SMartin Matuska * The 5.17 change was backported to the 5.10, 5.15 and 5.16 series, and likely
3a896071SMartin Matuska * to some vendor kernels. Meanwhile, s_wb_err is still in use in 6.15 (the
3a896071SMartin Matuska * mainline Linux series at time of writing), and has likely been backported to
3a896071SMartin Matuska * vendor kernels before 5.8. We don't really want to use a workaround when we
3a896071SMartin Matuska * don't have to, but we can't really detect whether or not sync_filesystem()
3a896071SMartin Matuska * will return our errors (without a difficult runtime test anyway). So, we use
3a896071SMartin Matuska * a static version check: any kernel reporting its version as 5.17+ will use a
3a896071SMartin Matuska * direct error return, otherwise, we'll either use s_wb_err if it was detected
3a896071SMartin Matuska * at configure (5.8-5.16 + vendor backports). If it's unavailable, we will
3a896071SMartin Matuska * block to ensure the correct semantics.
3a896071SMartin Matuska *
3a896071SMartin Matuska * See https://github.com/openzfs/zfs/issues/17416 for further discussion.
3a896071SMartin Matuska */
eda14cbcSMatt Macystatic int
eda14cbcSMatt Macyzpl_sync_fs(struct super_block *sb, int wait)
eda14cbcSMatt Macy{
eda14cbcSMatt Macy	fstrans_cookie_t cookie;
eda14cbcSMatt Macy	cred_t *cr = CRED();
eda14cbcSMatt Macy	int error;
eda14cbcSMatt Macy
eda14cbcSMatt Macy	crhold(cr);
eda14cbcSMatt Macy	cookie = spl_fstrans_mark();
eda14cbcSMatt Macy	error = -zfs_sync(sb, wait, cr);
3a896071SMartin Matuska
3a896071SMartin Matuska#if LINUX_VERSION_CODE < KERNEL_VERSION(5, 17, 0)
3a896071SMartin Matuska#ifdef HAVE_SUPER_BLOCK_S_WB_ERR
3a896071SMartin Matuska	if (error && wait)
3a896071SMartin Matuska		errseq_set(&sb->s_wb_err, error);
3a896071SMartin Matuska#else
3a896071SMartin Matuska	if (error && wait) {
3a896071SMartin Matuska		zfsvfs_t *zfsvfs = sb->s_fs_info;
3a896071SMartin Matuska		ASSERT3P(zfsvfs, !=, NULL);
3a896071SMartin Matuska		if (zfs_enter(zfsvfs, FTAG) == 0) {
3a896071SMartin Matuska			txg_wait_synced(dmu_objset_pool(zfsvfs->z_os), 0);
3a896071SMartin Matuska			zfs_exit(zfsvfs, FTAG);
3a896071SMartin Matuska			error = 0;
3a896071SMartin Matuska		}
3a896071SMartin Matuska	}
3a896071SMartin Matuska#endif
3a896071SMartin Matuska#endif /* < 5.17.0 */
3a896071SMartin Matuska
eda14cbcSMatt Macy	spl_fstrans_unmark(cookie);
eda14cbcSMatt Macy	crfree(cr);
eda14cbcSMatt Macy
3a896071SMartin Matuska	ASSERT3S(error, <=, 0);
eda14cbcSMatt Macy	return (error);
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
eda14cbcSMatt Macystatic int
eda14cbcSMatt Macyzpl_statfs(struct dentry *dentry, struct kstatfs *statp)
eda14cbcSMatt Macy{
eda14cbcSMatt Macy	fstrans_cookie_t cookie;
eda14cbcSMatt Macy	int error;
eda14cbcSMatt Macy
eda14cbcSMatt Macy	cookie = spl_fstrans_mark();
eda14cbcSMatt Macy	error = -zfs_statvfs(dentry->d_inode, statp);
eda14cbcSMatt Macy	spl_fstrans_unmark(cookie);
eda14cbcSMatt Macy	ASSERT3S(error, <=, 0);
eda14cbcSMatt Macy
eda14cbcSMatt Macy	/*
eda14cbcSMatt Macy	 * If required by a 32-bit system call, dynamically scale the
eda14cbcSMatt Macy	 * block size up to 16MiB and decrease the block counts.  This
eda14cbcSMatt Macy	 * allows for a maximum size of 64EiB to be reported.  The file
eda14cbcSMatt Macy	 * counts must be artificially capped at 2^32-1.
eda14cbcSMatt Macy	 */
eda14cbcSMatt Macy	if (unlikely(zpl_is_32bit_api())) {
eda14cbcSMatt Macy		while (statp->f_blocks > UINT32_MAX &&
eda14cbcSMatt Macy		    statp->f_bsize < SPA_MAXBLOCKSIZE) {
eda14cbcSMatt Macy			statp->f_frsize <<= 1;
eda14cbcSMatt Macy			statp->f_bsize <<= 1;
eda14cbcSMatt Macy
eda14cbcSMatt Macy			statp->f_blocks >>= 1;
eda14cbcSMatt Macy			statp->f_bfree >>= 1;
eda14cbcSMatt Macy			statp->f_bavail >>= 1;
eda14cbcSMatt Macy		}
eda14cbcSMatt Macy
eda14cbcSMatt Macy		uint64_t usedobjs = statp->f_files - statp->f_ffree;
eda14cbcSMatt Macy		statp->f_ffree = MIN(statp->f_ffree, UINT32_MAX - usedobjs);
eda14cbcSMatt Macy		statp->f_files = statp->f_ffree + usedobjs;
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy
eda14cbcSMatt Macy	return (error);
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
eda14cbcSMatt Macystatic int
eda14cbcSMatt Macyzpl_remount_fs(struct super_block *sb, int *flags, char *data)
eda14cbcSMatt Macy{
eda14cbcSMatt Macy	zfs_mnt_t zm = { .mnt_osname = NULL, .mnt_data = data };
eda14cbcSMatt Macy	fstrans_cookie_t cookie;
eda14cbcSMatt Macy	int error;
eda14cbcSMatt Macy
eda14cbcSMatt Macy	cookie = spl_fstrans_mark();
eda14cbcSMatt Macy	error = -zfs_remount(sb, flags, &zm);
eda14cbcSMatt Macy	spl_fstrans_unmark(cookie);
eda14cbcSMatt Macy	ASSERT3S(error, <=, 0);
eda14cbcSMatt Macy
eda14cbcSMatt Macy	return (error);
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
eda14cbcSMatt Macystatic int
eac7052fSMatt Macy__zpl_show_devname(struct seq_file *seq, zfsvfs_t *zfsvfs)
eac7052fSMatt Macy{
c7046f76SMartin Matuska	int error;
c7046f76SMartin Matuska	if ((error = zpl_enter(zfsvfs, FTAG)) != 0)
c7046f76SMartin Matuska		return (error);
eac7052fSMatt Macy
7877fdebSMatt Macy	char *fsname = kmem_alloc(ZFS_MAX_DATASET_NAME_LEN, KM_SLEEP);
eac7052fSMatt Macy	dmu_objset_name(zfsvfs->z_os, fsname);
7877fdebSMatt Macy
7877fdebSMatt Macy	for (int i = 0; fsname[i] != 0; i++) {
7877fdebSMatt Macy		/*
7877fdebSMatt Macy		 * Spaces in the dataset name must be converted to their
7877fdebSMatt Macy		 * octal escape sequence for getmntent(3) to correctly
7877fdebSMatt Macy		 * parse then fsname portion of /proc/self/mounts.
7877fdebSMatt Macy		 */
7877fdebSMatt Macy		if (fsname[i] == ' ') {
7877fdebSMatt Macy			seq_puts(seq, "\\040");
7877fdebSMatt Macy		} else {
7877fdebSMatt Macy			seq_putc(seq, fsname[i]);
7877fdebSMatt Macy		}
7877fdebSMatt Macy	}
7877fdebSMatt Macy
eac7052fSMatt Macy	kmem_free(fsname, ZFS_MAX_DATASET_NAME_LEN);
7877fdebSMatt Macy
c7046f76SMartin Matuska	zpl_exit(zfsvfs, FTAG);
eac7052fSMatt Macy
eac7052fSMatt Macy	return (0);
eac7052fSMatt Macy}
eac7052fSMatt Macy
eac7052fSMatt Macystatic int
eac7052fSMatt Macyzpl_show_devname(struct seq_file *seq, struct dentry *root)
eac7052fSMatt Macy{
eac7052fSMatt Macy	return (__zpl_show_devname(seq, root->d_sb->s_fs_info));
eac7052fSMatt Macy}
eac7052fSMatt Macy
eac7052fSMatt Macystatic int
eda14cbcSMatt Macy__zpl_show_options(struct seq_file *seq, zfsvfs_t *zfsvfs)
eda14cbcSMatt Macy{
eda14cbcSMatt Macy	seq_printf(seq, ",%s",
eda14cbcSMatt Macy	    zfsvfs->z_flags & ZSB_XATTR ? "xattr" : "noxattr");
eda14cbcSMatt Macy
eda14cbcSMatt Macy#ifdef CONFIG_FS_POSIX_ACL
eda14cbcSMatt Macy	switch (zfsvfs->z_acl_type) {
2c48331dSMatt Macy	case ZFS_ACLTYPE_POSIX:
eda14cbcSMatt Macy		seq_puts(seq, ",posixacl");
eda14cbcSMatt Macy		break;
eda14cbcSMatt Macy	default:
eda14cbcSMatt Macy		seq_puts(seq, ",noacl");
eda14cbcSMatt Macy		break;
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy#endif /* CONFIG_FS_POSIX_ACL */
eda14cbcSMatt Macy
271171e0SMartin Matuska	switch (zfsvfs->z_case) {
271171e0SMartin Matuska	case ZFS_CASE_SENSITIVE:
271171e0SMartin Matuska		seq_puts(seq, ",casesensitive");
271171e0SMartin Matuska		break;
271171e0SMartin Matuska	case ZFS_CASE_INSENSITIVE:
271171e0SMartin Matuska		seq_puts(seq, ",caseinsensitive");
271171e0SMartin Matuska		break;
271171e0SMartin Matuska	default:
271171e0SMartin Matuska		seq_puts(seq, ",casemixed");
271171e0SMartin Matuska		break;
271171e0SMartin Matuska	}
271171e0SMartin Matuska
eda14cbcSMatt Macy	return (0);
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
eda14cbcSMatt Macystatic int
eda14cbcSMatt Macyzpl_show_options(struct seq_file *seq, struct dentry *root)
eda14cbcSMatt Macy{
eda14cbcSMatt Macy	return (__zpl_show_options(seq, root->d_sb->s_fs_info));
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
eda14cbcSMatt Macystatic int
eda14cbcSMatt Macyzpl_fill_super(struct super_block *sb, void *data, int silent)
eda14cbcSMatt Macy{
eda14cbcSMatt Macy	zfs_mnt_t *zm = (zfs_mnt_t *)data;
eda14cbcSMatt Macy	fstrans_cookie_t cookie;
eda14cbcSMatt Macy	int error;
eda14cbcSMatt Macy
eda14cbcSMatt Macy	cookie = spl_fstrans_mark();
eda14cbcSMatt Macy	error = -zfs_domount(sb, zm, silent);
eda14cbcSMatt Macy	spl_fstrans_unmark(cookie);
eda14cbcSMatt Macy	ASSERT3S(error, <=, 0);
eda14cbcSMatt Macy
eda14cbcSMatt Macy	return (error);
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
eda14cbcSMatt Macystatic int
eda14cbcSMatt Macyzpl_test_super(struct super_block *s, void *data)
eda14cbcSMatt Macy{
eda14cbcSMatt Macy	zfsvfs_t *zfsvfs = s->s_fs_info;
eda14cbcSMatt Macy	objset_t *os = data;
2a58b312SMartin Matuska	/*
2a58b312SMartin Matuska	 * If the os doesn't match the z_os in the super_block, assume it is
2a58b312SMartin Matuska	 * not a match. Matching would imply a multimount of a dataset. It is
2a58b312SMartin Matuska	 * possible that during a multimount, there is a simultaneous operation
2a58b312SMartin Matuska	 * that changes the z_os, e.g., rollback, where the match will be
2a58b312SMartin Matuska	 * missed, but in that case the user will get an EBUSY.
2a58b312SMartin Matuska	 */
315ee00fSMartin Matuska	return (zfsvfs != NULL && os == zfsvfs->z_os);
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
eda14cbcSMatt Macystatic struct super_block *
eda14cbcSMatt Macyzpl_mount_impl(struct file_system_type *fs_type, int flags, zfs_mnt_t *zm)
eda14cbcSMatt Macy{
eda14cbcSMatt Macy	struct super_block *s;
eda14cbcSMatt Macy	objset_t *os;
e2df9bb4SMartin Matuska	boolean_t issnap = B_FALSE;
eda14cbcSMatt Macy	int err;
eda14cbcSMatt Macy
eda14cbcSMatt Macy	err = dmu_objset_hold(zm->mnt_osname, FTAG, &os);
eda14cbcSMatt Macy	if (err)
eda14cbcSMatt Macy		return (ERR_PTR(-err));
eda14cbcSMatt Macy
eda14cbcSMatt Macy	/*
eda14cbcSMatt Macy	 * The dsl pool lock must be released prior to calling sget().
eda14cbcSMatt Macy	 * It is possible sget() may block on the lock in grab_super()
eda14cbcSMatt Macy	 * while deactivate_super() holds that same lock and waits for
eda14cbcSMatt Macy	 * a txg sync.  If the dsl_pool lock is held over sget()
eda14cbcSMatt Macy	 * this can prevent the pool sync and cause a deadlock.
eda14cbcSMatt Macy	 */
2c48331dSMatt Macy	dsl_dataset_long_hold(dmu_objset_ds(os), FTAG);
eda14cbcSMatt Macy	dsl_pool_rele(dmu_objset_pool(os), FTAG);
2c48331dSMatt Macy
eda14cbcSMatt Macy	s = sget(fs_type, zpl_test_super, set_anon_super, flags, os);
2c48331dSMatt Macy
315ee00fSMartin Matuska	/*
315ee00fSMartin Matuska	 * Recheck with the lock held to prevent mounting the wrong dataset
315ee00fSMartin Matuska	 * since z_os can be stale when the teardown lock is held.
315ee00fSMartin Matuska	 *
315ee00fSMartin Matuska	 * We can't do this in zpl_test_super in since it's under spinlock and
315ee00fSMartin Matuska	 * also s_umount lock is not held there so it would race with
315ee00fSMartin Matuska	 * zfs_umount and zfsvfs can be freed.
315ee00fSMartin Matuska	 */
315ee00fSMartin Matuska	if (!IS_ERR(s) && s->s_fs_info != NULL) {
315ee00fSMartin Matuska		zfsvfs_t *zfsvfs = s->s_fs_info;
315ee00fSMartin Matuska		if (zpl_enter(zfsvfs, FTAG) == 0) {
315ee00fSMartin Matuska			if (os != zfsvfs->z_os)
315ee00fSMartin Matuska				err = -SET_ERROR(EBUSY);
e2df9bb4SMartin Matuska			issnap = zfsvfs->z_issnap;
315ee00fSMartin Matuska			zpl_exit(zfsvfs, FTAG);
315ee00fSMartin Matuska		} else {
315ee00fSMartin Matuska			err = -SET_ERROR(EBUSY);
315ee00fSMartin Matuska		}
315ee00fSMartin Matuska	}
2c48331dSMatt Macy	dsl_dataset_long_rele(dmu_objset_ds(os), FTAG);
eda14cbcSMatt Macy	dsl_dataset_rele(dmu_objset_ds(os), FTAG);
eda14cbcSMatt Macy
eda14cbcSMatt Macy	if (IS_ERR(s))
eda14cbcSMatt Macy		return (ERR_CAST(s));
eda14cbcSMatt Macy
315ee00fSMartin Matuska	if (err) {
315ee00fSMartin Matuska		deactivate_locked_super(s);
315ee00fSMartin Matuska		return (ERR_PTR(err));
315ee00fSMartin Matuska	}
315ee00fSMartin Matuska
eda14cbcSMatt Macy	if (s->s_root == NULL) {
eda14cbcSMatt Macy		err = zpl_fill_super(s, zm, flags & SB_SILENT ? 1 : 0);
eda14cbcSMatt Macy		if (err) {
eda14cbcSMatt Macy			deactivate_locked_super(s);
eda14cbcSMatt Macy			return (ERR_PTR(err));
eda14cbcSMatt Macy		}
eda14cbcSMatt Macy		s->s_flags |= SB_ACTIVE;
e2df9bb4SMartin Matuska	} else if (!issnap && ((flags ^ s->s_flags) & SB_RDONLY)) {
e2df9bb4SMartin Matuska		/*
e2df9bb4SMartin Matuska		 * Skip ro check for snap since snap is always ro regardless
e2df9bb4SMartin Matuska		 * ro flag is passed by mount or not.
e2df9bb4SMartin Matuska		 */
eda14cbcSMatt Macy		deactivate_locked_super(s);
eda14cbcSMatt Macy		return (ERR_PTR(-EBUSY));
eda14cbcSMatt Macy	}
eda14cbcSMatt Macy
eda14cbcSMatt Macy	return (s);
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
eda14cbcSMatt Macystatic struct dentry *
eda14cbcSMatt Macyzpl_mount(struct file_system_type *fs_type, int flags,
eda14cbcSMatt Macy    const char *osname, void *data)
eda14cbcSMatt Macy{
eda14cbcSMatt Macy	zfs_mnt_t zm = { .mnt_osname = osname, .mnt_data = data };
eda14cbcSMatt Macy
eda14cbcSMatt Macy	struct super_block *sb = zpl_mount_impl(fs_type, flags, &zm);
eda14cbcSMatt Macy	if (IS_ERR(sb))
eda14cbcSMatt Macy		return (ERR_CAST(sb));
eda14cbcSMatt Macy
eda14cbcSMatt Macy	return (dget(sb->s_root));
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
eda14cbcSMatt Macystatic void
eda14cbcSMatt Macyzpl_kill_sb(struct super_block *sb)
eda14cbcSMatt Macy{
eda14cbcSMatt Macy	zfs_preumount(sb);
eda14cbcSMatt Macy	kill_anon_super(sb);
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
eda14cbcSMatt Macyvoid
f8b1db88SMartin Matuskazpl_prune_sb(uint64_t nr_to_scan, void *arg)
eda14cbcSMatt Macy{
eda14cbcSMatt Macy	struct super_block *sb = (struct super_block *)arg;
eda14cbcSMatt Macy	int objects = 0;
eda14cbcSMatt Macy
718519f4SMartin Matuska	/*
61145dc2SMartin Matuska	 * Ensure the superblock is not in the process of being torn down.
718519f4SMartin Matuska	 */
61145dc2SMartin Matuska#ifdef HAVE_SB_DYING
61145dc2SMartin Matuska	if (down_read_trylock(&sb->s_umount)) {
61145dc2SMartin Matuska		if (!(sb->s_flags & SB_DYING) && sb->s_root &&
61145dc2SMartin Matuska		    (sb->s_flags & SB_BORN)) {
61145dc2SMartin Matuska			(void) zfs_prune(sb, nr_to_scan, &objects);
718519f4SMartin Matuska		}
61145dc2SMartin Matuska		up_read(&sb->s_umount);
61145dc2SMartin Matuska	}
61145dc2SMartin Matuska#else
61145dc2SMartin Matuska	if (down_read_trylock(&sb->s_umount)) {
61145dc2SMartin Matuska		if (!hlist_unhashed(&sb->s_instances) &&
61145dc2SMartin Matuska		    sb->s_root && (sb->s_flags & SB_BORN)) {
61145dc2SMartin Matuska			(void) zfs_prune(sb, nr_to_scan, &objects);
61145dc2SMartin Matuska		}
61145dc2SMartin Matuska		up_read(&sb->s_umount);
61145dc2SMartin Matuska	}
61145dc2SMartin Matuska#endif
eda14cbcSMatt Macy}
eda14cbcSMatt Macy
eda14cbcSMatt Macyconst struct super_operations zpl_super_operations = {
eda14cbcSMatt Macy	.alloc_inode		= zpl_inode_alloc,
df58e8b1SMartin Matuska#ifdef HAVE_SOPS_FREE_INODE
df58e8b1SMartin Matuska	.free_inode		= zpl_inode_free,
df58e8b1SMartin Matuska#endif
eda14cbcSMatt Macy	.destroy_inode		= zpl_inode_destroy,
eda14cbcSMatt Macy	.dirty_inode		= zpl_dirty_inode,
eda14cbcSMatt Macy	.write_inode		= NULL,
113e6074SMartin Matuska	.drop_inode		= zpl_drop_inode,
eda14cbcSMatt Macy	.evict_inode		= zpl_evict_inode,
eda14cbcSMatt Macy	.put_super		= zpl_put_super,
eda14cbcSMatt Macy	.sync_fs		= zpl_sync_fs,
eda14cbcSMatt Macy	.statfs			= zpl_statfs,
eda14cbcSMatt Macy	.remount_fs		= zpl_remount_fs,
eac7052fSMatt Macy	.show_devname		= zpl_show_devname,
eda14cbcSMatt Macy	.show_options		= zpl_show_options,
eda14cbcSMatt Macy	.show_stats		= NULL,
eda14cbcSMatt Macy};
eda14cbcSMatt Macy
113e6074SMartin Matuska/*
113e6074SMartin Matuska * ->d_delete() is called when the last reference to a dentry is released. Its
113e6074SMartin Matuska *  return value indicates if the dentry should be destroyed immediately, or
113e6074SMartin Matuska *  retained in the dentry cache.
113e6074SMartin Matuska *
113e6074SMartin Matuska * By default (zfs_delete_dentry=0) the kernel will always cache unused
113e6074SMartin Matuska * entries.  Each dentry holds an inode reference, so cached dentries can hold
113e6074SMartin Matuska * the final inode reference indefinitely, leading to the inode and its related
113e6074SMartin Matuska * data being pinned (see zpl_drop_inode()).
113e6074SMartin Matuska *
113e6074SMartin Matuska * When set to 1, we signal that the dentry should be destroyed immediately and
113e6074SMartin Matuska * never cached. This reduces memory usage, at the cost of higher overheads to
113e6074SMartin Matuska * lookup a file, as the inode and its underlying data (dnode/dbuf) need to be
113e6074SMartin Matuska * reloaded and reinflated.
113e6074SMartin Matuska *
113e6074SMartin Matuska * Note that userspace does not have direct control over dentry references and
113e6074SMartin Matuska * reclaim; rather, this is part of the kernel's caching and reclaim subsystems
113e6074SMartin Matuska * (eg vm.vfs_cache_pressure).
113e6074SMartin Matuska */
113e6074SMartin Matuskastatic int
113e6074SMartin Matuskazpl_dentry_delete(const struct dentry *dentry)
113e6074SMartin Matuska{
113e6074SMartin Matuska	return (zfs_delete_dentry ? 1 : 0);
113e6074SMartin Matuska}
113e6074SMartin Matuska
113e6074SMartin Matuskaconst struct dentry_operations zpl_dentry_operations = {
113e6074SMartin Matuska	.d_delete = zpl_dentry_delete,
113e6074SMartin Matuska};
113e6074SMartin Matuska
eda14cbcSMatt Macystruct file_system_type zpl_fs_type = {
eda14cbcSMatt Macy	.owner			= THIS_MODULE,
eda14cbcSMatt Macy	.name			= ZFS_DRIVER,
dbd5678dSMartin Matuska#if defined(HAVE_IDMAP_MNT_API)
dbd5678dSMartin Matuska	.fs_flags		= FS_USERNS_MOUNT | FS_ALLOW_IDMAP,
dbd5678dSMartin Matuska#else
1f1e2261SMartin Matuska	.fs_flags		= FS_USERNS_MOUNT,
dbd5678dSMartin Matuska#endif
eda14cbcSMatt Macy	.mount			= zpl_mount,
eda14cbcSMatt Macy	.kill_sb		= zpl_kill_sb,
eda14cbcSMatt Macy};
113e6074SMartin Matuska
113e6074SMartin MatuskaZFS_MODULE_PARAM(zfs, zfs_, delete_inode, INT, ZMOD_RW,
113e6074SMartin Matuska	"Delete inodes as soon as the last reference is released.");
113e6074SMartin Matuska
113e6074SMartin MatuskaZFS_MODULE_PARAM(zfs, zfs_, delete_dentry, INT, ZMOD_RW,
113e6074SMartin Matuska	"Delete dentries from dentry cache as soon as the last reference is "
113e6074SMartin Matuska	"released.");