python/kdoc/c_lex.py

df50e848SMauro Carvalho Chehab#!/usr/bin/env python3
df50e848SMauro Carvalho Chehab# SPDX-License-Identifier: GPL-2.0
df50e848SMauro Carvalho Chehab# Copyright(c) 2025: Mauro Carvalho Chehab <mchehab@kernel.org>.
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab"""
df50e848SMauro Carvalho ChehabRegular expression ancillary classes.
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho ChehabThose help caching regular expressions and do matching for kernel-doc.
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho ChehabPlease notice that the code here may rise exceptions to indicate bad
df50e848SMauro Carvalho Chehabusage inside kdoc to indicate problems at the replace pattern.
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho ChehabOther errors are logged via log instance.
df50e848SMauro Carvalho Chehab"""
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehabimport logging
df50e848SMauro Carvalho Chehabimport re
df50e848SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehabfrom copy import copy
9aaeb817SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehabfrom .kdoc_re import KernRe
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehablog = logging.getLogger(__name__)
df50e848SMauro Carvalho Chehab
024e200eSMauro Carvalho Chehabdef tokenizer_set_log(logger, prefix = ""):
024e200eSMauro Carvalho Chehab    """
024e200eSMauro Carvalho Chehab    Replace the module‑level logger with a LoggerAdapter that
024e200eSMauro Carvalho Chehab    prepends *prefix* to every message.
024e200eSMauro Carvalho Chehab    """
024e200eSMauro Carvalho Chehab    global log
024e200eSMauro Carvalho Chehab
024e200eSMauro Carvalho Chehab    class PrefixAdapter(logging.LoggerAdapter):
024e200eSMauro Carvalho Chehab        """
024e200eSMauro Carvalho Chehab        Ancillary class to set prefix on all message logs.
024e200eSMauro Carvalho Chehab        """
024e200eSMauro Carvalho Chehab        def process(self, msg, kwargs):
024e200eSMauro Carvalho Chehab            return f"{prefix}{msg}", kwargs
024e200eSMauro Carvalho Chehab
024e200eSMauro Carvalho Chehab    # Wrap the provided logger in our adapter
024e200eSMauro Carvalho Chehab    log = PrefixAdapter(logger, {"prefix": prefix})
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehabclass CToken():
df50e848SMauro Carvalho Chehab    """
df50e848SMauro Carvalho Chehab    Data class to define a C token.
df50e848SMauro Carvalho Chehab    """
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    # Tokens that can be used by the parser. Works like an C enum.
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    COMMENT = 0     #: A standard C or C99 comment, including delimiter.
df50e848SMauro Carvalho Chehab    STRING = 1      #: A string, including quotation marks.
df50e848SMauro Carvalho Chehab    CHAR = 2        #: A character, including apostophes.
df50e848SMauro Carvalho Chehab    NUMBER = 3      #: A number.
df50e848SMauro Carvalho Chehab    PUNC = 4        #: A puntuation mark: / ``,`` / ``.``.
df50e848SMauro Carvalho Chehab    BEGIN = 5       #: A begin character: ``{`` / ``[`` / ``(``.
df50e848SMauro Carvalho Chehab    END = 6         #: A end character: ``}`` / ``]`` / ``)``.
df50e848SMauro Carvalho Chehab    CPP = 7         #: A preprocessor macro.
df50e848SMauro Carvalho Chehab    HASH = 8        #: The hash character - useful to handle other macros.
df50e848SMauro Carvalho Chehab    OP = 9          #: A C operator (add, subtract, ...).
df50e848SMauro Carvalho Chehab    STRUCT = 10     #: A ``struct`` keyword.
df50e848SMauro Carvalho Chehab    UNION = 11      #: An ``union`` keyword.
df50e848SMauro Carvalho Chehab    ENUM = 12       #: A ``struct`` keyword.
df50e848SMauro Carvalho Chehab    TYPEDEF = 13    #: A ``typedef`` keyword.
df50e848SMauro Carvalho Chehab    NAME = 14       #: A name. Can be an ID or a type.
df50e848SMauro Carvalho Chehab    SPACE = 15      #: Any space characters, including new lines
df50e848SMauro Carvalho Chehab    ENDSTMT = 16    #: End of an statement (``;``).
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    BACKREF = 17    #: Not a valid C sequence, but used at sub regex patterns.
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    MISMATCH = 255  #: an error indicator: should never happen in practice.
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    # Dict to convert from an enum interger into a string.
df50e848SMauro Carvalho Chehab    _name_by_val = {v: k for k, v in dict(vars()).items() if isinstance(v, int)}
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    # Dict to convert from string to an enum-like integer value.
df50e848SMauro Carvalho Chehab    _name_to_val = {k: v for v, k in _name_by_val.items()}
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    @staticmethod
df50e848SMauro Carvalho Chehab    def to_name(val):
df50e848SMauro Carvalho Chehab        """Convert from an integer value from CToken enum into a string"""
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab        return CToken._name_by_val.get(val, f"UNKNOWN({val})")
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    @staticmethod
df50e848SMauro Carvalho Chehab    def from_name(name):
df50e848SMauro Carvalho Chehab        """Convert a string into a CToken enum value"""
df50e848SMauro Carvalho Chehab        if name in CToken._name_to_val:
df50e848SMauro Carvalho Chehab            return CToken._name_to_val[name]
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab        return CToken.MISMATCH
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    def __init__(self, kind, value=None, pos=0,
df50e848SMauro Carvalho Chehab                 brace_level=0, paren_level=0, bracket_level=0):
df50e848SMauro Carvalho Chehab        self.kind = kind
df50e848SMauro Carvalho Chehab        self.value = value
df50e848SMauro Carvalho Chehab        self.pos = pos
df50e848SMauro Carvalho Chehab        self.level = (bracket_level, paren_level, brace_level)
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    def __repr__(self):
df50e848SMauro Carvalho Chehab        name = self.to_name(self.kind)
df50e848SMauro Carvalho Chehab        if isinstance(self.value, str):
df50e848SMauro Carvalho Chehab            value = '"' + self.value + '"'
df50e848SMauro Carvalho Chehab        else:
df50e848SMauro Carvalho Chehab            value = self.value
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab        return f"CToken(CToken.{name}, {value}, {self.pos}, {self.level})"
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab#: Regexes to parse C code, transforming it into tokens.
df50e848SMauro Carvalho ChehabRE_SCANNER_LIST = [
df50e848SMauro Carvalho Chehab    #
df50e848SMauro Carvalho Chehab    # Note that \s\S is different than .*, as it also catches \n
df50e848SMauro Carvalho Chehab    #
df50e848SMauro Carvalho Chehab    (CToken.COMMENT, r"//[^\n]*|/\*[\s\S]*?\*/"),
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    (CToken.STRING,  r'"(?:\\.|[^"\\])*"'),
df50e848SMauro Carvalho Chehab    (CToken.CHAR,    r"'(?:\\.|[^'\\])'"),
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    (CToken.NUMBER,  r"0[xX][\da-fA-F]+[uUlL]*|0[0-7]+[uUlL]*|"
df50e848SMauro Carvalho Chehab                     r"\d+(?:\.\d*)?(?:[eE][+-]?\d+)?[fFlL]*"),
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    (CToken.ENDSTMT, r"(?:\s+;|;)"),
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    (CToken.PUNC,    r"[,\.]"),
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    (CToken.BEGIN,   r"[\[\(\{]"),
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    (CToken.END,     r"[\]\)\}]"),
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    (CToken.CPP,     r"#\s*(?:define|include|ifdef|ifndef|if|else|elif|endif|undef|pragma)\b"),
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    (CToken.HASH,    r"#"),
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    (CToken.OP,      r"\+\+|\-\-|\->|==|\!=|<=|>=|&&|\|\||<<|>>|\+=|\-=|\*=|/=|%="
df50e848SMauro Carvalho Chehab                     r"|&=|\|=|\^=|[=\+\-\*/%<>&\|\^~!\?\:]"),
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    (CToken.STRUCT,  r"\bstruct\b"),
df50e848SMauro Carvalho Chehab    (CToken.UNION,   r"\bunion\b"),
df50e848SMauro Carvalho Chehab    (CToken.ENUM,    r"\benum\b"),
df50e848SMauro Carvalho Chehab    (CToken.TYPEDEF, r"\btypedef\b"),
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    (CToken.NAME,    r"[A-Za-z_]\w*"),
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    (CToken.SPACE,   r"\s+"),
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    (CToken.BACKREF, r"\\\d+"),
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    (CToken.MISMATCH,r"."),
df50e848SMauro Carvalho Chehab]
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehabdef fill_re_scanner(token_list):
df50e848SMauro Carvalho Chehab    """Ancillary routine to convert RE_SCANNER_LIST into a finditer regex"""
df50e848SMauro Carvalho Chehab    re_tokens = []
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    for kind, pattern in token_list:
df50e848SMauro Carvalho Chehab        name = CToken.to_name(kind)
df50e848SMauro Carvalho Chehab        re_tokens.append(f"(?P<{name}>{pattern})")
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    return KernRe("|".join(re_tokens), re.MULTILINE | re.DOTALL)
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab#: Handle C continuation lines.
df50e848SMauro Carvalho ChehabRE_CONT = KernRe(r"\\\n")
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho ChehabRE_COMMENT_START = KernRe(r'/\*\s*')
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab#: tokenizer regex. Will be filled at the first CTokenizer usage.
df50e848SMauro Carvalho ChehabRE_SCANNER = fill_re_scanner(RE_SCANNER_LIST)
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehabclass CTokenizer():
df50e848SMauro Carvalho Chehab    """
df50e848SMauro Carvalho Chehab    Scan C statements and definitions and produce tokens.
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    When converted to string, it drops comments and handle public/private
df50e848SMauro Carvalho Chehab    values, respecting depth.
df50e848SMauro Carvalho Chehab    """
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    # This class is inspired and follows the basic concepts of:
df50e848SMauro Carvalho Chehab    #   https://docs.python.org/3/library/re.html#writing-a-tokenizer
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    def __init__(self, source=None, log=None):
df50e848SMauro Carvalho Chehab        """
df50e848SMauro Carvalho Chehab        Create a regular expression to handle RE_SCANNER_LIST.
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab        While I generally don't like using regex group naming via:
df50e848SMauro Carvalho Chehab            (?P<name>...)
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab        in this particular case, it makes sense, as we can pick the name
df50e848SMauro Carvalho Chehab        when matching a code via RE_SCANNER.
df50e848SMauro Carvalho Chehab        """
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab        self.tokens = []
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab        if not source:
df50e848SMauro Carvalho Chehab            return
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab        if isinstance(source, list):
df50e848SMauro Carvalho Chehab            self.tokens = source
df50e848SMauro Carvalho Chehab            return
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab        #
df50e848SMauro Carvalho Chehab        # While we could just use _tokenize directly via interator,
df50e848SMauro Carvalho Chehab        # As we'll need to use the tokenizer several times inside kernel-doc
df50e848SMauro Carvalho Chehab        # to handle macro transforms, cache the results on a list, as
df50e848SMauro Carvalho Chehab        # re-using it is cheaper than having to parse everytime.
df50e848SMauro Carvalho Chehab        #
df50e848SMauro Carvalho Chehab        for tok in self._tokenize(source):
df50e848SMauro Carvalho Chehab            self.tokens.append(tok)
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    def _tokenize(self, source):
df50e848SMauro Carvalho Chehab        """
df50e848SMauro Carvalho Chehab        Iterator that parses ``source``, splitting it into tokens, as defined
df50e848SMauro Carvalho Chehab        at ``self.RE_SCANNER_LIST``.
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab        The interactor returns a CToken class object.
df50e848SMauro Carvalho Chehab        """
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab        # Handle continuation lines. Note that kdoc_parser already has a
df50e848SMauro Carvalho Chehab        # logic to do that. Still, let's keep it for completeness, as we might
df50e848SMauro Carvalho Chehab        # end re-using this tokenizer outsize kernel-doc some day - or we may
df50e848SMauro Carvalho Chehab        # eventually remove from there as a future cleanup.
df50e848SMauro Carvalho Chehab        source = RE_CONT.sub("", source)
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab        brace_level = 0
df50e848SMauro Carvalho Chehab        paren_level = 0
df50e848SMauro Carvalho Chehab        bracket_level = 0
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab        for match in RE_SCANNER.finditer(source):
df50e848SMauro Carvalho Chehab            kind = CToken.from_name(match.lastgroup)
df50e848SMauro Carvalho Chehab            pos = match.start()
df50e848SMauro Carvalho Chehab            value = match.group()
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab            if kind == CToken.MISMATCH:
df50e848SMauro Carvalho Chehab                log.error(f"Unexpected token '{value}' on pos {pos}:\n\t'{source}'")
df50e848SMauro Carvalho Chehab            elif kind == CToken.BEGIN:
df50e848SMauro Carvalho Chehab                if value == '(':
df50e848SMauro Carvalho Chehab                    paren_level += 1
df50e848SMauro Carvalho Chehab                elif value == '[':
df50e848SMauro Carvalho Chehab                    bracket_level += 1
df50e848SMauro Carvalho Chehab                else:  # value == '{'
df50e848SMauro Carvalho Chehab                    brace_level += 1
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab            elif kind == CToken.END:
df50e848SMauro Carvalho Chehab                if value == ')' and paren_level > 0:
df50e848SMauro Carvalho Chehab                    paren_level -= 1
df50e848SMauro Carvalho Chehab                elif value == ']' and bracket_level > 0:
df50e848SMauro Carvalho Chehab                    bracket_level -= 1
df50e848SMauro Carvalho Chehab                elif brace_level > 0:    # value == '}'
df50e848SMauro Carvalho Chehab                    brace_level -= 1
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab            yield CToken(kind, value, pos,
df50e848SMauro Carvalho Chehab                         brace_level, paren_level, bracket_level)
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    def __str__(self):
df50e848SMauro Carvalho Chehab        out=""
df50e848SMauro Carvalho Chehab        show_stack = [True]
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab        for i, tok in enumerate(self.tokens):
df50e848SMauro Carvalho Chehab            if tok.kind == CToken.BEGIN:
df50e848SMauro Carvalho Chehab                show_stack.append(show_stack[-1])
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab            elif tok.kind == CToken.END:
df50e848SMauro Carvalho Chehab                prev = show_stack[-1]
df50e848SMauro Carvalho Chehab                if len(show_stack) > 1:
df50e848SMauro Carvalho Chehab                    show_stack.pop()
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab                if not prev and show_stack[-1]:
df50e848SMauro Carvalho Chehab                    #
df50e848SMauro Carvalho Chehab                    # Try to preserve indent
df50e848SMauro Carvalho Chehab                    #
df50e848SMauro Carvalho Chehab                    out += "\t" * (len(show_stack) - 1)
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab                    out += str(tok.value)
df50e848SMauro Carvalho Chehab                    continue
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab            elif tok.kind == CToken.COMMENT:
df50e848SMauro Carvalho Chehab                comment = RE_COMMENT_START.sub("", tok.value)
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab                if comment.startswith("private:"):
df50e848SMauro Carvalho Chehab                    show_stack[-1] = False
df50e848SMauro Carvalho Chehab                    show = False
df50e848SMauro Carvalho Chehab                elif comment.startswith("public:"):
df50e848SMauro Carvalho Chehab                    show_stack[-1] = True
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab                continue
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab            if not show_stack[-1]:
df50e848SMauro Carvalho Chehab                continue
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab            if i < len(self.tokens) - 1:
df50e848SMauro Carvalho Chehab                next_tok = self.tokens[i + 1]
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab                # Do some cleanups before ";"
df50e848SMauro Carvalho Chehab
f1cf9f7cSMauro Carvalho Chehab                if tok.kind == CToken.SPACE and next_tok.kind == CToken.ENDSTMT:
df50e848SMauro Carvalho Chehab                    continue
df50e848SMauro Carvalho Chehab
f1cf9f7cSMauro Carvalho Chehab                if tok.kind == CToken.ENDSTMT and next_tok.kind == tok.kind:
df50e848SMauro Carvalho Chehab                    continue
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab            out += str(tok.value)
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab        return out
f1cf9f7cSMauro Carvalho Chehab
f1cf9f7cSMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehabclass CTokenArgs:
9aaeb817SMauro Carvalho Chehab    """
9aaeb817SMauro Carvalho Chehab    Ancillary class to help using backrefs from sub matches.
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab    If the highest backref contain a "+" at the last element,
9aaeb817SMauro Carvalho Chehab    the logic will be greedy, picking all other delims.
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab    This is needed to parse struct_group macros with end with ``MEMBERS...``.
9aaeb817SMauro Carvalho Chehab    """
9aaeb817SMauro Carvalho Chehab    def __init__(self, sub_str):
9aaeb817SMauro Carvalho Chehab        self.sub_groups = set()
9aaeb817SMauro Carvalho Chehab        self.max_group = -1
9aaeb817SMauro Carvalho Chehab        self.greedy = None
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab        for m in KernRe(r'\\(\d+)([+]?)').finditer(sub_str):
9aaeb817SMauro Carvalho Chehab            group = int(m.group(1))
9aaeb817SMauro Carvalho Chehab            if m.group(2) == "+":
9aaeb817SMauro Carvalho Chehab                if self.greedy and self.greedy != group:
9aaeb817SMauro Carvalho Chehab                    raise ValueError("There are multiple greedy patterns!")
9aaeb817SMauro Carvalho Chehab                self.greedy = group
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab            self.sub_groups.add(group)
9aaeb817SMauro Carvalho Chehab            self.max_group = max(self.max_group, group)
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab        if self.greedy:
9aaeb817SMauro Carvalho Chehab            if self.greedy != self.max_group:
9aaeb817SMauro Carvalho Chehab                raise ValueError("Greedy pattern is not the last one!")
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab            sub_str = KernRe(r'(\\\d+)[+]').sub(r"\1", sub_str)
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab        self.sub_str = sub_str
9aaeb817SMauro Carvalho Chehab        self.sub_tokeninzer = CTokenizer(sub_str)
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab    def groups(self, new_tokenizer):
*8c0b7c0dSMauro Carvalho Chehab        r"""
9aaeb817SMauro Carvalho Chehab        Create replacement arguments for backrefs like:
9aaeb817SMauro Carvalho Chehab
*8c0b7c0dSMauro Carvalho Chehab        ``\0``, ``\1``, ``\2``, ... ``\{number}``
9aaeb817SMauro Carvalho Chehab
*8c0b7c0dSMauro Carvalho Chehab        It also accepts a ``+`` character to the highest backref, like
*8c0b7c0dSMauro Carvalho Chehab        ``\4+``. When used, the backref will be greedy, picking all other
*8c0b7c0dSMauro Carvalho Chehab        arguments afterwards.
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab        The logic is smart enough to only go up to the maximum required
9aaeb817SMauro Carvalho Chehab        argument, even if there are more.
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab        If there is a backref for an argument above the limit, it will
9aaeb817SMauro Carvalho Chehab        raise an exception. Please notice that, on C, square brackets
9aaeb817SMauro Carvalho Chehab        don't have any separator on it. Trying to use ``\1``..``\n`` for
9aaeb817SMauro Carvalho Chehab        brackets also raise an exception.
9aaeb817SMauro Carvalho Chehab        """
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab        level = (0, 0, 0)
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab        if self.max_group < 0:
9aaeb817SMauro Carvalho Chehab            return level, []
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab        tokens = new_tokenizer.tokens
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab        #
9aaeb817SMauro Carvalho Chehab        # Fill \0 with the full token contents
9aaeb817SMauro Carvalho Chehab        #
9aaeb817SMauro Carvalho Chehab        groups_list = [ [] ]
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab        if 0 in self.sub_groups:
9aaeb817SMauro Carvalho Chehab            inner_level = 0
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab            for i in range(0, len(tokens)):
9aaeb817SMauro Carvalho Chehab                tok = tokens[i]
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab                if tok.kind == CToken.BEGIN:
9aaeb817SMauro Carvalho Chehab                    inner_level += 1
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab                    #
9aaeb817SMauro Carvalho Chehab                    # Discard first begin
9aaeb817SMauro Carvalho Chehab                    #
9aaeb817SMauro Carvalho Chehab                    if not groups_list[0]:
9aaeb817SMauro Carvalho Chehab                        continue
9aaeb817SMauro Carvalho Chehab                elif tok.kind == CToken.END:
9aaeb817SMauro Carvalho Chehab                    inner_level -= 1
9aaeb817SMauro Carvalho Chehab                    if inner_level < 0:
9aaeb817SMauro Carvalho Chehab                        break
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab                if inner_level:
9aaeb817SMauro Carvalho Chehab                    groups_list[0].append(tok)
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab        if not self.max_group:
9aaeb817SMauro Carvalho Chehab            return level, groups_list
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab        delim = None
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab        #
9aaeb817SMauro Carvalho Chehab        # Ignore everything before BEGIN. The value of begin gives the
9aaeb817SMauro Carvalho Chehab        # delimiter to be used for the matches
9aaeb817SMauro Carvalho Chehab        #
9aaeb817SMauro Carvalho Chehab        for i in range(0, len(tokens)):
9aaeb817SMauro Carvalho Chehab            tok = tokens[i]
9aaeb817SMauro Carvalho Chehab            if tok.kind == CToken.BEGIN:
9aaeb817SMauro Carvalho Chehab                if tok.value == "{":
9aaeb817SMauro Carvalho Chehab                    delim = ";"
9aaeb817SMauro Carvalho Chehab                elif tok.value == "(":
9aaeb817SMauro Carvalho Chehab                    delim = ","
9aaeb817SMauro Carvalho Chehab                else:
9aaeb817SMauro Carvalho Chehab                    self.log.error(fr"Can't handle \1..\n on {sub_str}")
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab                level = tok.level
9aaeb817SMauro Carvalho Chehab                break
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab        pos = 1
9aaeb817SMauro Carvalho Chehab        groups_list.append([])
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab        inner_level = 0
9aaeb817SMauro Carvalho Chehab        for i in range(i + 1, len(tokens)):
9aaeb817SMauro Carvalho Chehab            tok = tokens[i]
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab            if tok.kind == CToken.BEGIN:
9aaeb817SMauro Carvalho Chehab                inner_level += 1
9aaeb817SMauro Carvalho Chehab            if tok.kind == CToken.END:
9aaeb817SMauro Carvalho Chehab                inner_level -= 1
9aaeb817SMauro Carvalho Chehab                if inner_level < 0:
9aaeb817SMauro Carvalho Chehab                    break
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab            if tok.kind in [CToken.PUNC, CToken.ENDSTMT] and delim == tok.value:
9aaeb817SMauro Carvalho Chehab                pos += 1
9aaeb817SMauro Carvalho Chehab                if self.greedy and pos > self.max_group:
9aaeb817SMauro Carvalho Chehab                    pos -= 1
9aaeb817SMauro Carvalho Chehab                else:
9aaeb817SMauro Carvalho Chehab                    groups_list.append([])
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab                    if pos > self.max_group:
9aaeb817SMauro Carvalho Chehab                        break
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab                    continue
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab            groups_list[pos].append(tok)
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab        if pos < self.max_group:
9aaeb817SMauro Carvalho Chehab            log.error(fr"{self.sub_str} groups are up to {pos} instead of {self.max_group}")
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab        return level, groups_list
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab    def tokens(self, new_tokenizer):
9aaeb817SMauro Carvalho Chehab        level, groups = self.groups(new_tokenizer)
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab        new = CTokenizer()
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab        for tok in self.sub_tokeninzer.tokens:
9aaeb817SMauro Carvalho Chehab            if tok.kind == CToken.BACKREF:
9aaeb817SMauro Carvalho Chehab                group = int(tok.value[1:])
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab                for group_tok in groups[group]:
9aaeb817SMauro Carvalho Chehab                    new_tok = copy(group_tok)
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab                    new_level = [0, 0, 0]
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab                    for i in range(0, len(level)):
9aaeb817SMauro Carvalho Chehab                        new_level[i] = new_tok.level[i] + level[i]
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab                    new_tok.level = tuple(new_level)
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab                    new.tokens += [ new_tok ]
9aaeb817SMauro Carvalho Chehab            else:
9aaeb817SMauro Carvalho Chehab                new.tokens += [ tok ]
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab        return new.tokens
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab
f1cf9f7cSMauro Carvalho Chehabclass CMatch:
f1cf9f7cSMauro Carvalho Chehab    """
f1cf9f7cSMauro Carvalho Chehab    Finding nested delimiters is hard with regular expressions. It is
f1cf9f7cSMauro Carvalho Chehab    even harder on Python with its normal re module, as there are several
f1cf9f7cSMauro Carvalho Chehab    advanced regular expressions that are missing.
f1cf9f7cSMauro Carvalho Chehab
f1cf9f7cSMauro Carvalho Chehab    This is the case of this pattern::
f1cf9f7cSMauro Carvalho Chehab
f1cf9f7cSMauro Carvalho Chehab            '\\bSTRUCT_GROUP(\\(((?:(?>[^)(]+)|(?1))*)\\))[^;]*;'
f1cf9f7cSMauro Carvalho Chehab
f1cf9f7cSMauro Carvalho Chehab    which is used to properly match open/close parentheses of the
f1cf9f7cSMauro Carvalho Chehab    string search STRUCT_GROUP(),
f1cf9f7cSMauro Carvalho Chehab
f1cf9f7cSMauro Carvalho Chehab    Add a class that counts pairs of delimiters, using it to match and
f1cf9f7cSMauro Carvalho Chehab    replace nested expressions.
f1cf9f7cSMauro Carvalho Chehab
f1cf9f7cSMauro Carvalho Chehab    The original approach was suggested by:
f1cf9f7cSMauro Carvalho Chehab
f1cf9f7cSMauro Carvalho Chehab        https://stackoverflow.com/questions/5454322/python-how-to-match-nested-parentheses-with-regex
f1cf9f7cSMauro Carvalho Chehab
f1cf9f7cSMauro Carvalho Chehab    Although I re-implemented it to make it more generic and match 3 types
f1cf9f7cSMauro Carvalho Chehab    of delimiters. The logic checks if delimiters are paired. If not, it
f1cf9f7cSMauro Carvalho Chehab    will ignore the search string.
f1cf9f7cSMauro Carvalho Chehab    """
f1cf9f7cSMauro Carvalho Chehab
f1cf9f7cSMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab    def __init__(self, regex, delim="("):
9aaeb817SMauro Carvalho Chehab        self.regex = KernRe("^" + regex + r"\b")
9aaeb817SMauro Carvalho Chehab        self.start_delim = delim
f1cf9f7cSMauro Carvalho Chehab
f1cf9f7cSMauro Carvalho Chehab    def _search(self, tokenizer):
f1cf9f7cSMauro Carvalho Chehab        """
f1cf9f7cSMauro Carvalho Chehab        Finds paired blocks for a regex that ends with a delimiter.
f1cf9f7cSMauro Carvalho Chehab
f1cf9f7cSMauro Carvalho Chehab        The suggestion of using finditer to match pairs came from:
f1cf9f7cSMauro Carvalho Chehab        https://stackoverflow.com/questions/5454322/python-how-to-match-nested-parentheses-with-regex
f1cf9f7cSMauro Carvalho Chehab        but I ended using a different implementation to align all three types
f1cf9f7cSMauro Carvalho Chehab        of delimiters and seek for an initial regular expression.
f1cf9f7cSMauro Carvalho Chehab
f1cf9f7cSMauro Carvalho Chehab        The algorithm seeks for open/close paired delimiters and places them
f1cf9f7cSMauro Carvalho Chehab        into a stack, yielding a start/stop position of each match when the
f1cf9f7cSMauro Carvalho Chehab        stack is zeroed.
f1cf9f7cSMauro Carvalho Chehab
f1cf9f7cSMauro Carvalho Chehab        The algorithm should work fine for properly paired lines, but will
f1cf9f7cSMauro Carvalho Chehab        silently ignore end delimiters that precede a start delimiter.
f1cf9f7cSMauro Carvalho Chehab        This should be OK for kernel-doc parser, as unaligned delimiters
f1cf9f7cSMauro Carvalho Chehab        would cause compilation errors. So, we don't need to raise exceptions
f1cf9f7cSMauro Carvalho Chehab        to cover such issues.
f1cf9f7cSMauro Carvalho Chehab        """
f1cf9f7cSMauro Carvalho Chehab
f1cf9f7cSMauro Carvalho Chehab        start = None
f1cf9f7cSMauro Carvalho Chehab        started = False
f1cf9f7cSMauro Carvalho Chehab
f1cf9f7cSMauro Carvalho Chehab        import sys
f1cf9f7cSMauro Carvalho Chehab
f1cf9f7cSMauro Carvalho Chehab        stack = []
f1cf9f7cSMauro Carvalho Chehab
f1cf9f7cSMauro Carvalho Chehab        for i, tok in enumerate(tokenizer.tokens):
f1cf9f7cSMauro Carvalho Chehab            if start is None:
f1cf9f7cSMauro Carvalho Chehab                if tok.kind == CToken.NAME and self.regex.match(tok.value):
f1cf9f7cSMauro Carvalho Chehab                    start = i
f1cf9f7cSMauro Carvalho Chehab                    stack.append((start, tok.level))
f1cf9f7cSMauro Carvalho Chehab                    started = False
f1cf9f7cSMauro Carvalho Chehab
f1cf9f7cSMauro Carvalho Chehab                continue
f1cf9f7cSMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab            if not started:
9aaeb817SMauro Carvalho Chehab                if tok.kind == CToken.SPACE:
9aaeb817SMauro Carvalho Chehab                    continue
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab                if tok.kind == CToken.BEGIN and tok.value == self.start_delim:
f1cf9f7cSMauro Carvalho Chehab                    started = True
f1cf9f7cSMauro Carvalho Chehab                    continue
f1cf9f7cSMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab                # Name only token without BEGIN/END
9aaeb817SMauro Carvalho Chehab                if i > start:
9aaeb817SMauro Carvalho Chehab                    i -= 1
9aaeb817SMauro Carvalho Chehab                yield start, i
9aaeb817SMauro Carvalho Chehab                start = None
9aaeb817SMauro Carvalho Chehab
f1cf9f7cSMauro Carvalho Chehab            if tok.kind == CToken.END and tok.level == stack[-1][1]:
f1cf9f7cSMauro Carvalho Chehab                start, level = stack.pop()
f1cf9f7cSMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab                yield start, i
f1cf9f7cSMauro Carvalho Chehab                start = None
f1cf9f7cSMauro Carvalho Chehab
f1cf9f7cSMauro Carvalho Chehab        #
f1cf9f7cSMauro Carvalho Chehab        # If an END zeroing levels is not there, return remaining stuff
f1cf9f7cSMauro Carvalho Chehab        # This is meant to solve cases where the caller logic might be
f1cf9f7cSMauro Carvalho Chehab        # picking an incomplete block.
f1cf9f7cSMauro Carvalho Chehab        #
9aaeb817SMauro Carvalho Chehab        if start and stack:
9aaeb817SMauro Carvalho Chehab            if started:
9aaeb817SMauro Carvalho Chehab                s = str(tokenizer)
9aaeb817SMauro Carvalho Chehab                log.warning(f"can't find a final end at {s}")
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab            yield start, len(tokenizer.tokens)
f1cf9f7cSMauro Carvalho Chehab
f1cf9f7cSMauro Carvalho Chehab    def search(self, source):
f1cf9f7cSMauro Carvalho Chehab        """
f1cf9f7cSMauro Carvalho Chehab        This is similar to re.search:
f1cf9f7cSMauro Carvalho Chehab
f1cf9f7cSMauro Carvalho Chehab        It matches a regex that it is followed by a delimiter,
f1cf9f7cSMauro Carvalho Chehab        returning occurrences only if all delimiters are paired.
f1cf9f7cSMauro Carvalho Chehab        """
f1cf9f7cSMauro Carvalho Chehab
f1cf9f7cSMauro Carvalho Chehab        if isinstance(source, CTokenizer):
f1cf9f7cSMauro Carvalho Chehab            tokenizer = source
f1cf9f7cSMauro Carvalho Chehab            is_token = True
f1cf9f7cSMauro Carvalho Chehab        else:
f1cf9f7cSMauro Carvalho Chehab            tokenizer = CTokenizer(source)
f1cf9f7cSMauro Carvalho Chehab            is_token = False
f1cf9f7cSMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab        for start, end in self._search(tokenizer):
9aaeb817SMauro Carvalho Chehab            new_tokenizer = CTokenizer(tokenizer.tokens[start:end + 1])
9aaeb817SMauro Carvalho Chehab
f1cf9f7cSMauro Carvalho Chehab            if is_token:
f1cf9f7cSMauro Carvalho Chehab                yield new_tokenizer
f1cf9f7cSMauro Carvalho Chehab            else:
f1cf9f7cSMauro Carvalho Chehab                yield str(new_tokenizer)
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab    def sub(self, sub_str, source, count=0):
9aaeb817SMauro Carvalho Chehab        """
9aaeb817SMauro Carvalho Chehab        This is similar to re.sub:
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab        It matches a regex that it is followed by a delimiter,
9aaeb817SMauro Carvalho Chehab        replacing occurrences only if all delimiters are paired.
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab        if the sub argument contains::
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab            r'\0'
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab        it will work just like re: it places there the matched paired data
9aaeb817SMauro Carvalho Chehab        with the delimiter stripped.
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab        If count is different than zero, it will replace at most count
9aaeb817SMauro Carvalho Chehab        items.
9aaeb817SMauro Carvalho Chehab        """
9aaeb817SMauro Carvalho Chehab        if isinstance(source, CTokenizer):
9aaeb817SMauro Carvalho Chehab            is_token = True
9aaeb817SMauro Carvalho Chehab            tokenizer = source
9aaeb817SMauro Carvalho Chehab        else:
9aaeb817SMauro Carvalho Chehab            is_token = False
9aaeb817SMauro Carvalho Chehab            tokenizer = CTokenizer(source)
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab        # Detect if sub_str contains sub arguments
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab        args_match = CTokenArgs(sub_str)
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab        new_tokenizer = CTokenizer()
9aaeb817SMauro Carvalho Chehab        pos = 0
9aaeb817SMauro Carvalho Chehab        n = 0
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab        #
9aaeb817SMauro Carvalho Chehab        # NOTE: the code below doesn't consider overlays at sub.
9aaeb817SMauro Carvalho Chehab        # We may need to add some extra unit tests to check if those
9aaeb817SMauro Carvalho Chehab        # would cause problems. When replacing by "", this should not
9aaeb817SMauro Carvalho Chehab        # be a problem, but other transformations could be problematic
9aaeb817SMauro Carvalho Chehab        #
9aaeb817SMauro Carvalho Chehab        for start, end in self._search(tokenizer):
9aaeb817SMauro Carvalho Chehab            new_tokenizer.tokens += tokenizer.tokens[pos:start]
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab            new = CTokenizer(tokenizer.tokens[start:end + 1])
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab            new_tokenizer.tokens += args_match.tokens(new)
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab            pos = end + 1
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab            n += 1
9aaeb817SMauro Carvalho Chehab            if count and n >= count:
9aaeb817SMauro Carvalho Chehab                break
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab        new_tokenizer.tokens += tokenizer.tokens[pos:]
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab        if not is_token:
9aaeb817SMauro Carvalho Chehab            return str(new_tokenizer)
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab        return new_tokenizer
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab    def __repr__(self):
9aaeb817SMauro Carvalho Chehab        """
9aaeb817SMauro Carvalho Chehab        Returns a displayable version of the class init.
9aaeb817SMauro Carvalho Chehab        """
9aaeb817SMauro Carvalho Chehab
9aaeb817SMauro Carvalho Chehab        return f'CMatch("{self.regex.regex.pattern}")'