python/kdoc/c_lex.py

*df50e848SMauro Carvalho Chehab#!/usr/bin/env python3
*df50e848SMauro Carvalho Chehab# SPDX-License-Identifier: GPL-2.0
*df50e848SMauro Carvalho Chehab# Copyright(c) 2025: Mauro Carvalho Chehab <mchehab@kernel.org>.
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab"""
*df50e848SMauro Carvalho ChehabRegular expression ancillary classes.
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho ChehabThose help caching regular expressions and do matching for kernel-doc.
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho ChehabPlease notice that the code here may rise exceptions to indicate bad
*df50e848SMauro Carvalho Chehabusage inside kdoc to indicate problems at the replace pattern.
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho ChehabOther errors are logged via log instance.
*df50e848SMauro Carvalho Chehab"""
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehabimport logging
*df50e848SMauro Carvalho Chehabimport re
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehabfrom .kdoc_re import KernRe
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehablog = logging.getLogger(__name__)
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehabclass CToken():
*df50e848SMauro Carvalho Chehab    """
*df50e848SMauro Carvalho Chehab    Data class to define a C token.
*df50e848SMauro Carvalho Chehab    """
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab    # Tokens that can be used by the parser. Works like an C enum.
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab    COMMENT = 0     #: A standard C or C99 comment, including delimiter.
*df50e848SMauro Carvalho Chehab    STRING = 1      #: A string, including quotation marks.
*df50e848SMauro Carvalho Chehab    CHAR = 2        #: A character, including apostophes.
*df50e848SMauro Carvalho Chehab    NUMBER = 3      #: A number.
*df50e848SMauro Carvalho Chehab    PUNC = 4        #: A puntuation mark: / ``,`` / ``.``.
*df50e848SMauro Carvalho Chehab    BEGIN = 5       #: A begin character: ``{`` / ``[`` / ``(``.
*df50e848SMauro Carvalho Chehab    END = 6         #: A end character: ``}`` / ``]`` / ``)``.
*df50e848SMauro Carvalho Chehab    CPP = 7         #: A preprocessor macro.
*df50e848SMauro Carvalho Chehab    HASH = 8        #: The hash character - useful to handle other macros.
*df50e848SMauro Carvalho Chehab    OP = 9          #: A C operator (add, subtract, ...).
*df50e848SMauro Carvalho Chehab    STRUCT = 10     #: A ``struct`` keyword.
*df50e848SMauro Carvalho Chehab    UNION = 11      #: An ``union`` keyword.
*df50e848SMauro Carvalho Chehab    ENUM = 12       #: A ``struct`` keyword.
*df50e848SMauro Carvalho Chehab    TYPEDEF = 13    #: A ``typedef`` keyword.
*df50e848SMauro Carvalho Chehab    NAME = 14       #: A name. Can be an ID or a type.
*df50e848SMauro Carvalho Chehab    SPACE = 15      #: Any space characters, including new lines
*df50e848SMauro Carvalho Chehab    ENDSTMT = 16    #: End of an statement (``;``).
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab    BACKREF = 17    #: Not a valid C sequence, but used at sub regex patterns.
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab    MISMATCH = 255  #: an error indicator: should never happen in practice.
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab    # Dict to convert from an enum interger into a string.
*df50e848SMauro Carvalho Chehab    _name_by_val = {v: k for k, v in dict(vars()).items() if isinstance(v, int)}
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab    # Dict to convert from string to an enum-like integer value.
*df50e848SMauro Carvalho Chehab    _name_to_val = {k: v for v, k in _name_by_val.items()}
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab    @staticmethod
*df50e848SMauro Carvalho Chehab    def to_name(val):
*df50e848SMauro Carvalho Chehab        """Convert from an integer value from CToken enum into a string"""
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab        return CToken._name_by_val.get(val, f"UNKNOWN({val})")
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab    @staticmethod
*df50e848SMauro Carvalho Chehab    def from_name(name):
*df50e848SMauro Carvalho Chehab        """Convert a string into a CToken enum value"""
*df50e848SMauro Carvalho Chehab        if name in CToken._name_to_val:
*df50e848SMauro Carvalho Chehab            return CToken._name_to_val[name]
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab        return CToken.MISMATCH
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab    def __init__(self, kind, value=None, pos=0,
*df50e848SMauro Carvalho Chehab                 brace_level=0, paren_level=0, bracket_level=0):
*df50e848SMauro Carvalho Chehab        self.kind = kind
*df50e848SMauro Carvalho Chehab        self.value = value
*df50e848SMauro Carvalho Chehab        self.pos = pos
*df50e848SMauro Carvalho Chehab        self.level = (bracket_level, paren_level, brace_level)
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab    def __repr__(self):
*df50e848SMauro Carvalho Chehab        name = self.to_name(self.kind)
*df50e848SMauro Carvalho Chehab        if isinstance(self.value, str):
*df50e848SMauro Carvalho Chehab            value = '"' + self.value + '"'
*df50e848SMauro Carvalho Chehab        else:
*df50e848SMauro Carvalho Chehab            value = self.value
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab        return f"CToken(CToken.{name}, {value}, {self.pos}, {self.level})"
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab#: Regexes to parse C code, transforming it into tokens.
*df50e848SMauro Carvalho ChehabRE_SCANNER_LIST = [
*df50e848SMauro Carvalho Chehab    #
*df50e848SMauro Carvalho Chehab    # Note that \s\S is different than .*, as it also catches \n
*df50e848SMauro Carvalho Chehab    #
*df50e848SMauro Carvalho Chehab    (CToken.COMMENT, r"//[^\n]*|/\*[\s\S]*?\*/"),
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab    (CToken.STRING,  r'"(?:\\.|[^"\\])*"'),
*df50e848SMauro Carvalho Chehab    (CToken.CHAR,    r"'(?:\\.|[^'\\])'"),
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab    (CToken.NUMBER,  r"0[xX][\da-fA-F]+[uUlL]*|0[0-7]+[uUlL]*|"
*df50e848SMauro Carvalho Chehab                     r"\d+(?:\.\d*)?(?:[eE][+-]?\d+)?[fFlL]*"),
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab    (CToken.ENDSTMT, r"(?:\s+;|;)"),
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab    (CToken.PUNC,    r"[,\.]"),
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab    (CToken.BEGIN,   r"[\[\(\{]"),
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab    (CToken.END,     r"[\]\)\}]"),
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab    (CToken.CPP,     r"#\s*(?:define|include|ifdef|ifndef|if|else|elif|endif|undef|pragma)\b"),
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab    (CToken.HASH,    r"#"),
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab    (CToken.OP,      r"\+\+|\-\-|\->|==|\!=|<=|>=|&&|\|\||<<|>>|\+=|\-=|\*=|/=|%="
*df50e848SMauro Carvalho Chehab                     r"|&=|\|=|\^=|[=\+\-\*/%<>&\|\^~!\?\:]"),
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab    (CToken.STRUCT,  r"\bstruct\b"),
*df50e848SMauro Carvalho Chehab    (CToken.UNION,   r"\bunion\b"),
*df50e848SMauro Carvalho Chehab    (CToken.ENUM,    r"\benum\b"),
*df50e848SMauro Carvalho Chehab    (CToken.TYPEDEF, r"\btypedef\b"),
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab    (CToken.NAME,    r"[A-Za-z_]\w*"),
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab    (CToken.SPACE,   r"\s+"),
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab    (CToken.BACKREF, r"\\\d+"),
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab    (CToken.MISMATCH,r"."),
*df50e848SMauro Carvalho Chehab]
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehabdef fill_re_scanner(token_list):
*df50e848SMauro Carvalho Chehab    """Ancillary routine to convert RE_SCANNER_LIST into a finditer regex"""
*df50e848SMauro Carvalho Chehab    re_tokens = []
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab    for kind, pattern in token_list:
*df50e848SMauro Carvalho Chehab        name = CToken.to_name(kind)
*df50e848SMauro Carvalho Chehab        re_tokens.append(f"(?P<{name}>{pattern})")
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab    return KernRe("|".join(re_tokens), re.MULTILINE | re.DOTALL)
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab#: Handle C continuation lines.
*df50e848SMauro Carvalho ChehabRE_CONT = KernRe(r"\\\n")
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho ChehabRE_COMMENT_START = KernRe(r'/\*\s*')
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab#: tokenizer regex. Will be filled at the first CTokenizer usage.
*df50e848SMauro Carvalho ChehabRE_SCANNER = fill_re_scanner(RE_SCANNER_LIST)
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehabclass CTokenizer():
*df50e848SMauro Carvalho Chehab    """
*df50e848SMauro Carvalho Chehab    Scan C statements and definitions and produce tokens.
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab    When converted to string, it drops comments and handle public/private
*df50e848SMauro Carvalho Chehab    values, respecting depth.
*df50e848SMauro Carvalho Chehab    """
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab    # This class is inspired and follows the basic concepts of:
*df50e848SMauro Carvalho Chehab    #   https://docs.python.org/3/library/re.html#writing-a-tokenizer
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab    def __init__(self, source=None, log=None):
*df50e848SMauro Carvalho Chehab        """
*df50e848SMauro Carvalho Chehab        Create a regular expression to handle RE_SCANNER_LIST.
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab        While I generally don't like using regex group naming via:
*df50e848SMauro Carvalho Chehab            (?P<name>...)
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab        in this particular case, it makes sense, as we can pick the name
*df50e848SMauro Carvalho Chehab        when matching a code via RE_SCANNER.
*df50e848SMauro Carvalho Chehab        """
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab        self.tokens = []
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab        if not source:
*df50e848SMauro Carvalho Chehab            return
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab        if isinstance(source, list):
*df50e848SMauro Carvalho Chehab            self.tokens = source
*df50e848SMauro Carvalho Chehab            return
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab        #
*df50e848SMauro Carvalho Chehab        # While we could just use _tokenize directly via interator,
*df50e848SMauro Carvalho Chehab        # As we'll need to use the tokenizer several times inside kernel-doc
*df50e848SMauro Carvalho Chehab        # to handle macro transforms, cache the results on a list, as
*df50e848SMauro Carvalho Chehab        # re-using it is cheaper than having to parse everytime.
*df50e848SMauro Carvalho Chehab        #
*df50e848SMauro Carvalho Chehab        for tok in self._tokenize(source):
*df50e848SMauro Carvalho Chehab            self.tokens.append(tok)
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab    def _tokenize(self, source):
*df50e848SMauro Carvalho Chehab        """
*df50e848SMauro Carvalho Chehab        Iterator that parses ``source``, splitting it into tokens, as defined
*df50e848SMauro Carvalho Chehab        at ``self.RE_SCANNER_LIST``.
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab        The interactor returns a CToken class object.
*df50e848SMauro Carvalho Chehab        """
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab        # Handle continuation lines. Note that kdoc_parser already has a
*df50e848SMauro Carvalho Chehab        # logic to do that. Still, let's keep it for completeness, as we might
*df50e848SMauro Carvalho Chehab        # end re-using this tokenizer outsize kernel-doc some day - or we may
*df50e848SMauro Carvalho Chehab        # eventually remove from there as a future cleanup.
*df50e848SMauro Carvalho Chehab        source = RE_CONT.sub("", source)
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab        brace_level = 0
*df50e848SMauro Carvalho Chehab        paren_level = 0
*df50e848SMauro Carvalho Chehab        bracket_level = 0
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab        for match in RE_SCANNER.finditer(source):
*df50e848SMauro Carvalho Chehab            kind = CToken.from_name(match.lastgroup)
*df50e848SMauro Carvalho Chehab            pos = match.start()
*df50e848SMauro Carvalho Chehab            value = match.group()
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab            if kind == CToken.MISMATCH:
*df50e848SMauro Carvalho Chehab                log.error(f"Unexpected token '{value}' on pos {pos}:\n\t'{source}'")
*df50e848SMauro Carvalho Chehab            elif kind == CToken.BEGIN:
*df50e848SMauro Carvalho Chehab                if value == '(':
*df50e848SMauro Carvalho Chehab                    paren_level += 1
*df50e848SMauro Carvalho Chehab                elif value == '[':
*df50e848SMauro Carvalho Chehab                    bracket_level += 1
*df50e848SMauro Carvalho Chehab                else:  # value == '{'
*df50e848SMauro Carvalho Chehab                    brace_level += 1
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab            elif kind == CToken.END:
*df50e848SMauro Carvalho Chehab                if value == ')' and paren_level > 0:
*df50e848SMauro Carvalho Chehab                    paren_level -= 1
*df50e848SMauro Carvalho Chehab                elif value == ']' and bracket_level > 0:
*df50e848SMauro Carvalho Chehab                    bracket_level -= 1
*df50e848SMauro Carvalho Chehab                elif brace_level > 0:    # value == '}'
*df50e848SMauro Carvalho Chehab                    brace_level -= 1
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab            yield CToken(kind, value, pos,
*df50e848SMauro Carvalho Chehab                         brace_level, paren_level, bracket_level)
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab    def __str__(self):
*df50e848SMauro Carvalho Chehab        out=""
*df50e848SMauro Carvalho Chehab        show_stack = [True]
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab        for i, tok in enumerate(self.tokens):
*df50e848SMauro Carvalho Chehab            if tok.kind == CToken.BEGIN:
*df50e848SMauro Carvalho Chehab                show_stack.append(show_stack[-1])
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab            elif tok.kind == CToken.END:
*df50e848SMauro Carvalho Chehab                prev = show_stack[-1]
*df50e848SMauro Carvalho Chehab                if len(show_stack) > 1:
*df50e848SMauro Carvalho Chehab                    show_stack.pop()
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab                if not prev and show_stack[-1]:
*df50e848SMauro Carvalho Chehab                    #
*df50e848SMauro Carvalho Chehab                    # Try to preserve indent
*df50e848SMauro Carvalho Chehab                    #
*df50e848SMauro Carvalho Chehab                    out += "\t" * (len(show_stack) - 1)
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab                    out += str(tok.value)
*df50e848SMauro Carvalho Chehab                    continue
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab            elif tok.kind == CToken.COMMENT:
*df50e848SMauro Carvalho Chehab                comment = RE_COMMENT_START.sub("", tok.value)
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab                if comment.startswith("private:"):
*df50e848SMauro Carvalho Chehab                    show_stack[-1] = False
*df50e848SMauro Carvalho Chehab                    show = False
*df50e848SMauro Carvalho Chehab                elif comment.startswith("public:"):
*df50e848SMauro Carvalho Chehab                    show_stack[-1] = True
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab                continue
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab            if not show_stack[-1]:
*df50e848SMauro Carvalho Chehab                continue
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab            if i < len(self.tokens) - 1:
*df50e848SMauro Carvalho Chehab                next_tok = self.tokens[i + 1]
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab                # Do some cleanups before ";"
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab                if (tok.kind == CToken.SPACE and
*df50e848SMauro Carvalho Chehab                    next_tok.kind == CToken.PUNC and
*df50e848SMauro Carvalho Chehab                    next_tok.value == ";"):
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab                    continue
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab                if (tok.kind == CToken.PUNC and
*df50e848SMauro Carvalho Chehab                    next_tok.kind == CToken.PUNC and
*df50e848SMauro Carvalho Chehab                    tok.value == ";" and
*df50e848SMauro Carvalho Chehab                    next_tok.kind == CToken.PUNC and
*df50e848SMauro Carvalho Chehab                    next_tok.value == ";"):
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab                    continue
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab            out += str(tok.value)
*df50e848SMauro Carvalho Chehab
*df50e848SMauro Carvalho Chehab        return out