python/kdoc/c_lex.py

df50e848SMauro Carvalho Chehab#!/usr/bin/env python3
df50e848SMauro Carvalho Chehab# SPDX-License-Identifier: GPL-2.0
df50e848SMauro Carvalho Chehab# Copyright(c) 2025: Mauro Carvalho Chehab <mchehab@kernel.org>.
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab"""
df50e848SMauro Carvalho ChehabRegular expression ancillary classes.
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho ChehabThose help caching regular expressions and do matching for kernel-doc.
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho ChehabPlease notice that the code here may rise exceptions to indicate bad
df50e848SMauro Carvalho Chehabusage inside kdoc to indicate problems at the replace pattern.
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho ChehabOther errors are logged via log instance.
df50e848SMauro Carvalho Chehab"""
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehabimport logging
df50e848SMauro Carvalho Chehabimport re
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehabfrom .kdoc_re import KernRe
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehablog = logging.getLogger(__name__)
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehabclass CToken():
df50e848SMauro Carvalho Chehab    """
df50e848SMauro Carvalho Chehab    Data class to define a C token.
df50e848SMauro Carvalho Chehab    """
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    # Tokens that can be used by the parser. Works like an C enum.
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    COMMENT = 0     #: A standard C or C99 comment, including delimiter.
df50e848SMauro Carvalho Chehab    STRING = 1      #: A string, including quotation marks.
df50e848SMauro Carvalho Chehab    CHAR = 2        #: A character, including apostophes.
df50e848SMauro Carvalho Chehab    NUMBER = 3      #: A number.
df50e848SMauro Carvalho Chehab    PUNC = 4        #: A puntuation mark: / ``,`` / ``.``.
df50e848SMauro Carvalho Chehab    BEGIN = 5       #: A begin character: ``{`` / ``[`` / ``(``.
df50e848SMauro Carvalho Chehab    END = 6         #: A end character: ``}`` / ``]`` / ``)``.
df50e848SMauro Carvalho Chehab    CPP = 7         #: A preprocessor macro.
df50e848SMauro Carvalho Chehab    HASH = 8        #: The hash character - useful to handle other macros.
df50e848SMauro Carvalho Chehab    OP = 9          #: A C operator (add, subtract, ...).
df50e848SMauro Carvalho Chehab    STRUCT = 10     #: A ``struct`` keyword.
df50e848SMauro Carvalho Chehab    UNION = 11      #: An ``union`` keyword.
df50e848SMauro Carvalho Chehab    ENUM = 12       #: A ``struct`` keyword.
df50e848SMauro Carvalho Chehab    TYPEDEF = 13    #: A ``typedef`` keyword.
df50e848SMauro Carvalho Chehab    NAME = 14       #: A name. Can be an ID or a type.
df50e848SMauro Carvalho Chehab    SPACE = 15      #: Any space characters, including new lines
df50e848SMauro Carvalho Chehab    ENDSTMT = 16    #: End of an statement (``;``).
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    BACKREF = 17    #: Not a valid C sequence, but used at sub regex patterns.
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    MISMATCH = 255  #: an error indicator: should never happen in practice.
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    # Dict to convert from an enum interger into a string.
df50e848SMauro Carvalho Chehab    _name_by_val = {v: k for k, v in dict(vars()).items() if isinstance(v, int)}
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    # Dict to convert from string to an enum-like integer value.
df50e848SMauro Carvalho Chehab    _name_to_val = {k: v for v, k in _name_by_val.items()}
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    @staticmethod
df50e848SMauro Carvalho Chehab    def to_name(val):
df50e848SMauro Carvalho Chehab        """Convert from an integer value from CToken enum into a string"""
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab        return CToken._name_by_val.get(val, f"UNKNOWN({val})")
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    @staticmethod
df50e848SMauro Carvalho Chehab    def from_name(name):
df50e848SMauro Carvalho Chehab        """Convert a string into a CToken enum value"""
df50e848SMauro Carvalho Chehab        if name in CToken._name_to_val:
df50e848SMauro Carvalho Chehab            return CToken._name_to_val[name]
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab        return CToken.MISMATCH
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    def __init__(self, kind, value=None, pos=0,
df50e848SMauro Carvalho Chehab                 brace_level=0, paren_level=0, bracket_level=0):
df50e848SMauro Carvalho Chehab        self.kind = kind
df50e848SMauro Carvalho Chehab        self.value = value
df50e848SMauro Carvalho Chehab        self.pos = pos
df50e848SMauro Carvalho Chehab        self.level = (bracket_level, paren_level, brace_level)
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    def __repr__(self):
df50e848SMauro Carvalho Chehab        name = self.to_name(self.kind)
df50e848SMauro Carvalho Chehab        if isinstance(self.value, str):
df50e848SMauro Carvalho Chehab            value = '"' + self.value + '"'
df50e848SMauro Carvalho Chehab        else:
df50e848SMauro Carvalho Chehab            value = self.value
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab        return f"CToken(CToken.{name}, {value}, {self.pos}, {self.level})"
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab#: Regexes to parse C code, transforming it into tokens.
df50e848SMauro Carvalho ChehabRE_SCANNER_LIST = [
df50e848SMauro Carvalho Chehab    #
df50e848SMauro Carvalho Chehab    # Note that \s\S is different than .*, as it also catches \n
df50e848SMauro Carvalho Chehab    #
df50e848SMauro Carvalho Chehab    (CToken.COMMENT, r"//[^\n]*|/\*[\s\S]*?\*/"),
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    (CToken.STRING,  r'"(?:\\.|[^"\\])*"'),
df50e848SMauro Carvalho Chehab    (CToken.CHAR,    r"'(?:\\.|[^'\\])'"),
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    (CToken.NUMBER,  r"0[xX][\da-fA-F]+[uUlL]*|0[0-7]+[uUlL]*|"
df50e848SMauro Carvalho Chehab                     r"\d+(?:\.\d*)?(?:[eE][+-]?\d+)?[fFlL]*"),
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    (CToken.ENDSTMT, r"(?:\s+;|;)"),
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    (CToken.PUNC,    r"[,\.]"),
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    (CToken.BEGIN,   r"[\[\(\{]"),
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    (CToken.END,     r"[\]\)\}]"),
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    (CToken.CPP,     r"#\s*(?:define|include|ifdef|ifndef|if|else|elif|endif|undef|pragma)\b"),
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    (CToken.HASH,    r"#"),
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    (CToken.OP,      r"\+\+|\-\-|\->|==|\!=|<=|>=|&&|\|\||<<|>>|\+=|\-=|\*=|/=|%="
df50e848SMauro Carvalho Chehab                     r"|&=|\|=|\^=|[=\+\-\*/%<>&\|\^~!\?\:]"),
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    (CToken.STRUCT,  r"\bstruct\b"),
df50e848SMauro Carvalho Chehab    (CToken.UNION,   r"\bunion\b"),
df50e848SMauro Carvalho Chehab    (CToken.ENUM,    r"\benum\b"),
df50e848SMauro Carvalho Chehab    (CToken.TYPEDEF, r"\btypedef\b"),
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    (CToken.NAME,    r"[A-Za-z_]\w*"),
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    (CToken.SPACE,   r"\s+"),
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    (CToken.BACKREF, r"\\\d+"),
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    (CToken.MISMATCH,r"."),
df50e848SMauro Carvalho Chehab]
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehabdef fill_re_scanner(token_list):
df50e848SMauro Carvalho Chehab    """Ancillary routine to convert RE_SCANNER_LIST into a finditer regex"""
df50e848SMauro Carvalho Chehab    re_tokens = []
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    for kind, pattern in token_list:
df50e848SMauro Carvalho Chehab        name = CToken.to_name(kind)
df50e848SMauro Carvalho Chehab        re_tokens.append(f"(?P<{name}>{pattern})")
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    return KernRe("|".join(re_tokens), re.MULTILINE | re.DOTALL)
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab#: Handle C continuation lines.
df50e848SMauro Carvalho ChehabRE_CONT = KernRe(r"\\\n")
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho ChehabRE_COMMENT_START = KernRe(r'/\*\s*')
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab#: tokenizer regex. Will be filled at the first CTokenizer usage.
df50e848SMauro Carvalho ChehabRE_SCANNER = fill_re_scanner(RE_SCANNER_LIST)
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehabclass CTokenizer():
df50e848SMauro Carvalho Chehab    """
df50e848SMauro Carvalho Chehab    Scan C statements and definitions and produce tokens.
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    When converted to string, it drops comments and handle public/private
df50e848SMauro Carvalho Chehab    values, respecting depth.
df50e848SMauro Carvalho Chehab    """
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    # This class is inspired and follows the basic concepts of:
df50e848SMauro Carvalho Chehab    #   https://docs.python.org/3/library/re.html#writing-a-tokenizer
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    def __init__(self, source=None, log=None):
df50e848SMauro Carvalho Chehab        """
df50e848SMauro Carvalho Chehab        Create a regular expression to handle RE_SCANNER_LIST.
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab        While I generally don't like using regex group naming via:
df50e848SMauro Carvalho Chehab            (?P<name>...)
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab        in this particular case, it makes sense, as we can pick the name
df50e848SMauro Carvalho Chehab        when matching a code via RE_SCANNER.
df50e848SMauro Carvalho Chehab        """
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab        self.tokens = []
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab        if not source:
df50e848SMauro Carvalho Chehab            return
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab        if isinstance(source, list):
df50e848SMauro Carvalho Chehab            self.tokens = source
df50e848SMauro Carvalho Chehab            return
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab        #
df50e848SMauro Carvalho Chehab        # While we could just use _tokenize directly via interator,
df50e848SMauro Carvalho Chehab        # As we'll need to use the tokenizer several times inside kernel-doc
df50e848SMauro Carvalho Chehab        # to handle macro transforms, cache the results on a list, as
df50e848SMauro Carvalho Chehab        # re-using it is cheaper than having to parse everytime.
df50e848SMauro Carvalho Chehab        #
df50e848SMauro Carvalho Chehab        for tok in self._tokenize(source):
df50e848SMauro Carvalho Chehab            self.tokens.append(tok)
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    def _tokenize(self, source):
df50e848SMauro Carvalho Chehab        """
df50e848SMauro Carvalho Chehab        Iterator that parses ``source``, splitting it into tokens, as defined
df50e848SMauro Carvalho Chehab        at ``self.RE_SCANNER_LIST``.
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab        The interactor returns a CToken class object.
df50e848SMauro Carvalho Chehab        """
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab        # Handle continuation lines. Note that kdoc_parser already has a
df50e848SMauro Carvalho Chehab        # logic to do that. Still, let's keep it for completeness, as we might
df50e848SMauro Carvalho Chehab        # end re-using this tokenizer outsize kernel-doc some day - or we may
df50e848SMauro Carvalho Chehab        # eventually remove from there as a future cleanup.
df50e848SMauro Carvalho Chehab        source = RE_CONT.sub("", source)
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab        brace_level = 0
df50e848SMauro Carvalho Chehab        paren_level = 0
df50e848SMauro Carvalho Chehab        bracket_level = 0
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab        for match in RE_SCANNER.finditer(source):
df50e848SMauro Carvalho Chehab            kind = CToken.from_name(match.lastgroup)
df50e848SMauro Carvalho Chehab            pos = match.start()
df50e848SMauro Carvalho Chehab            value = match.group()
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab            if kind == CToken.MISMATCH:
df50e848SMauro Carvalho Chehab                log.error(f"Unexpected token '{value}' on pos {pos}:\n\t'{source}'")
df50e848SMauro Carvalho Chehab            elif kind == CToken.BEGIN:
df50e848SMauro Carvalho Chehab                if value == '(':
df50e848SMauro Carvalho Chehab                    paren_level += 1
df50e848SMauro Carvalho Chehab                elif value == '[':
df50e848SMauro Carvalho Chehab                    bracket_level += 1
df50e848SMauro Carvalho Chehab                else:  # value == '{'
df50e848SMauro Carvalho Chehab                    brace_level += 1
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab            elif kind == CToken.END:
df50e848SMauro Carvalho Chehab                if value == ')' and paren_level > 0:
df50e848SMauro Carvalho Chehab                    paren_level -= 1
df50e848SMauro Carvalho Chehab                elif value == ']' and bracket_level > 0:
df50e848SMauro Carvalho Chehab                    bracket_level -= 1
df50e848SMauro Carvalho Chehab                elif brace_level > 0:    # value == '}'
df50e848SMauro Carvalho Chehab                    brace_level -= 1
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab            yield CToken(kind, value, pos,
df50e848SMauro Carvalho Chehab                         brace_level, paren_level, bracket_level)
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab    def __str__(self):
df50e848SMauro Carvalho Chehab        out=""
df50e848SMauro Carvalho Chehab        show_stack = [True]
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab        for i, tok in enumerate(self.tokens):
df50e848SMauro Carvalho Chehab            if tok.kind == CToken.BEGIN:
df50e848SMauro Carvalho Chehab                show_stack.append(show_stack[-1])
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab            elif tok.kind == CToken.END:
df50e848SMauro Carvalho Chehab                prev = show_stack[-1]
df50e848SMauro Carvalho Chehab                if len(show_stack) > 1:
df50e848SMauro Carvalho Chehab                    show_stack.pop()
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab                if not prev and show_stack[-1]:
df50e848SMauro Carvalho Chehab                    #
df50e848SMauro Carvalho Chehab                    # Try to preserve indent
df50e848SMauro Carvalho Chehab                    #
df50e848SMauro Carvalho Chehab                    out += "\t" * (len(show_stack) - 1)
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab                    out += str(tok.value)
df50e848SMauro Carvalho Chehab                    continue
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab            elif tok.kind == CToken.COMMENT:
df50e848SMauro Carvalho Chehab                comment = RE_COMMENT_START.sub("", tok.value)
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab                if comment.startswith("private:"):
df50e848SMauro Carvalho Chehab                    show_stack[-1] = False
df50e848SMauro Carvalho Chehab                    show = False
df50e848SMauro Carvalho Chehab                elif comment.startswith("public:"):
df50e848SMauro Carvalho Chehab                    show_stack[-1] = True
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab                continue
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab            if not show_stack[-1]:
df50e848SMauro Carvalho Chehab                continue
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab            if i < len(self.tokens) - 1:
df50e848SMauro Carvalho Chehab                next_tok = self.tokens[i + 1]
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab                # Do some cleanups before ";"
df50e848SMauro Carvalho Chehab
*f1cf9f7cSMauro Carvalho Chehab                if tok.kind == CToken.SPACE and next_tok.kind == CToken.ENDSTMT:
df50e848SMauro Carvalho Chehab                    continue
df50e848SMauro Carvalho Chehab
*f1cf9f7cSMauro Carvalho Chehab                if tok.kind == CToken.ENDSTMT and next_tok.kind == tok.kind:
df50e848SMauro Carvalho Chehab                    continue
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab            out += str(tok.value)
df50e848SMauro Carvalho Chehab
df50e848SMauro Carvalho Chehab        return out
*f1cf9f7cSMauro Carvalho Chehab
*f1cf9f7cSMauro Carvalho Chehab
*f1cf9f7cSMauro Carvalho Chehabclass CMatch:
*f1cf9f7cSMauro Carvalho Chehab    """
*f1cf9f7cSMauro Carvalho Chehab    Finding nested delimiters is hard with regular expressions. It is
*f1cf9f7cSMauro Carvalho Chehab    even harder on Python with its normal re module, as there are several
*f1cf9f7cSMauro Carvalho Chehab    advanced regular expressions that are missing.
*f1cf9f7cSMauro Carvalho Chehab
*f1cf9f7cSMauro Carvalho Chehab    This is the case of this pattern::
*f1cf9f7cSMauro Carvalho Chehab
*f1cf9f7cSMauro Carvalho Chehab            '\\bSTRUCT_GROUP(\\(((?:(?>[^)(]+)|(?1))*)\\))[^;]*;'
*f1cf9f7cSMauro Carvalho Chehab
*f1cf9f7cSMauro Carvalho Chehab    which is used to properly match open/close parentheses of the
*f1cf9f7cSMauro Carvalho Chehab    string search STRUCT_GROUP(),
*f1cf9f7cSMauro Carvalho Chehab
*f1cf9f7cSMauro Carvalho Chehab    Add a class that counts pairs of delimiters, using it to match and
*f1cf9f7cSMauro Carvalho Chehab    replace nested expressions.
*f1cf9f7cSMauro Carvalho Chehab
*f1cf9f7cSMauro Carvalho Chehab    The original approach was suggested by:
*f1cf9f7cSMauro Carvalho Chehab
*f1cf9f7cSMauro Carvalho Chehab        https://stackoverflow.com/questions/5454322/python-how-to-match-nested-parentheses-with-regex
*f1cf9f7cSMauro Carvalho Chehab
*f1cf9f7cSMauro Carvalho Chehab    Although I re-implemented it to make it more generic and match 3 types
*f1cf9f7cSMauro Carvalho Chehab    of delimiters. The logic checks if delimiters are paired. If not, it
*f1cf9f7cSMauro Carvalho Chehab    will ignore the search string.
*f1cf9f7cSMauro Carvalho Chehab    """
*f1cf9f7cSMauro Carvalho Chehab
*f1cf9f7cSMauro Carvalho Chehab    # TODO: add a sub method
*f1cf9f7cSMauro Carvalho Chehab
*f1cf9f7cSMauro Carvalho Chehab    def __init__(self, regex):
*f1cf9f7cSMauro Carvalho Chehab        self.regex = KernRe(regex)
*f1cf9f7cSMauro Carvalho Chehab
*f1cf9f7cSMauro Carvalho Chehab    def _search(self, tokenizer):
*f1cf9f7cSMauro Carvalho Chehab        """
*f1cf9f7cSMauro Carvalho Chehab        Finds paired blocks for a regex that ends with a delimiter.
*f1cf9f7cSMauro Carvalho Chehab
*f1cf9f7cSMauro Carvalho Chehab        The suggestion of using finditer to match pairs came from:
*f1cf9f7cSMauro Carvalho Chehab        https://stackoverflow.com/questions/5454322/python-how-to-match-nested-parentheses-with-regex
*f1cf9f7cSMauro Carvalho Chehab        but I ended using a different implementation to align all three types
*f1cf9f7cSMauro Carvalho Chehab        of delimiters and seek for an initial regular expression.
*f1cf9f7cSMauro Carvalho Chehab
*f1cf9f7cSMauro Carvalho Chehab        The algorithm seeks for open/close paired delimiters and places them
*f1cf9f7cSMauro Carvalho Chehab        into a stack, yielding a start/stop position of each match when the
*f1cf9f7cSMauro Carvalho Chehab        stack is zeroed.
*f1cf9f7cSMauro Carvalho Chehab
*f1cf9f7cSMauro Carvalho Chehab        The algorithm should work fine for properly paired lines, but will
*f1cf9f7cSMauro Carvalho Chehab        silently ignore end delimiters that precede a start delimiter.
*f1cf9f7cSMauro Carvalho Chehab        This should be OK for kernel-doc parser, as unaligned delimiters
*f1cf9f7cSMauro Carvalho Chehab        would cause compilation errors. So, we don't need to raise exceptions
*f1cf9f7cSMauro Carvalho Chehab        to cover such issues.
*f1cf9f7cSMauro Carvalho Chehab        """
*f1cf9f7cSMauro Carvalho Chehab
*f1cf9f7cSMauro Carvalho Chehab        start = None
*f1cf9f7cSMauro Carvalho Chehab        offset = -1
*f1cf9f7cSMauro Carvalho Chehab        started = False
*f1cf9f7cSMauro Carvalho Chehab
*f1cf9f7cSMauro Carvalho Chehab        import sys
*f1cf9f7cSMauro Carvalho Chehab
*f1cf9f7cSMauro Carvalho Chehab        stack = []
*f1cf9f7cSMauro Carvalho Chehab
*f1cf9f7cSMauro Carvalho Chehab        for i, tok in enumerate(tokenizer.tokens):
*f1cf9f7cSMauro Carvalho Chehab            if start is None:
*f1cf9f7cSMauro Carvalho Chehab                if tok.kind == CToken.NAME and self.regex.match(tok.value):
*f1cf9f7cSMauro Carvalho Chehab                    start = i
*f1cf9f7cSMauro Carvalho Chehab                    stack.append((start, tok.level))
*f1cf9f7cSMauro Carvalho Chehab                    started = False
*f1cf9f7cSMauro Carvalho Chehab
*f1cf9f7cSMauro Carvalho Chehab                continue
*f1cf9f7cSMauro Carvalho Chehab
*f1cf9f7cSMauro Carvalho Chehab            if not started and tok.kind == CToken.BEGIN:
*f1cf9f7cSMauro Carvalho Chehab                started = True
*f1cf9f7cSMauro Carvalho Chehab                continue
*f1cf9f7cSMauro Carvalho Chehab
*f1cf9f7cSMauro Carvalho Chehab            if tok.kind == CToken.END and tok.level == stack[-1][1]:
*f1cf9f7cSMauro Carvalho Chehab                start, level = stack.pop()
*f1cf9f7cSMauro Carvalho Chehab                offset = i
*f1cf9f7cSMauro Carvalho Chehab
*f1cf9f7cSMauro Carvalho Chehab                yield CTokenizer(tokenizer.tokens[start:offset + 1])
*f1cf9f7cSMauro Carvalho Chehab                start = None
*f1cf9f7cSMauro Carvalho Chehab
*f1cf9f7cSMauro Carvalho Chehab        #
*f1cf9f7cSMauro Carvalho Chehab        # If an END zeroing levels is not there, return remaining stuff
*f1cf9f7cSMauro Carvalho Chehab        # This is meant to solve cases where the caller logic might be
*f1cf9f7cSMauro Carvalho Chehab        # picking an incomplete block.
*f1cf9f7cSMauro Carvalho Chehab        #
*f1cf9f7cSMauro Carvalho Chehab        if start and offset < 0:
*f1cf9f7cSMauro Carvalho Chehab            print("WARNING: can't find an end", file=sys.stderr)
*f1cf9f7cSMauro Carvalho Chehab            yield CTokenizer(tokenizer.tokens[start:])
*f1cf9f7cSMauro Carvalho Chehab
*f1cf9f7cSMauro Carvalho Chehab    def search(self, source):
*f1cf9f7cSMauro Carvalho Chehab        """
*f1cf9f7cSMauro Carvalho Chehab        This is similar to re.search:
*f1cf9f7cSMauro Carvalho Chehab
*f1cf9f7cSMauro Carvalho Chehab        It matches a regex that it is followed by a delimiter,
*f1cf9f7cSMauro Carvalho Chehab        returning occurrences only if all delimiters are paired.
*f1cf9f7cSMauro Carvalho Chehab        """
*f1cf9f7cSMauro Carvalho Chehab
*f1cf9f7cSMauro Carvalho Chehab        if isinstance(source, CTokenizer):
*f1cf9f7cSMauro Carvalho Chehab            tokenizer = source
*f1cf9f7cSMauro Carvalho Chehab            is_token = True
*f1cf9f7cSMauro Carvalho Chehab        else:
*f1cf9f7cSMauro Carvalho Chehab            tokenizer = CTokenizer(source)
*f1cf9f7cSMauro Carvalho Chehab            is_token = False
*f1cf9f7cSMauro Carvalho Chehab
*f1cf9f7cSMauro Carvalho Chehab        for new_tokenizer in self._search(tokenizer):
*f1cf9f7cSMauro Carvalho Chehab            if is_token:
*f1cf9f7cSMauro Carvalho Chehab                yield new_tokenizer
*f1cf9f7cSMauro Carvalho Chehab            else:
*f1cf9f7cSMauro Carvalho Chehab                yield str(new_tokenizer)