Що означає "фрагмент" у ANTLR?


99

Що означає фрагмент у ANTLR?

Я бачив обидва правила:

fragment DIGIT : '0'..'9';

і

DIGIT : '0'..'9';

Яка різниця?

Відповіді:


110

Фрагмент дещо схожий на вбудовану функцію: це робить граматику більш зрозумілою та легшою у обслуговуванні.

Фрагмент ніколи не вважатиметься лексемою, він служить лише для спрощення граматики.

Поміркуйте:

NUMBER: DIGITS | OCTAL_DIGITS | HEX_DIGITS;
fragment DIGITS: '1'..'9' '0'..'9'*;
fragment OCTAL_DIGITS: '0' '0'..'7'+;
fragment HEX_DIGITS: '0x' ('0'..'9' | 'a'..'f' | 'A'..'F')+;

У цьому прикладі відповідність NUMBER завжди поверне НОМЕР до лексеру, незалежно від того, чи відповідає воно "1234", "0xab12" або "0777".

Див. Пункт 3


43
Ви маєте рацію щодо того, що fragmentозначає ANTLR. Але приклад, який ви наводите, поганий: ви не хочете, щоб NUMBERлексема створювала маркер, який може бути шістнадцятковим, десятковим або восьмим числом. Це означає, що вам потрібно перевірити NUMBERмаркер у виробництві (правило парсера). Ви могли б краще нехай Лексер виробляє INT, OCTі HEXмаркер і створити правило виробництва: number : INT | OCT | HEX;. У такому прикладі, a DIGITможе бути фрагментом, який би використовувався лексемами INTта HEX.
Барт Кіерс

10
Зауважте, що "бідний" може звучати трохи суворо, але я не зміг знайти для цього кращого слова ... Вибачте! :)
Барт Кіерс

1
Ви не звучали суворо .. ви були праві і прямі!
asyncwait

2
Важливо, що фрагменти призначені для використання лише в інших правилах лексерів для визначення інших лексем лексем. Фрагменти не призначені для використання в граматичних (парсерних) правилах.
djb

1
@BartKiers: чи можете ви створити нову відповідь, включаючи кращу відповідь.
Девід Ньюкомб

18

Згідно з категорією довідників Antlr4:

Правила з префіксом з фрагментом можна викликати лише з інших правил лексеру; вони самі по собі не лексеми.

насправді вони покращать читабельність ваших граматик.

подивіться на цей приклад:

STRING : '"' (ESC | ~["\\])* '"' ;
fragment ESC : '\\' (["\\/bfnrt] | UNICODE) ;
fragment UNICODE : 'u' HEX HEX HEX HEX ;
fragment HEX : [0-9a-fA-F] ;

STRING - це лексема, що використовує правило фрагмента, як ESC .Unicode використовується в правилі Esc, а Hex використовується в правилі фрагмента Unicode. Правила ESC та UNICODE та HEX не можна використовувати прямо.


10

Остаточний довідник ANTLR 4 (стор. 106):

Правила з префіксом з фрагментом можна викликати лише з інших правил лексеру; вони самі по собі не лексеми.


Конспекти понять:

Варіант 1: (якщо мені потрібна rule1 Правілу2, Правілу3 особи або про групі)

rule0 : RULE1 | RULE2 | RULE3 ;
RULE1 : [A-C]+ ;
RULE2 : [DEF]+ ;
RULE3 : ('G'|'H'|'I')+ ;


Case2: (якщо мені не байдуже RULE1, RULE2, RULE3, я просто зосереджуюся на RULE0)

RULE0 : [A-C]+ | [DEF]+ | ('G'|'H'|'I')+ ;
// RULE0 is a terminal node. 
// You can't name it 'rule0', or you will get syntax errors:
// 'A-C' came as a complete surprise to me while matching alternative
// 'DEF' came as a complete surprise to me while matching alternative


Case3: (еквівалент Case2, що робить його легше для читання, ніж Case2)

RULE0 : RULE1 | RULE2 | RULE3 ;
fragment RULE1 : [A-C]+ ;
fragment RULE2 : [DEF]+ ;
fragment RULE3 : ('G'|'H'|'I')+ ;
// You can't name it 'rule0', or you will get warnings:
// warning(125): implicit definition of token RULE1 in parser
// warning(125): implicit definition of token RULE2 in parser
// warning(125): implicit definition of token RULE3 in parser
// and failed to capture rule0 content (?)


Відмінності між Case1 та Case2 / 3?

  1. Правила лексема рівнозначні
  2. Кожен з RULE1 / 2/3 у Case1 - це група захоплення, подібна до Regex: (X)
  3. Кожен з RULE1 / 2/3 у Case3 - це група, яка не захоплює, подібно до Regex :( ?: X) введіть тут опис зображення



Подивимося конкретний приклад.

Мета: визначити [ABC]+, [DEF]+, [GHI]+жетони

input.txt

ABBCCCDDDDEEEEE ABCDE
FFGGHHIIJJKK FGHIJK
ABCDEFGHIJKL


Main.py

import sys
from antlr4 import *
from AlphabetLexer import AlphabetLexer
from AlphabetParser import AlphabetParser
from AlphabetListener import AlphabetListener

class MyListener(AlphabetListener):
    # Exit a parse tree produced by AlphabetParser#content.
    def exitContent(self, ctx:AlphabetParser.ContentContext):
        pass

    # (For Case1 Only) enable it when testing Case1
    # Exit a parse tree produced by AlphabetParser#rule0.
    def exitRule0(self, ctx:AlphabetParser.Rule0Context):
        print(ctx.getText())
# end-of-class

def main():
    file_name = sys.argv[1]
    input = FileStream(file_name)
    lexer = AlphabetLexer(input)
    stream = CommonTokenStream(lexer)
    parser = AlphabetParser(stream)
    tree = parser.content()
    print(tree.toStringTree(recog=parser))

    listener = MyListener()
    walker = ParseTreeWalker()
    walker.walk(listener, tree)
# end-of-def

main()


Випадок1 та результати:

Alphabet.g4 (Case1)

grammar Alphabet;

content : (rule0|ANYCHAR)* EOF;

rule0 : RULE1 | RULE2 | RULE3 ;
RULE1 : [A-C]+ ;
RULE2 : [DEF]+ ;
RULE3 : ('G'|'H'|'I')+ ;

ANYCHAR : . -> skip;

Результат:

# Input data (for reference)
# ABBCCCDDDDEEEEE ABCDE
# FFGGHHIIJJKK FGHIJK
# ABCDEFGHIJKL

$ python3 Main.py input.txt 
(content (rule0 ABBCCC) (rule0 DDDDEEEEE) (rule0 ABC) (rule0 DE) (rule0 FF) (rule0 GGHHII) (rule0 F) (rule0 GHI) (rule0 ABC) (rule0 DEF) (rule0 GHI) <EOF>)
ABBCCC
DDDDEEEEE
ABC
DE
FF
GGHHII
F
GHI
ABC
DEF
GHI


Випадок2 / 3 та результати:

Alphabet.g4 (Case2)

grammar Alphabet;

content : (RULE0|ANYCHAR)* EOF;

RULE0 : [A-C]+ | [DEF]+ | ('G'|'H'|'I')+ ;

ANYCHAR : . -> skip;

Alphabet.g4 (Case3)

grammar Alphabet;

content : (RULE0|ANYCHAR)* EOF;

RULE0 : RULE1 | RULE2 | RULE3 ;
fragment RULE1 : [A-C]+ ;
fragment RULE2 : [DEF]+ ;
fragment RULE3 : ('G'|'H'|'I')+ ;

ANYCHAR : . -> skip;

Результат:

# Input data (for reference)
# ABBCCCDDDDEEEEE ABCDE
# FFGGHHIIJJKK FGHIJK
# ABCDEFGHIJKL

$ python3 Main.py input.txt 
(content ABBCCC DDDDEEEEE ABC DE FF GGHHII F GHI ABC DEF GHI <EOF>)

Ви бачили частини "групи захоплення" та "групи, які не захоплювали" ?




Подивимося на конкретний приклад2.

Мета: визначити восьмеричні / десяткові / шістнадцяткові числа

input.txt

0
123
 1~9999
 001~077
0xFF, 0x01, 0xabc123


Кількість.g4

grammar Number;

content
    : (number|ANY_CHAR)* EOF
    ;

number
    : DECIMAL_NUMBER
    | OCTAL_NUMBER
    | HEXADECIMAL_NUMBER
    ;

DECIMAL_NUMBER
    : [1-9][0-9]*
    | '0'
    ;

OCTAL_NUMBER
    : '0' '0'..'9'+
    ;

HEXADECIMAL_NUMBER
    : '0x'[0-9A-Fa-f]+
    ;

ANY_CHAR
    : .
    ;


Main.py

import sys
from antlr4 import *
from NumberLexer import NumberLexer
from NumberParser import NumberParser
from NumberListener import NumberListener

class Listener(NumberListener):
    # Exit a parse tree produced by NumberParser#Number.
    def exitNumber(self, ctx:NumberParser.NumberContext):
        print('%8s, dec: %-8s, oct: %-8s, hex: %-8s' % (ctx.getText(),
            ctx.DECIMAL_NUMBER(), ctx.OCTAL_NUMBER(), ctx.HEXADECIMAL_NUMBER()))
    # end-of-def
# end-of-class

def main():
    input = FileStream(sys.argv[1])
    lexer = NumberLexer(input)
    stream = CommonTokenStream(lexer)
    parser = NumberParser(stream)
    tree = parser.content()
    print(tree.toStringTree(recog=parser))

    listener = Listener()
    walker = ParseTreeWalker()
    walker.walk(listener, tree)
# end-of-def

main()


Результат:

# Input data (for reference)
# 0
# 123
#  1~9999
#  001~077
# 0xFF, 0x01, 0xabc123

$ python3 Main.py input.txt 
(content (number 0) \n (number 123) \n   (number 1) ~ (number 9999) \n   (number 001) ~ (number 077) \n (number 0xFF) ,   (number 0x01) ,   (number 0xabc123) \n <EOF>)
       0, dec: 0       , oct: None    , hex: None    
     123, dec: 123     , oct: None    , hex: None    
       1, dec: 1       , oct: None    , hex: None    
    9999, dec: 9999    , oct: None    , hex: None    
     001, dec: None    , oct: 001     , hex: None    
     077, dec: None    , oct: 077     , hex: None    
    0xFF, dec: None    , oct: None    , hex: 0xFF    
    0x01, dec: None    , oct: None    , hex: 0x01    
0xabc123, dec: None    , oct: None    , hex: 0xabc123

Якщо додати модифікатор «фрагмент» до DECIMAL_NUMBER, OCTAL_NUMBER, HEXADECIMAL_NUMBERви не зможете захопити число об'єктів (оскільки вони не є лексеми більше). І результат буде:

$ python3 Main.py input.txt 
(content 0 \n 1 2 3 \n   1 ~ 9 9 9 9 \n   0 0 1 ~ 0 7 7 \n 0 x F F ,   0 x 0 1 ,   0 x a b c 1 2 3 \n <EOF>)

8

У цій публікації в блозі є дуже чіткий приклад, коли fragmentсуттєво змінюється:

grammar number;  

number: INT;  
DIGIT : '0'..'9';  
INT   :  DIGIT+;

Граматика розпізнає "42", але не "7". Ви можете виправити це, зробивши фрагмент цифри (або перемістивши DIGIT після INT).


1
Проблема тут - не відсутність ключового слова fragment, а порядок лексерових правил.
BlackBrain

Я використав слово "виправити", але справа не в тому, щоб виправити проблему. Я додав цей приклад сюди, тому що для мене це був найбільш корисний і простий приклад того, що насправді змінюється при використанні фрагмента ключового слова.
Везал

2
Я просто стверджую, що оголошення, DIGITяк фрагмент, INTвирішує проблему лише тому, що фрагменти не визначають лексеми, таким чином, роблячи INTперше лексичне правило. Я згоден з вами, що це важливий приклад, але (imo) лише для тих, хто вже знає, що fragmentозначає ключове слово. Я вважаю це дещо оманливим для того, хто намагається вперше зрозуміти правильне використання фрагментів.
BlackBrain

1
Тож, коли я дізнався це, я побачив безліч прикладів, таких як наведені вище, але я не зовсім зрозумів, чому для цього потрібне додаткове ключове слово. Я не розумів, що це означає, що це "не жетони самі по собі" на практиці. Зараз я фактично не впевнений, що було б гарною відповіддю на початкове запитання. Я додам коментар вище, чому я не задоволений прийнятою відповіддю.
Везал
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.