Лекции по построению компилятора на Pascal

ВОЗВРАЩЕНИЕ СИМВОЛА


По существу, все сканеры, которые я когда-либо видел, и которые написаны на Паскале, использовали механизм перечислимых типов, который я только что описал. Это конечно работающий механизм, но он не кажется мне самым простым подходом.

Прежде всего, список возможных типов символов может получиться довольно длинным. Здесь я использовал только один символ "Operator" для обозначения всех операторов, но я видел другие проекты, в которых фактически возвращаются различные кода для каждого.

Существует, конечно, другой простой тип, который может быть возвращен как код: символ. Вместо возвращения значения "Operator" для знака "+", что неправильного в том, чтобы просто возвращать сам символ? Символ - такая же хорошая переменная для кодирования различных типов лексем, она легко может быть использована в операторах Case, и это гораздо проще набрать. Что может быть проще?

Кроме того, мы уже имели опыт с идеей кодировать ключевые слова как одиночные символы. Наши предыдущие программы уже написаны таким способом, так что использование этого метода минимизирует изменения того, что мы уже сделали.

Некоторые из вас могут почувствовать, что идея с возвращение символьных кодов слишком детская. Я должен допустить, что она становится немного неуклюжей для операторов типа "<=". Если вы хотите остаться с перечислимыми типами, хорошо. Для остальных я хотел бы показать как изменить то, что мы сделали выше, для поддержки такого подхода.

Во-первых, сейчас вы можете удалить объявление типа SymType... он нам больше не понадобится. И вы можете изменить тип Token в char.

Затем, чтобы заменить SymType, добавьте следующую константу:

     const KWcode: string[5] = 'xilee';

(Я буду кодировать все идентификаторы одиночным символом 'x').

Наконец измените Scan и его родственников следующим образом:

{--------------------------------------------------------------}

{ Get an Identifier }

procedure GetName;



begin

   Value := '';


   if not IsAlpha(Look) then Expected('Name');

   while IsAlNum(Look) do begin

     Value := Value + UpCase(Look);

     GetChar;

   end;

   Token := KWcode[Lookup(Addr(KWlist), Value, 4) + 1];

end;

{--------------------------------------------------------------}

{ Get a Number }

procedure GetNum;

begin

   Value := '';

   if not IsDigit(Look) then Expected('Integer');

   while IsDigit(Look) do begin

     Value := Value + Look;

     GetChar;

   end;

   Token := '#';

end;

{--------------------------------------------------------------}

{ Get an Operator }

procedure GetOp;

begin

   Value := '';

   if not IsOp(Look) then Expected('Operator');

   while IsOp(Look) do begin

     Value := Value + Look;

     GetChar;

   end;

   if Length(Value) = 1 then

      Token := Value[1]

   else

      Token := '?';

end;

{--------------------------------------------------------------}

{ Lexical Scanner }

procedure Scan;

var k: integer;

begin

   while Look = CR do

      Fin;

   if IsAlpha(Look) then

      GetName

   else if IsDigit(Look) then

      GetNum

   else if IsOp(Look) then begin

      GetOp

   else begin

      Value := Look;

      Token := '?';

      GetChar;

   end;

   SkipWhite;

end;

{--------------------------------------------------------------}

{ Main Program }

begin

   Init;

   repeat

      Scan;

      case Token of

        'x': write('Ident ');

        '#': Write('Number ');

        'i', 'l', 'e': Write('Keyword ');

       else Write('Operator ');

      end;

      Writeln(Value);

   until Value = 'END';

end.

{--------------------------------------------------------------}

Эта программа должна работать также как и предыдущая версия. Небольшое различие в структуре, может быть, но она кажется мне более простой.


Содержание раздела