Документация QSP
Сайт Форум

Это старая версия документа.

http://regexcrossword.com/ http://regex101.com/#

Также см. разделы "Введение в регулярные выражения" и "Функции, работающие с регулярными выражениями".

Основные поддерживаемые в QSP операции при записи регулярных выражений (для более подробной информации смотрите помощь по регулярным выражениям (PCRE)):

Метасимволы:

\

Экранирующий символ

Выбор из альтернатив

()

Группировка

[]

Класс символа

Фиксаторы:

Соответствует началу строки

$

Соответствует концу строки

\b

Граница слова

\B

Не граница слова

Квантификаторы:

*

0 или более вхождений

+

1 или более вхождений

?

0 или 1 вхождение

{n}

n вхождений

{n,}

Как минимум n вхождений

{,n}

0 или не более n вхождений (аналог {0,n})

{n,m}

От n до m вхождений

*?

"Ленивое" *

+?

"Ленивое" +

??

"Ленивое" ?

{n,}?

"Ленивое" {n,}

{,n}?

"Ленивое" {,n}

{n,m}?

"Ленивое" {n,m}

Спецсимволы:

\t

Табуляция

\n

Перевод строки

\r

Возврат каретки

Предопределённые классы символов:

.

Любой символ

\w

Буква или цифра или символ подчёркивания

\W

Не буква и не цифра и не символ подчёркивания

\s

Пробельный символ

\S

Не пробельный символ

\d

Цифра

\D

Не цифра

\h

Шестнадцатеричная цифра

\H

Не шестнадцатеричная цифра

Свойства символов:

\p{имя свойства}

\p{^имя свойства}

Отрицание

\P{имя свойства}

Отрицание

Возможные названия свойств:

Alnum, Alpha, Blank, Cntrl, Digit, Graph, Lower, Print, Punct, Space, Upper, XDigit, Word, ASCII

Также поддерживаются обратные ссылки: \n, где n - номер группы.

Введение в регулярные выражения

Top Previous Next

Введение

QSP отличается наличием очень мощных и гибких механизмов для работы с двумя самыми часто используемыми типами данных: строками и массивами. Однако в QSP есть ещё один механизм обработки строк, который, ввиду своей сложности, был пропущен мною. Я говорю о механизме регулярных выражений (regular expressions). Настало время поговорить о них, потому что в дальнейшем нам, возможно, очень часто потребуется использовать их. Кроме того, использование регулярных выражений во многих ситуациях поможет вам заменить кучу кода всего одной строчкой. Единственная проблема, которая обычно возникает при работе с регулярными выражениями - их очень необычный, и, поначалу, совершенно непонятный синтаксис. Поэтому я постараюсь рассказать о синтаксисе регулярных выражений по возможности более просто и подробно.

Общая информация

Регулярное выражение (regular expression, regexp, регэксп) - механизм, позволяющий задать шаблон для строки и осуществить поиск данных, соответствующих этому шаблону в заданном тексте.

Кроме того, дополнительные функции по работе с regexp'ами позволяют получить найденные данные в виде массива строк, произвести замену в тексте по шаблону, разбиение строки по шаблону и т.п. Однако главной их функцией, на которой основаны все остальные, является именно функция поиска в тексте данных, соответствующих шаблону, описанному в синтаксисе регулярных выражений.

Очень часто регулярные выражения используются для того, чтобы проверить, является ли данная строка строкой в необходимом формате. Например, следующий regexp предназначен для проверки того, что строка содержит корректный e-mail адрес:

\W

Всё, кроме символов, определяемых метасимволом \w

Приведу несколько простейших примеров для того, чтобы вы понимали, о чем идёт речь. Сразу оговорюсь, что примеры несколько громоздки и некрасивы, но лишь потому, что я не стал использовать в них метасимволы, о которых ещё не рассказал и которые сделали бы их намного проще.

\d\d\d

Любое трехзначное число ("123", "719", "001")

\w\s\d\d

Буква, пробел (или табуляция) и двузначное число ("A 01", "z 45", "S 18")

\d and \d

Любая из следующих строк: "1 and 2", "9 and 5", "3 and 4"

Синтаксис регулярных выражений имеет средства для определения собственных подмножеств символов. Например, вам может понадобиться задать условие, что в этом месте строки должна находиться шестнадцатеричная цифра или ещё что-то подобное. Для описания таких подмножеств применяются символы квадратных скобок "[" и "]". Квадратные скобки, встреченные внутри регулярного выражения считаются одним символом, который может принимать значения, перечисленные внутри этих скобок.

Есть небольшая тонкость в том, как работают метасимволы внутри квадратных скобок. Дело в том, что в синтаксисе регулярных выражений существует ещё множество метасимволов, но практически все они работают только вне секций описаний подмножеств. Единственные метасимволы, которые работают внутри этих секций это:

Обратный слэш ("\"). Т.е. все метасимволы из приведённой ранее таблицы будут работать.

Минус ("-"). Используется для задания набора символов из одного промежутка (например, все цифры могут быть заданы как "0-9").

Символ "^". Если этот символ стоит первым в секции задания подмножества символов (и только в этом случае!) он будет рассматриваться как символ отрицания. Т.о. можно задать все символы, которые не описаны в данной секции.

Несколько примеров, чтобы было понятно, как это работает:

[0-9A-Fa-f]

Цифра в шестнадцатеричной системе счисления

[\dA-Fa-f]

То же самое, но с использованием метасимвола

[02468]

Четная цифра

[^\d]

Всё, кроме цифр (аналог метасимвола \D)

[a^b]

Любой из символов "a", "b", "^". Заметьте, что здесь символ "^" не имеет какого-либо специального значения, потому что стоит не на первой позиции внутри квадратных скобок

Другие метасимволы

Теперь необходимо рассмотреть ещё несколько метасимволов. Как уже было сказано ранее, все они работают только вне секций описаний подмножеств символов (вне квадратных скобок).

Символы "^" и "$". Они используются для того, чтобы указать парсеру регулярных выражений на положение искомого текста в строке. Символ "^" указывает, что искомый текст должен находиться в начале строки, символ "$" наоборот, указывает, что искомый текст должен находиться в конце строки. Посмотрим, как это работает на примере:

Допустим, у нас есть текст:

12 aaa bbb

aaa 27 ccc

aaa aaa 45

И регулярное выражение для поиска чисел в этом тексте: "(?m)\d\d" (не обращайте пока внимание на "(?m)"). Поиск по этому регулярному выражению вернёт нам 3 значения: "12", "27", "45". Теперь ограничим поиск, указав, где именно внутри строки должен располагаться текст: "(?m)^\d\d". Здесь результат будет только один - "12", потому что только это число располагается в начале строки. Аналогично, регулярное выражение "(?m)\d\d$" вернёт результат "45".

Символ точки ("."). Этот метасимвол указывает, что на данном месте в строке может находиться любой символ (за исключением символа перевода строки). Очень удобно использовать его, если вам нужно "пропустить" какую-нибудь букву в слове при проверке. Например, регулярное выражение ".bc" найдёт в тексте и "abc" и "Abc" и "Zbc" и "5bc".

Символ вертикальной черты ("|"). Используется для задания списка альтернатив. Например, регулярное выражение "(красное|зелёное) яблоко" найдёт в тексте все словосочетания "красное яблоко" и "зелёное яблоко". О значении круглых скобок в этом выражении см. далее.

Символы круглых скобок ("(" и ")"). Эти символы позволяют получить из искомой строки дополнительную информацию. Обычно, если парсер регулярных выражений ищет в тексте информацию по заданному выражению и находит её - он просто возвращает найденную строку. Однако, если он встречает внутри регулярного выражения круглые скобки, то он рассматривает содержимое этих скобок как ещё одно регулярное выражение, по которому необходимо произвести поиск. Парсер рекурсивно вызывает сам себя для поиска по новому регулярному выражению и использует результаты поиска для дальнейшей обработки основного регулярного выражения. При этом, если поиск хотя бы по одному из внутренних регулярных выражений не увенчался успехом - поиск по всему регулярному выражению считается безуспешным.

Чтобы было понятнее, о чем я только что рассказал - рассмотрим в качестве примера то, как работает парсер регулярных выражений в случае приведённого выше регулярного выражения о яблоках: "(красное|зелёное) яблоко".

Парсер начинает разбор регулярного выражения и встречает выражение в скобках: "(красное|зелёное)".

Парсер вызывает себя для поиска по найденному регулярному выражению.

Получив результаты поиска, парсер подставляет по очереди каждый из полученных результатов на место выражения в скобках и смотрит, удовлетворяет ли найденный результат всем условиям основного регулярного выражения (в данном случае смотрит, есть ли после найденного слова слово "яблоко").

Если всё в порядке - результаты поиска по каждому из имеющихся регулярных выражений для этого случая возвращаются, если нет - парсер просто переходит к следующему найденному фрагменту. Результат поиска внутреннего регулярного выражения для этого фрагмента при этом теряется.

В качестве примера возьмем строку:

яблоко красное и зелёное яблоко и ещё одно красное яблоко и ещё одно яблоко, зелёное

Поиск по внутреннему регулярному выражению даст 4 результата (выделены жирным шрифтом):

яблоко красное и зелёное яблоко и ещё одно красное яблоко и ещё одно яблоко, зелёное

Однако поиск по всему регулярному выражению даст всего 2 результата, потому как в остальных случаях условия основного регулярного выражения не выполняются:

яблоко красное и зелёное яблоко и ещё одно красное яблоко и ещё одно яблоко, зелёное

Необходимо заметить, что для этих двух случаев будет возвращён не только результат поиска по основному регулярному выражению, но и результат поиска по внутреннему регулярному выражению для каждого из найденных фрагментов. В большинстве случаев это полезно (пример - чуть позднее), но иногда наоборот, лучше избавиться от лишних результатов. В этом случае необходимо добавить символы "?:" непосредственно после открывающейся круглой скобки: "(?:красное|зелёное) яблоко".

Теперь пример, когда получение результатов внутренних регулярных выражений может быть полезным. Допустим, нам необходимо проверить, является ли строка семизначным телефонным номером с указанием кода города, и получить из неё код города и номер телефона: