Регулярные выражения для php – научись составлять их с легкостью!

Рано или поздно каждый веб разработчик сталкивается с задачей внедрения в свой код регулярных выражений. Многие думают, что составлять их невероятно сложно и под силу только избранным. На самом деле это не так. И сегодня я покажу Вам как составлять регулярные выражения.

дополнительные материалы к урокам демо версия урока

Но для начала немного общей информации. Что такое регулярные выражения и для чего они нужны?



Регуля́рные выраже́ния (англ. regular expressions) — формальный язык поиска и осуществления манипуляций с подстроками в тексте, основанный на использовании метасимволов (символов-джокеров, англ. wildcard characters). По сути это строка-образец (англ. pattern, по-русски её часто называют «шаблоном», «маской»), состоящая из символов и метасимволов и задающая правило поиска.

Выписка из Википедии

Другими словами, регулярное выражени означает регулярную последовательность символов или чисел или какого-нибудь другого шаблона, то есть выражение, которое нужно найти.

Регулярные выражения наиболее часто используются для поиска и подстановки текста, с их помощью можно проверять правильность введенной пользователем информации, дабы избежать ввода некорректной информации или информации в неподходящем формате.

Принцип их работы достаточно прост.

Во-первых, задается строка, в которой будет производиться поиск. Во-вторых, создается шаблон этого самого поиска.

И если Вы знаете как правильно создать шаблон под ту или иную задачу, то при помощи регулярных выражений Вы может найти практически все, что угодно.

Давайте научимся создавать регулярные выражения для php

Будем разбирать сразу все на практике и смотреть на полученные результаты.

Я создаю новый php файл для тестирования всего кода. Вы можете сделать то же самое. Создайте файл и пропишите в нем между тегов body открывающий и закрывающий теги для php кода:

<?php между этими тегами будет весь наш код ?>



Сразу запустите файл в браузере (убедитесь, что Ваш Денвер работает). Если Вы не знаете, то для запуска файла, нужно прописать в командной строке браузера localhost/имя папки, в которой лежит файл/имя файла.php.

Итак, начнем с самого начала. Для начала я напишу текст, в котором буду икать соответствия и помещу его в переменную (конечно же текст должен быть заключен в кавычки).

$string_search = "За последние несколько дней в сети интернет появились новые сайты, такие как www.mysite.ru, http://website.com и еще очень интересный сайт www.yoursite.ru. В 2014 году мы планируем запустить в интернет сайт под названием http://www.sitesite.com, а уже к началу 2015 года мы подведем статистику о его посещаемости. По вопросам обращайтесь на email admin@yandex.ru или myadmin@hotmail.com.";

Вот такой вот текст. Теперь нужно создать шаблон нашего регулярного выражения.

Давайте пойдем от простого к сложному. Для начала поищем в тексте слово «интернет», узнаем сколько раз оно встречается и выведем на экран.

Для этого давайте составим простой шаблон регулярного выражения и поместим его в переменную.

Начнем с того, что регулярное выражение – это простая строка, и ее нужно взять в кавычки.

Кроме того, регулярные выражения начинаются и заканчиваются с прямого слэша. То, что находится между слешами и составляет суть регулярного выражения.

Таким образом, давайте вставим в наш код самый простейший шаблон регулярного выражения, занесенный в переменную:

$regex = "/интернет/";

Но это всего лишь переменные. А теперь самое главное!

Пропишем функцию, которая будет искать соответствия в нашем тексте по нашему регулярному выражению.

В PHP для этого используется специальная функция «preg_match».

Функция preg_match и функция preg_match_all.

В функцию preg_match передаются 2 параметра: регулярное выражение и строка, в которой нужно вести поиск.

Эта функция может вернуть значения: либо 0 (если совпадения отсутствуют), либо 1 (при обнаружении первого совпадения, а потом просто останавливает поиск).

Если же нам требуются все соответствия с шаблоном, то нужно использовать функцию preg_match_all.

В функцию preg_match_all передаем 3 параметра: регулярное выражение; строка, в которой ведем поиск; переменная, в которую поместим результаты поиска.

Так как нам нужны все совпадения, имеющиеся в тексте, то мы будем использовать функцию preg_match_all. Следовательно, наш код пополнится следующей строкой:

$result = preg_match_all($regex, $string_search, $out);

Осталось вывести на экран результат. Я предлагаю сначала вывести число совпадений, а потом и сами эти совпадения в цикле for (возможно на практике вывод результатов Вам и не понадобиться, но в этом уроке я делаю его для наглядности).

Добавим к нашему коду следующие строки:

echo $result ."<br/>"; for($i=0; $i<$result; $i++) { echo $out[0][$i]."<br/>"; }

Теперь если проверить страницу в браузере, то мы увидим следующий результат:

результаты работы простого регулярного выражения

Если нам нужно найти одно значение или другое, например, мы хотим найти слово «интернет» или «сайт», то между искомыми значениями в шаблоне нужно поставить специальный символ «|». В таком случае, регулярное выражение будет выглядеть так:

$regex = "/интернет|сайт/";

А результат на экране мы увидем такой:

регулярное выражение с или

Но это все очень просто. Давайте займемся чем-то посложнее, например найдем все адреса сайтов, прописанных в нашем тексте. Обратите внимание, что они прописаны в разных форматах (одни с www, другие с http:// и даже с http://www.. Одни заканчиваются на .ru, другие на .com). Согласитесь, это уже интереснее! Давайте начнем.

Предлагаю начать с конца.

1. Для начала давайте скажем нашему шаблону вывести все с .ru или с .com.

Сделаю небольшое отступление и скажу, что точка (.) в регулярных выражениях обозначает – «любой символ», поэтому точку нужно экранировать. Сделать мы это можем при помощи обратного слэша (\). С символом или (|) Вы уже знакомы.

Пока получается вот так:

$regex = "/(\.ru)|(\.com)/";

И действительно, шаблон найдет нам все, что заканчивается на эти символы. Помимо адресов веб сайтов он также учтет и адреса электронной почты, так как они тоже заканчиваются на эти символы. Но далее мы это исправим.

выводим все, что заканичивается на .ru и .com

2. Теперь укажем, что перед .ru или .com могут стоять символы латинского алфавита от a до z, также цифры от 0 до 9 и знак «-». Это будет выглядеть так: [a-z0-9-]. А еще нам нужно указать квантор (простыми словами: то, сколько таких символов может быть). Например, если я напишу так: {2,} – это будет значить 2 или больше.

Осталось все это объединить. Кстати перед этим нужно заключить уже имеющуюся часть (\.ru)|(\.com) в скобки. Если мы этого не сделаем, то все, что мы намишем впереди будет относиться только к .ru.

Объединяя все вышесказанное, получим такой код:

$regex = "/[a-z0-9-]{2,}((\.ru)|(\.com))/";

А на экране увидем следующее:

преобразованное регулярное выражение

Уже лучше, но шаблон по-прежнему выдает нам также и адреса электронной почты. Сейчас мы это исправим.

3. Теперь нам нужно выбирать только те совпадения, которые будут начинаться либо с www., либо с http://. Так мы исключим из нашего списка выдачу адресов электронной почты, которые туда попали.

Что для этого нужно сделать?

Следующая часть выражения будет стоять в самом начале (помните, мы идем от конца к началу), ее мы заключим в скобки. Далее в скобках пропишем, что нас интересует http:// (слэши здесь тоже нужно экранировать) или (|) www. (точку тоже нужно экранировать). После скобок откроем фигурные скобки и пропишем квантор ({1} – значит это выражение должно встречаться ровно один раз). Получается вот такой код:

$regex = "/((http:\/\/)|(www\.)){1}[a-z0-9-]{2,}((\.ru)|(\.com))/";

Теперь, если обновить страничку в браузере, то мы увидем, что в результате нам показываются только адреса веб сайтов, как и было задумано:

выборка адресов веб сайтов регулярным выражением

Теперь, я думаю, что Вам стало понятно, как составить такое регулярное выражение. Оно, конечно же не универсально, я просто придумала его для примера. Уверена, что если посидеть и хорошенько подумать, то можно его усовершенствовать.

Вообще, составление регулярного выражения похоже на составление уровнения.

Давайте рассмотрим еще один простой пример.

Найдем все упоминания годов в нашем тексте.

Сделать это необычайно просто.

Год должен состоять из цифр. Для этого мы будем использовать символьный класс (\d). Этот символьный класс обозначает – «Цифра». Кроме того, год должен состоять из четырех цифр, а для этого мы будем использовать квантор {4}.

В итоге, регулярное выражение будет выглядеть вот так:

$regex = "/(\d{4})/";

А в результате мы получим вывод всех годов, встречающихся в тексте (у нас их в тексте два):

вывод годов при помощи регулярного выражения

На последок я хочу Вам предложить один очень неплохой ресурс, который поможет Вам в изучении регулярных выражений. Называется он regexlib.com .

В нем есть тестер регулярных выражений. То есть вы можете писать регулярные выражения и тестировать их работу прямо в этом ресурсе. Для этого нужно перейти на вкладку «Redex Tester», в поле «Source» нужно прописать тот текст, в котором будет производиться поиск. А в поле «Regular Expression» нужно писать само регулярное выражение. Обратите внимание, что когда будете писать регулярное выражение, то вводить “//” в поле не нужно. Сразу пишите само регулярное выражение. После написания нажимаете на кнопку «Submit» и смотрите результаты. Это очень удобно!

сервис для тестирования регулярных выражений

Кроме того, на сервисе Вы можете найти примеры регулярных выражений. Для этого нужно перейти на вкладку «Browse Expressions» и Вы увидите синенькие кнопочки, обозначающие категории регулярных выражений для разных задач. Вы можете воспользоваться готовыми решениями для Ваших веб проектов, а также (если Вам действительно хочется научиться их составлять самому) поразбираться в них.

готовые примеры регулярных выражений на сервисе

Чтобы разбираться было удобнее, в конце этой статьи я прилагаю файл-таблицу со всеми специальными символами, кванторами и диапазонами. Вы можете распечатать ее и всегда держать под рукой, тогда Вам не нужно будет искать где-то, что обозначает каждый определенный символ в регулярном выражении.

Чтобы скачать этот файл, Вам нужно просто поделиться этим постом со своими друзьями, кликнув на любую из кнопок социальных сетей.

Мне эта табличка очень помогает, я думаю, что она поможет и Вам.



Загрузка замка...


На самом деле о регулярных выражениях можно писать очень много, но хочется сказать, что чтобы научиться писать их быстро и эффективно нужно практиковаться. Практикуйтесь! Ведь так приятно, когда запускаешь скрипт, а он работает как надо!

Подписывайтесь на обновление блога, обещаю Вам много всего интересного! А также жду Ваших комментариев, вопросов и предложений.

Удачи! И до новых встреч!

Создание базы данных MySql

Вносим пользовательские данные в базу данных MySql

Вывод информации из базы данных MySql на веб страницу

Изменение информации в базе данных MySql из веб страницы

Удаление записей из базы данных MySql через веб страницу

Вывод данных из базы MySql в обратном порядке

Понравилась статья? Поделись с друзьями!


Не нашли того, что искали? Воспользуйтесь расширенным поиском!

Будьте в курсе новых публикаций на Блоге!

rss podpiska

Введите Ваш E-mail:


Комментарии к этой статье:

Комментарий добавил(а): jrrey2k
Дата: 2013-11-26

buen articulo, gracias

Комментарий добавил(а): krogus
Дата: 2014-02-25

случайно обнаружил наличие iframe кода на своем сайте - скачал сайт и базу на локальный сервер. Собственно говоря есть вопрос - в базе данных сайта из 20 страничек (joomla 2.5) - обнаружилось 3020 ссылок такого вида: https://www.paypal.com - как это понимать, мне кажется большое количество слешей вначале неспроста.

Комментарий добавил(а): krogus
Дата: 2014-02-25

при публикации комментария - происходит искажение - на самом деле между https и www - стоит цепочка прямых и обратных слешей // = опишу словами - два обратных один прямой и снова два обратных один прямой слеш = всего 6

Комментарий добавил(а): Админ
Дата: 2014-02-25

Честно говоря лично с таким никогда не сталкивалась. Обычно обратный слеш используется для экранирования спецсимволов... но опять же в этом случае он не должен вставляться в базу и тем более по два. Учтя Вашу CMS и немного пошарив в интернете я нашла пару статей, которые могут Вам помочь. Вот они: статья 1 - здесь посмотрите раздел "как убрать magic quotes";
И еще одна: вторая статья
Попробуйте и потом отпишитесь пожалуйста.

Комментарий добавил(а): Админ
Дата: 2014-02-25

И, кстати, внешних ссылок у Вас кажется многовато (даже для 20 страничек). Советую позакрывать их от индексирования (хотя бы большую часть).

Комментарий добавил(а): krogus
Дата: 2014-02-26

Спасибо за ответ и подсказку, но по идее описанной в статьях функции magic_quotes_gpc - у меня быть не должно так как РНР 5.3.27. Ссылки не идексируются - проверял в нескольких программах. Практически все ссылки, это копирайты установленных в системе компонентов, модулей и плагинов. По поводу слешей - пока ответ не нашел, буду искать. Спасибо.

Комментарий добавил(а): Сергей
Дата: 2014-10-24

Спасибо здорово разложено

Комментарий добавил(а): Слава
Дата: 2014-11-16

Спасибо за простую и хорошую статью

Добавить Комментарий:


Введите сумму чисел с картинки:

Почему стоит подписаться на обновления блога

Будьте в курсе новых публикаций на Блоге!

rss podpiska

Введите Ваш E-mail: