Экранирование символов
Экранирование символов — замена в тексте управляющих символов на соответствующие текстовые подстановки.
Определение
Обычно языки программирования, текстовые командные интерфейсы, языки разметок текста (HTML, TEX, wiki) имеют дело со структурированным текстом, в котором некоторые символы (и их комбинации) используются в качестве управляющих, в том числе управляющих структурой текста. В ситуации, когда необходимо использовать такой символ в качестве «обычного символа языка», применяют экранирование.
Условно экранирование может быть разделено на три типа:
- экранирование одиночного символа
- экранирование группы символов с помощью последовательности символов «начать экранирование», «закончить экранирование»
- с помощью командной последовательности «начать экранирование» и символа «конец экранирования», который задаётся до начала экранируемого текста.dnb_page
Отсутствие экранирования как причина уязвимости
Экранирование символов привлекает особое внимание, когда структурированный текст генерируется автоматически. Включение в текст произвольных строковых данных предполагает обязательное экранирование в них управляющих символов. В то же время, очень часто реальные строки таких символов не содержат, что позволяет программисту пропускать эту операцию совсем и получать более простую программу, корректно работающую с «любыми разумными» строковыми данными. Однако, такой упрощенный код имеет скрытую уязвимость, потому что стороннее лицо (автор строковых данных) получает несанкционированную возможность влиять на структуру генерируемого текста. Уязвимость становится серьёзной, если созданный текст является чьей-то программой. Традиционно таким проблемам подвержены системы, использующие языки SQL (см. SQL-injection) и HTML (см. Сross Site Sсriрting).
Примеры
Экранирование одиночного символа
- В языке программирования Си, внутри строк экранирование символов осуществляется с помощью символа ‘\’, помещённого перед экранируемым символом. (При этом символ ‘\’ может экранировать себя, то есть для вывода бэкслеша используется комбинация ‘\\’), этот же символ используется для экранирования символов в командной строке unix.
- В командной строке microsoft windows экранирование части символов осуществляется с помощью символа ‘^’, помещённого перед экранируемым символом.
Экранирование группы символов
- В языке программирования python экранирование группы символов в строке осуществляется указанием буквы r (от англ.raw — необработанный) перед строкой, т. е. символы экранируются последовательностями r»экранируемый текст«
- В вики-разметке экранирование текста осуществляется с помощью псевдотегов
и . Если нужно записать сам псевдотег, это делается символами подстановки ( <nowiki> ).
Экранирование текста с завершающим символом
Вы поможете проекту, исправив и дополнив его.
- Викифицировать статью.
- Найти и оформить в виде сносок ссылки на авторитетные источники, подтверждающие написанное.
- Уязвимости защиты
- Языки разметки
Wikimedia Foundation . 2010 .
C4: Кодирование и экранирование данных¶
Кодирование лучше всего применять непосредственно перед передачей данных интерпретатору. Если применить данный метод на слишком раннем этапе обработки запроса, то кодирование или экранирование может сказаться на использовании контента в других частях программы. Например, если перед сохранением в базе данных HTML-контент экранируется, а интерфейс автоматически экранирует эти данные еще раз, то содержимое не будет отображаться корректно из-за двойного экранирования.
Контекстное кодирование выходных данных¶
Контекстное кодирование выходных данных является ключевым для безопасного программирования и предотвращения межсайтового выполнения сценариев. Подобная мера защиты применяется при создании интерфейсов пользователя, непосредственно перед динамическим добавлением непроверенных данных к HTML-коду. Тип кодирования будет зависеть от места (или контекста) отображения или хранения данных в документе. Типы кодирования, рекомендуемые к использованию при создании безопасного интерфейса: кодирование сущностей или атрибутов HTML, а также кодирование JavaScript и URL.
Примеры кодирования на Java¶
Примеры использования кодировщика Java, обеспечивающего контекстное кодирование выходных данных, можно посмотреть на сайте проекта кодировщика Java от OWASP.
Примеры кодирования в .NET¶
Начиная с .NET 4.5, библиотека антимежсайтового выполнения сценариев является частью фреймворка, но не используется по умолчанию. Вы можете назначить AntiXssEncoder из этой библиотеки в качестве стандартного кодировщика вашего приложения, изменив настройки web.conf. При кодировании выходных данных необходимо учитывать контекст, т. е. использовать соответствующую функцию из библиотеки AntiXSSEncoder в зависимости от расположения данных в документе.
Примеры кодирования на PHP¶
Zend Framework 2¶
В Zend Framework 2 (ZF2) для кодирования выходных данных может быть использован ZendEscaper. Примеры контекстного кодирования можно посмотреть на странице, посвященной контекстному экранированию с помощью zend-escaper.
Другие способы кодирования и защиты от внедрений¶
Кодирование или экранирование может быть использовано для предотвращения других форм внедрений в контент. Например, можно нейтрализовывать некоторые специальные метасимволы при вводе данных для системных команд. Это называют «экранированием команд ОС», «экранированием shell» и т. п. Подобная защита может быть использована для предотвращения «Внедрения команд».
Существуют и другие формы экранирования, которые могут быть использованы для предотвращения внедрений, например, экранирование атрибутов XML, защищающее от различных форм внедрений XML и XML-путей, а также экранирование уникальных имен LDAP, позволяющее предотвратить различные LDAP-внедрения.
Нормализация и кодировка символов¶
Кодировка Юникод — это способ хранения символов с использованием нескольких байтов. При вводе данных злоумышленник может использовать Юникод, чтобы скрыть вредоносный код и получить возможность проведения различных атак. RFC 2279 описывает несколько способов кодировки текста.
Нормализация — это способ преобразования данных в простую или стандартную форму. В веб-приложениях нормализацию обычно используют для обеспечения единообразия символов всего контента при его хранении или отображении.
Защищенность от атак, связанных с нормализацией, означает отсутствие угроз безопасности приложения при вводе злоумышленником некорректно сформированных символов Юникода или любых других специально сформированных символов.
Предотвращаемые уязвимости¶
- Топ-10 OWASP 2017 — A1: Внедрение
- Топ-10 OWASP 2017 — А7: Межсайтовое выполнение сценариев (XSS)
- Топ-10 OWASP 2014 (мобильные устройства) — M7: Внедрение на стороне клиента
Ссылки¶
- Межсайтовое выполнение сценариев — общие сведения
- Памятка OWASP: Предотвращение межсайтового выполнения сценариев (XSS) — предотвращение XSS в веб-приложениях
- Памятка OWASP: Предотвращение межсайтового выполнения сценариев на основе объектной модели документа
- Памятка OWASP: Предотвращение внедрений
Экранирование (или что нужно знать для работы с текстом в тексте)
SQL инъекции, подделка межсайтовых запросов, поврежденный XML… Страшные, страшные вещи, от которых мы все бы хотели защититься, да вот только знать бы почему это все происходит. Эта статья объясняет фундаментальное понятие, стоящее за всем этим: строки и обработка строк внутри строк.
Основная проблема
Это всего лишь текст. Да, просто текст — вот она основная проблема. Практически все в компьютерной системе представлено текстом (который, в свою очередь, представлен байтами). Разве что одни тексты предназначены для компьютера, а другие — для людей. Но и те, и те, всё же остаются текстом. Чтобы понять, о чем я говорю, приведу небольшой пример:
Homo Sapiens Suppose, there is the English text, which I don't wanna translate into Russian
Не поверите: это — текст. Некоторые люди называют его XML, но это — просто текст. Возможно, он не подойдет для показа учителю английского языка, но это — всё еще просто текст. Вы можете распечатать его на плакате и ходить с ним на митинги, вы можете написать его в письме своей маме… это — текст.
Тем не менее, мы хотим, чтобы определенные части этого текста имели какое-то значение для нашего компьютера. Мы хотим, чтобы компьютер был в состоянии извлечь автора текста и сам текст отдельно, чтобы с ним можно было что-то сделать. Например, преобразовать вышеупомянутое в это:
Suppose, there is the English text, which I don't wanna translate into Russian by Homo Sapiens
Откуда компьютер знает, как сделать это? Ну, потому что мы весьма кстати обернули определенные части текста специальными словами в забавных скобках, как, например,
Иными словами, мы использовали определенные правила в нашем тексте, чтобы обозначить некое особое значение, которое кто-то, соблюдая те же правила, мог бы использовать.
Ладно, это всё не так уж и трудно понять. А что если мы хотим использовать эти забавные скобки, имеющие какое-то особое значение, в нашем тексте, но без использования этого самого значения. Примерно так:
Homo Sapiens Basic math tells us that if x < n and y >n, x cannot be larger than y.
Символы «» не являются ничем особенным. Они могут законно использоваться где угодно, в любом тексте, как в примере выше. Но как же наша идея о специальных словах, типа ? Значит ли это, что » < n and y >» тоже является каким-то ключевым словом? В XML — возможно да. А возможно нет. Это неоднозначно. Поскольку компьютеры не очень справляются с неоднозначностями, то что-то в итоге может дать непредвиденный результат, если мы не расставим сами все точки над i и не устраним неоднозначности.
Решить эту дилемму можно, заменив неоднозначные символы чем-то однозначным.
Homo Sapiens Basic math tells us that if x < n and y > n, x cannot be larger than y.
Теперь, текст должен стать полностью однозначным. «<» равносильно «».
Техническое определение этого — экранирование, мы избегаем специальные символы, когда не хотим, чтобы они имели свое особое значение.
escape |iˈskāp| [ no obj. ] вырваться на свободу [ with obj. ] не заметить / не вспомнить [. ] [ with obj. ] IT: причина быть интерпретированным по-разному [. ]
Если определенные символы или последовательности символов в тексте имеют особое значение, то должны быть правила, определяющие, как разрешить ситуации, когда эти символы должны использоваться без привлечения своего особого значения. Или, другими словами, экранирование отвечает на вопрос: «Если эти символы такие особенные, то как мне их использовать в своем тексте?».
Как можно было заметить в примере выше, амперсанд (&) — это тоже специальный символ. Но что делать, если мы хотим написать «<«, но без интерпретации этого как »
Другие примеры
XML — не единственный случай «страдания» от специальных символов. Любой исходный код, в любом языке программирования может это продемонстрировать:
var name = "Homo Sapiens"; var contents = "Suppose, there is the English text, which I don't wanna translate into Russian";
Всё просто — обычный текст четко отделяется от «не текста» двойными кавычками. Таким же образом можно использовать и мой текст из курса математического анализа:
var name = "Homo Sapiens"; var contents ;
Клево! И даже не нужно прибегать к экранированию! Но, подождите, а что, если я хочу процитировать кого-нибудь?
var name = "Homo Sapiens"; var contents = "Plato is said to once have said "Lorem ipsum dolor sit amet".";
Хм… печаль, тоска. Как человек, Вы можете определить где начинается и заканчивается текст и где находится цитата. Однако это снова стало неоднозначным для любого компьютера. Мы должны придумать какие-то правила экранирования, которые помогали бы нам различить буквальный » и «, который означает конец текста. Большинство языков программирование используют косую черту:
var name = "Homo Sapiens"; var contents = "Plato is said to once have said \"Lorem ipsum dolor sit amet\".";
«\» делает символ после него не специальным. Но это, опять-таки, значит, что «\» — специальный символ. Для однозначного написания этого символа в тексте, к нему нужно добавить такой же символ, написав: «\\». Забавно, не так ли?
Атака!
Не всё было бы так плохо, если бы просто должны были прибегать к экранированию. Напрягает конечно, но это не так ужасно. Проблемы начинаются, когда одни программы пишут текст для других программ, чтобы те могли его «читать». И нет, это не научная фантастика, это происходит постоянно. Например, на этом сайте, вы, публикуя сообщение, не набираете его в ручную в формате HTML, а пишите лишь только текст, который, в последствие, преобразуется этим сайтом в HTML, после чего, уже браузер, преобразует «сгенерированный» HTML снова в читабельный текст.
Другой распространенный пример и источник многих проблем безопасности — SQL запросы. SQL — язык, предназначенный для упрощения общения с базами данных:
SELECT phone_number FROM users WHERE name = 'Alex'
В этом тексте практически нет никаких специальных символов, в основном английские слова. И все же, фактически у каждого слова в SQL есть особое значение. Это используется во многих языках программирования во всем мире в той или иной форме, например:
$query = "SELECT phone_number FROM users WHERE name = 'Alex'"; $result = mysql_query($query);
Эти две простые строки абстрагируют от нас ужасно сложную задачу запроса программой у БД данных, удовлетворяющих нашим требованиям. БД «просеивает», возможно, терабайты битов и байтов, чтобы вернуть красиво отформатированный результат программе, сделавшей запрос. Серьезно, вся эта хрень инкапсулирована в простом англо-подобном предложении.
Для того, чтобы сделать это полезным, подобные запросы не хард-кодятся, а строятся на основе пользовательского ввода. Это же предложение, направленное на использование разными пользователями:
$name = $_POST['name']; $query = "SELECT phone_number FROM users WHERE name = '$name'"; $result = mysql_query($query);
В случае, если Вы просто просматриваете эту статью: Это — анти-пример! Это худшее, что Вы когда-либо могли сделать! Это кошмар безопасности! Каждый раз, когда Вы будете писать что-то подобное, будет погибать один невинный котенок! Ктулху сожрет Вашу душу за это!
А теперь давайте посмотрим, что здесь происходит. $_POST[‘name’] — значение, которое некий случайный пользователь ввел в некую случайную форму на вашем случайно веб-сайте. Ваша программа построит SQL-запрос, использующий это значение в качестве имени пользователя, которого Вы хотели бы найти в БД. Затем это SQL «предложение» отправляется прямиком в БД.
Вроде бы звучит все не так ужасно, да? Давайте попробуем ввести несколько случайных значений, которые можно ввести на вашем случайном веб-сайте и какие запросы из этого получатся:
SELECT phone_number FROM users WHERE name = 'Alex'
Mc’Donalds
SELECT phone_number FROM users WHERE name = 'Mc'Donalds'
Joe’; DROP TABLE users; —
SELECT phone_number FROM users WHERE name = 'Joe'; DROP TABLE users; --'
Первый запрос выглядит не страшно, а вполне себе мило, правда? Номер 2, кажется, «несколько» повреждает наш синтаксис из-за неоднозначного ‘. Чертов немец! Номер 4 какой-то дурацкий. Кто бы такое написал? Это ведь не имеет смысла…
Но не для БД, обрабатывающей запрос… БД понятия не имеет от куда этот запрос поступил, и что он должен значить. Единственное, что она видит — это два запроса: найти номер пользователя по имени Joe, а затем удалить таблицу users (что сопровождается комментарием ‘), и это будет успешно сделано.
Для вас это не должно быть новостью. Если это так, то, пожалуйста, прочитайте эту статью еще раз, ибо Вы либо новичок в программировании, либо последние 10 лет жили в пещере. Этот пример иллюстрирует основы SQL-инъекций, применяемых во всем мире. для того, чтобы удалить данные, или получить данные, которые не должны быть просто так получены, или войти в систему, не имея на то прав и т.д. А все потому, что БД воспринимает англо-подобный «приговор» слишком буквально.
Впереееееед!
Следующий шаг: XSS атаки. Действуют они аналогично, только применяются к HTML.
Допустим, Вы решили проблемы с БД, получаете данные от пользователя, записываете в базу и выводите их назад на веб-сайт, для доступа пользователям. Это то, что делает типичный форум, система комментариев и т.д. Где-то на вашем сайте есть что-то подобное:
Posted by on
Если ваши пользователи будут хорошими и добрыми, то они будут размещать цитаты старых философов, а сообщения будут иметь примерно следующий вид:
Posted by Plato on January 2, 15:31
I am said to have said "Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat."
Если пользователи будут умниками, то они, наверное, будут говорить о математике, и сообщения будут такие:
Posted by Pascal on November 23, 04:12
Basic math tells us that if x < n and y >n, x cannot be larger than y.
Хм… Опять эти осквернители наших скобок. Ну, с технической точки зрения они могут быть неоднозначными, но браузер простит нам это, правда?
Posted by JackTR on July 18, 12:56
Хорошо, СТОП, что за черт? Какой-то шутник ввел javascript теги на ваш форум? Любой, кто смотрит на это сообщение на вашем сайте, сейчас загружает и выполняет скрипты в контексте вашего сайта, которые могут сделать не весть что. А это не есть хорошо.
Не следует понимать буквально
В вышеупомянутых случаях, мы хотим каким-то образом сообщить нашей БД или браузеру, что это просто текст, ты с ним ничего не делай! Другими словами, мы хотим «удалить» особые значения всех специальных символов и ключевых слов из любой информации, предоставленной пользователем, ибо мы ему не доверяем. Что же делать?
Что? Что говоришь, мальчишка? Ах, ты говоришь, «экранирование»? И ты абсолютно прав, возьми печеньку!
Если мы применим экранирование к пользовательским данным до объединения их с запросом, то проблема решена. Для наших запросов к БД это будет что-то вроде:
$name = $_POST['name']; $name = mysql_real_escape_string($name); $query = "SELECT phone_number FROM users WHERE name = '$name'"; $result = mysql_query($query);
Просто одна строка кода, но теперь больше никто не может «взломать» нашу базу данных. Давайте снова посмотрим как будут выглядеть SQL-запросы, в зависимости от ввода пользователя:
Alex
SELECT phone_number FROM users WHERE name = 'Alex'
Mc’Donalds
SELECT phone_number FROM users WHERE name = 'Mc\'Donalds'
Joe’; DROP TABLE users; —
SELECT phone_number FROM users WHERE name = 'Joe\'; DROP TABLE users; --'
mysql_real_escape_string без разбора помещает косую черту перед всем, у чего может быть какое-то особое значение.
Далее, заменим наш скрипт на форуме:
Posted by on
Мы применяем функцию htmlspecialchars ко всем пользовательским данным, прежде, чем вывести их. Теперь сообщение вредителя выглядит так:
Posted by JackTR on July 18, 12:56
<script src="http://evil.com/dangerous.js" type="text/javascript" charset="utf-8"></script>
Обратите внимание, что значения, полученные от пользователи, на самом деле не «повреждены». Любой браузер парсит этот как HTML и выведет на экран все в правильной форме.
Что возвращает нас к.
Все вышеупомянутое демонстрирует проблему, характерную для многих систем: текст в тексте должно быть подвергнут экранированию, если предполагается, что он не должен иметь специальных символов. Помещая текстовые значения в SQL, они должны быть экранированы по правилам SQL. Помещая текстовые значения в HTML, они должны быть экранированы по правилам HTML. Помещая текстовые значения в (название технологии), они должны быть экранированы по правилам (название технологии). Вот и все.
Для полноты картины
- Validation
Вы можете проверить, соответствует ли пользовательский ввод некоторой заданной спецификации. Если Вы требуете ввода числа, а пользователь вводит нечто другое, программа должна сообщить ему об этом и отменить ввод. Если все это правильно организовать, то нет никакого риска схватить «DROP TABLE users» там, где, предполагалось, пользователь введет «42». Это не очень практично, для избегания HTML/SQL-инъекций, т.к. часто требуется принять текст свободного формата, который может содержать «подковырки». Обычно валидацию используют в дополнение к другим мерам. - Sanitization
Вы можете так же «втихую» удалить любые символы, которые считаете опасными. Например, просто удалить что-либо похожее на HTML-тег, что избежать добавления на ваш форум. Проблема в том, что вы можете удалить вполне законные части текста.
Prepared SQL statements
Есть специальные функции, делающие то, чего мы и добивались: заставляют БД понять различия между самим SQL-запросом и информацией, предоставленной пользователями. В РНР они выглядят примерно так:
$stmt = $pdo->prepare('SELECT phone_number FROM users WHERE name = ?'); $stmt->execute($_POST['name']);
При этом отправка происходит в два этапа, четко разграничивая запрос и переменные. БД имеет возможность сначала понять структуру запроса, а потом заполнить его значениями.
Экранирование символов в Java
Что-то пошло не так! Данная статья писалась как выполнение тестового задания на должность в команде JavaRush. И писалась как полноценная лекция. За счет этого гарантирую вам качество и количество полезных знаний скопившихся в этом посте. Помимо практической и теоретической информации, в статье присутствуют интересные факты, о которых вы могли даже не догадываться! Hello World! Экранирование символов — это очень интересное и необходимое техническое решение. Необходимость в экранировании символов сыграло важную роль в истории всей индустрии программирования. В этой статье мы поговорим о том, что такое экранирование символов, почему появилась потребность их экранировать, и как экранирование символов реализовано в Java. В статье будут приведены примеры и интересные факты, связанные с темой экранирования символов. Приятного чтения! Вся информация в компьютерной системе представлена в виде текста, который на более низком уровне представлен байтами. Когда мы пишем письмо или сообщение, мы набираем текст, который будет понятен для человека. Когда же мы пишем код в IDE, мы набираем текст, который сможет разобрать компилятор. В Java текст можно представить в виде типа String , для обозначения данных которого используются управляющие символы — парные кавычки.
String str = "Hello World!";
С текстом “Hello World!” никаких проблем не возникает, но что если этот же текст необходимо выделить прямой речью? Воспользовавшись правилами грамматики становится ясно, что текст “Hello World!”, помимо управляющих символов от типа String , требуется поместить в кавычки прямой речи.
String str = "Java said, "Hello World!"";
Такой вариант будет нерабочим, т.к. компилятор попросту не поймет в какой же момент заканчивается инициализация переменной str . Для решения этой и подобных ей проблем было придумано экранировать символы , то есть менять управляющие символы на так называемые управляющие последовательности, известные также, как escape-последовательности . Ниже приведен список действующих escape-последовательностей java для использования в строках. \t — Символ табуляции (в java – эквивалент четырех пробелов); \b — Символ возврата в тексте на один шаг назад или удаление одного символа в строке (backspace); \n — Символ перехода на новую строку; \r — Символ возврата каретки; \f — Прогон страницы к началу следующей страницы; \’ — Символ одинарной кавычки; \» — Символ двойной кавычки; \\ — Символ обратной косой черты ( \ ). Теперь давайте выделим прямую речь в нашей фразе так, чтобы компилятор смог без проблем разобрать написанное.
String str = "Java said, \"Hello World!\"";
Таким образом, написанный текст понятен и компилятору и человеку, если содержимое переменной str вывести на экран. Мы разобрались с тем, что такое экранирование символов и для чего оно нужно. И даже экранировали символ двойной кавычки! Приступим к разбору оставшихся escape-последовательностей.
Символ табуляции в строке обозначается escape-последовательностью \t и является аналогом четырех пробелов. Однако, если длина строки, состоящая из четырех пробелов будет равна длине четырех символов, то длина строки с символом табуляции будет равна одному. Символ табуляции часто используется для построения таблиц или псевдографических элементов интерфейса, т.к. это удобнее записи четырех пробелов. Ниже пример псевдографического интерфейса. Среди всех escape-последовательностей символ \b пожалуй самый интересный, ведь он позволяет нам удалить последний символ в строке вывода, подобно, если бы мы стирали его нажатием клавиши backspace .
System.out.print("2 + 2 = 5"); // На экране отображается 2 + 2 = 5 System.out.print("\b");// На экране отображается 2 + 2 = System.out.print("4");// На экране отображается 2 + 2 = 4
Символы \n и \r имеют общую историю — рассмотрим их вместе. С символом переноса строки \n вы могли встречаться ранее. Например, если метод println() выводит информацию так, что следующий вывод будет с новой строки, то метод print() не выполняет переноса строки после вывода, но если добавить в конец вывода символ \n , то перенос строки будет выполнен.
System.out.print("Следующий вывод будет с новой строки\n"); System.out.println("Следующий вывод будет с новой строки");
Символ возврата каретки \r позволяет нам вернуть курсор к началу строки вывода и отображать новую информацию так, как будто ранее в этой строке ничего не было.
System.out.print("Текст который необходимо переписать.");//На экране отображается "Текст который необходимо переписать." System.out.print('\r');//На экране пусто System.out.print("Новый текст.");//На экране отображается "Новый текст."
На самом деле возврат каретки берет свое начало еще со времен, когда текст печатали на печатных машинках. Чтобы выполнить перенос строки, необходимо было передвинуть каретку и опустить рычажок (части механизма печатной машинки), после чего будет выполнен перенос строки. Если же рычажок не опустить, то можно было продолжать печатать в той же строке. Что мы и наблюдаем, выводя символ \r . В связи с этим, когда программист хотел выполнить перенос строки, он, по привычке, в конце вывода выполнял последовательность из символов \r\n . Когда эра печатных машинок подошла к концу, появилось поколение программистов, которые все еще использовали эту последовательность, хотя сами за печатной машинкой никогда не работали. Они часто забывали в каком порядке необходимо было выполнить данную последовательность — \r\n или \n\r . Тогда им на помощь пришло проверочное слово return , где наглядно виден порядок вывода этих символов. Однако позже при разработке программного обеспечения на первые версии Windows, после MS-DOS, программисты вынуждены были использовать последовательность \r\n . Сейчас же об этом можно не беспокоиться и для переноса строки использовать только символ \n . Вернемся еще раз в прошлое, примерно в 80-е годы. Именно тогда символ прогона страницы \f к началу следующей страницы имел популярность. В то время были большие линейные принтеры, для работы с которыми необходимо было писать программный код, содержащий что и как принтер должен напечатать. И для обозначения, что текст необходимо начать печатать с новой страницы использовался символ \f . В наше же время этот символ давно утратил свою актуальность, и навряд ли вы с ним когда-либо столкнетесь. Размеры линейного принтера весьма внушительны. С символами \’ и \\ все точно также как и с экранированием двойной кавычки, пример был в начале статьи. Экранировать одинарную кавычку придется, например, для инициализации типа char одинарной кавычкой.
char ch = '\'';
Экранировать символ обратной косой черты необходимо для указания, что последующий символ не будет являтся частью escape-последовательности.
System.out.println("\\n - escape-последовательность переноса строки"); // Вывод: \n - escape-последовательность переноса строки
На практике же экранировать обратный слеш чаще приходится при работе с путями:
System.out.println("It's Java string: \"C:\\Program Files\\Java\\jdk1.7.0\\bin\""); // Вывод: It's Java string: "C:\Program Files\Java\jdk1.7.0\bin"
Я подчеркнул, что данные escape-последовательности употребляются в строках (строковых литералах), т.к. остальная их часть используется для описания регулярных выражений класса Pattern и не относится к теме данной статьи. Здесь можно ознакомиться со списком всех escape-последовательностей класса Pattern . Однако, стоит отметить, что регулярные выражения в том виде, в котором они есть сейчас, невозможно представить без использования escape-последовательностей не только в java, но и в других популярных языках программирования, например, PHP. В java экранирование символов используется и в форматировании строк. Например, задавая формат строки для отображения символа процента, необходимо продублировать символ процента – %% , иначе получим ошибку, а IDE будет предлагать дописать процент.
System.out.printf("Процент жирности молока : %d%%", 10); // Процент жирности молока : 10%
На этом статья подходит концу. Надеюсь, вы узнали много нового об экранировании символов, и о том, как применять это на практике. Экранирование символов присуще многим языкам программирования. В java, как и в других си-подобных языках данная технология реализована почти одинаково. Поэтому, полученные вами знания из этой статьи вполне могут пригодится не только в java. Спасибо за внимание и удачи в обучении!