5.2.1. Русский язык в LaTeX
Этот шаблон документа разработан в 2014 году
Данилом Фёдоровых (danil@fedorovykh.ru)
для использования в курсе
«Документы и презентации в \LaTeX», записанном НИУ ВШЭ
для Coursera.org: http://coursera.org/course/latex. Исходная версия шаблона —
https://www.writelatex.com/coursera/latex/5.2.1
Исходный код
% Этот шаблон документа разработан в 2014 году % Данилом Фёдоровых (danil@fedorovykh.ru) % для использования в курсе % >, записанном НИУ ВШЭ % для Coursera.org: http://coursera.org/course/latex . % http://coursera.org/course/latex % Исходная версия шаблона --- % https://www.writelatex.com/coursera/latex/5.2.1 \documentclass[a4paper,12pt] %%% Работа с русским языком \usepackage % поиск в PDF \usepackage % русские буквы в формулах \usepackage[T2A] % кодировка \usepackage[utf8] % кодировка исходного текста \usepackage[english,russian] % локализация и переносы \usepackage \frenchspacing %%% Дополнительная работа с математикой \usepackage % AMS \usepackage % "Умная" запятая: $0,2$ --- число, $0, 2$ --- перечисление %% Номера формул %\mathtoolsset % Показывать номера только у тех формул, на которые есть \eqref<> в тексте. %\usepackage % Нумерация формул слева %% Свои команды \DeclareMathOperator<\mathop> %% Перенос знаков в формулах (по Львовскому) \newcommand*<\hm>[1] <\hbox<$\mathsurround=0pt #1$>><>> %%% Работа с картинками \usepackage % Для вставки рисунков \graphicspath> % папки с картинками \setlength\fboxsep % Отступ рамки \fbox<> от рисунка \setlength\fboxrule % Толщина линий рамки \fbox<> \usepackage % Обтекание рисунков текстом %%% Работа с таблицами \usepackage % Дополнительная работа с таблицами \usepackage % Длинные таблицы \usepackage % Слияние строк в таблице %%% Теоремы \theoremstyle % Это стиль по умолчанию, его можно не переопределять. \newtheorem[section] \newtheorem[theorem] \theoremstyle % "Определение" \newtheorem[theorem] \newtheorem[section] \theoremstyle % "Примечание" \newtheorem* %%% Программирование \usepackage % логические операторы %%% Страница \usepackage % Возможность сделать 14-й шрифт \usepackage % Простой способ задавать поля \geometry \geometry \geometry \geometry % %\usepackage % Колонтитулы % \pagestyle %\renewcommand<\headrulewidth> % Толщина линейки, отчеркивающей верхний колонтитул % \lfoot % \rfoot % \rhead % \chead % \lhead % \cfoot % По умолчанию здесь номер страницы \usepackage % Интерлиньяж %\onehalfspacing % Интерлиньяж 1.5 %\doublespacing % Интерлиньяж 2 %\singlespacing % Интерлиньяж 1 \usepackage % Узнать, сколько всего страниц в документе. \usepackage % Модификаторы начертания \usepackage \usepackage[usenames,dvipsnames,svgnames,table,rgb] \hypersetup< % Гиперссылки unicode=true, % русские буквы в раздела PDF pdftitle=, % Заголовок pdfauthor=, % Автор pdfsubject=, % Тема pdfcreator=, % Создатель pdfproducer=, % Производитель pdfkeywords= , % Ключевые слова colorlinks=true, % false: ссылки в рамках; true: цветные ссылки linkcolor=red, % внутренние ссылки citecolor=black, % на библиографию filecolor=magenta, % на файлы urlcolor=cyan % на URL > \usepackage % Еще инструменты для ссылок %\usepackage[style=authoryear,maxcitenames=2,backend=biber,sorting=nty] \usepackage % Несколько колонок \usepackage % Работа с графикой \usepackage \usepackage \author <\LaTeX<>в Вышке> \title \date \begin % конец преамбулы, начало документа \maketitle \begin Текст аннотации \end Старый заголовок "--- \abstractname \renewcommand \begin Текст аннотации с новым заголовком \end \section Номер текущего раздела, записанный буквой кириллицы: \Asbuk \renewcommand> \begin \item Первый. \item Второй. \end N dash -- M dash --- Москва "--- столица РФ. "--* Прямая речь > $\tg x$ \today \section В русском наборе принято: \begin \item единицы измерения, знак процента отделять пробелами от числа: 10~кВт, 15~\%; \item $\tg 20^\circ$, но: 20~$<>^\circ$С; \item знак номера, параграфа отделять от числа: №~5, \S~8; \item стандартные сокращения: т.\:е., и~т.\:д., и~т.\:п.; \item неразрывные пробелы в~предложениях. \end \section \begin \item[До:] $ \epsilon \ge \phi$, $\phi \leq \epsilon$, $\kappa \in \emptyset$. \renewcommand> \renewcommand<\phi>> \renewcommand<\kappa>> \renewcommand<\le><\ensuremath<\leqslant>> \renewcommand<\leq><\ensuremath<\leqslant>> \renewcommand<\ge><\ensuremath<\geqslant>> \renewcommand<\geq><\ensuremath<\geqslant>> \renewcommand \item[После:] $\epsilon \ge \phi$, $\phi \leq \epsilon$, $\kappa \in \emptyset$. \end \end % конец документа
Записки о преподавании, LaTeX и не только
Я расскажу, как установить, поставить русский словарь и переносы в LaTeX. Например, в редакторе TeXStudio.
1. Используем словари OpenOffice. Идет по ссылке, скачиваем словарь в виде .oxt файла.(Можно выбрать другой словарь русского языка, например с буквой Ё, пройдя по другой ссылке.)
2. На самом деле .oxt файл — это zip-архив. Редактируем название файла: добавляем расширение .zip.
3. Открыв аем скачанный файл архиватором. Извлекаем файлы ru_RU.aff, ru_RU.dic и hyph_ ru_RU.dic в папку словарей TeXStudio.
У меня это папка по умолчанию «C:\Program Files (x86)\TeXstudio\dictionaries\».
В TeXStudio можно выбрать папку для словарей (Options -> Configure TexStudio, вкладка General).
4. В TeXStudio открываем меню Options -> Configure TexStudio. Во вкладке General выбираем Default Language: ru_RU (или ru_RU_yo, если скачали словарь с буквой Ё).
5. Можно заодно настроить русский тезаурус.
Если в скачанном .oxt файле есть .dat и .idx файлы, извлекаем их в ту же папку словарей TeXStudio . В TeXStudio открываем меню Options -> Configure TexStudio. Во вкладке General выбираем Theraurus Database: файл th_ru_RU_v2.dat.
Introduction
This article explores typesetting Russian text: enabling correct use of Cyrillic characters, such аs ц, ч, ш, щ, ъ etc., and providing support for language-specific features such as hyphenation. If you are looking for instructions on how to use more than one language in a single document, for instance English and Russian, see the International language support article.
Russian example using pdfLaTeX
We’ll start with the following pdfLaTeX example which you can open in Overleaf using the link below the code. Because Russian uses the Cyrillic script pdfLaTeX needs to ensure it not only handles the input (encoding) of Cyrillic text but also ensure the correct (output) encoding is applied to any fonts used to typeset the document. These encoding issues are discussed below.
\documentclassarticle> \usepackage[T2A]fontenc> %Hyphenation rules %-------------------------------------- \usepackagehyphenat> \hyphenationма-те-ма-ти-ка вос-ста-нав-ли-вать> %-------------------------------------- \usepackage[english, russian]babel> \begindocument> \tableofcontents \beginabstract> Это вводный абзац в начале документа. \endabstract> \sectionПредисловие> Этот текст будет на русском языке. Это демонстрация того, что символы кириллицы в сгенерированном документе (Compile to PDF) отображаются правильно. Для этого Вы должны установить нужный язык (russian) и необходимую кодировку шрифта (T2A). \vskip12pt \textbfЭтот текст будет на русском языке. Это демонстрация того, что символы кириллицы в сгенерированном документе (Compile to PDF) отображаются правильно.> \vskip12pt \textitЭтот текст будет на русском языке. Это демонстрация того, что символы кириллицы в сгенерированном документе (Compile to PDF) отображаются правильно.> \sectionМатематические формулы> Кириллические символы также могут быть использованы в математическом режиме. \beginequation> S_\textupис> = S_123> \endequation> \enddocument>
This example produces the following output:
Background topics: characters and encodings
The following sections provide background material on topics related to typesetting different languages using LaTeX (mostly related to pdfLaTeX).
Text files: integers and characters
Any text file, such as a LaTeX input .tex file, is nothing more than a stream of numeric (integer) values which are being used as a mechanism to represent characters of text; consequently, processing a text file involves scanning (reading/processing) a series of integer values. However, an important question arises: which set of characters is actually represented by the integer values contained in a particular text file? In other words, how have those integer values been encoded: what is the correct (intended) «mapping» (encoding) from integers in the text file to the corresponding characters they are supposed to represent?
Text files can be generated within innumerable computing environments: across different countries/continents, using a multitude of different devices, operating systems and editing tools. Originators of text files could, potentially, use or apply different text encodings according to local requirements, such as language, when generating and storing the sequence of integer values chosen to represent the individual characters contained in a text file. This may work well if the generated text files stayed within compatible technical ecosystems, which use the same encoding, but what would happen when those files are transferred to completely different environments—because many text files do not contain any information which indicates the encoding used to generate them.
Clearly, the producer (originator) and consumer (user) of textual data must, somehow, agree on the encoding (mapping) being used, otherwise encoding errors are likely to arise due to mismatches between the integer data in the file and the set of characters it is assumed to represent. In addition to correctly mapping text file integer values to characters, any subsequent visual display of those characters requires some form of font that is capable of providing the data (shapes, or even bitmaps) to output a visual representation of the desired characters.
Input encoding: inputenc , UTF-8 and a change to LaTeX in 2018
Historically, a variety of 8-bit encodings were used to generate/process text files, including LaTeX inputs. To cut short a very long story, the developers of LaTeX created the inputenc package to address encoding issues—allowing text files, created using various encodings, to be transferred between disparate LaTeX installations.
However, over time, users/software developers moved away from multiple 8-bit encodings to using Unicode and its UTF-8 encoding scheme, which became the de facto option for encoding text files. Prior to 2018, to process UTF-8 encoded files LaTeX document preambles included the line
\usepackage[utf8]inputenc>
Readers might observe that the example above does not include the line \usepackage[utf8] in the document preamble: why is that? This is due to an important change to LaTeX introduced in 2018: a switch to UTF-8 as the default input encoding. Documents typeset with pdfLaTeX, and using UTF-8 encoded text, including those created and typeset on Overleaf, no longer need to include \usepackage[utf8] but is does no harm to do so. For further information see the April 2018 issue of LaTeX News and the Overleaf blog post TeX Live upgrade—September 2019. All text files created on Overleaf are encoded using UTF-8.
Output encoding: the fontenc package (for use with pdfLaTeX)
To correctly typeset characters contained within input files, those characters need to be mapped to the appropriate output shapes (glyphs) contained in fonts used to typeset the document. This “output encoding” is handled by another package called fontenc .
To use fontenc include the following line in your document preamble, using an encoding, such as the T2A encoding, which supports the Cyrillic script:
\usepackage[T2A]fontenc>
The following chart lists the T2A font encoding for Cyrillic text. It is reproduced from page 23 of the document LaTeX font encodings which is available on CTAN.
Language-specific packages and commands
To extended the default L a T e X capabilities, for proper hyphenation and translating the names of the document elements, import the babel package and use the russian language option:
\usepackage[russian]babel>
As you may see in the example in the introduction, instead of «Abstract» and «Contents» the Russian words «Аннотация» and «Содержание» are used. Cyrillic characters can also be used in mathematical mode.
If you need to include more than one language, for instance, Russian and English, see the International language support article to learn how to achieve this. A great deal of useful background information can be found in the document Russian language module for Babel.
Hyphenation
To achieve linebreaks, some words have to be hyphenated: broken up into syllables separated by a — (hyphen), allowing the word to continue on the next line. For example, математика could become мате-мати-ка. The babel package usually does a good job of hyphenation but, occasionally, you may need to define hyphenation points manually, which you can do using these commands in the preamble:
\usepackagehyphenat> \hyphenationмате-мати-ка восста-навливать>
\usepackage imports the hyphenat package and the second line is a list of space-separated words with defined hyphenation points. If you want to prevent automatic hyphenation of a particular word , use the command word> within your document.
A final example
This final example configures LaTeX so that the Russian text can be typeset using pdfLaTeX, XeLaTeX and LuaLuaTeX—to switch compilers on Overleaf, see the article Changing compiler.
This example uses the \iftutex command from the iftex package to detect whether a Unicode-aware engine (LuaTeX or XeTeX) is being used to compile the LaTeX code (document). If so, Google’s OpenType Noto fonts are configured via the fontspec package and used to typeset the document. If a non-Unicode-aware engine, such as pdfTeX, is detected then the LaTeX code (document) is typeset using old 8-bit font technologies (based on Adobe Type 1).
The following code opens on Overleaf and defaults to compiling with XeLaTeX. To use a different compiler, see the article Changing compiler.
\documentclassarticle> \usepackageiftex> \iftutex % For LuaTeX or XeTeX Use Google's % OpenType Noto fonts for typesetting % Russian text \usepackagefontspec> \defaultfontfeaturesLigatures=TeX>> \setmainfontNoto Serif> \setsansfontNoto Sans> \setmonofontNoto Sans Mono> \else % For pdfTeX we must use old % 8-bit font technologies \usepackage[T2A]fontenc> \fi %Hyphenation rules \usepackagehyphenat> \hyphenationма-те-ма-ти-ка вос-ста-нав-ли-вать> \usepackage[english, russian]babel> \begindocument> Этот текст будет на русском языке. Это демонстрация того, что символы кириллицы в сгенерированном документе отображаются правильно. \vskip12pt \textbfЭтот текст будет на русском языке. Это демонстрация того, что символы кириллицы в сгенерированном документе отображаются правильно.> \vskip12pt \textitЭтот текст будет на русском языке. Это демонстрация того, что символы кириллицы в сгенерированном документе отображаются правильно.> \vskip12pt \textttЭтот текст будет на русском языке.> \enddocument>
Using XeLaTeX, this example produces the following output:
Further reading
For more information see
- Supporting modern fonts with X Ǝ L a T e X
- Typesetting quotations and quotation marks
- International language support
- Chinese
- French
- German
- Greek
- Italian
- Japanese
- Korean
- Portuguese
- Arabic
- Spanish
- Russian language module for Babel
- History of the T2A, T2B and T2C Cyrillic encodings
- The not so short introduction to L a T e X 2 ε
- LaTeX/Internationalization on WikiBooks
- LaTeX/Special_Characters on WikiBooks
LaTeX/Использование разных языков
Для написания в LaTeX документов на языках, отличных от английского, необходимо указать:
- как расставлять переносы в словах выбранного языка;
- как использовать правила типографского набора для выбранного языка (например, во французском языке перед каждым символом двоеточия (:) ставится обязательный пробел);
- как вводить специальные символы, особенно для языков с системой ввода (арабский, китайский, японский, корейский).
Удобно, когда есть возможность вставлять специальные символы выбранного языка непосредственно с клавиатуры, а не использовать громоздкий код (например, вместо \" просто ввести ä). Для этого нужно настроить внутреннюю кодировку символов, подробности см. в Специальные символы.
Для некоторых языков требуются специальные шрифты с соответствующим набором кодирования, см. Кодировка шрифта.
Некоторые из методов, описанных в этой главе, пригодятся при наборе имён неанглоязычных авторов для библиографического списка.
В этом разделе собраны советы о том, как в LaTeX написать документ на любом другом языке, кроме английского. Если у Вас есть подобный опыт использования языка, который не указан в списке, пожалуйста добавьте несколько замечаний.
Необходимые условия [ править ]
Для многих отличных от английского языков часто необходимо использовать специальные символы. Для этого нужно установить внутреннюю кодировку и кодировку шрифта.
Для большинства языков на латинице оптимальна следующая конфигурация (проверьте, что ваш документ сохранён в кодировке UTF-8):
\usepackage[utf8]inputenc> \usepackage[T1]fontenc>
Для получения дополнительной информации см. Кодировка шрифта и Специальные символы.
Пакет babel [ править ]
Пакет babel, созданный Йоганнесом Браамсом (Johannes Braams), отвечает за
- правила расстановки переносов;
- новые команды, упрощающие ввод специальных символов.
Чтобы подключить пакет babel, добавьте в преамбулу документа:
\usepackage[язык]babel>
В качестве аргумента укажите нужный Вам язык.
По возможности эту строчку необходимо добавить сразу же после команды \documentclass. В этом случае для всех остальных загружаемых пакетов будет использоваться выбранный язык. Список языков, подключаемых в установленной у Вас системе LaTeX, отображается при каждой компиляции документа. Если установленный Вами формат LaTeX не поддерживает расстановку переносов выбранного языка, то пакет babel будет продолжать свою работу, отключив расстановку переносов. Это отрицательно скажется только на внешнем виде документа.
Можно выбрать несколько языков набора текста:
\usepackage[языкА,языкВ]babel>
В этом случае основным языком будет указан последний язык из перечисленных в списке (т.е. языкВ). Для смены основного языка используйте команду
\selectlanguageязыкА>
Для вставки небольшого кусочка текста на другом языка также можно использовать команду
\foreignlanguageязыкВ>
Если нужно вставить большой кусок текста на другом языке, используйте окружение:
\beginotherlanguage>языкВ> Текст на языкеВ. Данное окружение переключает все определения, связанные с выбранным языком: подписи к рисункам, таблицам и т.д. \endotherlanguage>
Окружение otherlanguage* набирает основной текст согласно правилам другого языка, но при этом использует основной язык для названий вспомогательных конструкций (подписи к рисункам и т.д.). Окружение hyphenrules переключается только правила расстановки переносов. Чтобы запретить расстановку переносов, в качестве аргумента команды укажите nohyphenation.
Кириллица [ править ]
Пакет babel, начиная с версии 3.7, поддерживает кодировку T2* и вёрстку текстов на русском, болгарском и украинском языках с использованием кириллических символов. Поддержка кириллицы основана на стандартных механизмах LaTeX с дополнительным использованием пакетов fontenc и inputenc. Пакеты AMS-LaTeX необходимо подключить перед пакетами fontenc и babel. Чтобы использовать кириллицу в математических формулах, перед пакетом fontenc подключите пакет mathtext:
\usepackageamsmath,amsthm,amssymb> \usepackagemathtext> \usepackage[T1,T2A]fontenc> \usepackage[utf8]inputenc> \usepackage[english,bulgarian,ukrainian,russian]babel>
Вообще говоря, пакет babel автоматически выберет кодировку шрифта по умолчанию: для русского, болгарского и украинского языков это будет T2A. Однако для многоязыковых документов, в которых используются языки, основанные на кириллице и латинице, имеет смысл явно указать латинскую кодировку шрифтов. Пакет babel сам переключит нужную кодировку шрифта при смене языка в тексте документа.
На современных операционных системах в качестве внутренней кодировки кириллических текстов лучше всего использовать Unicode (utf8 or utf8x), а не KOI8-RU (koi8-ru).
Дополнительно к подключению правил расстановки переносов, переводу автоматически создаваемых текстовых строк и активации некоторых специфичных для языка типографских правил (например, \frenchspacing – обязательный пробел перед двоеточием во французском языке), пакет babel представляет несколько команд для вёрстки текста согласно стандартам русского, болгарского и украинского языков.
Для указанных языков обеспечивается специфическая пунктуация: кириллическое тире для текста (оно слегка уже латинского тире и окружено крошечными пробелами), тире для обозначения прямой речи, кавычки, команды для более простой расстановки переносов:
Сочетание символов | Действие |
---|---|
"| | Запрещает лигатуру (т.е. написание нескольких символов языке одним знаком) в этом месте. |
"- | Дефис, разрешающий перенести остаток слова. |
"--- | Кириллическое длинное тире в обычном тексте. |
"--~ | Кириллическое длинное тире в составных именах (фамилиях). |
"--* | Кириллическое длинное тире для обозначения прямой речи. |
"" | Похоже на действие для "-, , но не генерирует знака переноса. Используется для составных слов с дефисом (например, x-""y ), или некоторых других знаков(например, и/или). |
"~ | Отмечает составное слово без разрыва. |
"= | Отмечает составное слово с разрывом, разрешая перенос в словах-компонентах. |
", | Узкий пробел для инициалов, разрешая переносить следующую за ними фамилию. |
"‘ | Немецкая открывающая двойная кавычка (,,). |
"’ | Немецкая закрывающая двойная кавычка (“). |
" | Французская открывающая двойная кавычка (<<). |
"> | Французская закрывающая двойная кавычка (>>). |
Для подключаемых с помощью пакета babel русского и украинского языков определены команды \Asbuk и \asbuk, которые, аналогично командам \Alph and \alph, переключают регистр букв русского или украинского алфавита (в зависимости от текущего языка документа). Для болгарского языка команды \enumBul, \enumLat, \enumEng переключают регистр для болгарского, латинского, английского языка, соответственно.
- Страницы с устаревшим атрибутом подсветки синтаксиса «enclose»
- LaTeX