aboutsummaryrefslogtreecommitdiff
path: root/fichiers/03-grep-bash.tex
blob: 21ed846789c395204229da9c4ed1fb40bfa1cc39 (plain)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
\input{../_preamble}
\usepackage{menukeys}
\title{grep et bash}
\usepackage{units}
\usepackage{cleveref}
\usepackage{booktabs}
\usepackage{xltabular}
\usepackage{dingbat}
\usepackage{mdframed}
\mdfsetup{
  backgroundcolor=Lavender,
  hidealllines=true}
\usepackage{minted}
\surroundwithmdframed{minted}
\setminted{
  breaklines,
  breaksymbolright=\small\carriagereturn}
\setmintedinline{bgcolor=Lavender}
\usepackage{soul}
\begin{document}
\maketitle
\renewcommand{\contentsname}{Sommaire}
\tableofcontents

\chapter{grep, les expressions régulières}
\label{cha:grep-les-expressions}
Les expressions régulières se rapprochent des \emph{wildcards} ou
\enquote{métacaractères} qui ont été présentés dans
\href{https://notabug.org/ralessi/courses/src/master/fichiers/01-ligne-de-commande.tex#L709}{le
  cours sur la ligne de commande}. C'est une technique commune à pour
ainsi dire tous les langages de programmation qui permet de construire
des \enquote{modèles}, en anglais \emph{patterns}, susceptibles de
capturer des chaînes de caractères.

Par exemple, soit le fichier suivant:
\begin{minted}{text}
/usr/share/dict/cracklib-small
\end{minted}
Ce fichier fait partie d'un programme dont le rôle est de vérifier la
robustesse des mots de passe. Il contient un grand nombre d'entrées, à
raison d'un mot par ligne. Vérifions cela:
\begin{minted}{text}
[robert@kiddo courses]$ wc -l /usr/share/dict/cracklib-small 
54763 /usr/share/dict/cracklib-small
\end{minted}
L'expression régulière suivante retourne tous les mots de cinq lettres
de ce fichier qui commencent par la lettre \verb|c| et se terminent
par la lettre \verb|h|:
\begin{minted}{text}
[robert@kiddo courses]$ grep '\<c...h\>' /usr/share/dict/cracklib-small
catch
cinch
clash
cloth
coach
conch
couch
cough
crash
crush
czech
\end{minted}

\begin{quoting}
  \textsc{Rem.} \verb|grep| recherche les modèles ligne par
  ligne et retourne donc un résultat positif dès lors qu'un modèle
  donné a été trouvé au moins une fois dans une ligne.
\end{quoting}

\paragraph{Modèles}
Pour construire les modèles (\emph{patterns}), on peut utiliser les
symboles suivants\footnote{Cette liste n'est pas exhaustive.}:
\begin{xltabular}{\linewidth}{lX}
  \toprule
  Symbole & Signification \\ \midrule\endhead
  \verb|.| & tout caractère unique\\
  \verb|?| & le caractère précédent est répété 0 ou une fois\\
  \verb|*| & le caractère précédent est répété 0 fois ou autant
             de fois que possible\\
  \verb|+| & le caractère précédent est répété une fois \emph{au
             moins}\\
  \verb|{n}| & le caractère précédent est répété exactement \emph{n}
               fois\\
  \verb|{n,m}| & le caractère précédent est répété au moins \emph{n}
                 fois et au plus \emph{m} fois\\
  \verb|[abc]| & le caractère précédent est l'un de ceux qui se
                 trouvent entre les crochets droits\\
  \verb|[^abc]| & le caractère précédent n'est pas l'un de ceux qui se
                  trouvent entre les crochets droits\\
  \verb|[a-z]| & le caractère précédent est compris entre \emph{a} et
                 \emph{z}, dans l'ordre de la table des caractères \\
  \verb|()| & ce qui est inclus entre les parenthèses est traité comme
              un groupe \\
  
  \verb+|+ & opérateur logique signifiant \emph{ou} \\
  \verb|^| & représente le début de la ligne\\
  \verb|$| & représente la fin de la ligne\\ \\
  \verb|\<| et \verb|\>| & représentent respectivement un début et une
                           fin de mot\\
  \bottomrule
\end{xltabular}

\paragraph{grep, egrep}
À la place de \verb|grep|, on peut saisir à la ligne de commande
\verb|egrep| ou \verb|grep -E| pour \emph{extended regular
  expressions}. Quelle est la différence? Retenez ici simplement que
sous \verb|grep| les metacaractères
\begin{minted}{text}
? + { } | ( )
\end{minted}
doivent être précédés de la \emph{séquence d'échappement} \verb|\|
comme ceci:
\begin{minted}{text}
\? \+ \{ \} \| \( \)
\end{minted}
tandis que cela ne se fait pas avec \verb|egrep|.

\paragraph{options}
La commande \verb|(e)grep| peut recevoir un grand nombre
d'options. Parmi ces options, retenons celles-ci:
\begin{description}
\item[-n] retourne les numéros des lignes dans lesquelles le modèle de
  recherche a été trouvé.
\item[-c] retourne le nombre d'occurrences trouvées.
\item[-i] demande à \verb|grep| de ne pas faire de différence entre
  les minuscules et les majuscules.
\item[-H] retourne le nom du fichier dans lequel le modèle recherché
  est trouvé.
\item[-v] \emph{nie} le modèle recherché: \verb|grep| retournera donc
  les lignes dans lesquelles le modèle \emph{n'a pas été trouvé}. 
\end{description}

\paragraph{Exemples}
Les exemples ci-dessous utilisent \href{https://notabug.org/ralessi/courses/src/master/fichiers/01-ligne-de-commande.tex#L732}{la
    technique de la redirection}.
\begin{minted}{text}
[robert@kiddo courses]$ cat /usr/share/dict/cracklib-small | grep '\<s.*m\>' | grep 'ea'
scream
seagram
sealteam
seam
sidearm
steam
stream
sunbeam
sunbeam's
\end{minted}
  \begin{quoting}
    \textbf{Commentaire:} La ligne de commande fait ici successivement
  les opérations suivantes:
    \begin{enumerate}
    \item Concaténation de toutes les lignes du fichier
      \verb|cracklib-small|
    \item Sélection de tous les mots qui commencent par la lettre
      \verb|s| et se terminent par la lettre \verb|m|.
    \item Parmi ces mots, sélection de ceux qui contiennent la chaîne
      \verb|ea|.
    \end{enumerate}
  \end{quoting}
\begin{minted}{text}
[robert@kiddo courses]$ cat /usr/share/dict/cracklib-small | grep '\<.....\>' | grep -E 'o{2}|e{2}' | grep 't' | column -c 70
afoot   fleet   needn't skeet   steep   taboo   three   tweed
beets   foote   roost   sleet   steer   taboo's three's
boost   greet   roots   sooth   stood   teems   tools
booth   hoots   scoot   steed   stool   teens   tooth
boots   loots   sheet   steel   stoop   teeth   trees
booty   meets   shoot   steen   sweet   tepee   troop
\end{minted}
\begin{quoting}
  \textbf{Commentaire:} La ligne de commande fait ici successivement
  les opérations suivantes:
  \begin{enumerate}
  \item Concaténation de toutes les lignes du fichier
    \verb|cracklib-small|
  \item Sélection des mots de cinq caractères.
  \item Parmi ces mots, sélection de ceux qui contiennent \emph{soit}
    la chaîne \verb|oo| \emph{soit} la chaîne \verb|ee|.
  \item Enfin, sélection, parmi ces derniers mots, de ceux qui
    contiennent la lettre \verb|t|
  \item La dernière ligne, dont on n'a pas étudié la syntaxe, demande
    l'affichage du résultat sous la forme de colonnes tabulées.
  \end{enumerate}
\end{quoting}

\end{document}