aboutsummaryrefslogtreecommitdiff
path: root/fichiers/03-grep-bash.tex
blob: 638adfd832fee9aaefa8873c22e119cd8fc1bff6 (plain)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
\input{../_preamble}
\input{../_preamble_bbl}
\usepackage{menukeys}
\title{grep et bash}
\usepackage{units}
\usepackage{cleveref}
\usepackage{booktabs}
\usepackage{xltabular}
\usepackage{dingbat}
\usepackage{mdframed}
\mdfsetup{
  backgroundcolor=Lavender,
  hidealllines=true}
\usepackage{minted}
\surroundwithmdframed{minted}
\setminted{
  breaklines,
  breaksymbolright=\small\carriagereturn}
\setmintedinline{bgcolor=Lavender}
\usepackage{soul}

\begin{document}
\maketitle
\renewcommand{\contentsname}{Sommaire}
\tableofcontents

\chapter{grep, les expressions régulières}
\label{cha:grep-les-expressions}
Les expressions régulières se rapprochent des \emph{wildcards} ou
\enquote{métacaractères} qui ont été présentés dans
\href{https://notabug.org/ralessi/courses/src/master/fichiers/01-ligne-de-commande.tex#L709}{le
  cours sur la ligne de commande}. C'est une technique commune à pour
ainsi dire tous les langages de programmation qui permet de construire
des \enquote{modèles}, en anglais \emph{patterns}, susceptibles de
capturer des chaînes de caractères.

Par exemple, soit le fichier suivant:
\begin{minted}{text}
/usr/share/dict/cracklib-small
\end{minted}
Ce fichier fait partie d'un programme dont le rôle est de vérifier la
robustesse des mots de passe. Il contient un grand nombre d'entrées, à
raison d'un mot par ligne. Vérifions cela:
\begin{minted}{text}
[robert@kiddo courses]$ wc -l /usr/share/dict/cracklib-small 
54763 /usr/share/dict/cracklib-small
\end{minted}
L'expression régulière suivante retourne tous les mots de cinq lettres
de ce fichier qui commencent par la lettre \verb|c| et se terminent
par la lettre \verb|h|:
\begin{minted}{text}
[robert@kiddo courses]$ grep '\<c...h\>' /usr/share/dict/cracklib-small
catch
cinch
clash
cloth
coach
conch
couch
cough
crash
crush
czech
\end{minted}

\begin{quoting}
  \textsc{Rem.} \verb|grep| recherche les modèles ligne par
  ligne et retourne donc un résultat positif dès lors qu'un modèle
  donné a été trouvé au moins une fois dans une ligne.
\end{quoting}

\paragraph{Modèles}
Pour construire les modèles (\emph{patterns}), on peut utiliser les
symboles suivants\footnote{Cette liste n'est pas exhaustive.}:
\begin{xltabular}{\linewidth}{lX}
  \toprule
  Symbole & Signification \\ \midrule\endhead
  \verb|.| & tout caractère unique\\
  \verb|?| & le caractère précédent est répété 0 ou une fois\\
  \verb|*| & le caractère précédent est répété 0 fois ou autant
             de fois que possible\\
  \verb|+| & le caractère précédent est répété une fois \emph{au
             moins}\\
  \verb|{n}| & le caractère précédent est répété exactement \emph{n}
               fois\\
  \verb|{n,m}| & le caractère précédent est répété au moins \emph{n}
                 fois et au plus \emph{m} fois\\
  \verb|[abc]| & le caractère précédent est l'un de ceux qui se
                 trouvent entre les crochets droits\\
  \verb|[^abc]| & le caractère précédent n'est pas l'un de ceux qui se
                  trouvent entre les crochets droits\\
  \verb|[a-z]| & le caractère précédent est compris entre \emph{a} et
                 \emph{z}, dans l'ordre de la table des
                 caractères. C'est le sens du trait d'union entre les
                 lettres \verb|a| et \verb|z|. On peut bien sûr
                 combiner des chaînes avec et sans trait d'union. Par
                 exemple, \verb|[A-Ea-e]| correspond aux cinq
                 premières lettres de l'alphabet, en majuscule et en
                 minuscule. \\
  \verb|()| & ce qui est inclus entre les parenthèses est traité comme
              un groupe \\
  
  \verb+|+ & opérateur logique signifiant \emph{ou} \\
  \verb|^| & représente le début de la ligne\\
  \verb|$| & représente la fin de la ligne\\ \\
  \verb|\<| et \verb|\>| & représentent respectivement un début et une
                           fin de mot\\
  \bottomrule
\end{xltabular}

\paragraph{grep, egrep}
À la place de \verb|grep|, on peut saisir à la ligne de commande
\verb|egrep| ou \verb|grep -E| pour \emph{extended regular
  expressions}. Quelle est la différence? Retenez ici simplement que
sous \verb|grep| les metacaractères
\begin{minted}{text}
? + { } | ( )
\end{minted}
doivent être précédés de la \emph{séquence d'échappement} \verb|\|
comme ceci:
\begin{minted}{text}
\? \+ \{ \} \| \( \)
\end{minted}
tandis que cela ne se fait pas avec \verb|egrep|.

\paragraph{options}
La commande \verb|(e)grep| peut recevoir un grand nombre
d'options. Parmi ces options, retenons celles-ci:
\begin{description}
\item[-n] retourne les numéros des lignes dans lesquelles le modèle de
  recherche a été trouvé.
\item[-c] retourne le nombre d'occurrences trouvées.
\item[-i] demande à \verb|grep| de ne pas faire de différence entre
  les minuscules et les majuscules.
\item[-H] retourne le nom du fichier dans lequel le modèle recherché
  est trouvé.
\item[-v] \emph{nie} le modèle recherché: \verb|grep| retournera donc
  les lignes dans lesquelles le modèle \emph{n'a pas été trouvé}. 
\end{description}

\paragraph{Exemples}
Les exemples ci-dessous utilisent \href{https://notabug.org/ralessi/courses/src/master/fichiers/01-ligne-de-commande.tex#L732}{la
    technique de la redirection}.
\begin{minted}{text}
[robert@kiddo courses]$ cat /usr/share/dict/cracklib-small | grep '\<s.*m\>' | grep 'ea'
scream
seagram
sealteam
seam
sidearm
steam
stream
sunbeam
sunbeam's
\end{minted}
  \begin{quoting}
    \textbf{Commentaire:} La ligne de commande fait ici successivement
  les opérations suivantes:
    \begin{enumerate}
    \item Concaténation de toutes les lignes du fichier
      \verb|cracklib-small|
    \item Sélection de tous les mots qui commencent par la lettre
      \verb|s| et se terminent par la lettre \verb|m|.
    \item Parmi ces mots, sélection de ceux qui contiennent la chaîne
      \verb|ea|.
    \end{enumerate}
  \end{quoting}
\begin{minted}{text}
[robert@kiddo courses]$ cat /usr/share/dict/cracklib-small | grep '\<.....\>' | grep -E 'o{2}|e{2}' | grep 't' | column -c 70
afoot   fleet   needn't skeet   steep   taboo   three   tweed
beets   foote   roost   sleet   steer   taboo's three's
boost   greet   roots   sooth   stood   teems   tools
booth   hoots   scoot   steed   stool   teens   tooth
boots   loots   sheet   steel   stoop   teeth   trees
booty   meets   shoot   steen   sweet   tepee   troop
\end{minted}
\begin{quoting}
  \textbf{Commentaire:} La ligne de commande fait ici successivement
  les opérations suivantes:
  \begin{enumerate}
  \item Concaténation de toutes les lignes du fichier
    \verb|cracklib-small|
  \item Sélection des mots de cinq caractères.
  \item Parmi ces mots, sélection de ceux qui contiennent \emph{soit}
    la chaîne \verb|oo| \emph{soit} la chaîne \verb|ee|.
  \item Enfin, sélection, parmi ces derniers mots, de ceux qui
    contiennent la lettre \verb|t|
  \item La dernière ligne, dont on n'a pas étudié la syntaxe, demande
    l'affichage du résultat sous la forme de colonnes tabulées.
  \end{enumerate}
\end{quoting}

\chapter{bash}
\label{cha:bash}
Comme on l'a vu, \verb|bash| est le \emph{shell} le plus répandu sur
les systèmes Linux aujourd'hui. On peut écrire en \verb|bash| des
\emph{scripts}, autrement dit de petits programmes informatiques, pour
réaliser des suites d'opérations plus ou moins complexes.

Voici un exemple très simple. Prenons les lignes suivantes:
\begin{minted}[linenos]{text}
mkdir sauvegarde
cp *.tex sauvegarde
zip -r sauvegarde.zip sauvegarde
\end{minted}
Ces trois lignes exécutent successivement les opérations suivantes:
\begin{enumerate}
\item Création d'un répertoire intitulé \verb|sauvegarde|
\item Copie de tous les fichiers \TeX{} dans le répertoire
  \verb|sauvegarde|
\item Création d'une archive \verb|.zip| de tout le répertoire.
\end{enumerate}

Pour éviter de répéter ces trois lignes de commande et d'encourir le
risque de se tromper dans la saisie, on peut décider de les écrire
dans un fichier texte que l'on appellera par exemple \verb|backup.sh|
de la façon suivante:
\begin{minted}[linenos]{bash}
#!/bin/bash
mkdir sauvegarde
cp *.tex sauvegarde
zip -r sauvegarde.zip sauvegarde
\end{minted}

Il suffit alors de demander à \verb|bash| d'exécuter ce fichier pour
que les trois opérations soient réalisées d'un coup. Comme les scripts
écrits en \verb|bash| sont interprétés par le \textsl{shell}
\verb|bash|, \emph{toute ligne de commande peut être exécutée dans un
  script}. Réciproquement, \emph{tout ce qui peut entrer dans un
  script peut aussi être exécuté à la ligne de commande}.

\section{L'éditeur de texte}
\label{sec:lediteur-de-texte}
C'est dans un \emph{éditeur de texte} que l'on saisit tout code
informatique. Certains éditeurs de texte sont très simples à
utiliser. Nous allons prendre ici l'exemple de l'un des plus simples,
\verb|nano|. Pour le lancer, il suffit de saisir à la ligne de
commande: \mintinline{text}|nano|. Après avoir lancé \verb|nano| et
saisi le script donné ci-dessus, voici ce que l'on obtient:
\begin{minted}[linenos,fontsize=\footnotesize]{text}
  GNU nano 2.8.2                     Nouvel espace                           

#!/bin/bash
mkdir sauvegarde
cp *.tex sauvegarde
zip -r sauvegarde.zip sauvegarde

















^G Aide      ^O Écrire    ^W Chercher  ^K Couper    ^J Justifier ^C Pos. cur.
^X Quitter   ^R Lire fich.^\ Remplacer ^U Coller    ^T Orthograp.^_ Aller lig.
\end{minted}

Les lignes 24 et 25 correspondent au menu de \verb|nano|. On n'y
accède pas par la souris, mais à l'aide des \emph{raccourcis clavier}
qui sont tous préfixés par le \emph{caret} (\verb|^|) qui représente
la touche \keys{Ctrl} du clavier. Donc pour quitter le programme, on
appuiera sur \keys{Ctrl-X}: voici ce que montre \verb|nano| au bas du
terminal après avoir saisi \keys{Ctrl-X}:
\begin{minted}[linenos,fontsize=\footnotesize]{text}
Écrire l'espace modifié ? (Répondre « Non » ABANDONNE les modifications.)       
 O Oui
 N Non          ^C Annuler
\end{minted}
Les opérations suivantes sont donc possibles:
\begin{enumerate}
\item \keys{O}: sauvegarde le fichier.
\item \keys{N}: quitte \verb|nano| sans sauvegarder.
\item \keys{Ctrl-C}: annule l'opération et retourne à l'éditeur de texte.
\end{enumerate}
Appuyons sur la touche \keys{O}. \verb|nano| nous invite alors à
entrer le nom du script:
\begin{minted}[linenos,fontsize=\footnotesize]{text}
Nom du fichier à écrire: backup.sh                                              
^G Aide             M-D Format DOS      M-A Ajout (à la fin)M-B Copie de sécu.
^C Annuler          M-M Format Mac      M-P Ajout (au début)^T Parcourir
\end{minted}
Après avoir entré le nom du fichier et appuyé sur la touche
\keys{Enter} pour confirmer le choix, on retourne au terminal et à la
ligne de commande.

\section{Le \emph{shebang}}
\label{sec:le-shebang}
La première ligne du script \verb|backup.sh| donné en exemple
ci-dessus appelle un commentaire particulier:
\begin{minted}[linenos]{bash}
#!/bin/bash
\end{minted}

Dans cette ligne, la séquence \mintinline{bash}|#!| s'appelle le
\emph{shebang}. Par convention, le \emph{shebang} est un préfixe que
l'on fait suivre du nom du programme qui doit interpréter le script,
précédé de son chemin d'accès absolu.

Le \emph{shebang} est important car il permet d'accéder aux
interpréteurs auxquels on souhaite accéder depuis la ligne de
commande. Par exemple, pour un script écrit en Python2, la première
ligne sera:
\begin{minted}[linenos]{python}
#!/usr/bin/env python2
"""
 Mon premier script en Python
"""
print("bonjour le monde!")
\end{minted}

\section{Les commentaires}
\label{sec:les-commentaires}
En \verb|bash|, tout ce qui, sur une même ligne, suit le signe
\mintinline{bash}|#| \emph{n'est ni interprété, ni exécuté}. On
utilise donc ce signe pour introduire des \emph{commentaires} dans le
code informatique.

Les commentaires ne servent pas uniquement à introduire des remarques
pour son usage personnel. Ils servent aussi, et surtout, à donner des
indications sur le code lui-même pour permettre aux autres de mieux
comprendre la programmation. Si le code est bien commenté, alors on
doit pouvoir le lire comme on lit un livre. Cela est très important
car les programmes longs et complexes dépassent souvent et parfois
même survivent à leur auteur.

Si le code est bien compris, il sera facilement mis à jour, corrigé et
augmenté par d'autres programmeurs.

L'art de commenter le code informatique tout en l'écrivant porte le
nom de \emph{literate programming}. Il a été inventé par Donald
E.~Knuth, le créateur de \TeX, qui a posé tous les principes de cet
art dans le cadre de la programmation en
\textsf{WEB}\footnote{\cite{Knuth1983}. Voir également en ligne
  \url{http://www.literateprogramming.com/}}.

\section{Exécution}
\label{sec:execution}
Il faut ici approfondir la notion de \emph{permissions} sur les
fichiers qui a été présentée dans le cours sur la
\href{https://notabug.org/ralessi/courses/src/master/fichiers/01-ligne-de-commande.tex#L451}{ligne
  de commande}. Nous avons en effet étudié trois types de permissions
sur les fichiers: en lecture, en écriture et en exécution. Revenons
sur les permissions données par défaut au script \verb|backup.sh|:
\begin{minted}{text}
[robert@kiddo courses]$ ls -l backup.sh 
-rw-r--r-- 1 robert robert 82 17 sept. 22:06 backup.sh
\end{minted}
Soit:
\begin{itemize}
\item lecture et écriture pour l'utilisateur \verb|robert| (\verb|rw|);
\item lecture seule pour le groupe \verb|robert| (\verb|r|);
\item lecture seule pour le reste du monde (\verb|r|)
\end{itemize}

\paragraph{chmod}
La commande qui permet de changer les droits s'appelle
\verb|chmod|. Pour comprendre comment l'utiliser, il faut savoir que
les permissions sont traduites par des valeurs numériques, à savoir:
\begin{itemize}
\item 4 pour le droit \emph{lecture};
\item 2 pour le droit \emph{écriture};
\item 1 pour le droit \emph{exécution}.
\end{itemize}
Ces valeurs peuvent être additionnées. On analyse donc ainsi les
permissions sur le fichier \verb|backup.sh|:
\begin{itemize}
\item utilisateur \verb|robert|, lecture + écriture: $4+2=6$;
\item groupe \verb|robert|, lecture: $4$;
\item reste du monde, lecture: $4$.
\end{itemize}
Soit $644$. Pour ajouter à l'utilisateur \verb|robert| seulement la
permission en exécution, il faudrait donc porter cette valeur à
$744$. Nous allons ici donner ce droit à la fois à \verb|robert|, au
groupe \verb|robert| et au reste du monde, soit une valeur de
$755$. La syntaxe est la suivante:
\begin{minted}{text}
chmod xyz <fichier>
\end{minted}\verb|xyz| sont les trois chiffres qui représentent les permissions.
\begin{minted}[escapeinside=||, linenos]{text}
[robert@kiddo courses]$ chmod 755 backup.sh 
[robert@kiddo courses]$ ls -l --color backup.sh 
-rwxr-xr-x 1 robert robert 82 17 sept. 22:06 |\textcolor{green}{backup.sh}|
\end{minted}
\begin{quoting}
  \textbf{Commentaire}:
  \begin{enumerate}
  \item La commande \verb|chmod| a été entrée à la ligne 1.
  \item À la ligne 2, nous avons lancé la commande
    \mintinline{text}|ls -l --color| sur le fichier \verb|backup.sh|:
    les droits listés à la ligne 3 montrent bien que la valeur
    \verb|x| a été ajoutée aux trois endroits possibles. On voit enfin
    que l'option \verb|--color| affiche en vert les fichiers qui sont
    exécutables.
  \end{enumerate}
\end{quoting}

Nous pouvons désormais exécuter notre script:
\begin{minted}[linenos,escapeinside=||]{text}
[robert@kiddo courses]$ ls -l --color
total 36
-rwxr-xr-x 1 robert robert   82 17 sept. 22:06 |\textcolor{green}{backup.sh}|
-rw-r--r-- 1 robert robert  165 16 sept. 19:40 bibliography.bib
drwxr-xr-x 5 robert robert 4096 17 sept. 22:30 |\textcolor{blue}{fichiers}|
-rw-r--r-- 1 robert robert  680 16 sept. 18:34 makefile
-rw-r--r-- 1 robert robert  898 16 sept. 19:39 _preamble_bbl.tex
-rw-r--r-- 1 robert robert  699 14 sept. 15:02 _preamble-ed.tex
-rw-r--r-- 1 robert robert  719 16 sept. 19:39 _preamble.tex
-rw-r--r-- 1 robert robert 1407 17 sept. 00:15 README.md
-rw-r--r-- 1 robert robert 1804 17 sept. 00:15 README.tex
[robert@kiddo courses]$ ./backup.sh 
  adding: sauvegarde/ (stored 0%)
  adding: sauvegarde/README.tex (deflated 57%)
  adding: sauvegarde/_preamble.tex (deflated 45%)
  adding: sauvegarde/_preamble_bbl.tex (deflated 57%)
  adding: sauvegarde/_preamble-ed.tex (deflated 44%)
[robert@kiddo courses]$ ls -l --color
total 44
-rwxr-xr-x 1 robert robert   82 17 sept. 22:06 |\textcolor{green}{backup.sh}|
-rw-r--r-- 1 robert robert  165 16 sept. 19:40 bibliography.bib
drwxr-xr-x 5 robert robert 4096 17 sept. 22:31 |\textcolor{blue}{fichiers}|
-rw-r--r-- 1 robert robert  680 16 sept. 18:34 makefile
-rw-r--r-- 1 robert robert  898 16 sept. 19:39 _preamble_bbl.tex
-rw-r--r-- 1 robert robert  699 14 sept. 15:02 _preamble-ed.tex
-rw-r--r-- 1 robert robert  719 16 sept. 19:39 _preamble.tex
-rw-r--r-- 1 robert robert 1407 17 sept. 00:15 README.md
-rw-r--r-- 1 robert robert 1804 17 sept. 00:15 README.tex
drwxr-xr-x 2 robert robert 4096 17 sept. 22:31 |\textcolor{blue}{sauvegarde}|
-rw-r--r-- 1 robert robert 2828 17 sept. 22:31 sauvegarde.zip
[robert@kiddo courses]$ ls sauvegarde
_preamble_bbl.tex  _preamble-ed.tex  _preamble.tex  README.tex
\end{minted}
\begin{quoting}
  \textbf{Commentaire:}
  \begin{itemize}
  \item lignes 1--11: la commande \verb|ls -l --color| donne l'état du
    dossier \emph{avant} l'exécution du script \verb|backup.sh|;
  \item lignes 12--17: exécution du script et messages du terminal;
  \item lignes 18--30: la commande \verb|ls -l --color| donne l'état du
    dossier \emph{après} l'exécution du script \verb|backup.sh|. On
    voit qu'un nouveau répertoire \verb|sauvegarde| a été créé, de
    même qu'un fichier archive \verb|sauvegarde.zip|;
  \item lignes 31--32: la commande \verb|ls sauvegarde| liste le
    contenu de ce répertoire. On y trouve tous les fichiers
    \verb|.tex| qui y ont été copiés par le script.
  \end{itemize}
\end{quoting}

\paragraph{PATH} Un dernier point reste à éclaircir: à la ligne 12,
pourquoi a-t-on écrit \mintinline{bash}|./backup.sh| et non pas
simplement \mintinline{bash}|backup.sh|? Tout simplement pour des
raisons de sécurité. En effet, le principe est que les fichiers
exécutables se trouvent dans certains répertoires-système spécialement
conçus pour les accueillir. C'est pour cette raison que l'on peut
lancer les commandes \verb|bash| sans avoir à les préfixer. Or notre
répertoire de travail ne fait partie de ces répertoires spéciaux. Il
faut donc préfixer tout script exécutable qui s'y trouve par son
\emph{chemin d'accès}, soit relatif, soit absolu. On a choisi ici la
première méthode: dans la séquence \mintinline{text}|./|, le point
représente le répertoire courant tandis que le \emph{slash} précise
qu'il s'agit d'un chemin d'accès. Sans le \emph{slash}, le
\emph{shell} aurait compris le point comme un préfixe de fichier
caché.

\hfill\verb|../..| à suivre

\end{document}