Les logs (journaux en français) sont des événements, enregistrés par un système, permettant d’avoir une traçabilité de ce qu’il s’est passé sur ce système.
Ce n’est ni plus ni moins qu’un journal de bord où il est dûment inscrit «machin a fait ceci à telle heure tel jour».
Quand un événement a été enregistré sous forme de log, on dit que le système a loggé cet événement (ce n’est pas le même sens que «se logguer sur un site» qui signifie s’y authentifier).
Premièrement, qu’est-ce qui peut créer des logs ?
Ce peut être un système d’exploitation (votre Windows 11 enregistre tous les faits marquants et vous pouvez les visualiser dans l’outil «observateur d’événements»), une application, un site Web, etc.
J’ai parlé au sens large de «système» car c’est globalement n’importe quoi qui a une utilité à garder une traçabilité de ce qu’il se passe.
Maintenant, à quoi ça ressemble un log ?
Ça se présente, presque tout le temps, sous la forme d’un fichier texte où il y a une ligne par événement.
Ce qui est marqué sur cette ligne dépend de ce que le système qui log considère comme pertinent de savoir.
Ainsi, un log d’un serveur bancaire enregistrera probablement l’heure d’une transaction, son montant, son créditeur, son débiteur, son résultat (effectuée ou échouée), etc. Et il n’enregistrera probablement pas le signe astrologique du créditeur et la couleur préférée du débiteur.
Par exemple, voici à quoi pourraient ressembler un extrait des logs de Google :
203.0.113.45 [03/Nov/2025:14:22:31 +0000] "GET /search?q=outils+sécurité HTTP/1.1" 200 8421 "https://www.google.com/" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36"
198.51.100.12 [03/Nov/2025:14:22:33 +0000] "POST /login HTTP/1.1" 302 0 "https://accounts.google.com/signin/v2/identifier" "Mozilla/5.0 (Macintosh; Intel Mac OS X 13_6) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/16.6 Safari/605.1.15"
66.249.73.101 [03/Nov/2025:14:22:35 +0000] "GET /images/branding/googlelogo/2x/googlelogo_color_272x92dp.png HTTP/1.1" 304 0 "https://www.google.com/" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
192.0.2.77 [03/Nov/2025:14:22:38 +0000] "GET /maps/api/staticmap?center=Paris&zoom=12&size=600x300&key=YOUR_API_KEY HTTP/1.1" 200 12345 "https://maps.google.com/" "Mozilla/5.0 (Linux; Android 13; Pixel 7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Mobile Safari/537.36"
203.0.113.89 [03/Nov/2025:14:22:41 +0000] "GET /mail/u/0/#inbox HTTP/1.1" 200 58732 "https://mail.google.com/" "Mozilla/5.0 (iPhone; CPU iPhone OS 17_0 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.0 Mobile/15E148 Safari/604.1" On peut voir 5 lignes, donc 5 événements (Google en a probablement plusieurs millions par seconde).
La première ligne indique qu’un visiteur ayant l’adresse IP 203.0.113.45 a émis une requête vers Google le 3 Novembre 2025 à 14:22 (heure de Greenwich). Plus précisément, ce visiteur a émis une requête vers l’URL « /search?q=outils+sécurité » qui correspond à une recherche Google portant sur les termes «outils» et «sécurité». On sait que Google lui a répondu avec succès (c’est la convention du «200» que l’on peut voir) une page de résultat qui faisait 8421 bits. Et on sait aussi que le visiteur se connectait avec un programme désigné comme «Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36» ce qui est, croyez le ou non, la façon dont le navigateur Edge se présente aux sites Web visités.
Petite parenthèse terminologie. Ce que nous venons de faire, décortiquer ce log, se dit «parser un log». C’est-à-dire en extraire les informations brutes et les organiser/structurer. Le «parsing» est généralement réalisé automatiquement par un programme (un parseur) et non par des humains (ce serait trop long).
Pourquoi les logs sont importants ?
Premièrement pour l’investigation numérique !
Chaque fois qu’une entreprise se fait pirater, ou qu’une malversation est commise depuis un serveur, on va aller regarder ce qu’il s’est passé dans les logs pour comprendre comment c’est arrivé.
C’est aussi utilisé pour débugger des programmes.
Et là ce qui va être déterminant c’est la «rétention» des logs.
En effet, un système ne peut pas maintenir un journal de logs infini. Il manquerait de place. Donc les logs ont généralement une durée, ou une taille, de «rotation» au delà de laquelle ils sont «écrasés» par les nouvelles entrées.
Si après votre piratage on se rend compte que l’intrus est probablement rentré sur votre système il y a un mois, mais que vous avez seulement 1 semaine de rétention de logs ... on ne vas pas pouvoir observer comment il a fait.
Un pirate peut aussi tenter d’effacer les logs pour couvrir ses traces après un piratage.
Donc la première chose à retenir c’est que, souvent, on ne peut faire la lumière sur un événement en cybersécurité que s’il y a des logs à analyser. Donc disposer de logs suffisants est crucial en cybersécurité et c’est un chantier pas si trivial que ça à mettre en place.
Deuxième raison pour laquelle les logs sont importants : la meta-analyse.
Les logs sont en fait une mine d’or d’informations sous-jacentes, une fois qu’ils sont rassemblés et recoupés.
Reprenons notre exemple de Google et des informations que l’on avait extraites de la première ligne de log.
Si au lieu de parser seulement ce log, je parse les milliards de logs de Google, et que je range les informations dans une base de données, je vais pouvoir avoir des informations intéressantes.
Je pourrais interroger ma base de données en lui demandant «donne moi toutes les requêtes effectuées depuis l’adresse IP 203.0.113.45». Et il va me donner «/search?q=outils+sécurité» mais aussi toutes les autres requêtes de cet utilisateur :
Avec ces quelques exemple, vous voyez qu’on peut déjà se faire une idée assez précise des hobbies de cette personne, de ses opinions politiques, de son état de santé, de ses goûts, ...
Ça peut ensuite être utilisé pour du ciblage publicitaire, politique, pour de la surveillance, etc.
Autre demande que je peux faire à ma base de données contenant tous les logs de Google : « donne moi les requêtes effectuées, toutes IP confondues, triées par nombre d’occurrence, dont la date se trouve entre aujourd’hui et le 1 Janvier 2025 ».
Je vais alors me retrouver avec quelque chose comme ça :
Cela permet de connaître les mots clés qui intéressent le plus les utilisateurs, mais également de voir venir des phénomènes émergents.
Bref l’idée globale est celle-ci : pris tout seul un log a peu de valeur. Agrégé à tous les autres, il révèle des informations inestimables.