Le point sur la cybersécurité des systèmes de vidéosurveillance – Partie 1/2

La vidéosurveillance est un système de caméras et de transmission d’images, permettant de faire de la surveillance à distance. Le terme « CCTV » (closed Circuit TV) mentionne le caractère fermé (ou restreint) de la diffusion des images vidéos, par opposition avec le « Broadcast TV ». Nous utiliserons CCTV ou vidéosurveillance indifféremment dans cet article.

1. Introduction

L’industrie de la vidéosurveillance a fait un bond technologique significatif ces dernières années. Autrefois analogiques, la plupart des systèmes de vidéosurveillance vendus aujourd’hui fonctionnent avec un réseau IP. Les avantages sont nombreux : consultation à distance des flux en passant par l’Internet, gestion simplifiée des archives, utilisation de métadonnées IP. Cette dernière fonction permet d’ajouter de l’information contextuelle dans les données non structurées que sont les images vidéos facilitant ainsi les investigations ou l’archivage. Les systèmes CCTV sont aussi de plus en plus intégrés dans des systèmes beaucoup plus larges. La vidéosurveillance constitue un simple composant permettant de gérer une ville intelligente par exemple.

De par la multiplication des fonctionnalités et le fonctionnement des protocoles associés, le passage à l’IP représente un défi au niveau de la sécurité et c’est ce que nous explorerons ici. Nous verrons l’historique de l’industrie, comment les éléments d’un système de vidéosurveillance interagissent entre eux, les problèmes potentiels et comment s’en prémunir.

2. Bref historique de la vidéosurveillance

Historiquement dominées jusque dans les années 2008 par les caméras analogiques de définition standard, les caméras IP de l’époque étaient beaucoup plus chères que leurs équivalents analogiques. Certaines caméras IP ayant des résolutions allant jusqu’au mégapixel existaient, mais le seul encodage vidéo disponible à l’époque, le Motion JPEG ou MJPEG, offrait un ratio de compression peu intéressant rendant ainsi la transmission et l’archivage plutôt onéreux.

L’adoption, à partir de 2008, d’un nouvel algorithme d’encodage appelé H.264 ou MPEG-4 Advanced Video Coding, le même que celui utilisé pour les disques Blu-Ray, par les acteurs de l’industrie, changea progressivement la donne [1]. Les caméras IP étant maintenant en mesure d’offrir de la vidéo en haute définition sans que les coûts d’archivage explosent, les consommateurs se tournèrent de plus en plus vers cette option davantage appropriée à un contexte de vidéosurveillance [2].

Pour comprendre l’avantage procuré par une caméra HD, il convient de se remémorer tous ces films d’espionnage où un agent secret doit traverser un périmètre sans se faire repérer par une caméra balayant une zone de gauche à droite. Ce type de caméra, communément appelé PTZ pour « Pan-Tilt-Zoom », est en fait installé sur un moteur et permet d’être pointé dans la direction voulue. Une caméra PTZ possède aussi un zoom optique permettant de focaliser sur une zone plus étroite, cela réduit le champ de vision, mais permet d’observer cette zone spécifique plus en détail. De par leur faible résolution, il était donc difficile pour les caméras SD de filmer une large zone complètement en capturant un niveau de détail suffisant d’où l’intérêt des caméras PTZ. Ce type de caméra communément utilisé dans le monde analogique est donc beaucoup moins nécessaire depuis l’avènement des caméras HD. Avec une caméra HD, il suffit simplement de filmer la zone voulue en entier et d’utiliser un zoom numérique si plus de détails sont requis.

En 2017, les caméras IP de type haute définition dominent largement le marché de la vidéosurveillance [3]. Étonnement, les caméras analogiques débutent leur retour en force, celles-ci offrant elles aussi maintenant de la haute définition pour un prix environ moitié moindre comparé aux caméras IP. Du point de vue de la cybersécurité, cela offre aussi des avantages dans le cas des caméras installées dans des zones à risque. Certaines banques considèrent par exemple l’extérieur de leur bâtiment comme étant une zone à risque puisqu’il est plus facile pour un attaquant d’obtenir un accès physique à cette zone. Conséquemment, elles n’installent pas caméras IP à l’extérieur de leur bâtiment, car elles craignent qu’un attaquant utilise le câble RJ-45 de la caméra pour pénétrer leur réseau interne.

Depuis les dernières années, l’industrie fut aussi témoin de profonds bouleversements avec une montée en puissance des fabricants chinois. Vendant des caméras peu comparables en termes de qualité avec le reste de l’industrie en 2010, ceux-ci ont maintenant des produits relativement comparables pour un coût 3 fois moins élevé. Cette pression à la baisse sur les prix n’est probablement pas prête de s’arrêter. À titre d’exemple, la compagnie Hikvision, contrôlée par le gouvernement chinois, a reçu en 2015 un financement de 3 milliards de dollars et entend consacrer 50% de cette somme pour le marché occidental.

3. Les éléments d’un CCTV

Les 2 éléments majeurs d’un système CCTV sont les caméras et le système de gestion de la vidéo (appelé VMS pour Video Management System en anglais). Ces 2 éléments sont typiquement fabriqués par des manufacturiers différents, ils doivent donc être interopérables.

Les caméras IP sont des systèmes embarqués fonctionnant sous divers systèmes d’exploitation. En ordre de popularité, ils utilisent : Linux, ou un système d’exploitation privé ou Windows. L’alimentation électrique des caméras est typiquement assurée directement au travers de la connexion RJ-45 en utilisant la norme « Power over Ethernet ». Les caméras utilisent habituellement un serveur web permettant aux utilisateurs de les configurer  et aussi de visionner les vidéos. Les caméras d’aujourd’hui ont une puissance de calcul relativement grande et permettent de faire de l’analyse d’image telle de la détection de mouvement. Cette analyse peut servir par la suite à déclencher des évènements pour avertir l’utilisateur d’une situation anormale. Ainsi, une caméra pointée vers une porte ne devant jamais s’ouvrir pourra être configurée pour générer un évènement lorsqu’elle détecte du mouvement. L’évènement sera acheminé au VMS qui se chargera d’alerter l’utilisateur en lui envoyant un courriel.

La plupart des VMS fonctionnant sur IP sont bâtis selon le paradigme client – serveur. Le client fournit une interface graphique permettant à l’utilisateur de visionner la vidéo en temps réel ou en différé et de configurer les caméras. Le rôle du serveur est de communiquer avec les caméras, d’enregistrer la vidéo pour un temps donné et de répondre aux requêtes des clients. L’intérêt d’utiliser un VMS, par opposition à l’utilisation directe des pages web des caméras, tient en sa capacité à gérer un grand nombre de caméras de façon conviviale. Les fonctionnalités typiquement offertes par un VMS sont la découverte des caméras sur le réseau, la configuration et le visionnement de celles-ci au travers d’une interface unifiée, la gestion avancée des archives vidéos et le watermarking garantissant l’intégrité de la vidéo. Plus précisément, cette dernière fonctionnalité permet de démontrer devant une cour de justice que la chaîne de contrôle de la vidéo n’a pas été brisée lors de l’exportation de vidéo et donc que la vidéo n’a pu être altérée.

4. Les protocoles

On divise les entrées et sorties d’une caméra en deux canaux distincts : le canal de commande et de contrôle et le canal multimédia. Comme mentionné précédemment, les manufacturiers de caméras offrent pratiquement tous de nos jours un serveur web permettant de configurer leur appareil. Il est donc naturel d’acheminer les commandes du canal de commande et de contrôle par le protocole HTTP. Les manufacturiers fournissent aussi une API permettant d’interagir avec leurs unités de façon automatisée. La plupart des manufacturiers bâtissent leur API en utilisant le protocole HTTP. Les plus anciens utilisent plutôt un protocole binaire. Il est à noter que lorsqu’un VMS communique avec une caméra, la partie serveur du VMS agit typiquement en tant qu’initiateur de la connexion vers la caméra. Les caméras agissent donc ici en tant que serveur. Cela explique pourquoi les manufacturiers de caméras sont ceux qui définissent l’API et non pas l’inverse. Par conséquent, un VMS voulant intégrer une multitude de caméras dans son produit devait, dans le passé, supporter chacune des API de ces caméras. Afin de simplifier l’intégration et améliorer l’interopérabilité, un consortium de fabricants créa en 2008 un standard de communication appelé ONVIF (Open Network Video Interface Forum [4]) spécifiquement pour l’industrie de la sécurité physique fonctionnant sur réseau IP. Ce standard a été progressivement adopté par l’ensemble de l’industrie et s’impose aujourd’hui comme un incontournable.

La plupart des marques de caméras offrent aussi la possibilité de configurer un certificat X.509 afin d’échanger des informations de façon sécurisée. Les protocoles HTTPS et TLS sont donc aussi utilisés pour protéger le canal de commande et contrôle. Les choix de la suite cryptographique (cipher suite) TLS sont variables d’un fournisseur à l’autre et incluent la possibilité d’utilisation d’algorithmes non recommandés comme RC4, DES ou SHA1. Le protocole RTSP est quant à lui typiquement utilisé afin de contrôler les flux multimédias. Il agit à ce titre véritablement comme une télécommande : il permet de démarrer, arrêter, mettre en pause et de naviguer au travers d’un contenu multimédia.

Mathieu CHEVALIER
Architecte en cybersécurité – mathieu.chevalier@outlook.com

Cyrille AUBERGIER
Analyste en Cybersécurité – aubergier@yahoo.fr

La seconde partie de cet article sera publiée prochainement sur le blog, restez connectés 😉

Retrouvez cet article (et bien d’autres) dans MISC n°91, disponible sur la boutique et sur la plateforme de lecture en ligne Connect !