Chaque semaine, Assas Legal Innovation part à la rencontre de professionnels afin d’échanger sur le thème de l’innovation en droit.
Pour cette nouvelle édition, Mihnea Dumitrascu a rencontré Hamza Harkous, chercheur à l’École polytechnique fédérale de Lausanne et développeur de systèmes basés sur l’intelligence artificielle dans les domaines de la vie privée et de la sécurité.
Tous ses articles sont disponibles sur son blog.
Cette interview est aussi disponible en version anglaise.
Qui êtes-vous ? Quelles études avez-vous faites ?
J’ai terminé mon doctorat axé sur « Data-Driven, Personalized Usable Privacy » en juin 2017. Je suis actuellement un chercheur à l’École polytechnique fédérale de Lausanne. De manière générale, je travaille à l’intersection de la vie privée, du machine learning et de l’interaction homme-ordinateur. J’adore construire des solutions qui peuvent avoir un impact sur un grand nombre d’utilisateurs.
Vous avez développé plusieurs systèmes basés sur l’intelligence artificielle, pourriez-vous nous en dire plus à leur sujet ?
J’ai travaillé sur les systèmes suivants :
- PrivySeal : PrivySeal indique aux utilisateurs à quelles informations les applications ont accès, en leur montrant qu’elles accèdent à des informations qu’elles n’ont pas besoin de connaître en obtenant des autorisations d’accès à leurs données stockées sur le cloud (i.e. leurs fichiers sur Google Drive ou Dropbox). Grâce au machine learning et aux techniques de visualisation des données, nous montrons aux utilisateurs : quels sujets pour lesquels les applications pensent qu’ils ont un intérêt ; avec qui ils apparaissent dans leurs photos ; quelles sont leurs opinions, etc. Nous appelons ces informations des « Far-reaching Insights. » En d’autres termes, nous utilisons les données des utilisateurs (images et documents) comme langage / outil pour les informer sur les risques que posent ces applications sur leur vie privée.
- Modemos : Mon collègue Rémi Lebret et moi-même avons créé ce site en partenariat avec Privately SA. Il montre les outils développés pour aider la vie privée des enfants en ligne (de la détection du discours haineux à la reconnaissance des émotions et à la classification des images selon leur protection).
- PriBot/Polisis : Ce sont des applications qui permettent d’analyser les dispositions concernant la vie privée présentes dans les conditions générales d’utilisation grâce à l’intelligence artificielle.
Je pense que celui qui a le plus d’impact est le dernier système et c’est également celui que je préfère.
Concentrons-nous sur Pribot et Polisis, comment vous est venue l’idée de créer ces systèmes ?
L’idée a germé lorsque nous faisions un brainstorming pour participer à un atelier sur le futur des politiques de confidentialité à SOUPS en 2016 avec mon collègue Kassem Fawaz. Les chatbots et assistants basés sur l’intelligence artificielle étaient très en vogue à l’époque. Nous nous sommes dit que ça serait très pratique s’ils pouvaient répondre à des questions pour nous au sujet des politiques de confidentialité. Nous avons conçu des maquettes qui semblaient très prometteuses si elles devaient voir le jour. Cela a été le point de départ de nos recherches ultérieures sur la façon d’analyser les politiques de confidentialité pour répondre à ces questions, qui ont effectivement donné naissance à Polisis et PriBot.
Avez-vous travaillé avec des juristes sur ce projet ?
Nous n’avons pas travaillé avec des juristes directement. Cependant, un des jeux de données que nous avons utilisé a été étonné par des étudiants en droit dans le cadre du projet Usable Privacy.
Pouvez-vous expliquer de manière plus précise en quoi chaque système consiste ?
PriBot est le premier chatbot de questions-réponses automatisé (QA) pour les politiques de confidentialité. Vous pouvez lui poser n’importe quelle question sur n’importe quelle politique de confidentialité (dans la mesure où il peut la comprendre). Ensuite, pour répondre aux questions posées sous forme libre, il utilise la politique de confidentialité en temps réel avec une haute précision et pertinence.
Polisis est un moyen unique qui permet de visualiser les politiques de confidentialité. Grâce au machine learning, il permet de savoir ce qu’une entreprise collecte comme données à votre sujet, ce qu’elle partage et bien plus encore. Vous n’aurez donc plus à lire l’intégralité des politiques de confidentialité avec tout le jargon juridique pour comprendre ce à quoi vous vous engagez.
Si vous souhaitez obtenir un bref aperçu des détails techniques du fonctionnement de ces systèmes, je vous recommande de consulter mon article sur mon blog, plus précisément les sections No Pill Magic et A Hierarchical Approach.
Je suis conscient que c’est une question difficile, mais très importante : est-ce que quelqu’un peut seulement utiliser PriBot et Polisis et ne plus jamais lire les longues conditions d’utilisation ? À quel point peut-on avoir confiance dans le système ?
Nous avons effectué une étude approfondie de la justesse du système dans notre document. Par exemple, nous avons atteint une précision moyenne de plus de 80 % dans la classification des politiques dans différentes catégories. C’était, comme tout système basé sur le machine learning, il peut faire des erreurs. Même un système avec une précision de 99 % fera des erreurs. Dès lors, les informations obtenues ne peuvent pas être juridiquement contraignantes ou se subsister complément à la politique de confidentialité complète. Pour répondre à votre question, oui, quelqu’un pourrait se baser uniquement sur nos systèmes s’il souhaite uniquement avoir un aperçu rapide. L’utilisateur a accès à des extraits des conditions générales d’utilisation directement dans Polisis lorsqu’il survole un graphique. Ainsi, les utilisateurs ont directement accès à la politique dans notre interface. Néanmoins, si certaines personnes souhaitent connaitre certains détails précis, elles devront lire la politique complète.
Que se passera-t-il si toutes les entreprises décident d’introduire une nouvelle règle qui n’a jamais été utilisée auparavant ?
C’est un point important. Si ces nouveaux aspects entrent dans une des catégories que nous détectons déjà, nous pourrons toujours les classer. Cependant, c’est différent si c’est un aspect totalement nouveau. Admettons que toutes les politiques commencer à parler l’utilisation de la blockchain pour la confidentialité des données. Nous ne pourrons donner un aperçu à ce sujet sans ajouter de nouvelles données à notre système. Nous devrons entraîner/former notre système sur ces nouvelles données. Ensuite seulement, il sera capable de traiter ces nouveaux sujets.
Comments 1