DefaultEvenement


Nous y voilà ! Vous avez lu notre article précédent sur ce qu'il fallait comprendre de l’intelligence artificielle, qui n'est au final qu'un outil concret qui permet de répondre à des besoins précis.

Vous êtes maintenant prêts à passer à l’acte et expérimenter. Peut-être avez-vous des idées ? et avez commencé à remplir les cases du Data Use Case Canvas. Dans ce cas, vous avez remarqué la grande case DATA en bas. L'IA est gourmande en données, c'est bien connu. Ce n'est d'ailleurs pas un hasard si le domaine accélère aujourd'hui, à l'époque où la société bascule de plain-pied dans le numérique.

L’intelligence artificielle, comme le big data en son temps, ne sont pas des outils magiques qu’il suffit de connecter et démarrer pour avoir des résultats. Comme pour toute innovation, il faut bien préparer le terrain, et s’assurer que les fondamentaux sont compris et maîtrisés.

La donnée existe-t-elle ?

Après plusieurs visites d’usines, la statistique concernant l’âge moyen du parc de machines industrielles, qui est entre 15 à 20 ans, prend tout son sens. L’instrumentation et les mesures ont généralement été pensées avant tout pour des besoins précis de production, et l’utilisation moderne par algorithmes d’intelligence artificielle n’a pas été anticipé.

Nous sommes aujourd'hui loin du cas idéal de la chaîne de production « digitalisée » telle qu’on la décrit dans les présentations qui promeuvent l’industrie du futur. Il est donc normal que la question quant à la nécessité de s’équiper en capteurs soit l’une des premières qu’on rencontre.

En cherchant bien dans une usine, de la donnée on en trouve, dans les automates, dans les logiciels de laboratoires, dans des outils de métrologie, etc.

Ajoutons également qu’une des caractéristiques des algorithmes de machine learning est de pouvoir capturer des signaux faibles. Nous tenterons la définition suivante : « un signal faible est une information qu’on ne mesure pas directement mais qu’on peut reconstruire indirectement à partir des données disponibles ».

Est-elle accessible et exploitable ?

Ce point représente généralement la première complexité qui doit réellement être travaillée lorsqu’on se lance dans un projet data.

Parmi les problématiques concrètes de remontée des données, la connectique reste soumise à de nombreuses contraintes de terrain et le wifi n’est souvent pas une option. La promesse de l'Industrial IoT (l'internet des objets industriels) et l’arrivée des protocoles de communication associés (5G, LPWAN, etc.) devrait y remédier, mais uniquement sur moyen et long termes.

La problématique est encore plus exacerbée lorsqu’on souhaite un pilotage opérationnel, sur le terrain, qui nécessite une communication efficace pour faire remonter les données et redescendre les informations dans des temps suffisamment courts, afin qu’elles soient mises à disposition des opérateurs lorsqu’ils en ont besoin. Nous sommes souvent face à un parc de machines-outils âgé, où l'accès aux automates n'a pas été prévu pour un monitoring en continu, et l'extraction de données nécessite de passer par un expert automaticien.

Enfin, les données sont souvent enregistrées par silos, avec des temps de mesures variables, parfois irréguliers, avec des différences dans les machines, automates, capteurs, qui se traduisent par des différences dans les formats de données.

Face à ses problématiques concrètes limitantes, l’écosystème fort heureusement s’adapte et s’enrichit aujourd’hui de nombreuses solutions de captation et de mise à disposition des données dans un datalake prêt-à-l'emploi.

La volumétrie est-elle suffisante ?

Au vu des éléments précédents, on peut craindre une volumétrie faible par rapport aux discours habituels sur le Big Data, où on parle généralement de téraoctets et de pétaoctets.

La volumétrie de données dans l'absolu, bien qu'intéressante comme indicateur, doit avant tout être remise en perspective par rapport aux besoins, et dans notre cas, il s’agit de capturer les processus : Un phénomène peut faire intervenir plusieurs variables, qui ont de fortes variabilités et par conséquent un espace des paramètres large. Il faut s’assurer de capturer la dynamique sous-jacente du process avec un nombre de points correspondant à la réalité de terrain.

Un phénomène qui suit une loi linéaire simple ne nécessite pas autant de données qu’un phénomène complexe avec des dépendances non-linéaires fortes à des phénomènes variables et difficiles à contrôler comme la météo.

Il faut également avoir en tête que les algorithmes continuent d'apprendre une fois déployés, et que les prédictions s'améliorent dans le temps au fur et à mesure du suivi du process. On peut dire par analogie avec l’humain que l’IA devient experte au fil du temps sur le process.

Enfin, un des apports majeurs de ces dernières années est la capacité à traiter des données non structurées, comme des images, et de les associer aux autres données pour avoir une compréhension plus riche et complète.

Nous travaillons par exemple dans l’industrie d’élevage d'insectes, et le suivi qualité se fait directement sur les images prises à intervalles réguliers, pour pouvoir être croisés ensuite avec les capteurs et les automates, ainsi que la pesée finale. Les dernières avancées en Deep Learning permettent aujourd’hui d’imaginer ces scénarios et de les implémenter simplement et rapidement.

Quid de la qualité et la variabilité des données

Nous finissons enfin sur le point qui est le plus important, la qualité de la donnée, et la maîtrise de la variabilité au niveau du process et de la métrologie. Le ratio signal sur bruit impacte directement le score prédictif final et le besoin en volumétrie pour y converger.

Les principes d’incertitudes de mesure, de répétabilité et de reproductibilité jouent un rôle primordial, et nous voyons clairement chez tous nos clients sans exception leur impact sur les différentes usines que nous traitons.

Des mesures de mauvaises qualités, et entachées d’incertitudes nuisent forcément à la prédiction, et même si statistiquement, la prédiction lisse le bruit, la variabilité des valeurs mesurées due aux incertitudes ne permet pas toujours de s’en rendre compte.

La reproductibilité entre différents sites joue également un rôle important, car l’objectif est souvent de déployer la même solution, avec le grand avantage de pouvoir mutualiser les données pour l’apprentissage.

La mise en place d’outils d’apprentissage par la donnée pousse la métrologie à aller plus loin, et de se concentrer sur l’amélioration du process de mesure, là où certains n’y voient que des cycles d’étalonnage de machines.