Ne faites pas l’échelle dans la vie

Les principaux mots à la mode dans la technologie vont échouer parce qu’ils ne sont tout simplement pas à l’échelle.

Alors que nous innovons rapidement avec les nouvelles technologies, nous devons garder à l’esprit que nos innovations sont ou non pratiques et réalisables. Dans un monde où nous comptons les utilisateurs en milliers et les temps d’exécution en millisecondes, il est plus important que jamais d’assurer de nouvelles technologies.

C’est pourquoi il est choquant que les trois plus grands mots à la mode de la technologie échouent complètement.

Bien sûr, je parle des trois catégories dans lesquelles il semble que chaque actualité technologique se trouve de nos jours:

  1. Intelligence artificielle
  2. Blockchain
  3. Réalité Mixte (XR, AR / VR)

Il semble que presque tout utilise ou ajoute ces outils et pourtant, il est insensé à quel point il est pénible (et carrément impossible) de faire évoluer ces services.

Nous avons besoin de plus de matériel

La première et principale lacune reste le matériel. Ce n’est un secret pour personne que les exigences en matière de matériel pour les technologies augmentent de façon exponentielle d’année en année, tant en prix qu'en spécifications. Cela devient effectivement un facteur de blocage dans l’adoption généralisée et, dans le cas de la blockchain, c’est une tuerie.

La blockchain s'appuie généralement sur les «mineurs» qui «minent» les blocs et permettent au réseau d'exécuter les tâches les plus élémentaires (c'est-à-dire la vérification des transactions). Le processus d’exploitation minière est un sujet dans lequel je n’entrerai pas profondément, mais il implique l’exécution de fonctions cryptographiques volumineuses, un processus appelé «hachage».

Le problème avec le hachage est qu’il nécessite une grande quantité de puissance de calcul; En fait, une si grande quantité qui exploite efficacement la blockchain nécessite un matériel spécial, un GPU ou un ASIC. Pour être le plus petit des mineurs, vous aurez besoin d’un GPU hautes performances (soyons réalistes, Intel HD Graphics est un standard grand public, c’est pourquoi chaque GPU supérieur est haut de gamme) ou un ASIC dédié. Cela représente une facture assez élevée, la plupart des appareils coûtant des centaines de milliers de dollars par unité, sans compter la forte consommation d’électricité considérée comme un coût d’exploitation.

la grande pénurie de GPU de 2018

Cela s’est avéré être un facteur de blocage important dans l’adoption de la blockchain. En fait, pour cette raison même, les prix des GPU ont grimpé en flèche et le stock a pratiquement disparu, laissant les futurs mineurs sans aucun outil, provoquant un crash du secteur des jeux sur PC et empêchant les chercheurs d'accéder au matériel haut de gamme. Même les fabricants de GPU comme Nvidia, qui ont profité de la hausse, ont fini par parler de la grave pénurie en tant que cause directe de la blockchain.

Un an plus tard, la plupart de ces technologies de blockchain ont disparu et les prix des principales crypto-monnaies ont chuté à un quart de leur valeur. La préoccupation la plus largement exprimée concernant la blockchain est son échec à l'échelle, et le matériel reste (et continuera d'être) un facteur de blocage dans la mise à l'échelle de la technologie de la blockchain.

Ce problème ne se limite toutefois pas à la blockchain. L'intelligence artificielle s'appuie sur le même matériel (GPU), ce qui devient également un facteur de blocage dans ce domaine. La plupart des startups à venir ne peuvent pas se permettre de construire une énorme batterie de processeurs graphiques telle que celle de Google, et acheter de la puissance de calculateur auprès de fournisseurs de cloud, tels qu'AWS, coûte 4 fois plus cher qu'une facture énorme de serveurs.

Avec XR, le problème est encore plus exaspéré. Pour gérer ces expériences, les consommateurs doivent restituer les éléments visuels et leur appareil doit traiter les entrées sensorielles. Cela pèse principalement sur le consommateur, ce qui semble bien pour les entreprises qui souhaitent pénétrer dans l'espace XR, mais qui pose un problème majeur en termes de dimensionnement.

Par exemple, prenons Oculus VR. Oculus a été l'un des premiers casques VR à être lancé et reste un nom populaire dans le domaine. Il a depuis été acquis par Facebook et a consolidé sa place sur le marché.

La «spécification minimale» ridiculement élevée pour Oculus; USB 3.0, un bon GPU Nvidia, 8 Go de RAM…

Malheureusement, Oculus fonctionne presque exclusivement sur des ordinateurs de bureau, nécessitant en outre des spécifications de GPU élevées. Elle est confrontée aux mêmes pièges que Blockchain et AI, mais avec des préoccupations bien plus grandes: alors qu'avec l'IA, une entreprise pourrait se contenter d'investir dans son infrastructure pour résoudre temporairement le problème, avec XR, le fardeau repose sur les consommateurs. Le cycle d'adoption de la RA / VR repose sur la généralisation et la spécification plus poussée des GPU grand public, ainsi que sur l'attente de la baisse des prix à des niveaux abordables pour l'utilisateur moyen. Jensen Huang, PDG de Nvidia, proclame que la loi de Moore favorise les GPU, le temps nécessaire au développement suffisant pour relever les spécifications tout en abaissant les prix étant toujours de plusieurs années.

Pour les trois plus grands mots à la mode de la technologie, c’est une phrase accablante.

Runtime

Lorsque nous parlons de temps d'exécution en informatique, nous entendons généralement en millisecondes, car les utilisateurs s'attendent maintenant à des interactions instantanées.

Malheureusement, ce n'est pas le cas avec les trois technologies ci-dessus.

Avec la blockchain, l'extraction d'un seul bloc prend de plus en plus de temps. Nous en sommes maintenant au point où l’exploitation de grandes crypto-monnaies n’est plus rentable pour les particuliers, et les pools d’exploitation minière ont commencé à utiliser le réseau. Pour une technologie «décentralisée», cela favorise énormément la centralisation.

Cela signifie également que le cas d'utilisation le plus important (sans doute) de la chaîne de télévision: la crypto-monnaie. La crypto-monnaie prospère grâce aux transactions rapides, sans autorités centralisées, au-delà des frontières et sans frais élevés.

Cependant, avec l’échec de la blockchain et le temps requis (durée = électricité) pour exploiter un bloc, les frais associés aux transactions ont atteint des records; À son apogée, Bitcoin atteignait un point où les frais associés à la plupart des petites transactions dépassaient les coûts de transaction réels, ce qui le rendait totalement inutile et un échec total pour les consommateurs ordinaires. Les transactions ont commencé à prendre des heures, et la réglementation en raison de la fuite en avant, le prix croissant de Bitcoin ont rendu difficile le déplacement de Bitcoin à travers les frontières.

La crypto-monnaie est devenue tout ce qu’elle promettait de détruire.

Avec l’intelligence artificielle, un problème très différent se pose. Le temps d'inférence pour de nombreux modèles à grande échelle prend plusieurs secondes, ce qui semble être une petite quantité de temps, mais commence à s'accumuler et devient une figure bloquante lorsqu'il est question de bases d'utilisateurs qui se chiffrent en milliers.

De plus, les chiffres cités pour le temps d'inférence de la plupart des modèles sont délicats - vous devez lire entre les lignes, ou plutôt à la ligne suivante qui se lit généralement "telle que trouvée sur notre pile GPU XYZ", dans laquelle "pile GPU XYZ" coûte plusieurs milliers de dollars et doit être entièrement dédié à cette tâche d'inférence unique.

La pile TPU de Google souvent utilisée pour la formation de leurs modèles

Bien sûr, des recherches sont en cours ici, mais les recherches en cours portent presque entièrement sur le temps de formation, ce qui, selon moi, n’est pas très important. Pour la formation, une semaine n'est pas une grosse affaire - toute startup peut épargner une semaine pour former un modèle qui deviendra la pierre angulaire de son entreprise.

Le problème le plus important réside dans l'inférence. Au niveau de base, la formation nécessite une inférence - la déduction est généralement citée comme la phase «avancée» d'un réseau, et ceci doit avoir lieu dans la formation avant que la toile de fond ne soit réalisée. Cependant, en formation, toutes les données à déduire sont disponibles au début.

En d’autres termes, le lot entier peut être traité en une fois (c’est-à-dire des centaines d’images en même temps), en raison de l’échelle mathématique - multiplier une matrice plus grande de plusieurs matrices est plus efficace que multiplier plusieurs matrices de une matrice (autrement dit , il est plus efficace de faire plus à la fois). Cela va jusqu'à un certain point, semblable à l'idée de rendements décroissants en économie, mais il reste que la formation par lots nous permet d'échelonner l'inférence sur de grandes quantités de données.

Malheureusement, dans la pratique, le traitement par lots est rarement le cas.

Il est rare qu’un modèle doive exécuter l’inférence sur 200 images en même temps; il est plus probable que 200 images soient soumises pour inférence dans, disons, une minute. Il y aura un goulot d'étranglement difficile dans le temps d'inférence par image; Même un temps d'inférence, par exemple un tiers de seconde (ce qui est incroyablement rapide - ce sont les temps vantés par les modèles les plus rapides, tels que le modèle de prédiction de phrases super optimisé de Gmail), ne produira que 180 images traitées par minute. Même à une faible charge de 200 / min, le modèle échoue et, pour évaluer le retard croissant, un second exemple doit être créé pour équilibrer.

C’est une pilule difficile à avaler dans un monde où les grosses charges sont une donnée; En fait, Node’s Express a déjà été critiqué pour ne prendre en charge que quelques milliers de connexions / seconde, ce qui est comparable aux bases de données NoSQL populaires, accusé d’avoir un goulet d’étranglement à plusieurs milliers de transactions / seconde.

un barrage qui est garanti pour éclater

C’est un chiffre sans précédent dans le monde de l’intelligence artificielle, qui se heurte à un goulet d’étranglement difficile à atteindre quelques centaines par seconde en termes de déductions séparées sur une seule instance d’un modèle, même avec les optimisations les plus avancées que vous puissiez réaliser.

Avec XR, le problème est très, très différent. Le problème réside dans l'immersion - pour l'immersion et pour éviter la vallée mystérieuse, des interactions doivent avoir lieu et le rendu doit s'ajuster plus rapidement que l'homme ne le perçoit. En d'autres termes, quelques centaines de millisecondes ne sont pas assez rapides.

Avec XR, nous mesurons les choses en petites quantités de millisecondes. Nous mesurons la latence acceptable comme étant inférieure à ~ 20 ms (un chiffre avec lequel de nombreux joueurs ne seraient pas d’accord, dans la mesure où 100 ips et moins de 10 pings sont considérés comme normaux pour la plupart des plates-formes).

C’est un chiffre qui reste un goulot d’étranglement et nous l’avons perdu de loin; Bien que la technologie XR se concentre sur ce sujet et que de nombreuses avancées aient été réalisées dans ce domaine en termes d’apport sensoriel régulier et de rendu, nous sommes toujours confrontés à des problèmes d’interaction; précisément, XR ouvre une nouvelle gamme infinie de possibilités d’interaction qui ne peuvent tout simplement pas être traitées très rapidement par la plupart des moteurs.

Le moteur d’image augmentée d’ARCore présenté à Google I / O 2018

De plus, pour augmenter l’image avec une méthode plus complexe que l’homographie, la latence est trop élevée pour être considérée comme «acceptable» par la plupart des expériences. Les images les plus rapides que nous avons testées jusqu’à présent sont les images augmentées ARCore de Google, qui utilisent des homographies (il existe également une démo de Visages augmentés qui est un peu plus lente et qui présente des latences / lag notables).

Démo ARCore Augmented Faces

C’est un gros problème

Au cours des deux dernières années seulement, le nombre de progrès dans ces trois domaines est insurmontable.

En IA, nous avons assisté à un bond en avant de la génération de langage naturel avec GPT-2, qui lui vaut sa réputation d’Imagenet de la PNL. Cela ouvre un nouveau monde de possibilités avec le traitement de texte. Nous avons également vu des réseaux convolutionnels et des réseaux GAN adopter de plus en plus des images 4K, et nous entrons dans une ère où l’intelligence artificielle peut imiter les images HD et générer un contenu qui semble crédible à l’œil humain.

Avec la blockchain, le champ est devenu moins flou, avec la saisie de plusieurs espèces et la possibilité d’exposition aux plateformes existantes. La vapeur a considérablement augmenté au cours de la dernière année, de même que Stellar et l'utilisation de la blockchain dans les technologies classiques. JPMorgan, BofA et Facebook ont ​​tous annoncé leur blockchain et celle-ci a connu une montée en puissance avec des plates-formes telles que DLive qui ont commencé à se généraliser (DLive a récemment formé un partenariat avec la plus grande personnalité de Youtube avec sa première plate-forme de créateur).

En mode XR, nous avons constaté que les niveaux XR et AR au niveau des téléphones devenaient une réalité grâce aux nombreuses améliorations apportées à ARCore. Il devient possible d'intégrer l'IA dans XR et de développer des expériences permettant un certain niveau d'interaction humaine (nous n'avons pas encore de contact physique, mais il existe des projets permettant d'autres interactions, tels que Fiddler AR).

Ce sont tous des domaines qui ont un impact important et significatif sur l’avenir de la technologie et sur l’évolution de la civilisation humaine. Ce sont des technologies qui n’ont pas d’impact sur l’économie; ils le redéfinissent; ils n’impactent pas la société et les interactions; ils le revitalisent. Cela rend possible une refonte totale de notre culture et, au niveau fondamental, on l’appelle une autre révolution industrielle.

Pour un mouvement qui a une si grande incidence sur le grand public, il est vital et primordial de pouvoir s’adapter facilement au public. Tant que cette mesure n’est pas mise en œuvre, elle entrave l’adoption et constitue un obstacle majeur à l’innovation en dehors des grandes entreprises.

J'espère voir plus d'innovation dans la mise à l'échelle de ces technologies. Chez Epic.ai, nous nous concentrons sur le développement d’applications qui reposent fortement sur l’intelligence artificielle et la blockchain - nous sommes tous trop familiarisés avec les limitations d’échelle; c’est un problème sur lequel nous allons travailler dur au cours des prochaines années et un problème que nous espérons que l’industrie se réunira pour la résoudre.

Hey! Je suis Tomer, un entrepreneur et un fabricant. Vous me connaissez peut-être par Mevee, Crane, Shots, Slides et maintenant investorintelligence.io, entre autres produits que j’ai lancé! Cet article fait partie d’une série plus complète que j’écris principalement sur la base de mes expériences et est principalement composé des opinions de moi et de mon équipe.

J'espère que cela vous aidera à éviter de commettre les mêmes erreurs que moi et à vous rappeler de continuer à expédier!

S'il vous plaît applaudissez si vous avez trouvé cela utile, et suivez-moi pour plus d'écriture comme celle-ci alors que je partage des histoires sur ce à quoi ressemble le développement de logiciels et l'entrepreneuriat dans la vie réelle.

Cette histoire est publiée dans The Startup, la plus grande publication d’entrepreneurship de Medium, suivie de + 442 678 personnes.

Abonnez-vous pour recevoir nos meilleures histoires ici.