mars 21, 2024

Partie 1 / Blogs / Perficient

Chez Perficient, l’un des avantages importants d’être un partenaire de premier plan avec des fournisseurs de cloud d’élite tels que Google, AWS et Azure est l’accès aux premiers utilisateurs accordé aux PME (experts en la matière) afin que les engagements de partenariat entre Perficient et ses clients soient significatif, rentable et reproductible. Dans ce premier article de blog rédigé par Josh Hull, un fan émerveillé de l’intersection ponctuelle de la technologie et des humains, nous examinerons l’objectif de réussite de :

une invite d’ingénierie sans doute faible dans
multimodal, mais
calcul de l’intelligence artificielle zéro tir, et comment
l’ambiguïté peut conduire à une précision réduite dans
bacs à sable de robots de niveau aperçu.

Maintenant, si cet objectif est significatif pour vous et que vous continuez à lire, l’avertissement obligatoire d’Oncle Ben est entrant : utilisez tout ce que vous voulez à partir des informations partagées, mais cette série n’est en aucun cas une introduction pas à pas prête pour la production. Au contraire, il s’agit simplement d’un exercice de réflexion, et peut-être d’un démarreur de conversation, pour ceux qui souhaitent partager sur le sujet.

Oncle Ben

Pour définir le niveau, décomposons brièvement l’objectif :

Point 2 : Une IA multimodale est exactement ce à quoi elle ressemble. Pour les entrées, nous ne devons pas nous limiter au texte, à une image, à un ensemble de données ou à un flux, ni à un mode spécifique, mais plutôt, le multimodal combine intentionnellement ces entrées pour une analyse interdépendante : vidéo + audio, texte + données, invites + données. + images… Les applications de ceci sont tout simplement profondes et amusantes à ruminer.

Élément 3 : Lorsque nous décrivons quelque chose comme un tir nul, cela signifie que l’objectif (et, dans une certaine mesure, le modèle de formation sous-jacent de l’IA) est de fournir une réponse pertinente à travers une seule itération. Qu’est-ce que cela signifie? Nous ne prendrons pas en compte le résultat ou la réponse de l’IA et le réinjecter pendant 2^sd ou nième tentative. Nous n’entraînerons pas le modèle, mais supposerons plutôt qu’il est capable, dans son état fonctionnel actuel, de fournir une réponse précise et utile en une seule tentative de question-réponse.

Hot-dog

« Hotdog Not Hotdog » de Jin Yang dans un environnement délicieux mais dangereux pour le travail La Silicon Valley est un exemple réel et fonctionnel d’analyse zéro tir. La plupart des choses ne sont pas des hot-dogs, et l’application est exceptionnelle pour le déterminer en évaluant un objet sur une seule photo.

Éléments 1 et 4 : L’ingénierie rapide est comme tout autre système de traitement. La qualité de l’entrée influence directement la qualité et l’utilité de la sortie. Lorsque nous introduisons de l’ambiguïté dans nos invites (intentionnelles ou non), nous obtenons un résultat médiocre. Pensez à quelque chose qui vous distrait facilement… Peut-être préférerez-vous comparer cela à « diriger le témoin » dans un drame juridique dans une salle d’audience : en plantant publiquement des idées dans la tête du témoin, la réponse du témoin est moins pertinente que l’impression faite au juge et jury.

Et enfin, le point 5, ou les bacs à sable robotisés au niveau de l’aperçu : nous pourrions décrire les alliances initiales dans l’interaction avec ces nouvelles plates-formes d’IA en tant que service comme emmener une IA pour un essai routier analogue sur des routes fermées sans circulation. L’analogie est très différente de celle d’un essai routier fou aux heures de pointe avec des proches comme passagers. Ceci n’est intentionnellement pas spécifique à un cas d’utilisation ni conçu pour être reproductible, mais plutôt simplement un examen de l’apparence, de la convivialité, du confort et de l’expérience de l’opérateur. La beauté de travailler avec une plateforme précoce réside dans le risque réduit et le « t-moins » : il ne s’agit pas d’un projet livrable, sous des pressions temporelles et budgétaires. Nous pouvons lancer lorsque nous sentons que nous comprenons la technologie et son application pertinente, et lorsque le modèle de support de la solution n’est plus en version préliminaire.

Sans aucune expérience préalable en matière d’invite Gemini sur l’offre VertexAI de Google*, une seule invite immédiate et une image couleur unique créent un jeton de 337. Bonjour le monde test en direct. Aucune des variables n’a été modifiée par défaut.

Capture d'écran 2024 03 21 Au 16.12.49

Que sont les jetons par rapport à l’IA en tant que service ? Il s’agit d’une mesure par laquelle un prompteur consomme des ressources cloud pour obtenir une réponse. Les invites de l’IA en tant que service sont limitées de manière prudente afin de ne pas entraîner de dépenses de fonctionnement trop importantes et de limiter l’impact qu’une invite peut avoir sur la stabilité du système sous-jacent traitant la requête. Plus vous demandez au robot de traiter, plus il lui faudra de jetons pour obtenir une réponse viable. Dans le monde réel, un rép_travail le répertoire serait téléchargé, contenant uniquement les fichiers que vous souhaitez faire évaluer, et non un répertoire, un lecteur ou un bureau entier. Cette limite symbolique peut être augmentée, avec une augmentation du quota et une reconnaissance de la consommation des coûts.

Mettons en place le scénario. Beaucoup d’entre nous ont apprécié ces incroyables géoguesseurs sur Reddit, Tiktok ou YouTube, qui peuvent localiser l’emplacement d’une photographie à des kilomètres près. n’importe où sur le globe. D’autres d’entre nous adoptent une photo de profil plus ancienne à partir d’un mélange sain de vanité, de honte et d’affaires (comme dans, trop occupé pour prendre une photo actuelle). Comment pouvons-nous créer une invite qui imite un talent humain de niche avec une seule photo que les Gémeaux peuvent évaluer, et intentionnellement (dans ce cas) diriger le témoin (pauvre robot !) en n’étant pas un meilleur ingénieur (en perfectionnant notre invite pour donner à l’IA la meilleure chance de réussir en une seule tentative) ? Attention : l’invite inclut une formulation qui va à l’encontre de l’utilisation prévue de l’outil. Gemini n’est pas conçu pour être zéro-shot, et plus il y a d’informations et d’itérations, meilleurs sont les résultats obtenus. Il est conçu pour apprendre. C’est le ne fais pas ce que je fais partie de l’essai routier.

En passant, un rapide retour en arrière il y a moins d’un an : cette fonctionnalité d’outil d’IA aurait nécessité une conception et un développement approfondis d’un potluck de langchains, d’agents de travail, de bases de données vectorielles et de LLM pour produire un résultat important. La technologie progresse si rapidement qu’au moment où vous lirez ces lignes, une autre avancée aura été réalisée dans les interactions homme-machine.

Je suis sur le point de demander au moteur multimodal Vertex AI (Gemini) de Google de répondre à une seule invite + image.

Gémeaux

Voici l’invite :

Capture d'écran 2024 03 21 Au 15.12.07

«Cette photo de profil a été prise dans un hôtel de premier plan en Amérique du Nord. À partir de l’arrière-plan, déterminez la période de l’année, la géolocalisation et la hauteur du sol. Parce qu’il s’agit d’un tir nul, je ne peux donner qu’un seul indice. Faites de votre mieux avec l’indice. L’allusion est aquatique. Essayez d’atteindre un objectif bonus : l’année (dans les 2 ans) suivant la prise de la photo.

Et voici l’image de profil (soyez gentil, ce type n’a pas réalisé qu’il allait être soumis à un examen minutieux lorsqu’il s’asseyait pour la photo) :

Josh Couleur

Nous n’avons pas dit à l’IA ce que nous attendons comme résultat, ni quel rôle elle devrait jouer en tant qu’évaluateur. Nous appelons également spécifiquement au tir zéroce qui amène le témoin à supposer qu’aucune autre information n’est disponible et qu’il n’y a qu’une seule chance de répondre. L’invite a dépensé autant de jetons pour un indice que pour fournir du contexte et a incité à un « crédit supplémentaire » pour un objectif étendu. Avec une limite de 2 400 jetons (mais en allouant seulement 337 jetons), Gemini a mis moins de quatre secondes pour répondre. Avant de partager les résultats, quelle précision attendez-vous de la réponse ? Le robot à portion individuelle parviendra-t-il à corriger la ville ? Le plancher? La période de l’année ? L’année où la photo elle-même a été prise ? N’hésitez pas à deviner dans les commentaires ci-dessous. Si vous aimez vous géo-deviner, de quel hôtel s’agit-il ? Étant donné la position de la lumière, pouvez-vous deviner la période de l’année ?

Capture d'écran 2024 03 21 Au 12.54.12

Sortie des Gémeaux :

« La photo a été prise à Chicago, dans l’Illinois, en fin d’après-midi début septembre. Le soleil brille à l’extérieur et l’horizon de la ville est visible en arrière-plan. La photo a été prise au 25ème étage d’un hôtel, et l’idée est qu’il y a une rivière en arrière-plan. La rivière Chicago traverse la ville et constitue une destination touristique populaire. La photo a été prise en 2021. »

En guise de point zéro, deux éléments de données étaient précis à près de 100 % : la période de l’année et l’étage de l’hôtel. La ville, la réponse à l’allusion et l’année étaient hors de propos. Avec un meilleur indice, une meilleure utilisation des jetons et un rôle à jouer dans l’évaluation de l’image, nous sommes convaincus que cela aurait pu être beaucoup plus précis. Imaginez être un évaluateur d’images de hot-dogs sans savoir que tu es un évaluateur de hot-dogs de renommée mondiale. De plus, il s’agit d’une photo de profil plutôt que d’une photo d’un point de repère bien visible au premier plan. Pour être honnête, notre robot avait très peu de choses à évaluer en termes d’images. Ce que nous demandons à ces systèmes est remarquable.

SPOILER (pour ceux qui devinent encore) :

La photo a été prise fin août (~ une semaine), 2017 (+4 ans), au 25ème étage (100% correct) de l’hôtel Park Hyatt New York à Manhattan (à même distance de l’équateur que Chicago, Illinois !), à côté de leur luxueuse piscine intérieure (la cible de l’indice sous-optimal d’un seul mot qui a bouleversé tout le vecteur).

Dans la deuxième partie de cette série, nous examinerons les résultats de Gemini, évaluerons les mérites de la réponse et chercherons des moyens de réduire les invites coûteuses et sous-optimales et la consommation coûteuse de jetons qui en résulte.

Si vous allez être à Google SUIVANT début avril, venez retrouver Perficient. Mes collègues et moi serions ravis de vous parler de votre stratégie actuelle en matière d’IA, de la façon dont votre cloud résiste et de ce que l’avenir de la technologie réserve aux entreprises cherchant à maximiser leurs profits.

*Les interactions d’aperçu précédentes incluent OpenAI ChatGPT4, Composer de Google (Apache airflow) à utiliser avec les graphiques acycliques dirigés ou les DAG, Github CoPilot et Bard de Google.

Blog ARC Optimizer

mars 21, 2024

Partie 1 / Blogs / Perficient

Articles similaires

Blog ARC Optimizer

Partager :

Articles similaires