Skip to content

InternGPT : Développer les interactions avec ChatGPT au-delà du pointage

Bien que ChatGPT ait révolutionné notre façon de communiquer avec l'IA, un nouveau paradigme émerge qui va au-delà de cette fondation. Ce développement, InternGPT, offre une expérience interactive plus enrichie, utilisant non seulement le langage mais aussi le pointage pour contrôler ChatGPT. Ce système repousse les frontières de la communication visuelle avec l'IA.

Les tenants et aboutissants d'InternGPT

InternGPT, souvent abrégé en iGPT, dépasse le simple système interactif visuel. InternGPT signifie interaction, non verbale et ChatGPT, et il mélange ces composantes pour créer une expérience d'interaction unique. Au coeur de l'outil se trouve un dispositif de pointage pour des opérations telles que le clic, le glissement et la création, étendant ainsi efficacement les capacités de ChatGPT.

Développé en tant que projet open source par des chercheurs de l'OpenGVLab de l'Université de l'Académie chinoise des sciences, InternGPT s'appuie sur le modèle ChatGPT. En tant qu'extension transformative de ce grand modèle de chatbot basé sur le langage, InternGPT promet de nombreuses possibilités, de la génération de texte et de la traduction linguistique à la création de matériel créatif et à l'offre de réponses utiles aux requêtes.

InternGPT : Un outil émergent pour l'interaction numérique

Bien qu'InternGPT soit encore au stade de développement, il présente le potentiel de devenir un outil puissant dans de nombreux domaines d'application. Par exemple, sa capacité à interagir avec d'autres logiciels tels que les outils d'édition d'images amplifie son impact potentiel dans diverses industries. Cette interactivité permettra une intégration fluide entre la communication basée sur le texte et la manipulation visuelle, ouvrant de nombreuses possibilités.

Installation et configuration d'InternGPT

L'installation d'InternGPT nécessite quelques prérequis de base, dont Linux, Python 3.8+, PyTorch 1.12+, CUDA 11.6+ et une mémoire GPU d'au moins 17 Go pour charger les outils de base. Une fois l'environnement Python créé et activé, les dépendances Python sont installées à l'aide de la commande pip.

Par la suite, le service iChat Gradio est lancé avec les composants nécessaires tels que HuskyVQA, SegmentAnything et ImageOCRRecognition. Pour ceux qui souhaitent activer la fonctionnalité d'assistant vocal, une étape supplémentaire consiste à générer un certificat à l'aide d'OpenSSL.

Fonctionnalités interactives d'InternGPT

InternGPT est bien plus qu'une façon innovante d'interagir avec ChatGPT. Il offre toute une gamme de fonctionnalités, dont un dialogue multi-modal qui permet des interactions liées aux images. Par exemple, les utilisateurs peuvent télécharger une image puis engager une conversation à son sujet, générant des commandes telles que "Qu'y a-t-il dans l'image ?" ou "Quelle est la couleur de l'arrière-plan de l'image ?".

De plus, InternGPT prend en charge les opérations interactives sur les images. Les utilisateurs peuvent sélectionner une zone spécifique d'une image, effectuer une reconnaissance optique des caractères à cet endroit, voire supprimer ou remplacer la zone masquée sur une image. Ces commandes peuvent considérablement améliorer la manipulation et la génération d'images, en fonction des entrées des utilisateurs.

InternGPT permet également aux utilisateurs de créer de nouvelles images à partir d'un seul fichier audio, ou à partir d'une combinaison de fichiers audio et de texte. Cette fonctionnalité de création d'images est encore étendue avec la possibilité de dessiner sur un tableau blanc numérique et de générer des images à partir de ces gribouillages, ouvrant de nouvelles possibilités créatives.

Vous pouvez accéder à InternGPT sur GitHub ici (opens in a new tab).

Conclusion : InternGPT - L'avenir de l'interaction avec l'IA

En tant que nouvelle interface interactive pour ChatGPT, InternGPT est un effort pionnier qui promet de changer notre façon d'interagir avec l'IA. Grâce à sa capacité à associer le langage et le pointage pour la communication visuelle, InternGPT repousse les frontières de ce qui est possible avec l'IA, en abolissant les barrières entre la communication textuelle et visuelle. Au fur et à mesure du développement, nous sommes impatients de voir la gamme d'applications que cet outil innovant peut rendre possible.