Shanghai Stonehill Technology dévoile le premier grand modèle non basé sur l’attention en Chine : Plus rapide, plus puissant, plus économique

WebSupport@BusinessWire.com 26 janvier 2024

12 3 minutes de lecture

SHANGHAI--(BUSINESS WIRE)--Le 24 janvier, lors de la conférence "New Architecture of Large Language Model", Rock AI (une filiale de Shanghai Stonehill Technology Co., Ltd.) a officiellement dévoilé le premier grand modèle linguistique à usage général sans mécanisme d'attention, le modèle Yan. Il s'agit également d'un des rares grands modèles de l'industrie qui ne dépend pas d'une architecture de Transformer. Le Modèle Yan offre une efficacité d'entraînement 7 fois supérieure à celle des modèles Transformer ayant des paramètres équivalents, une capacité d'inférence 5 fois plus élevée et une capacité mémoire 3 fois plus importante. De plus, il prend en charge un fonctionnement sans perte sur les CPU, réduit l'hallucination dans les expressions et offre un support à 100 % pour les applications de déploiement privé.

Lors de la réunion, Liu Fanping, le PDG de Rock AI, a prononcé un discours : "Nous espérons que l'architecture Yan pourra servir d'infrastructure pour le domaine de l'intelligence artificielle, et établir un écosystème de développeurs dans le domaine de l'IA. En fin de compte, nous visons à permettre à quiconque d'utiliser des grands modèles polyvalents sur n'importe quel appareil, fournissant des services d'IA plus économiques, pratiques et sécurisés, et à promouvoir la construction d'un avenir de l'intelligence artificielle inclusive."

Le Transformer, en tant qu'architecture fondamentale pour les grands modèles tels que ChatGPT, a connu un succès significatif, mais il présente encore de nombreuses lacunes, dont une consommation élevée en puissance de calcul, une utilisation étendue de la mémoire, des coûts élevés et des difficultés dans le traitement de données de séquence longue. Pour résoudre ces problèmes, le Modèle Yan remplace l'architecture Transformer par une "Architecture Yan" générative nouvellement développée. Cette architecture permet une inférence sans perte de séquences infiniment longues sur des CPU grand public, réalisant les effets de performance d'un grand modèle avec des centaines de milliards de paramètres en n'utilisant que des dizaines de milliards de paramètres, répondant aux besoins pratiques des entreprises pour le déploiement économique et facile de grands modèles.

Lors de la conférence de presse, l'équipe de recherche a présenté de nombreuses comparaisons empiriques entre le Modèle Yan et un modèle Transformer de la même échelle de paramètres. Les données expérimentales ont montré que dans les mêmes conditions de ressources, le modèle avec l'architecture Yan a une efficacité d'entraînement et une capacité d'inférence respectivement 7 et 5 fois plus élevées que celles de l'architecture Transformer, et sa capacité mémoire est améliorée de 3 fois. En réponse au défi des séquences longues auquel fait face le Transformer, le Modèle Yan se comporte également de manière excellente, capable théoriquement d'atteindre une inférence de longueur illimitée.

De plus, l'équipe de recherche a innové avec une fonction d'association raisonnable et un opérateur de mémoire, combinés à des méthodes de calcul linéaires, pour réduire la complexité de la structure interne du modèle. Le Modèle Yan nouvellement conçu tentera d'ouvrir la "boîte noire" jusqu'ici "ininterprétable" du traitement du langage naturel, facilitant l'application généralisée de grands modèles dans des domaines à haut risque tels que la santé, la finance et le droit. En même temps, l'avantage matériel du Modèle Yan, capable de fonctionner sur des CPU grand public sans compression ni élagage, élargit considérablement les possibilités de déploiement de grands modèles dans diverses industries.

Liu Fanping a déclaré : "Dans la prochaine phase, Rock AI vise à créer un système d'interaction homme-machine en temps réel à pleine modalité, à réaliser l'entraînement côté extrémité et à intégrer l'entraînement et l'inférence. Nous prévoyons de connecter pleinement la perception, la cognition, la prise de décision et l'action pour construire une boucle intelligente pour l'intelligence artificielle générale. Cela offrira plus d'options pour la plateforme fondamentale des grands modèles dans des domaines de recherche tels que les robots polyvalents et l'intelligence incarnée."

Contacts

Shanghai Stonehill Technology Co., Ltd.
Jasper Wang, Responsable des Relations Publiques de la Marque
E-mail : wangjw@stonehill-tech.com

WebSupport@BusinessWire.com 26 janvier 2024

12 3 minutes de lecture

Shanghai Stonehill Technology dévoile le premier grand modèle non basé sur l’attention en Chine : Plus rapide, plus puissant, plus économique

WebSupport@BusinessWire.com

Cybermenaces: l’IA utile aux voleurs d’informations et aux malwares bancaires

Haffner Energy annonce l’approbation de son Document d’enregistrement par l’Autorité des marchés financiers dans le cadre de son projet d’introduction en bourse sur Euronext Growth® à Paris

VIVA TECHNOLOGY 2019

Signaux hebdomadaires au 31/05/2024

Les grands indices boursiers remplissent-ils encore leur rôle ?

Diagnostiquer les volumes inhabituels

L’importance des volumes

Les bandes de Bollinger

L’optimisation des indicateurs techniques

L’indicateur de MACD

Les graphiques en Points & Figures

WebSupport@BusinessWire.com

Subscribe to our mailing list to get the new updates!

Tikehau Capital : Déclaration des transactions sur actions propres réalisées du 19 janvier 2024 au 25 janvier 2024

Un groupe de porteurs de billets se mobilise pour contester l’accord visant le rachat de Farfetch par Coupang

Articles similaires

Carmila met à disposition son Document d’enregistrement universel 2024

Résultats annuels 2024 : Llama Group confirme sa transformation et entre dans une nouvelle dynamique de croissance

Aelis Farma publie ses résultats financiers annuels 2024 et confirme ses perspectives 2025

Vivendi : Information relative au nombre total de droits de vote et d’actions composant le capital social