Au taff, on vient de recycler un vieux coucou avec 6 cartes GTX 1070 Ti, des trucs de 2017 dits "désuets" par .
démarre un réparti sur les cartes... Et ça va plus vite que ChatGPT.
Une interface codée en de 30 lignes.
Si ça c'est pas rentabiliser !

PS: on va virer CUDA et utiliser d'ici peu

Impressionné par llamacpp et sa capacité à splitet les modèles sur plusieurs GPU, je me suis dit "tiens bah on va brancher ma vieille GTX 1060 pour donner 3Go de plus à ma RTX 3070".
Et ça fonctionne bon sang... Me reste à tester le mode RPC pour utiliser la 3060 de mon laptop en réseau.
Llamacpp c'est tout simplement un coup de génie.

Suivre

Mode RPC testé. C'est super efficace, le modèle se répartit super bien sur les cartes graphiques du réseau.
C'est lent à charger par contre (au démarrage), mais les inférences sont très rapides, presque comme si on faisait tout tourner localement.
Donc, si vous avez plusieurs PC/Mac et que vous voulez charger des gros modèles, c'est clairement bien foutu.
est tout simplement épatant.

Inscrivez-vous pour prendre part à la conversation
techlover

Technology lovers, here we are — (development, digital artwork, science…)