Skip to content

Latest commit

 

History

History
56 lines (43 loc) · 2.8 KB

File metadata and controls

56 lines (43 loc) · 2.8 KB

TODO Benjamin

A voir avec Pierre

  • Mettre tout les steps sur une même branch avec step1.md .. ça va vite devenir galère pour s'y retrouver pour les participant de devoir switch de branch à chaque fois et pour nous pour la rédaction et les fichiers annexes.
  • --> j'ai mis à jours les branches et cleaner les dossiers inutiles(bot, .idea, pom.xml)

Step 1

  • Retrait de la dépendance mvn, plus besoin on utilise tout en dockerisé ?
  • Make file plus besoin avec l'image de tooling python (et nécessite internet)
  • Modification au retrait du make file car tout fait en 1 seules ligne de commande au step d'ingestion des données, plus besoin de build d'image car image de tooling
  • Indiquer à chaque participant de bien créer un namespace tock avec son nom/prénom ou pseudo ? On pourrait lancer un PAD en début de codelab tout le monde y mets son nom / pseudo pour éviter les collision ça permettra de voir si on a des risques.
  • Création d'un namespace passer par namespace, bien le cocher puis bouton de création de l'app.
  • Récupérer le relative reste path et indiquer dans le step 2 de le coller sur page web.

Step 2

Ok pour moi rien a voir.

Step 2_1 : Accélérons l'entrainement avec de l'IAGen

Ce step n'est que sur la génération de phrase, j'ai commencé à décaler tout ce qui est lié au RAG arrive après néanmoins toutes les explication autour de LLM / prompt / config Ollama / Open AI doivent rester. J'ai entamé le taff mais pas eu le temps de finir.

  • Lnagfuse + toc studio OK
  • Screenshot à revoir voir les TODO

Step 2_2

  • @benjamin rédiger le step
  • Héberger le dataset sur la machine GPU.
  • Revoir IP dans extra host ...

Step 3

  • Image a reprendre d'un step avant
  • Ajouter la config d'embedding + envoyer un message qui déclanche le RAG pour tester

Step 4

  • modification image pour matrix ok
  • exemple de jealbreak

Step 5

  • explication Token + tokenisatioon
  • Finaliser explication context
  • Inviter les gens à jouer avec le prompt
  • explication embedding vector

Step 6

  • Brancher le tock reactkit sur le bot avec explication

Tester avec ce dataset ? https://www.kaggle.com/datasets/asaniczka/tmdb-movies-dataset-2023-930k-movies