ai Featured

SemantiTube

Recherche sémantique dans les vidéos YouTube. Retrouvez un moment précis en décrivant ce que vous cherchez.

SemantiTube

Le Problème

Quand on regarde une vidéo YouTube, retrouver un moment précis est fastidieux. Il faut parcourir manuellement la timeline pour retrouver le passage où une information est donnée (ex: "à quelle température mettre le four ?").

La Solution

Moteur de recherche multimodal qui combine la transcription (YouTube ou Whisper) et l'analyse visuelle (modèle Google SigLIP) pour retrouver le moment correspondant à une requête textuelle.

Architecture

Backend : FastAPI avec PyTorch
Transcription : API YouTube (prioritaire) ou Whisper si indisponible
Vision : SigLIP (modèle Google) pour les embeddings visuels
Vector DB : ChromaDB pour la recherche par similarité
Traitement vidéo : yt-dlp, OpenCV

Défis & Apprentissages

Optimisation des performances pour traiter des vidéos longues. La détection de scènes classique (PySceneDetect) ne fonctionnait pas bien, développement d'un échantillonnage basé sur les embeddings.

Technologies

PythonWhisperSigLIPChromaDBPyTorchFastAPIyt-dlp

Impact

Projet démo démontrant mes compétences en traitement vidéo, embeddings multimodaux et recherche vectorielle. Intégration de VL-JEPA pour la recherche d'actions temporelles.