ai Featured
SemantiTube
Recherche sémantique dans les vidéos YouTube. Retrouvez un moment précis en décrivant ce que vous cherchez.
SemantiTube
Le Problème
Quand on regarde une vidéo YouTube, retrouver un moment précis est fastidieux. Il faut parcourir manuellement la timeline pour retrouver le passage où une information est donnée (ex: "à quelle température mettre le four ?").
La Solution
Moteur de recherche multimodal qui combine la transcription (YouTube ou Whisper) et l'analyse visuelle (modèle Google SigLIP) pour retrouver le moment correspondant à une requête textuelle.
Architecture
- Backend : FastAPI avec PyTorch
- Transcription : API YouTube (prioritaire) ou Whisper si indisponible
- Vision : SigLIP (modèle Google) pour les embeddings visuels
- Vector DB : ChromaDB pour la recherche par similarité
- Traitement vidéo : yt-dlp, OpenCV
Défis & Apprentissages
Optimisation des performances pour traiter des vidéos longues. La détection de scènes classique (PySceneDetect) ne fonctionnait pas bien, développement d'un échantillonnage basé sur les embeddings.
Technologies
PythonWhisperSigLIPChromaDBPyTorchFastAPIyt-dlp
Impact
Projet démo démontrant mes compétences en traitement vidéo, embeddings multimodaux et recherche vectorielle. Intégration de VL-JEPA pour la recherche d'actions temporelles.