VLC pourrait intégrer Whisper pour des sous-titres automatisés

Pierre Dandumont |

Nous vous parlons régulièrement de Whisper, un logiciel open source conçu par OpenAI pour transcrire fidèlement de l'audio en texte. Et bien ce programme pourrait être intégré à VLC pour proposer des fonctions de transcription plus évoluée.

Si vous lancez VLC cette semaine, vous pourrez profiter de cette icône.

Le projet en cours se base sur whisper.cpp, une implémentation en C/C++ qui a gagné récemment des optimisations pour les GPU Apple. Il y a évidemment quelques (grosses) étapes à franchir : Whisper se base sur des modèles qui peuvent être assez volumineux et a besoin d'une dizaine de secondes d'audio au minimum pour fonctionner, ce qui nécessite quelques ajustements dans le décodage des vidéos. Pour le moment, l'implémentation nécessite de fournir un modèle et pose quelques soucis à la compilation, pour une raison simple : Whisper nécessite macOS 13 au minimum et VLC est compilé pour des versions plus anciennes de macOS.

Les différents essais menés par Gabriel Lafond-Thenaille n'amèneront pas nécessairement une intégration dans VLC dans le futur, mais l'idée reste intéressante pour amener de nouvelles fonctions dans le logiciel libre.

Tags
avatar John McClane | 

Jusqu’à présent j’utilisais OpenSubtitles, mais il ne semble plus fonctionner…

avatar cecile_aelita | 

@John McClane

Je ne connais pas ce logiciel.
Personnellement, j’utilise l’application TV et je peux choisir directement le sous titre avec le bouton sous titre.
Qu’est ce que ce logiciel apporte de plus du coup?

avatar John McClane | 

@cecile_aelita

Ça me permettait, quand il fonctionnait encore du moins, d’intégrer des sous-titres dans VLC.

Édit : pardon je me trompe de nom. Le logiciel s’appelait tout simplement Subtitles. Mais il ne fonctionne plus, et son site web n’est plus accessible.

avatar rysrys | 

@John McClane Quel rapport avec Whisper ?

avatar John McClane | 

@rysrys

Ça m’y a fait penser, par l’ajout de sous-titres automatisés qui pourraient remplacer mon défunt Subtitles.

avatar cecile_aelita | 

@John McClane

Moi j’ai les sous titres dans mes films que j’achète sans devoir passer par un autre site pourtant.

avatar John McClane | 

@cecile_aelita

Parce qu’ils ont été achetés, justement… 😉

avatar foxot | 

@cecile_aelita

Ce n'est pas le cas de toutes les séries et films disponibles sur iTunes, c'est particulier flagrant sur les séries d'animation.
Si par exemple je veux regarder la série animée de Disney "Star Butterfly", l'appli TV ne propose que la VO et la VF sans aucun sous-titres disponible, que ce soit les sous-titres français pour profiter de la VOSTFR ou les sous-titres sourds et malentendants.

Dans ce cas des sites comme OpenSubtitles ou Addic7ed sont indispensables pour pouvoir télécharger soi-même les sous-titres (souvent fait par des fans).

Bref, comme trop souvent les versions légales sont moins interessantes et plus contraignantes que des versions piratées car pas forcément accès à toutes les langues disponibles que ce soit en audio ou sous-titrage, rarement accès aux bonus des versions physiques et en prime on est limité dans l'utilisation (il est impossible par exemple de lire un film acheté sur itunes sur un smartphone android)

avatar fredsoo | 

@cecile_aelita

Si tu encode des dvd les sous titres ne sont pas intégrés.

avatar cecile_aelita | 

@fredsoo

Oui oui je n’avais pas compris que ça concernait le téléchargement piraté !
Au temps pour moi.

avatar fredsoo | 

En principe le téléchargement piraté quand le boulot est bien fait les sous titres sont déjà intégrés 😁

avatar Gosseyn | 

@fredsoo

"Si tu encode des dvd les sous titres ne sont pas intégrés."

Si tu fais les choses proprement, tu peux bien sûr encoder les sous-titres, et même avoir plusieurs langues, sélectionner une langue par défaut, ou aucune pour masquer les sous-titres par défaut.

avatar vincentn | 

@cecile_aelita

Il y a plein de vidéos légales achetées pour lesquelles les sous-titres dans une langue donnée sont absents (et je ne parle même pas des supports physiques, où suivant les versions et régions , ces sous-titres sont présents ou absents) ou de très mauvaises qualités (avec des contre-sens, des erreurs, non respect des normes de sous-titrage…) et où des sous-titres disponibles en ligne, parfois réalisés par des communautés, sont de bien meilleures qualités que les officiels.

Cela peut être aussi utile pour les vidéos disponibles sur des plateformes type YouTube, des conférences (type TED ou autres) dans une autre langue ou pour les personnes malentendantes, à défaut d’avoir de vrais sous-titres en audio description.

avatar cecile_aelita | 

@vincentn

Exactement ! Et c’est d’ailleurs l’écrasante majorité des cas d’usage de ce site ! Être utilisé avec des films achetés légalement mais avec des sous titres de piètre qualité !😅
Tout comme les torrents sont utilisés en écrasante majorité pour télécharger des distributions Linux 😅!

avatar fredsoo | 

@cecile_aelita

Fine connaisseuse 👍🏻😁🎄🎅🎁

avatar cecile_aelita | 

@fredsoo

Je me base sur les commentaires ici ^^

avatar fredsoo | 

@cecile_aelita

Excellente analyse 😁🎄🎅

avatar cecile_aelita | 

@fredsoo

Merci

avatar bouh | 

@John McClane
Essaie IINA.
Très bon player et il embarque un moteur de sous-titres en ligne.

avatar John McClane | 

@bouh

Merci ! Je vais essayer 👍

avatar FrDakota | 

Ce qui m’agace avec VLC c’est quand il se bloque quand deux sous-titres à une vidéo cohabitent. (Ex. SRT et VTT)
.
Cas hyper fréquent quant je récupère des émissions de France.Tv avec Captv.ty.
.
Obligé de renommer l’un des sous-titres pour que VLC se lance.

avatar gbasile | 

@FrDakota

Je n’ai jamais eu de problème avec vlc pour lire les vidéos données par captvty.

Sinon moi je rêve d’open whisper avec youtube, le sous-titrage automatique est vraiment mauvais, tant en français qu’en anglais.

avatar hawker | 

Idee interessante mais ca pourrait en refroidir plus d'un de voir VLC bundlé avec un gros blob de AI data.
Pour ceux qui connaissent pas MPV, c'est VLC en 3x plus leger, 3x plus rapide.

CONNEXION UTILISATEUR