Anonim

Une des choses qui m'a souvent frustré est l'incapacité de copier facilement du texte à partir d'images et de certains fichiers PDF (par exemple, ceux qui peuvent avoir été créés à partir de documents numérisés). Heureusement, au fil du temps, des solutions logicielles ont été développées pour résoudre ce problème, permettant ainsi de gagner un temps considérable qui aurait autrement été consacré à la copie manuelle et à la recopie du texte. Dans le conseil d'aujourd'hui, je vais parler d'un outil logiciel gratuit appelé Capture2Text qui utilise un algorithme de reconnaissance optique de caractères (OCR) qui vous permettra de capturer du texte à partir de fichiers images et PDF.

Installation et configuration

Pour commencer, rendez-vous sur la page SourceForge du projet et téléchargez la dernière version de Capture2Text. Le logiciel est fourni sous la forme d'une archive zip et n'inclut pas, à ce moment, un programme d'installation dédié. Une fois téléchargé, décompressez l'archive et lancez le fichier Capture2Text.exe. Cela lancera le logiciel et placera une icône dans la barre d'état système:

Tout d'abord, vous voudrez configurer les préférences du logiciel, en particulier les touches de raccourci (ou raccourcis) à utiliser pour démarrer et arrêter la capture:

Dans mon cas, j'ai choisi d'utiliser les touches “Windows + q” pour démarrer la capture et la touche “Entrée” pour l'arrêter. Vous pouvez adapter ces options à ce qui vous convient le mieux. N'oubliez pas que la touche “Windows + s” est déjà souvent utilisée pour la capture d'écran (par exemple, par des programmes tels que Microsoft One Note).

Dans l'onglet suivant, les options OCR peuvent être configurées, y compris la langue de saisie (sept langues sont actuellement prises en charge) et l'utilisation du prétraitement OCR pour améliorer la précision (hautement recommandé). Enfin, sous l'onglet Sortie, vous pouvez choisir entre, entre autres, d'enregistrer le texte capturé dans le presse-papiers ou d'ouvrir une fenêtre contextuelle distincte.

Utilisation du logiciel

Une fois le logiciel installé et configuré, vous pouvez commencer à l’utiliser via votre combinaison de touches de raccourci de capture de démarrage. À l’aide de votre souris, sélectionnez la zone de l’image qui comprend le texte que vous souhaitez capturer. Pour arrêter la capture, appuyez simplement sur la touche de raccourci que vous avez choisie pour arrêter la capture. Le texte sera ensuite copié dans le presse-papiers, une fenêtre contextuelle de sortie ou les deux. Un exemple peut être vu ci-dessous.

Après avoir rapidement testé l’outil avec des images, j’ai trouvé que sa précision était correcte. De toute évidence, des outils tels que celui-ci et l'OCR en général sont limités. Par exemple, un texte fortement modifié (très cursif, italique ou moderne) peut ne pas fonctionner aussi bien et parfois même pas du tout. En outre, dans certains cas, il sera utile d’ajuster légèrement les dimensions de la zone de capture ou de jouer avec le zoom sur l’image elle-même pour obtenir un résultat plus précis.

Lors de la capture de texte à partir de documents PDF numérisés, la précision est correcte, quelques modifications finales étant généralement nécessaires sur la sortie capturée (en fonction de la qualité de la numérisation initiale). De plus, j'ai remarqué que le logiciel peut prendre quelques secondes de plus à être traité, surtout lorsqu'on lui demande de convertir de grandes quantités de texte.

Cela dit, dans l’ensemble, j’estime que l’outil fait du bon travail, en particulier du fait qu’il est librement disponible - je vous encourage à l’essayer.

Addendum 16/11/2015:

Une autre option, pour ceux qui possèdent un compte Google, est également possible d’utiliser les fonctionnalités de ROC de Google en téléchargeant un fichier sur votre Google Drive (pour plus de détails, cliquez ici). En outre, il existe également un plug-in OCR disponible pour les utilisateurs de Google Chrome, appelé Copyfish, que vous pouvez également consulter.

Comment capturer du texte à partir d'images avec le logiciel ocr