Extraire un texte japonais d'un pdf

Oblomov · Ceinture Blanche Inscrit le: 14 Juin 2007

(Je ne sais pas si je poste ma requête dans la bonne section...)
J'aurai aimé savoir s'il était possible d'extraire le texte (japonais) d'un fichier *.pdf (écrit verticalement) afin de l'avoir en *.txt (ça faciliterai grandement ma lecture).
Merci.

demipoulpe · 3eme Dan Inscrit le: 25 Avr 2005 Pays, Ville: X-rousse

Japonais ou français cela dépend si le document pdf est "fusionné" ou pas, le plus simpe est de faire un "enregistré sous" du fichier en choisissant l'option .txt .... try and see Cool

_________________
Événements Japonais en France
Mon flickr

Oblomov · Ceinture Blanche Inscrit le: 14 Juin 2007

J'avais essayé cette technique, mais le fichier texte qui en résulte est vide. J'ai également essayé via je ne sais plus quel site qui proposais de convertir un pdf en fichier texte, mais là encore en vain.
(Voici le fichier en question : http://repository.lib.kit.ac.jp/dspace/handle/10212/1745 )

Daggon

C'est une collection d'images. Tu n'en tireras rien à part en utilisant un outil de reconnaissance de caractères (OCR).

Bast

Tu ne pourras pas extraire le texte de ce fichier, à moins d'utiliser un logiciel de reconnaissance de caractères. En réalité il s'agit d'un scan, donc le fichier pdf ne contient rien d'autre que des images (aucun caractère => aucun texte).

Il faudrait donc chercher des logiciels de reconnaissance de japonais écrit de haut en bas... Wink

[oups, doublé par Daggon Wink

]
_________________
I.W.G.P.サイコー!!!

remuka · 7eme Dan Inscrit le: 22 Sep 2003 Pays, Ville: Tokyo, Setagaya-ku

Dans le cas ou il s'agit de texte (et non d'images, comme dans ton cas Oblomov, sorry), on peut aussi s'envoyer à soi-même le fichier sur son compte gmail et l'ouvrir dans Google Docs au format html. Un petit copier-coller et le tour est joué.
_________________
Sucre. | Candyland.jp

heian

Pour les chanceux qui sont sous Linux, il suffit d'ouvrir votre document dans vos lecteur PDF préféré (Evince, ePDFview, Xpdf par exemple) puis faire un copié-collé de votre selection dans un éditeur de texte, ou un traitement de texte.
_________________
"Parler pour ne rien dire et ne rien dire pour parler sont les deux principes majeurs et rigoureux de tous ceux qui feraient mieux de la fermer avant de l'ouvrir."
P. Dac

Daggon

heian

Oui tout à fait, j'ai été complètement à côté de la plaque sur ce coup-là...
Désolé.
_________________
"Parler pour ne rien dire et ne rien dire pour parler sont les deux principes majeurs et rigoureux de tous ceux qui feraient mieux de la fermer avant de l'ouvrir."
P. Dac

Nattôha · 2eme Dan Inscrit le: 20 Déc 2008 Pays, Ville: Tokyo

Je parcourais la section FAQ, quand j'ai vu cette question, pour laquelle la solution la plus simple, reste d'utiliser un OCR.

Je me permets de déterrer le topic, car l'intéressé, semble avoir refait surface sur le forum depuis quelques jours, donc peut-être qu'il cherche toujours une solution à son problème.

Je me permets de me quoter donc :