(Je ne sais pas si je poste ma requête dans la bonne section...)
J'aurai aimé savoir s'il était possible d'extraire le texte (japonais) d'un fichier *.pdf (écrit verticalement) afin de l'avoir en *.txt (ça faciliterai grandement ma lecture).
Merci.
Japonais ou français cela dépend si le document pdf est "fusionné" ou pas, le plus simpe est de faire un "enregistré sous" du fichier en choisissant l'option .txt .... try and see _________________ Événements Japonais en France Mon flickr
J'avais essayé cette technique, mais le fichier texte qui en résulte est vide. J'ai également essayé via je ne sais plus quel site qui proposais de convertir un pdf en fichier texte, mais là encore en vain.
(Voici le fichier en question : http://repository.lib.kit.ac.jp/dspace/handle/10212/1745 )
Inscrit le: 03 Aoû 2008 Pays, Ville: Paris, France
Ce message n'a pas encore été noté.
Tu ne pourras pas extraire le texte de ce fichier, à moins d'utiliser un logiciel de reconnaissance de caractères. En réalité il s'agit d'un scan, donc le fichier pdf ne contient rien d'autre que des images (aucun caractère => aucun texte).
Il faudrait donc chercher des logiciels de reconnaissance de japonais écrit de haut en bas...
[oups, doublé par Daggon ] _________________ I.W.G.P.サイコー!!!
Inscrit le: 22 Sep 2003 Pays, Ville: Tokyo, Setagaya-ku
Ce message n'a pas encore été noté.
Dans le cas ou il s'agit de texte (et non d'images, comme dans ton cas Oblomov, sorry), on peut aussi s'envoyer à soi-même le fichier sur son compte gmail et l'ouvrir dans Google Docs au format html. Un petit copier-coller et le tour est joué. _________________ Sucre. | Candyland.jp
Pour les chanceux qui sont sous Linux, il suffit d'ouvrir votre document dans vos lecteur PDF préféré (Evince, ePDFview, Xpdf par exemple) puis faire un copié-collé de votre selection dans un éditeur de texte, ou un traitement de texte. _________________ "Parler pour ne rien dire et ne rien dire pour parler sont les deux principes majeurs et rigoureux de tous ceux qui feraient mieux de la fermer avant de l'ouvrir."
P. Dac
Inscrit le: 03 Mai 2009 Pays, Ville: France, quelque part prés du centre
Ce message n'a pas encore été noté.
heian a écrit:
Pour les chanceux qui sont sous Linux, il suffit d'ouvrir votre document dans vos lecteur PDF préféré (Evince, ePDFview, Xpdf par exemple) puis faire un copié-collé de votre selection dans un éditeur de texte, ou un traitement de texte.
Le document PDF qui nous concerne ici étant seulement constitué d'images, je vais me permettre d'émettre un léger doute sur la validité de cette solution.
D'autant qu'elle fonctionne habituellement de la même manière sous Linux ou Windows lorsque le document PDF est constitué de texte.
Oui tout à fait, j'ai été complètement à côté de la plaque sur ce coup-là...
Désolé. _________________ "Parler pour ne rien dire et ne rien dire pour parler sont les deux principes majeurs et rigoureux de tous ceux qui feraient mieux de la fermer avant de l'ouvrir."
P. Dac
Je parcourais la section FAQ, quand j'ai vu cette question, pour laquelle la solution la plus simple, reste d'utiliser un OCR.
Je me permets de déterrer le topic, car l'intéressé, semble avoir refait surface sur le forum depuis quelques jours, donc peut-être qu'il cherche toujours une solution à son problème.
Je me permets de me quoter donc :
Nattôha a écrit:
Salut tout le monde !
Il ne me semble pas l'avoir vu sur le forum .
Voici un OCR Eng/Jap assez doué (capable également de reconnaître l'écriture manuscrite bien que je n'ai pas encore testé) et surtout gratuit .
Je disais donc que je ne l'ai utilisé que sur des journaux ou autre textes tapés à l'ordinateur mais j'ai trouvé qu'il était plutôt bon niveau reconnaissance, même quand la qualité de l'image fournie n'est pas géniale.
Pour ce qui est du fonctionnement, c'est pas bien sorcier, pourvu qu'on parle un peu japonais (et je pars du principe que les personnes intéressées par un tel logiciel parlent un minimum jap )
Attention : En ce qui me concerne, le logiciel me donne un aperçu de la transposition (écran de droite) avec pleins de points d'interrogation mais une fois le word généré, les kanjis apparaissent bien.
Donc ne vous laissez pas démonter par l'aperçu qui semble indiquer un échec ... Moi j'ai passé 1 heure à changer différents paramètres du logiciel, avant de même penser à générer le fichier word !
En définitive c'est un logiciel bien pratique pour lire (plus pratique pour chercher les mots dans le dico) et surtout pour éditer un long texte scanné en japonais... Bref un OCR quoi ^^
Il me semble qu'il gère les pdf, mais au pire, si ça n'était pas le cas, il te suffirait de faire un "snapshot" avec acrobat reader de la zone ou tu as le texte, et de l'enregistrer en tant que JPEG/PNG ou autre format image géré par l'OCR.
Voilà j'espère que ça aidera en tout cas _________________ 鶏と小鳥と鰐(にわとりとことりとわに)
Toutes les heures sont au format GMT + 1 Heure Aller à la page 1, 2Suivante
Page 1 sur 2
Vous ne pouvez pas poster de nouveaux sujets dans ce forum Vous ne pouvez pas répondre aux sujets dans ce forum Vous ne pouvez pas éditer vos messages dans ce forum Vous ne pouvez pas supprimer vos messages dans ce forum Vous ne pouvez pas voter dans les sondages de ce forum