Voir le sujet précédent :: Voir le sujet suivant |
Auteur |
Message |
Oblomov Ceinture Blanche
Inscrit le: 14 Juin 2007 Messages: 12 Points: 26
|
Posté le: 06 Aoû 2009 12:31 Sujet du message: Extraire un texte japonais d'un pdf
Ce message n'a pas encore été noté. |
|
|
(Je ne sais pas si je poste ma requête dans la bonne section...)
J'aurai aimé savoir s'il était possible d'extraire le texte (japonais) d'un fichier *.pdf (écrit verticalement) afin de l'avoir en *.txt (ça faciliterai grandement ma lecture).
Merci. |
|
Revenir en haut |
|
|
demipoulpe 3eme Dan
Inscrit le: 25 Avr 2005 Messages: 540 Points: 5803 Pays, Ville: X-rousse
|
Posté le: 06 Aoû 2009 13:25 Sujet du message:
Ce message n'a pas encore été noté. |
|
|
Japonais ou français cela dépend si le document pdf est "fusionné" ou pas, le plus simpe est de faire un "enregistré sous" du fichier en choisissant l'option .txt .... try and see _________________ Événements Japonais en France
Mon flickr |
|
Revenir en haut |
|
|
Oblomov Ceinture Blanche
Inscrit le: 14 Juin 2007 Messages: 12 Points: 26
|
Posté le: 06 Aoû 2009 17:16 Sujet du message:
Ce message n'a pas encore été noté. |
|
|
J'avais essayé cette technique, mais le fichier texte qui en résulte est vide. J'ai également essayé via je ne sais plus quel site qui proposais de convertir un pdf en fichier texte, mais là encore en vain.
(Voici le fichier en question : http://repository.lib.kit.ac.jp/dspace/handle/10212/1745 ) |
|
Revenir en haut |
|
|
Daggon 2eme Dan
Inscrit le: 03 Mai 2009 Messages: 773 Points: 4771 Pays, Ville: France, quelque part prés du centre
|
Posté le: 06 Aoû 2009 17:34 Sujet du message:
Ce message n'a pas encore été noté. |
|
|
C'est une collection d'images. Tu n'en tireras rien à part en utilisant un outil de reconnaissance de caractères (OCR). |
|
Revenir en haut |
|
|
Bast Ceinture Marron
Inscrit le: 03 Aoû 2008 Messages: 173 Points: 1041 Pays, Ville: Paris, France
|
Posté le: 06 Aoû 2009 17:54 Sujet du message:
Ce message n'a pas encore été noté. |
|
|
Tu ne pourras pas extraire le texte de ce fichier, à moins d'utiliser un logiciel de reconnaissance de caractères. En réalité il s'agit d'un scan, donc le fichier pdf ne contient rien d'autre que des images (aucun caractère => aucun texte).
Il faudrait donc chercher des logiciels de reconnaissance de japonais écrit de haut en bas...
[oups, doublé par Daggon ] _________________ I.W.G.P.サイコー!!! |
|
Revenir en haut |
|
|
remuka 7eme Dan
Inscrit le: 22 Sep 2003 Messages: 2422 Points: 27072 Pays, Ville: Tokyo, Setagaya-ku
|
Posté le: 06 Aoû 2009 18:53 Sujet du message:
Ce message n'a pas encore été noté. |
|
|
Dans le cas ou il s'agit de texte (et non d'images, comme dans ton cas Oblomov, sorry), on peut aussi s'envoyer à soi-même le fichier sur son compte gmail et l'ouvrir dans Google Docs au format html. Un petit copier-coller et le tour est joué. _________________ Sucre. | Candyland.jp |
|
Revenir en haut |
|
|
heian Modérateur
Inscrit le: 23 Déc 2003 Messages: 758 Points: 5271 Pays, Ville: Alfortville
|
Posté le: 06 Aoû 2009 20:27 Sujet du message:
Ce message n'a pas encore été noté. |
|
|
Pour les chanceux qui sont sous Linux, il suffit d'ouvrir votre document dans vos lecteur PDF préféré (Evince, ePDFview, Xpdf par exemple) puis faire un copié-collé de votre selection dans un éditeur de texte, ou un traitement de texte. _________________ "Parler pour ne rien dire et ne rien dire pour parler sont les deux principes majeurs et rigoureux de tous ceux qui feraient mieux de la fermer avant de l'ouvrir."
P. Dac |
|
Revenir en haut |
|
|
Daggon 2eme Dan
Inscrit le: 03 Mai 2009 Messages: 773 Points: 4771 Pays, Ville: France, quelque part prés du centre
|
Posté le: 06 Aoû 2009 21:15 Sujet du message:
Ce message n'a pas encore été noté. |
|
|
heian a écrit: | Pour les chanceux qui sont sous Linux, il suffit d'ouvrir votre document dans vos lecteur PDF préféré (Evince, ePDFview, Xpdf par exemple) puis faire un copié-collé de votre selection dans un éditeur de texte, ou un traitement de texte. |
Le document PDF qui nous concerne ici étant seulement constitué d'images, je vais me permettre d'émettre un léger doute sur la validité de cette solution.
D'autant qu'elle fonctionne habituellement de la même manière sous Linux ou Windows lorsque le document PDF est constitué de texte. |
|
Revenir en haut |
|
|
heian Modérateur
Inscrit le: 23 Déc 2003 Messages: 758 Points: 5271 Pays, Ville: Alfortville
|
Posté le: 06 Aoû 2009 22:29 Sujet du message:
Ce message n'a pas encore été noté. |
|
|
Oui tout à fait, j'ai été complètement à côté de la plaque sur ce coup-là...
Désolé. _________________ "Parler pour ne rien dire et ne rien dire pour parler sont les deux principes majeurs et rigoureux de tous ceux qui feraient mieux de la fermer avant de l'ouvrir."
P. Dac |
|
Revenir en haut |
|
|
Nattôha 2eme Dan
Inscrit le: 20 Déc 2008 Messages: 437 Points: 3543 Pays, Ville: Tokyo
|
Posté le: 08 Juil 2010 05:46 Sujet du message:
Note du Post : 3 Nombre d'avis : 1 |
|
|
Je parcourais la section FAQ, quand j'ai vu cette question, pour laquelle la solution la plus simple, reste d'utiliser un OCR.
Je me permets de déterrer le topic, car l'intéressé, semble avoir refait surface sur le forum depuis quelques jours, donc peut-être qu'il cherche toujours une solution à son problème.
Je me permets de me quoter donc :
Nattôha a écrit: | Salut tout le monde !
Il ne me semble pas l'avoir vu sur le forum .
Voici un OCR Eng/Jap assez doué (capable également de reconnaître l'écriture manuscrite bien que je n'ai pas encore testé) et surtout gratuit .
Real Reader Lite
Je disais donc que je ne l'ai utilisé que sur des journaux ou autre textes tapés à l'ordinateur mais j'ai trouvé qu'il était plutôt bon niveau reconnaissance, même quand la qualité de l'image fournie n'est pas géniale.
Pour ce qui est du fonctionnement, c'est pas bien sorcier, pourvu qu'on parle un peu japonais (et je pars du principe que les personnes intéressées par un tel logiciel parlent un minimum jap )
Attention : En ce qui me concerne, le logiciel me donne un aperçu de la transposition (écran de droite) avec pleins de points d'interrogation mais une fois le word généré, les kanjis apparaissent bien.
Donc ne vous laissez pas démonter par l'aperçu qui semble indiquer un échec ... Moi j'ai passé 1 heure à changer différents paramètres du logiciel, avant de même penser à générer le fichier word !
En définitive c'est un logiciel bien pratique pour lire (plus pratique pour chercher les mots dans le dico) et surtout pour éditer un long texte scanné en japonais... Bref un OCR quoi ^^ |
Il me semble qu'il gère les pdf, mais au pire, si ça n'était pas le cas, il te suffirait de faire un "snapshot" avec acrobat reader de la zone ou tu as le texte, et de l'enregistrer en tant que JPEG/PNG ou autre format image géré par l'OCR.
Voilà j'espère que ça aidera en tout cas _________________ 鶏と小鳥と鰐(にわとりとことりとわに) |
|
Revenir en haut |
|
|
|