Regard sur le Japon
Regard sur le Japon
Regard sur le Japon
[ S'enregistrer ]   [ Rechercher ]    [ Liste des Membres ]    [ Groupes d'utilisateurs ]   [ FAQ ]  
[ Connexion ]   [ Mes messages privés ]   [ Profil ]

Extraire un texte japonais d'un pdf
Aller à la page 1, 2  Suivante
 
Poster un nouveau sujet   Répondre au sujet    Forum index -> FAQs
Voir le sujet précédent / Voir le sujet suivant  
Auteur Message
Oblomov
Ceinture Blanche
Ceinture Blanche


Inscrit le: 14 Juin 2007

Envoyer un message privé Voir le profil de l'utilisateur
Extraire un texte japonais d'un pdf
Ce message n'a pas encore été noté.

(Je ne sais pas si je poste ma requête dans la bonne section...)
J'aurai aimé savoir s'il était possible d'extraire le texte (japonais) d'un fichier *.pdf (écrit verticalement) afin de l'avoir en *.txt (ça faciliterai grandement ma lecture).
Merci.
Revenir en haut
  Répondre en citant   06 Aoû 2009 12:31
demipoulpe
3eme Dan
3eme Dan


Inscrit le: 25 Avr 2005
Pays, Ville: X-rousse

Envoyer un message privé Voir le profil de l'utilisateur
Visiter le site web du posteur
Ce message n'a pas encore été noté.

Japonais ou français cela dépend si le document pdf est "fusionné" ou pas, le plus simpe est de faire un "enregistré sous" du fichier en choisissant l'option .txt .... try and see Cool
_________________
Événements Japonais en France
Mon flickr
Revenir en haut
  Répondre en citant MSN Messenger  06 Aoû 2009 13:25
Oblomov
Ceinture Blanche
Ceinture Blanche


Inscrit le: 14 Juin 2007

Envoyer un message privé Voir le profil de l'utilisateur
Ce message n'a pas encore été noté.

J'avais essayé cette technique, mais le fichier texte qui en résulte est vide. J'ai également essayé via je ne sais plus quel site qui proposais de convertir un pdf en fichier texte, mais là encore en vain.
(Voici le fichier en question : http://repository.lib.kit.ac.jp/dspace/handle/10212/1745 )
Revenir en haut
  Répondre en citant   06 Aoû 2009 17:16
Daggon
2eme Dan
2eme Dan


Inscrit le: 03 Mai 2009
Pays, Ville: France, quelque part prés du centre

Envoyer un message privé Voir le profil de l'utilisateur
Ce message n'a pas encore été noté.

C'est une collection d'images. Tu n'en tireras rien à part en utilisant un outil de reconnaissance de caractères (OCR).
Revenir en haut
  Répondre en citant   06 Aoû 2009 17:34
Bast
Ceinture Marron
Ceinture Marron


Inscrit le: 03 Aoû 2008
Pays, Ville: Paris, France

Envoyer un message privé Voir le profil de l'utilisateur
Ce message n'a pas encore été noté.

Tu ne pourras pas extraire le texte de ce fichier, à moins d'utiliser un logiciel de reconnaissance de caractères. En réalité il s'agit d'un scan, donc le fichier pdf ne contient rien d'autre que des images (aucun caractère => aucun texte).

Il faudrait donc chercher des logiciels de reconnaissance de japonais écrit de haut en bas... Wink

[oups, doublé par Daggon Wink]
_________________
I.W.G.P.サイコー!!!
Revenir en haut
  Répondre en citant   06 Aoû 2009 17:54
remuka
7eme Dan
7eme Dan


Inscrit le: 22 Sep 2003
Pays, Ville: Tokyo, Setagaya-ku

Envoyer un message privé Voir le profil de l'utilisateur
Visiter le site web du posteur
Ce message n'a pas encore été noté.

Dans le cas ou il s'agit de texte (et non d'images, comme dans ton cas Oblomov, sorry), on peut aussi s'envoyer à soi-même le fichier sur son compte gmail et l'ouvrir dans Google Docs au format html. Un petit copier-coller et le tour est joué.
_________________
Sucre. | Candyland.jp
Revenir en haut
  Répondre en citant   06 Aoû 2009 18:53
heian
Modérateur


Inscrit le: 23 Déc 2003
Pays, Ville: Alfortville

Envoyer un message privé Voir le profil de l'utilisateur
Ce message n'a pas encore été noté.

Pour les chanceux qui sont sous Linux, il suffit d'ouvrir votre document dans vos lecteur PDF préféré (Evince, ePDFview, Xpdf par exemple) puis faire un copié-collé de votre selection dans un éditeur de texte, ou un traitement de texte.
_________________
"Parler pour ne rien dire et ne rien dire pour parler sont les deux principes majeurs et rigoureux de tous ceux qui feraient mieux de la fermer avant de l'ouvrir."
P. Dac
Revenir en haut
  Répondre en citant   06 Aoû 2009 20:27
Daggon
2eme Dan
2eme Dan


Inscrit le: 03 Mai 2009
Pays, Ville: France, quelque part prés du centre

Envoyer un message privé Voir le profil de l'utilisateur
Ce message n'a pas encore été noté.

heian a écrit:
Pour les chanceux qui sont sous Linux, il suffit d'ouvrir votre document dans vos lecteur PDF préféré (Evince, ePDFview, Xpdf par exemple) puis faire un copié-collé de votre selection dans un éditeur de texte, ou un traitement de texte.


Le document PDF qui nous concerne ici étant seulement constitué d'images, je vais me permettre d'émettre un léger doute sur la validité de cette solution.Wink
D'autant qu'elle fonctionne habituellement de la même manière sous Linux ou Windows lorsque le document PDF est constitué de texte.
Revenir en haut
  Répondre en citant   06 Aoû 2009 21:15
heian
Modérateur


Inscrit le: 23 Déc 2003
Pays, Ville: Alfortville

Envoyer un message privé Voir le profil de l'utilisateur
Ce message n'a pas encore été noté.

Oui tout à fait, j'ai été complètement à côté de la plaque sur ce coup-là...
Désolé.
_________________
"Parler pour ne rien dire et ne rien dire pour parler sont les deux principes majeurs et rigoureux de tous ceux qui feraient mieux de la fermer avant de l'ouvrir."
P. Dac
Revenir en haut
  Répondre en citant   06 Aoû 2009 22:29
Nattôha
2eme Dan
2eme Dan


Inscrit le: 20 Déc 2008
Pays, Ville: Tokyo

Envoyer un message privé Voir le profil de l'utilisateur
Note du Post : 3   Nombre d'avis : 1

Je parcourais la section FAQ, quand j'ai vu cette question, pour laquelle la solution la plus simple, reste d'utiliser un OCR.

Je me permets de déterrer le topic, car l'intéressé, semble avoir refait surface sur le forum depuis quelques jours, donc peut-être qu'il cherche toujours une solution à son problème.

Je me permets de me quoter donc :

Nattôha a écrit:
Salut tout le monde !

Il ne me semble pas l'avoir vu sur le forum Idea .
Voici un OCR Eng/Jap assez doué (capable également de reconnaître l'écriture manuscrite bien que je n'ai pas encore testé) et surtout gratuit Very Happy.

Real Reader Lite

Je disais donc que je ne l'ai utilisé que sur des journaux ou autre textes tapés à l'ordinateur mais j'ai trouvé qu'il était plutôt bon niveau reconnaissance, même quand la qualité de l'image fournie n'est pas géniale.

Pour ce qui est du fonctionnement, c'est pas bien sorcier, pourvu qu'on parle un peu japonais (et je pars du principe que les personnes intéressées par un tel logiciel parlent un minimum jap Rolling Eyes )


Attention : En ce qui me concerne, le logiciel me donne un aperçu de la transposition (écran de droite) avec pleins de points d'interrogation Sad mais une fois le word généré, les kanjis apparaissent bien.
Donc ne vous laissez pas démonter par l'aperçu qui semble indiquer un échec Wink... Moi j'ai passé 1 heure à changer différents paramètres du logiciel, avant de même penser à générer le fichier word !



En définitive c'est un logiciel bien pratique pour lire (plus pratique pour chercher les mots dans le dico) et surtout pour éditer un long texte scanné en japonais... Bref un OCR quoi ^^


Il me semble qu'il gère les pdf, mais au pire, si ça n'était pas le cas, il te suffirait de faire un "snapshot" avec acrobat reader de la zone ou tu as le texte, et de l'enregistrer en tant que JPEG/PNG ou autre format image géré par l'OCR.

Voilà j'espère que ça aidera en tout cas Wink
_________________
鶏と小鳥と鰐(
Revenir en haut
  Répondre en citant   08 Juil 2010 05:46
Montrer les messages depuis:   
Poster un nouveau sujet   Répondre au sujet    Forum index -> FAQs Toutes les heures sont au format GMT + 1 Heure
Aller à la page 1, 2  Suivante
Page 1 sur 2

 
Sauter vers:  
Vous ne pouvez pas poster de nouveaux sujets dans ce forum
Vous ne pouvez pas répondre aux sujets dans ce forum
Vous ne pouvez pas éditer vos messages dans ce forum
Vous ne pouvez pas supprimer vos messages dans ce forum
Vous ne pouvez pas voter dans les sondages de ce forum


Développé par phpBB 2.0.16 © 2001, 2002 phpBB Group
Traduction par : phpBB-fr.com