Forum Japon

 

[ S'enregistrer ]   [ Rechercher ]    [ Liste des Membres ]    [ Groupes d'utilisateurs ]   [ FAQ ]  
[ Connexion ]   [ Mes messages privés ]   [ Profil ]
Extraire un texte japonais d'un pdf

Recherche Rapide :
Aller à la page 1, 2  Suivante
 
Poster un nouveau sujet   Répondre au sujet    ForumJapon.com Index du Forum -> FAQs
Voir le sujet précédent :: Voir le sujet suivant  
Auteur Message
Oblomov
Ceinture Blanche
Ceinture Blanche


Inscrit le: 14 Juin 2007
Messages: 12
Points: 26

MessagePosté le: 06 Aoû 2009 12:31    Sujet du message: Extraire un texte japonais d'un pdf

 Ce message n'a pas encore été noté.
Répondre en citant

(Je ne sais pas si je poste ma requête dans la bonne section...)
J'aurai aimé savoir s'il était possible d'extraire le texte (japonais) d'un fichier *.pdf (écrit verticalement) afin de l'avoir en *.txt (ça faciliterai grandement ma lecture).
Merci.
Revenir en haut
Voir le profil de l'utilisateur Envoyer un message privé
demipoulpe
3eme Dan
3eme Dan


Inscrit le: 25 Avr 2005
Messages: 540
Points: 5803
Pays, Ville: X-rousse

MessagePosté le: 06 Aoû 2009 13:25    Sujet du message:

 Ce message n'a pas encore été noté.
Répondre en citant

Japonais ou français cela dépend si le document pdf est "fusionné" ou pas, le plus simpe est de faire un "enregistré sous" du fichier en choisissant l'option .txt .... try and see Cool
_________________
Événements Japonais en France
Mon flickr
Revenir en haut
Voir le profil de l'utilisateur Envoyer un message privé Visiter le site web du posteur MSN Messenger
Oblomov
Ceinture Blanche
Ceinture Blanche


Inscrit le: 14 Juin 2007
Messages: 12
Points: 26

MessagePosté le: 06 Aoû 2009 17:16    Sujet du message:

 Ce message n'a pas encore été noté.
Répondre en citant

J'avais essayé cette technique, mais le fichier texte qui en résulte est vide. J'ai également essayé via je ne sais plus quel site qui proposais de convertir un pdf en fichier texte, mais là encore en vain.
(Voici le fichier en question : http://repository.lib.kit.ac.jp/dspace/handle/10212/1745 )
Revenir en haut
Voir le profil de l'utilisateur Envoyer un message privé
Daggon
2eme Dan
2eme Dan


Inscrit le: 03 Mai 2009
Messages: 773
Points: 4771
Pays, Ville: France, quelque part prés du centre

MessagePosté le: 06 Aoû 2009 17:34    Sujet du message:

 Ce message n'a pas encore été noté.
Répondre en citant

C'est une collection d'images. Tu n'en tireras rien à part en utilisant un outil de reconnaissance de caractères (OCR).
Revenir en haut
Voir le profil de l'utilisateur Envoyer un message privé
Bast
Ceinture Marron
Ceinture Marron


Inscrit le: 03 Aoû 2008
Messages: 173
Points: 1041
Pays, Ville: Paris, France

MessagePosté le: 06 Aoû 2009 17:54    Sujet du message:

 Ce message n'a pas encore été noté.
Répondre en citant

Tu ne pourras pas extraire le texte de ce fichier, à moins d'utiliser un logiciel de reconnaissance de caractères. En réalité il s'agit d'un scan, donc le fichier pdf ne contient rien d'autre que des images (aucun caractère => aucun texte).

Il faudrait donc chercher des logiciels de reconnaissance de japonais écrit de haut en bas... Wink

[oups, doublé par Daggon Wink]
_________________
I.W.G.P.サイコー!!!
Revenir en haut
Voir le profil de l'utilisateur Envoyer un message privé
remuka
7eme Dan
7eme Dan


Inscrit le: 22 Sep 2003
Messages: 2422
Points: 27072
Pays, Ville: Tokyo, Setagaya-ku

MessagePosté le: 06 Aoû 2009 18:53    Sujet du message:

 Ce message n'a pas encore été noté.
Répondre en citant

Dans le cas ou il s'agit de texte (et non d'images, comme dans ton cas Oblomov, sorry), on peut aussi s'envoyer à soi-même le fichier sur son compte gmail et l'ouvrir dans Google Docs au format html. Un petit copier-coller et le tour est joué.
_________________
Sucre. | Candyland.jp
Revenir en haut
Voir le profil de l'utilisateur Envoyer un message privé Visiter le site web du posteur
heian
Modérateur


Inscrit le: 23 Déc 2003
Messages: 755
Points: 5271
Pays, Ville: Alfortville

MessagePosté le: 06 Aoû 2009 20:27    Sujet du message:

 Ce message n'a pas encore été noté.
Répondre en citant

Pour les chanceux qui sont sous Linux, il suffit d'ouvrir votre document dans vos lecteur PDF préféré (Evince, ePDFview, Xpdf par exemple) puis faire un copié-collé de votre selection dans un éditeur de texte, ou un traitement de texte.
_________________
"Parler pour ne rien dire et ne rien dire pour parler sont les deux principes majeurs et rigoureux de tous ceux qui feraient mieux de la fermer avant de l'ouvrir."
P. Dac
Revenir en haut
Voir le profil de l'utilisateur Envoyer un message privé
Daggon
2eme Dan
2eme Dan


Inscrit le: 03 Mai 2009
Messages: 773
Points: 4771
Pays, Ville: France, quelque part prés du centre

MessagePosté le: 06 Aoû 2009 21:15    Sujet du message:

 Ce message n'a pas encore été noté.
Répondre en citant

heian a écrit:
Pour les chanceux qui sont sous Linux, il suffit d'ouvrir votre document dans vos lecteur PDF préféré (Evince, ePDFview, Xpdf par exemple) puis faire un copié-collé de votre selection dans un éditeur de texte, ou un traitement de texte.


Le document PDF qui nous concerne ici étant seulement constitué d'images, je vais me permettre d'émettre un léger doute sur la validité de cette solution.Wink
D'autant qu'elle fonctionne habituellement de la même manière sous Linux ou Windows lorsque le document PDF est constitué de texte.
Revenir en haut
Voir le profil de l'utilisateur Envoyer un message privé
heian
Modérateur


Inscrit le: 23 Déc 2003
Messages: 755
Points: 5271
Pays, Ville: Alfortville

MessagePosté le: 06 Aoû 2009 22:29    Sujet du message:

 Ce message n'a pas encore été noté.
Répondre en citant

Oui tout à fait, j'ai été complètement à côté de la plaque sur ce coup-là...
Désolé.
_________________
"Parler pour ne rien dire et ne rien dire pour parler sont les deux principes majeurs et rigoureux de tous ceux qui feraient mieux de la fermer avant de l'ouvrir."
P. Dac
Revenir en haut
Voir le profil de l'utilisateur Envoyer un message privé
Nattôha
2eme Dan
2eme Dan


Inscrit le: 20 Déc 2008
Messages: 434
Points: 3513
Pays, Ville: Tokyo

MessagePosté le: 08 Juil 2010 05:46    Sujet du message:

 Note du Post : 3   Nombre d'avis : 1
Répondre en citant

Je parcourais la section FAQ, quand j'ai vu cette question, pour laquelle la solution la plus simple, reste d'utiliser un OCR.

Je me permets de déterrer le topic, car l'intéressé, semble avoir refait surface sur le forum depuis quelques jours, donc peut-être qu'il cherche toujours une solution à son problème.

Je me permets de me quoter donc :

Nattôha a écrit:
Salut tout le monde !

Il ne me semble pas l'avoir vu sur le forum Idea .
Voici un OCR Eng/Jap assez doué (capable également de reconnaître l'écriture manuscrite bien que je n'ai pas encore testé) et surtout gratuit Very Happy.

Real Reader Lite

Je disais donc que je ne l'ai utilisé que sur des journaux ou autre textes tapés à l'ordinateur mais j'ai trouvé qu'il était plutôt bon niveau reconnaissance, même quand la qualité de l'image fournie n'est pas géniale.

Pour ce qui est du fonctionnement, c'est pas bien sorcier, pourvu qu'on parle un peu japonais (et je pars du principe que les personnes intéressées par un tel logiciel parlent un minimum jap Rolling Eyes )


Attention : En ce qui me concerne, le logiciel me donne un aperçu de la transposition (écran de droite) avec pleins de points d'interrogation Sad mais une fois le word généré, les kanjis apparaissent bien.
Donc ne vous laissez pas démonter par l'aperçu qui semble indiquer un échec Wink... Moi j'ai passé 1 heure à changer différents paramètres du logiciel, avant de même penser à générer le fichier word !



En définitive c'est un logiciel bien pratique pour lire (plus pratique pour chercher les mots dans le dico) et surtout pour éditer un long texte scanné en japonais... Bref un OCR quoi ^^


Il me semble qu'il gère les pdf, mais au pire, si ça n'était pas le cas, il te suffirait de faire un "snapshot" avec acrobat reader de la zone ou tu as le texte, et de l'enregistrer en tant que JPEG/PNG ou autre format image géré par l'OCR.

Voilà j'espère que ça aidera en tout cas Wink
_________________
鶏と小鳥と鰐(
Revenir en haut
Voir le profil de l'utilisateur Envoyer un message privé
Montrer les messages depuis:   
Poster un nouveau sujet   Répondre au sujet    ForumJapon.com Index du Forum -> FAQs Toutes les heures sont au format GMT + 1 Heure
Aller à la page 1, 2  Suivante
Page 1 sur 2

 
Sauter vers:  
Vous ne pouvez pas poster de nouveaux sujets dans ce forum
Vous ne pouvez pas répondre aux sujets dans ce forum
Vous ne pouvez pas éditer vos messages dans ce forum
Vous ne pouvez pas supprimer vos messages dans ce forum
Vous ne pouvez pas voter dans les sondages de ce forum


Powered by phpBB 2.0.16 © 2001, 2002 phpBB Group (Traduction par : phpBB-fr.com)