Πως να μετατρέψεις κείμενο από iso-8859-7 σε utf-8
Posted by Αυγουστίνος Καδής Mon, 08 Jan 2007 00:24:42 EET
iconv –from-code=ISO-8859-7 –to-code=UTF-8 ./oldfile.htm > ./newfile.html
Το χρειάστηκα πολλές φορές αλλά δεν είχα υπόψη μου ότι υπήρχε τέτοια εντολή στο linux.
Reader's Comments
ldd - print shared library dependencies
linux-gate.so.1 => (0xffffe000)
libc.so.6 => /lib/tls/libc.so.6 (0x4002d000)
/lib/ld-linux.so.2 => /lib/ld-linux.so.2 (0x40000000)
Κάπου μπορεί να φανεί χρήσιμο κι' αυτό ;)
http://simos.info/blog/?p=296
Δες και λίγο στον Σίμο. Είναι ψιλο-άρρωστος με την ορθή κωδικοποίηση (utf-8)
Υπάρχει κανένα port της εντολής αυτής για Windows ή τουλάχιστον μέσω του Cygwin;
Από σχόλιο στο blog του Σίμου:
Επίσης, ένα μικρό tip: Υπάρχουν φορές που κάποιος στέλνει ένα κείμενο σε iso-8859-7 και το μέχρι να φτάσει στα χέρια μας, μεσολαβεί ένα πρόγραμμα που θεωρεί ότι αυτό είναι iso-8859-1 και ένα άλλο που δουλεύει μόνο με utf-8. Το αποτέλεσμα είναι να λάβουμε τελικά ένα κειμενο πού είναι utf-8 αλλά δεν διαβάζεται (έχει γερμανικούς, γαλλικούς κ.λ. χαρακτήρες).
(Παράδειγμα: ανάλογα με τα locale settings των Windows, διάφορα copy-paste από το ένα πρόγραμμα στο άλλο…)
Η λύση είναι απλή. Έστω ότι έχουμε ένα αρχείο που ονομάζεται A.txt και παρούσιάζει τα παραπάνω συμπτώματα. Τότε το :
θα μας δώσει ένα αρχείο με ολοκάθαρα ελληνικά utf-8!
Χάρη, υπάρχει η ίδια εντολή compiled για windows:
http://gnuwin32.sourceforge.net/packages/libiconv.htm
Κατέβασε το Binaries zip file.
Eυχαριστώ.
Υπάρχει και η "recode"::http://directory.fsf.org/recode.html την οποία έχω χρησιμοποιήσει στο παρελθόν. Δεν ξέρω ποιά είναι η διαφορά των δύο από άποψη ορθότητας/ταχύτητας.