Rabu, Februari 26, 2014

Karakter dalam format XML

Dijelaskan dalam http://www.w3.org/TR/REC-xml/#charsets :

"Consequently, XML processors must accept any character in the range specified for Char." Character Range #x9 | #xA | #xD | [#x20-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF]

atau dalam notasi desimal: 9, 10, 13, 32-55295, 57344-65533, dan 65536-1114111.

Kesimpulannya, karakter yang berada di luar range kode desimal yang disebutkan tidak valid untuk direpresentasikan dalam format XML. Pertukaran data yang memiliki kemungkinan terdapat karakter di luar spesifikasi tersebut sebaiknya tidak menggunakan format XML.

Terkait dengan pertukaran data, dalam KMK No.274/KMK.01/2010 tentang Kebijakan dan Standar Pertukaran Data Elektronik di Lingkungan Kementerian Keuangan, disebutkan bahwa format file yang direkomendasikan untuk digunakan adalah .csv, spreadsheet untuk format data text dan RDBMS, xbase untuk format data basis data.

Benchmark Kompresi File di AIX

Kompresi dilakukan terhadap 8 file dengan ukuran rata-rata 55MB. Software yang digunakan adalah gzip versi 1.2.4 dan bzip2 versi 1.0.5. Operating System yang digunakan adalah AIX 6.1 POWER 7 3000 MHz 64-bit.

Command line yang digunakan adalah
$ gzip -9 FILE_NAME
$ bzip2 -9 FILE_NAME

Hasilnya, rata-rata disk space yang berhasil dihemat oleh gzip sebanyak 81.86% bzip2 sebanyak 87.22%.