文字のエンコード

今回は、プログラミング&インターネットのホームページの作成について書いてみることに。

先日業務でWindowsで作成され、ローカルで運用されていたWebデータをグローバール環境(インターネット)での運用へ切り替えるとの話に。
預かったファイルは約3000個。その中で、HTMLは1800個もある。

中身を確認すると、・・・・ SHIFT-JIS、UTFファイルが混在・・・

さて、全てUTF-8にへ・ん・か・ん・し・な・き・ゃ

ここで、文字コードについて
文字コードとは、コンピュータ上で使用する文字はが全て数字で管理されており、その数字が文字コードと呼ばれている。
例)

区点番号コード 18-38
JISコード 0x3246
EUCコード 0xB2C6
Shift-JIS 0x89C4
unicode 0x590F
utf-8 0xE5A48F
GB2312 0xCFC4

上記を見てもらうと先頭の2桁(0X)以降は全て違っている。
これらの変換ミスで文字が化けるという現象が発生してしまう。
今、世界標準がUTF-8なのに、なぜWindowsはいまだにSHIFT-JISなのか・・・
おまけにWindowsで使用できるUTF-8はBOM(byte order mark)がついてる。
これって、HTMLやPHPでは誤動作の原因に。

さて本題にもどり、今回のHTMLを修正するには1つ1つ行うととてもではないが時間が・・・
そこで、バッチファイルを使用してみることに。

ここで、バッチファイルとは一連の命令を書きファイルにした物を指す。
Windowsでは拡張子がbatになる。

さまざまなサイトから情報収集し、PowerShellを使用するとできるらしい。

PowerShell

しかし、いい加減に文字化けは世界統一を早くしてほしいもんだなー