はじめに

現在、見習いrubyエンジニアとして働いています。業務中に詰まったところをアップしていきます！

初日詰まったところ

Shift-JIS形式でのHTMLファイル作成のタスクを振られて「？？」状態でした・・・

HTMLを作成するときにmetaタグに「utf-8」をつけているな〜位しか認識していなかったので、 Shift-JIS??って感じでした汗

以下では頭の整理のためにUTF-8、Shift-JIS についてまとめていきます！

まず、本題に入る前に前提知識として Unicodeの話から進めていきます。

Unicodeとはえらーい人が集まって業界標準の文字コード体系です。

字面だけ聞いても、なんだか「？？？」状態ですね。自分なりに咀嚼すると、Unicodeは全世界の人がつかいやすいようにアルファベット、日本語、ハングル語といった文字集合を扱う統一規格です。

つまり、全世界の人がコンピューターを用いるための表示文字集合を統一化した訳です。例えば、日本語のひらがなだったら「あいうえお・・・わをん」という風に規定したわけです。

キーポイントはUnicodeはあくまでも「表示文字」だけを規定したという事です。

但し、表示文字を規定していても、コンピューターがそのまま読める訳ではありません。そこでどのように文字に落としこむかがポイントになります。

コンピューター→人間が読める文字(Unicode)

へのつなぎを「文字符号化スキーム」と呼びます。

文字符号化スキームはUTF-8、UTF-16、UTF-32 など色々とあるようですが、代表格は「UTF-8」のようです。 HTMLによく出てくるタグ < meta charset="utf-8" > がありますね。

これは「utf-8形式で書いたから、ブラウザ(コンピュータ)さん、翻訳よろしくね〜」って事です。

SHIFT-JISは日本語を表示するために文字符号化スキームの一種です。但し、対応する文字集合がJIS規格(日本工業規格)という文字コード集合のために用いられています。

何故に2つの文字集合コードが混在するの？？？って困惑しますね。実はコンピューターが出来た当初、JISのように各国で独自の文字集合ができていたようです。で、各国が世界中の文字コード体系を一つにまとめようとして出来たのがUnicodeとなります。

現在、インターネットで表示する文字符号化スキームは UTF-8形式が多いですが、SHIFT-JISでも表示することが出来ます。

自分でSHIFT-JIS形式で書く際は、　< meta charset="shift_jis" >と書いて、ブラウザさんにshift-jis形式で読み込みを行うよう指示する必要があります。