XMLによる文書管理 (第1回 XMLの概要)
XMLとは
XMLは、電子化されたコンテンツの事実上の標準フォーマットです。
XMLはマークアップ言語の一種です。
マークアップ言語
テキスト内に特別な文字シーケンスを混入することで、テキストに情報を付加することを、マークアップと呼びます。
付加する情報としては、テキストの見た目(スタイル)や参照リンクなどがあります。
マークアップの文法を、マークアップ言語と呼びます。
マークアップ言語はテキストエディターで編集でき、マークアップを無視してテキストのみを簡単に取り出せるという長所があります。
XML以前のマークアップ言語
TeX
Unix上でスタイル付けされた文書を書くために考案されました。
RTF
Microsoft Wordの外部インターフェース用フォーマットです。
SGML
IBMが考案した汎用マークアップ言語です。
付加する情報をユーザーが自由に定義できるのが特徴です。
1986年にISO規格になりました。
XMLの歴史と特長
XMLは、SGMLの次世代言語として、1996年にWorld Wide Web Consortium (W3C) によって制定されました。
SGMLが人手で編集することを重視していたのに対し、XMLはコンピューター処理することに重点を置いた文法になっています。
W3Cは、XMLをISOに登録せず、事実上の業界標準(De-fact Standard)とすることを宣言しています。
XMLの文法
XML宣言
上の例の中の1行目(<?xml …?>)を「XML宣言」と呼びます。
XML宣言は、このファイルがXMLファイルであることを示します。
XML宣言は、XMLの記述に使われている文字コードも示します。(encoding=“…”)
タグ
アングルブラケット(<>)で囲まれた部分をタグと呼びます。
開始タグ(<名前 …>)と終了タグ(</名前>)がペアとなってテキストをマークアップします。
空タグと呼ばれる形式(<名前 … />)のタグは、ペアを作りません。
要素
開始タグと終了タグで囲まれた部分、および空タグを、要素と呼びます。要素は入れ子にすることができます。
属性
開始タグ/空タグの、名前に続く部分(上の例における、「id=“…”」や「file=“…”」)を属性と呼びます。属性は、要素の付加的な情報を表します。