コンテンツの構造化とは何か?Word文書のスタイル付けとマークアップ

われわれが言うときのコンテンツの構造化は、コンテンツにある種のXML文書型に従ってマークアップするのとほぼ同等である。

自由奔放に記述された文書は構造化文書とは言わない。そうではなく、予め定めた一定の型にはめて記述した文書が構造化文書である。

文書の構造をあらわす方式のひとつがXMLである。XML方式の構造化文書では、構造をXMLマークアップで明示的にあらわす。

XML方式で文書を構造化する目的は、文書をコンピュータで加工処理できるようにのである。

印刷された文書は一般には構造化文書ではない。印刷した文書においては、見出し、段落の位置(上下・左右の余白の量など)や箇条書き、文字の修飾(強調、斜体、ゴシック体、文字の大きさ)などは文章の文脈や意味を明確にするために使う。たとえば、見出しの文字を本文よりも大きくしたり、前後に空き(行間)を広くとるのは見出しであることを分かりやすく示すためであるし、ある特定の段落の左余白を広く取った場合、それは、引用や注記など本文とは異なる段落であることを示すためなのである。

つまり、印刷においては文字列の意味的・文脈的な役割をスタイルとレイアウトで表すのである。

一方、XMLではこれらの意味的・文脈的な役割をその範囲をマークアップすることで明示的にあらわす。見出しというマークアップした場合、文字が大きいこと・文字がゴシックであることなどの見出しを視覚的に区別するスタイル指定はマークアップの方で担う。見出しの文字列は、本文と同じテキストで表す。

そこで、マークアップをすることは狭義のコンテンツである見出し文字列と見出しに指定するレイアウトという視覚要因を分離することであるといっても良い。このような意味で、コンテンツとレイアウトを分離するという言い方をすることもある。

Microsoft Wordにはスタイル機能がある。見出しというスタイルを定義しておき、ある文字列に見出しスタイルを適用すると、その適用された文字列の文字がいっせいに大きなゴシック体になる、というものである。

こうしてみるとMicrosoft Wordのスタイル機能は、XMLにおけるマークアップに近い機能であることが分かる。このようなことでスタイル機能を使って記述したMicrosoft WordはXMLで構造化した文書に比較的容易に変換することができる。

一方、同じMicrosoft Wordを使って、スタイル機能を使わずに、見出し文字列をその都度、文字修飾(フォント機能)と段落修飾(インデント、改行幅)をつかって外見を指定して作成した文書を作ることができる。このような作りかたをすると、構造化されていない文書となる。このような文書はXMLに変換しにくい。XML化するときに、すべての見出しをいっせいに特定のマークアップに変換しにくいのである。それは、ときどき、修飾を忘れるなどの例外があるからである。

CAS-UBは構造化文書の作成とそれをEPUBやPDFに変換するサービスです。