Microsoft Officeの場合

Microsoft Wordの文書ファイル拡張子の標準が.dotから.dotxに変わったのはWord 2007からでした。同じオフィススイートのExcel、PowerPointもあわせて拡張子が変更されています。

Word: .doc → .docx
Excel: .xls → .xlsx
PowerPoint: .ppt → .pptx

拡張子の末尾にxが追加されたのは、これらのファイル形式がXMLベースであることを示しています。これら末尾にxの付いたファイルの実態は、テキスト(XML)とその他形式のファイル(画像など)をZIPでまとめたものにすぎず、解凍すれば内部を覗くことができます。

Microsoft Officeの標準データ形式が従来のバイナリ(.docなど)からテキスト形式(.docxなど)に変わったおもな理由は2つ考えられます。
ひとつは、他のアプリケーションとのデータ交換の利便性です。.docxファイルなどのデータ形式はOffice Open XML(OpenXML、OOXML)として公開されているため、サードパーティなどによる互換ツールの開発が容易になり、アプリ間のデータのやり取りが楽に実現できるようになりました。また、解凍すれば内部に収められた個々のファイルを確認できるので、互換ツールを開発するまでもなく、個別のファイルを取り出すことができ、テキストエディターや画像処理ソフトなど既存のアプリケーションで編集することも可能です。
もうひとつは、パソコンの性能の向上です。XMLなどのテキストファイルにくらべてバイナリファイルはサイズが小さく、一般にアクセスも高速です。この2つの条件は、パソコンが今より非力だった時代にはアプリにとって優先的な要件でしたが、現在では優先順位が下がっています。むしろ、アプリ間でのデータ交換が容易で解析もしやすいテキストファイル(XML、HTMLなど)のほうが、ファイルサイズやアクセス速度で劣っても、標準データ形式としてはすぐれたものとなっています。

多くのメディア、とくに印刷物などの文字主体の(または文字の多い)メディアでの標準データは、バイナリからテキストへの以降が今後も進むと見られます。このことは次に見る電子書籍の場合、さらに顕著です。

EPUBの場合

電子書籍フォーマットのEPUBも、MS Wordと同じように、コンテンツをZIPで固めたもので、マイクロソフトのOffice Open XMLと同じく仕様が公開されています。もっとも、EPUBが最初に提案されたのはマイクロソフトのOpenXMLよりずっと早く、オープンソース、オープンカルチャーなどの流れにマイクロソフトが追随したというのが実情でしょう。

MS Word: コンテンツをZIP圧縮して、拡張子を.zipから.docxに変更
EPUB: コンテンツをZIP圧縮して、拡張子を.zipから.epubに変更

EPUBの最新バージョンであるEPUB3の内部構造は次図のようになっています。

EPUBのファイル構成

EPUBのファイル構成

図ではXMLのアイコンが目立ちますが、これらXMLは管理情報を保持しています。EPUB書籍の本文にあたる部分(EPUB Content Documents)はXHTML形式で、この形式は実質的にHTML5と同じものです。
EPUB書籍に入れることのできる画像、オーディオ、ビデオなどを示しているのが図左下のアイコンです。また、右下の.cssはいうまでもなくWebのスタイルシートと共通で、レイアウト情報を保持しています。
このようにEPUBの仕様は、基本的にWebの標準技術で構成され、そのうちでも主要な役割はテキスト仕様であるXMLとHTMLが担っています。

中間ファイルとしてのXML/HTML

組版データなどの保存形式がテキストベース(XML/HTMLベース)になってくると、たんに保存のためだけでなく、ワンソースを各種メディアに展開するための中間フォーマットとしての利用も広がってきます。これについては、ワンソースマルチユース、マルチメディア展開などの視点であたらめてまとめてみます。

[2013-11-20]

- HTML第2ステージ・目次