私的青空文庫のお話(その3)

さて、それでは私的な青空文庫の話の三回目です。

今回も最初に青空文庫のサーバ更新に関しての話から始めます。そろそろっと、新しい環境の話が動き始めたようです。Gitという校正管理エディタを使用して青空文庫の入力、校正環境を整えたらどうかという話で、実装の話がいろいろと作業用のGitに載っています。その中で少し気になることがあったので最初に触れておきます。

青空文庫の入力/校正管理システムで管理している人物ID、作品IDをGit側では変えようという話が出ていますが、まず、これには注意が必要です。ひとつは人物IDは同じ人物IDという名前で二つのテーブルのキーがそれぞれ存在しています。人物ID-Aは工作員の管理テーブルのキーです。そして、人物ID-Bは著者の管理テーブルのキーです。一部にBのキー値と被っている人がいるようですが、テーブル自体の目的が違いますからIDを統一することはできません。そして、もうひとつの問題を抱えています。この人物ID-Bと作品テーブルの作品IDは、青空文庫内でユニークに管理されており、公開時の青空文庫サイトのディレクトリの管理番号になっているのです。

実は、青空文庫と青空文庫のコンテンツを利用するアプリなどはこの2つのIDをキーにしてシステムの連携を行っているケースが多いです。これは青空文庫が作品IDと人物ID-Bをユニークかつ変更しないという約束でできていることを知っているからです。ですから、なるべくこの2つのIDは変更しない方がよいです。

どうしても変更する場合には、青空文庫側で大々的に事前に公表して、数か月の猶予と事前のIDファイルの提供をする前提で変更の作業をしてください。そうでないと、例えば、ある青空文庫アプリが突然数か月にわたって、最新の公開作品を公開できなくなったり、場合によれば、アプリの提供自体を中止しなければならない事態になります。前回のDB内の文字コード変更だけでも大きな波紋があったことは記憶に新しいでしょう?(そうでもないかな?)ID変更は文字コード変更以上にインパクトが大きいと思ってください。それは、青空文庫の中の人も一緒ですよ。きちんと変更の手順を踏めば大丈夫なはずですが、そのためには最悪、数か月の青空文庫の作品公開中止とバーターになるように思います。

それから、入力校正システムについてですが、テキストアーカイブのファイルとプログラムのソースファイルで発生する問題が違うために、エディタに要求される機能に違いがあることに注意してほしいと思います。
テキストアーカイブのファイルは大抵は単独で存在します。プログラムのように、複数のファイルの間の連携を図ったり、変更を戻したりといったことは滅多に発生しません。同じ夏目漱石のファイルであっても、「吾輩は猫である」に発生した変更を同期をとって「坊ちゃん」にも反映するということは滅多に行いません。ですから、変更管理や校正管理の機能ははっきり言ってあまり重要ではないのです。

日本語アーカイブの青空文庫にとって大切なのは、文字を見分けやすいこと。例えば、「力」と「カ」、「ケ」と「ヶ」といった文字を的確に見分けやすいことです。これは、現在のOCRの識字率の低さにも関連するのですが、こういった文字が特にOCR読み込みを行った場合に混同されて出てきます。次にJISの第1水準、第2水準の文字コード以外の文字を的確に区分して、入力できることです。現在、こうしたもろもろのコードチェックは、それぞれのチェッカとして存在しますが、残念ながらこれをエディタ上に表示するものはないように思います。ぜひ、青空文庫のツール群をエディタの中に取り込んでほしいと思います。

そして、もっとやって欲しいのが、複数の文字コードのパッケージ化です。パッケージ化というのはひとつのエディタ上で作成したファイルをエディタ側で自動編集して、(1)シフトJIS(X208形式;青空文庫形式)(2)UTF8(XHTML形式)などの複数のファイルを一回に編集してくれることです。

現状の青空文庫のファイルは、まず、入力者が入力します。このとき、少し前はかなり深い校正が求められました。次に点検チームにファイルを送ると、ここでも点検と称するほぼフルイメージの校正が行われます。そして、大きな問題が見つからないと受理。少し間違いが多いと見直してほしいと入力者にファイルが戻されます。無事に受け付けられたファイルは校正希望者が現れるまでは青空文庫内に停滞します。そして、校正希望者が現れると校正に送られ、校正が終わると点検チームにファイルが渡ります。たぶん、念には念を入れる人たちですから、ここでもベテランの工作員が厳しい目で校正のチェックを行います。そのうえで、公開準備の列に並ぶことになります。公開の準備はたぶんもう一回くらいは読まれるのですが、それとともに、XHTML形式のファイルに編集する作業が待っています。テキストをそのまま編集すれば良いようなものですが、実際には、文字コードが変わることで表示できる漢字は文字コードをその漢字のものに変更し、青空形式のレイアウト情報を消込み、どうしても表示できない漢字は外字として文字を作成するという作業が発生し、さながら、もう一度、作品を入力するくらいのパワーが必要になっているはずです。これが、だいたいの青空文庫の公開が遅い理由だと思っています。

ならば、途中の入力か、校正の時点で、JIS形式のコードとXHTML形式のコード、そして表示のためのコード(と事前に判明した外字のリスト)がパッケージになれば、随分と作業が効率化するのではないかな?と思う次第です。ぜひ、ご検討ください。

さて、閑話休題。
私的な青空文庫のお話です。

探偵小説とチャンバラは青空文庫の収録群の中でも読み物として面白い部類にあると思う。一方、サイエンスフィクションは比較的新しい文学の分野で、現役の作家が多く、また、科学的な常識が昔と今では違っているために読み方に癖のある分野だと思っている。それでも、海野十三の著作権が切れるときには、同じ工作員のもりみつさんといっしょに、いくつかの作品を拾ったように記憶している。今では、海野の作品は青空文庫を通して読めるようになっているが、当時は比較的アクセスできる文献も少なく、早川文庫の古本は高価になっておりおいそれとは読める作家ではなかった。

その他では、子供用に童話を集めたり、童謡を入れたりといったことをした。歌を入れたのにはもうひとつ意味があり、著作権管理団体のJASRACの網をくぐって、歌の世界も著作権フリーに取り込みたいという思惑もあった。現在は、長野県県歌の公開が終わっているが、今後は例えば同じ作者の作った歌に多くの校歌が多いことからも、廃校になった学校も含めて校歌のライブラリを作りたいとか、バンカラ寮の至誠寮を知っていることからも、忘れ去られつつある寮歌を収容したいといった夢もある。

また、変わったところでは、富田さんと「かすとり本」の入力は可能かという題材で話したこともあり、青空文庫的にはいいのではないか?という話になっている。ただし、著者が不明なケースが多く、孤児著作権の宝庫というミソがついた格好で、永井荷風の「四畳半襖の下張」が入力中にしたままである。(ただし、全集版でかすとり版ではない)また、著作権の隙間を突こうという悪い企画で、十年留保にかかっているエラリー・クイーンの作品を登録中に並べて、業界の様子をうかがっている。

結局、比較的初期から工作員をしていた形だが、それほど多くのものに関わったという感想はもっていない。なぜなら、根こそぎ入力した経験というものがないからなのかもしれない。面白い作品は、最初のいくつかを入力すると、その作品を読んだ誰かが作業を引き継いでくれるからだ。だから、私はいろいろなものを探して歩いている。

そして、後を引き継いでくれる誰かがいると思えるから、少しだけだけど、作業を残すことができる。テキストアーカイブなんて、そんな小さな小石を積むくらいの活動がちょうど良いのかもしれない。手漕ぎポンプの井戸は、最初に水を吸い出すときの水を中に入れる。これを入れることで、水が吸い上げられるようになる。この水を呼び水という。私も自分の働きは呼び水でいいと思う。大きな力が呼び出せたとき、小さな水は満足する。

青空文庫は弱い。そして、支える力の方がもっと大きいのだと思うというところで終わりましょう。