このようになります(画像クリックで拡大)
青空文庫 Web からテキストをダウンロード
- 青空文庫 から自動組版させたいテキストを,御自身の PC 等にダウンロードしてください
- 「ファイル種別」としては「テキストファイル(ルビあり)」を選択します(「圧縮」zip ファイル)
- zip ファイルをダウンロードしたら「展開」し,テキストファイル(拡張子が .txt)を取り出します
「.txt」ファイルをアップロード
- 「.txt」ファイルを取り出せたら
- 下のフォームで「ファイルを選択(参照)」ボタンを押し,対象ファイルを選択します
- 最後に「青空文庫テキスト ".txt" をアップロードする」ボタンを押します
- ファイルが正しくアップロードされたら「青空文庫テキストの自動組版(工程 2/2)」ページに切り替わります
参考
自動組版は,およそ,以下のように行われます。
- ruby プログラムが「青空文庫のマークアップ」が施された .txt ファイルを「TeX 用のマークアップが施されたソース」である .tex ファイルへと変換
- nkf プログラムが「文字コード Shift_Jis; 改行コード CR/LF」の .tex ファイルを「文字コード UTF-8; 改行コード LF」の .tex ファイルへと変換
- platex プログラムが .tex ファイルから「A5版縦置き; 縦組み; 二段組み」に組版した .dvi (DeVice Independent) ファイルを生成
- [オプション] perl プログラムが .dvi ファイルを「10枚ごとの中綴じ両面印刷」(A4版横置き; 縦組み; 二段組み)に最適化した .dvi へと変換
- dvipdfmx プログラムが最終出力である PDF ファイルを生成
注意(自動組版上の制約事項; 要 TeX 知識)
- 以下に挙げるいずれのケースにおいても,完璧を目指すのであれば,TeX ソースそのものに自ら手を入れ,処理してやることが必要です
- 「タイトル,著者」以外に「サブタイトル,訳者」等があると,適切に処理されない場合があります
- この場合 \metadata となっている TeX のソース個所を \subtitle や \subauthor 等に置き換えます
- うまく自動処理できなかった外字は \UTF{....}, \CID{....} などのコマンドを用いて,手作業で置き換えていきます
- 自動処理されなかった外字が日本語グリフの集合 Adobe-Japan 1-5 にも存在しない場合で,しかし簡体字や繁體字には存在しているのであれば \UTFM{....} が使えます
- この場合 OTF パッケージ(齋藤修三郎さん作成)に multi オプションを付けてやります
- OTF パッケージ(ベータ版・開発版)を使えば Adobe-Japan1-7 に含まれる全 23,060 グリフを出力できます(ほとんどの文字はこれで大丈夫; もちろん,使用するフォントに当該グリフが含まれていることが前提)
- Adobe-Japan1-7 にもない文字を扱いたい場合, IPAmj 明朝フォント(IPA: 独立行政法人情報処理推進機構)を利用する ipamjm パッケージを使う,という手があります
- この場合,IPAmj 明朝の MJ 文字図形名の番号を指定して当該グリフを表示させます
- さらに,IVS(Ideographic Variant Selector)による異体字表現をサポートする PXipamjm パッケージもあります
- 詳しくは「TeX Wiki: TeX と外字」を参照
謝辞
本 Web で用いている ruby スクリプトと TeX 用スタイルファイルは 齋藤修三郎さんの「青空文庫を読もう!」で公開されている「オリジナル・プログラム群」に永田が若干手を加えたものです。
素晴らしいプログラムを御提供くださった齋藤修三郎さんに衷心より御礼申し上げます。
そして「青空文庫」プロジェクトの皆様に敬意を表します。
本当にありがとうございます。
「若干手を加え(ざるを得なかっ)た」理由は,オリジナルのもの(2004-05-05)が「そのままでは動かなかった」ためです。