2017年08月19日

[自炊] JPEGの圧縮率はいくつにするべきか

 〔約1200文字|読了の目安:2.4分〕

 書物をスキャンした画像はJPEGで保存する。PDFで保存するスキャナーもあるが、内部はJPEGなので同じことだ。PNGだと可逆圧縮なので画像が劣化しないが、ファイルサイズが増えるし処理時間もかかる。

 JPEGの圧縮率はソフトによって指定方法が違うので、これだ、と明確に指定できない。また圧縮アルゴリズムも複数あるようで、ソフトが異なると、同じファイルサイズだからといって同じ画質になるとは限らない。

代表的なソフトでの圧縮率の指定方法

  画質:低〜高
Photosop 0〜12
GIMP 0〜100
XnConvert* 0〜100

*: 複数の画像を一度にレベル補正、トリミングなどの処理をするソフト。スキャン後に使用する。

Photoshopでの画質とファイルサイズの比較

↓画質の比較

↓ファイルサイズの比較(文章)*1

無圧縮 100%
PNG 14%
JPEG 10 15%
JPEG 8 10%
JPEG 5 8%
JPEG 0 5%

↓ファイルサイズの比較(漫画)*2

無圧縮 100%
PNG 36%
JPEG 10 29%
JPEG 8 21%
JPEG 5 15%
JPEG 0 9%

*1: 文章のみの1ページを圧縮して比較。無圧縮を100として比率を計算。
*2: 漫画の1ページを圧縮して比較。

 文章のみのページでPNGの圧縮率が高いが、これはPNGはベタ塗りの画像が得意なため。余白が多いので圧縮率が高くなっている。漫画は画像が複雑なので圧縮率が落ちる。
 文章のみの本ならPNGでもいいが、PNGは圧縮/展開に時間がかかる。文字の周囲に多少ノイズが出ても読むには支障ないので、JPEGでいいと思う。

 とはいえ文字の周囲にあまりノイズが出るとOCRに支障が出る。ファイルサイズとノイズのちょうどいい点を探ると、通常は圧縮率8、画集など大事な画像は圧縮率10というところではないだろうか。

Photoshopと他のソフトの圧縮率の比較

 Photoshopと他のソフトの、ファイルサイズと品質が大体同じになる圧縮率はこの辺。

通常 高画質
Photoshop 8 10
GIMP 85 93
XnConvert 80 95

 JPEGの保存オプションにある「最適化」という項目をオンにすると、画質は変わらずファイルサイズが少し減る。それ以外のオプションは使う必要はないと思う。

本1冊のファイルサイズ

 解像度300dpi、圧縮率をPhotoshopの8相当で自炊した場合、本1冊のファイルサイズを平均すると、これくらいになる。

文庫本(小説) 約54MB
少年ジャンプ単行本 約130MB

 Kindleなどで販売されている少年ジャンプ単行本の電子書籍は、1冊30〜50MBらしい(最近はもっと増えてるかも)。自炊した場合に比べて低画質なことが伺える。

 低画質な電子書籍を紙の本の8〜9割程度の値段で売っているわけだが、消費者は解像度とJPEGノイズのことなんてわからないとタカをくくっているのだろう。一方で4Kとか8Kとか高解像度の商品を売りにしているのはおかしい気がするが。

posted by 葛 at 22:01 | Comment(0) | 自炊(電子書籍)

2017年08月10日

[自炊] 解像度はいくつにするべきか

 〔約2100文字|読了の目安:4.2分〕

 書物をスキャンする際、解像度はいくつにするべきか。

 自炊技術Wiki には「自分が現在使っているディスプレイ及び将来使いそうなディスプレイの解像度よりも小さくしない」とあるが、これは良くない。ディスプレイの解像度なんて、時と状況によっていくらでも変わるからだ。Retinaディスプレイによってスマホとタブレットの解像度が一気に上がるなんて誰が予想しただろう。

 印刷物の情報をなるべく減らさず、ファイルサイズがなるべく増えない辺りを探る。

印刷物の解像度

モノクロ二値 1200dpi
カラー/グレースケール 300〜350dpi
新聞の画像 170〜250dpi(モノクロ〜カラー)

 ネットなどの情報を総合すると、こうなっているようだ。

 モノクロ二値というのは、小説などの文字や漫画の絵の部分(スクリーントーンも含む)。「二値」というのは、中間色(グレーなど)がないということ。

 カラー/グレースケールは拡大するとアミ点が見える。これがモアレの原因になる。
 グレースケール* が使われるのは、白黒写真やライトノベルの挿し絵のような微妙な陰影のあるモノクロ画像。これもカラー同様、モアレ除去を使用しないといけないので、文字のみのページとは別にスキャンする必要がある。

 雑誌などで文字に色がついていることがある。これはモノクロ二値とカラーのどちらかというと、モノクロ二値だ。「モノクロ」とは白黒ではなく、単色(mono)という意味だ。
 複数の色を混ぜて使う場合はアミ点を使うことになり、そうするとカラーになる。

*: ネット上にはグレースケールは600dpiという記述があるが、これは意味がわからない。グレースケールのアミ点の間隔はカラーとほぼ同じか、むしろ広い。だから300dpi前後の筈だ。実際に600dpiでスキャンしても、300〜350dpiに比べて情報量が増えている様子はない。

文字は300dpiを基準にする

 文字をそれぞれの解像度でスキャンするとこうなる。

 最大でも600dpiあれば十分。拡大画像だと300dpiでガタつきが見えるが、実サイズだと150dpiでも読むことはできる。150dpiの文字は18pixelくらいだが、パソコンのフォントは大体16pixel前後だから、足りないということはない。
 150dpi程度でも良さそうだが、OCR(文字認識)にかけるには、解像度があまり低いと認識率が落ちる。大体300dpiを超えると認識率に変化がなくなる*1。また、文字がガタガタしていると目に負担がかかりそうな気もする*2
 なので300dpiで良いと思う。

*1: 「読取革命」は400dpi推奨だが、400dpiだとかえって認識率が落ちることがあった。
*2: 文字を読み取るのに余計な労力がかかりそうな気がする。

漫画は300dpiくらいは欲しい

 漫画の解像度を比較する。


『しらぬい奇譚録』白泉社 ©稲井カオル

 拡大画像だと解像度が落ちると共に情報量が減っているのがわかるが、実寸画像だと300dpiでも十分に見える。

 市販の電子書籍の漫画の解像度はいくつになっているのかというと、少年ジャンプなどは、844×1200〜1125×1600pixelくらいらしい。
 少年ジャンプの単行本を300dpiでスキャンすると1323×2079pixelになるから、電子書籍は300dpiよりも低いことがわかる。

 市販の電子書籍が300dpiよりも低いことを踏まえると、やはり300dpiあれば十分に思える。
 あとはその漫画の絵の緻密さ、自分にとっての重要度で300〜600dpiの間で自由に決めればいいだろう(ドキュメントスキャナーは大抵、600dpiが上限)
 ちなみに600dpiは300dpiの4倍のファイルサイズになる。また解像度を上げるとスキャンに時間がかかる。

■本の大きさによっても変える

 少年ジャンプのような小さい単行本は絵が大きく縮小されているから、その分高解像度にする必要があるし、大判の単行本は縮小度が小さいのであまり解像度を上げる必要はない。
 特に文庫サイズで出ている漫画はそのままスキャンすると低解像度になってしまう。

 要は、何dpiでスキャンするかというよりも、スキャン後の画像が何×何pixelになるかが重要だということだ。

カラー印刷も300dpiを基準にする

 カラー印刷は300dpiと350dpiで大した違いは出ない。拡大してよく見ると、350dpiの方が細部のディティールが残っているかなあという程度。当然だが、元の印刷物が300dpi以下だと350dpiでスキャンしても意味はない。

 本の表紙などは300dpiで、重要な画集などは350dpiにすればいいと思う。
 もちろんモアレ除去を使用する。

小さい文字は400〜450dpiにする

 一般の書籍の文字の大きさは3mm程度だが、例外的に2mm程度の印刷物がある。CDのライナーノートなど。
 それを300dpiでスキャンすると文字が粗くなってしまうので、解像度を上げる。450dpiで文字のピクセル数が3mm×300dpiと同じになるが、文字があまり重要でない(OCRをかけない)場合はファイルサイズを考慮して400dpiでいいと思う。

 ちなみに小説の文庫は、ハードカバーに比べると文字の大きさは変わらないが、文字の間隔を狭く詰めることで文字をたくさん入れている。

posted by 葛 at 12:18 | Comment(0) | 自炊(電子書籍)

[自炊] 上級者向けの自炊法が書かれていない

 自炊(本を裁断してスキャンしてパソコンに取り込んで電子書籍にする)方法を検索すると、初心者向けの記事はいくらでも出てくるが*1、そこから先の方法となるとほとんど出てこない*2。自分の知る範囲では、以下のサイトしかない。

 自炊技術Wiki

 だが 自炊技術Wiki の情報でも十分とはいえないので、抜けている情報を書いていく。

※一連の記事は、後から加筆・修正することが予想されます。

*1: 「1000冊自炊してたどり着いた方法」とか書いてある記事が上位に出てくるが、1000冊自炊して初心者向けの記事しか書けないのはおかしい。誇大タイトルもほどほどにして欲しい。

*2: 上級者より初心者の方がはるかに多いから、初心者向けの記事を書いた方がアクセス数が増えてアフィリエイトで稼げるからだ。だからアフィリエイト目的のブログは浅い記事しか書かない。

posted by 葛 at 11:29 | Comment(0) | 自炊(電子書籍)