OCRもろもろ話

2010年 9月 5日(日曜日)

 目が不自由になって、盲学校に行ったのが、21歳。
それまでしていた文字の読み書きができないってことが、これほど不自由なのかをそのときから痛感している。

 最初は点字の手習いから始めた。
がしかし、なかなか読めないのだ。指先の感覚が鈍いのか、それともそれを文字として認識する頭が弱いのか、1ページ1分かかることとと、10分で疲労困憊するってことが、それ以来の大きな壁となっている。

 視覚障害者の読書スタイルは、まず、点字本を指先で読むことが、最初にあった。そういうことで、私もせっせと指先で点字を読んでいた。
しかし、私はこれがクリアできなかった。
点字本をまともに読破できたことが一度でもあったのだろうか?... というほど、点字を指先で読むということが難しいのだ、私には。

 そこで、指がだめなら、耳があるってことで、当時録音図書を借りて聴くということが私の読書スタイルに取って代わっていた。
カセットテープに録音された肉声は、ボランティアさんがほとんどだが、ほんとに聴きやすかった。

 そのうち、点訳データというものが出てきた。
これは、点字を点字プリンタで印刷するためのデータで、漢字もカタカナもない、ひらがなだけで書かれたものだ。
本来、点字プリンタで印刷するためのものであるが、それをコンピュータの合成音声で聴けば、耳で聴く読書ということになる。
私は、しばらくそっちも読書に活用していた。
音訳にしても点訳にしても、ボランティアさんの大きな善意があって実現しているものなのであって、ほんと、ありがたぁいものなのだ。
そんなありがたいものがあるにも関わらず、私の読書スタイルは、OCRへとなっているのが今だったりする。
なぜか?
カセットのような音声では、後から調べるということが難しい。
たとえば、第○章の□節のどのあたりと分かっていれば、そのカセットを探して聴けばよい。しかし、調べたいことがどこにあるか分からないとしたら、それはとても面倒なことになる。
このあたりは、点訳データであれば、クリアできる問題といえるな。
次に、ふつうの文書で読みたいということでは、点訳データでもどうにもならない。
もちろん、音訳も1つ1つの文字が分かりきれるわけではない。
そういうことで、純粋にオリジナルのデータにより近い状態で読みたいということで、今はOCRとなっているのだ。

 しかしだ、出版社が、印刷する前のデータで売ってくれれば、それにこしたことはない。
それを要望してみたことが過去にはあった。けど、無駄に終わったことが連続したため、今はあきらめて要望すらしていない。
このあたりのことは、今後電子データとなっていくであろうことで、もしかしたら、クリアできていくのかもしれない。
とはいえ、それがいつのことになるか分からないのであるから、"今"読みたい本は、"今"やるっきゃないってことで、ここに私のOCRを紹介することにする。

本のタイトル

 中古本を多く買い求めているということは、2010年 1月のエッセイで書いた。これは今でも続いている。
まず、開封して本を取り出す。
手魅した本。どっちが表なのか?

MP630

 複合型プリンタの電源を入れる。
e.Typistを起動し、[スキャナドライバの選択]で、[Canon MP630 ser]にする。
手にした1冊。どっちが表か裏か分からないが、とりあえず、たまたま上だった側の表紙を開いて原稿台に乗せる。
1枚スキャンして認識。
そこに本のタイトルがあれば、そちらが表表紙ということになる。
もし、そちらになければひっくり返して反対側の表紙をめくり、同じプロセスをやる。
これでタイトルが出てくれば、そちらが表側ということになる。
しかし、どちらからもタイトルが出てこないことがある。
見開きの大事なページである。単純な明朝体じゃなく、装飾文字だとか、写真デザインだとか、すんごく凝ってたりってことになっているのかもしれない。
ところが、それがOCR泣かせだったりするんだな。
単行本だとか、新書本には、そういう傾向がある。
そこで、あまりそうはなっていない文庫本が狙い目だと私は思っている。同じ本を買うなら、後から出てくる文庫本のほうがいいってのが、私の感触である。

 さて、どちらの表紙の見開きでも本のタイトルが出てこなければ、もう1枚めくり、それでもだめなら、さらに1枚めくりとやっていく。
そのうち、目次が読み取れればめっけもの。表表紙側が見つかったということだ。
表側が見つかれば、とりあえず、本のカバーに点字でタイトルを書いておく。

本を本でなくす

 こうやって、本の表側を見つけたら、次に、本を解体する作業だ。
これは実際、力わざで、本の中身と表紙とをベリベリバリバリとひっぱがしていく。
たとえば500ページの本なら、250枚の本の本体というか、中身が取り外せることになる。
このとき表裏をまちがえないようにして、10枚程度のページをむんずとつかみ取っては、背表紙とのり付けされていた部分を、またもベリベリビリビリとちぎり取っていく。
これで、500ページの本なら、25この紙の束ができていくことになる。

 ここまでできたら、大型カッターに1こずつちぎり取った神の束を乗せ、背表紙とのり付けされていた部分を切り落とす作業を始める。
この大型カッターは、長さ40cmほどのレバーが付いているやつで、それを押し下げていくと、そのレバーと台に挟まれた部分が切り落とされるというタイプのもの。文具屋さんで、1万なにがしで購入してきた物だな。
これで10枚綴りの神の束が、10枚のばらばらの神の束となる。
こうやって、糊代部分の切り取られた神の束は、その場で、くねくねと捻りを加えて、斜めにずれるようにする。
そして、神の厚さにもよるが、3枚から5枚程度を取っては、神の角を1〜2センチの斜辺で折り曲げるのだ。
たとえば5枚取って、角を2センチの斜辺で折り曲げたとしても、いちばん手前の神は、実はずれているので、1センチの斜辺で折り曲げられていることになる。
その下は、1.2センチ、その下は1.4センチ、1.6センチ、1.8センチ、2センチとずれていくことになる。
このずれた折り曲げが紙ばなれをよくするのだ。
また、この折り目が、あとで、紙の上下や裏表を手触りで知らせる役目にもなる。
そういうことで、面倒だけど、重要なプロセスなのだ。
いちおう、500ページの文庫本を250枚の紙束にするのにかかった時間を計ってみたら、約15分ということであった。

DR-2510C

 ここまでできたら、もう1台のスキャナの電源を入れる。
こちらは、ドキュメントスキャナとか、シートスルースキャナとか言うやつで、原稿台というものはない。
紙を1枚1枚、ローラーで運んでいくうちに読み取っていくというタイプのものだ。

 以前は、フラットベッド型スキャナを使っていた。
さっき本のタイトルを読み取るために使っていたMP630もそういうタイプのものだ。
その原稿台に本を開いてはスキャンとしていたものであるが、見開きがきれいにできないとか、綴じ込みのところに近い文字が読み取れないとか、面倒この上なしだった。
たかだか200ページぐらいの本をきれいにスキャンしきるのに、4時間も6時間もかけていた思い出がある。
ほんと、たいへんだった。

 本をばらしてただの紙の束にすることと、ドキュメントスキャナを使うことで、このあたりの労力はかなりよくなった。
もちろん、本を解体することに対する罪悪感はある。あるが、「本を読みたいのであって、本がほしいわけではない」というへ理屈で、こまかしているのである。

設定

 e.Typistの[スキャナドライバの選択]を[Canon DR-2510C TWAIN]に切り替えて、e.Typistを再起動する。
[スキャナから読み込む]で、DR-2510Cの設定を出す。
[画像処理]のタブメニューにある、[裏写り / 地色除去]のチェックはあらかじめ入れてある。
これが入っていないと、ときどき認識が乱れるのだ。

[その他]のタブメニューにある、重送検知を[超音波で検知]にしておく。
これが、重要なのだ。
ドキュメントスキャナは、紙を1枚1枚送っていくことで読み取る方式であるが、たまに2枚3枚が重なって送られていくことがある。
それを超音波で検知して、自動停止して、ついでにメッセージが出る。
ここんとこが、このスキャナにした、最大のポイントでもあったりする。

 ちなみに、文庫本の紙質は一般に紙ばなれがよい。
紙ばなれが悪いのは、つやつやの手触りのもので、前もって裁いておいても全然紙ばなれが良くならない。
雑誌あたりでこういう手触りの紙が使われているものがある。
こういうものは、しょうがないので、1枚ずつ用紙トレイに入れてはスキャンとするしかない。
どこかのユーザーコメントで、紙ばなれが悪いと、このスキャナを酷評していたのを読んだことがあるが、あれはスキャナのせいではない。紙質が分からないユーザに問題があるとしかいいようがないな。

[基本]のタブメニューの、モード:[白黒]でたいていはオーケー。たまに[カラー白黒検知]にすることもある。
用紙サイズ:[A6 文庫本横置き 14.5x9.8cm]とする。
これは、私が作ったサイズで、文庫本をOCRするときには、これにする。用紙は横長に置くことで、読み取りにかかる時間を縦長にするより短縮できる。
読み取る範囲もA6全面はいらない。文字があるであろう最小サイズとして、横幅14.5cm、縦を9.8cmとしている。
解像度:[600 dpi]
文庫本では、400DPIだと、ちょっと文字化けがおきることがあるから、こうしている。
読み取り面:[両面]
これが、ドキュメントスキャナの最大のメリットといえる。フラットベッドでは片面しか読み取れないのだが、1枚の紙が送られるだけで、両面が読めるというのは、ありがたい。

 以上の設定で、500ページ、つまり250枚の紙が用紙トレイから送られる。
読み取りにかかった時間は、24分。
この24分の間に、25枚単位で1枚ずつていねいに数えてから、用紙トレイに乗せることにしている。
こうやって数えることで、さっき糊代を切り離したにも関わらず、はみ出した糊で用紙が離れていないことがあることを確認し、もしくっつきがあれば、きちんとはがすようにするとか、空気を1枚ずつ当ててプラスの紙ばなれを期待してということでやっている。
それにしても、ものが中古本。
ときどき、ものすごぉくタバコ臭い本がある。
前のユーザがタバコを吸いながら読んでいたってことがたんだ分かる。
困ったものである。

 困ったといえば、健康関連の本が、タバコ臭いことがあったりする。
『この本を読むよりタバコやめるほうが先でしょ』と正直思うが、いかがでしょうかな。

画像保存

 いちおう、読み取ったスキャン画像をjpeg形式でHDDに保存している。
小説であれば、その画像から再認識ということはめったにないが、小説じゃなければ表形式で書いてあるページがあったりもする。
この表とか、箇条書きという書き方は、認識で得られたテキストが乱れることがあるので、要注意なのだ。
こういうとき、画像を読み直して、認識を自動から、縦書きや横書きにして認識しなおして見直すことで、全体の理解ができることがある。
そういうことで、いちおう、画像は、しばらく保存することにしている。
文庫本500ページ分を保存するのにかかった時間は12分。
XPなら、4〜5分でできたものが、Vistaになったときは、30分もかかって、めちゃくちゃ不合理感があったが、Windows 7では、どうにかがまんの限界ぎりぎりという早さ?遅さで収まっている。願わくば、もそっと速く保存ができたらな...

認識

 読み取った画像からテキストを引っ張り出すためにe.Typistの[全画像の認識]をスタート。
文庫本の500ページを認識するためにかかった時間は5分25秒。
出てきたテキストに名前をつけて保存し、e.Typistは終了。

連続置換

 ついで、フリーソフトの[連続全置換]を開始。
さっき保存したテキストファイルを開き、置換リストを指定して、置換開始。
置換リストは、1500もあるのにかかった時間はわずかに2秒。
以前は、e.Typistの[置換リストで一括置換]でやっていたが、これだと一度に置換できるのは、100こまで。
1500こあったものだから、15回も置換リストを取り替えてやっていた。
ここにかかっていた時間が30分。それが今ではたったの2秒。
もう、戻れないな。

まとめ

 500ページの文庫本がテキストファイルになって、合成音声で聴くまでにかかる時間が、約1時間。
きょうは、朝から、長いの短いの併せて8冊の本をOCRしてテキストにした。
時間をみつくろっては読書に励もう!

DR-150

 これは、職場で使っているドキュメントスキャナ。
基本的には、DR-2510Cのコンパクト版といえる。
ただし、こちらには、重送検知がない。
用紙トレイに1枚ずつ読み取り原稿を乗せなくてはならないから、そもそも重送はないってことだね。

 使わないときには、ふたを締めておけば、こんなコンパクトなスキャナは見たことがないというほど小さくなる。
そのふたを開くと自動的に電源が入りスタンバイ状態になる。

 開いたふたがそのまま用紙トレイになるのであるが、A4用紙を600DPIで両面読み取るときにかかる時間が約50秒と、ちょっと遅さが気になる。
300DPIなら、10秒程度と驚くほど速いのであるが... OCRするには、解像度がちょいと足りない?と思う。原稿にもよるけどもね。

 職場では、本の読み取りということはない。
ほとんど配られた資料を読むために使っている。
一度に読み取る用紙も10枚までが多いので、それほど速くなくても問題にはならない。

まとめのまとめ

 紙に書いてあるものを読みたい!
ただひたすらそれだけのことなのである。


Updated:2010-september-5; by 抹茶