紙に印刷された文書やPDFファイルを、Word/Excelなどの編集可能なファイルに変換できるOCRソフト。「読取革命 Ver.12」は、高精度なエンジンを搭載した日本語・英語対応のOCRソフト。文字はもちろん、表、画像データなどもレイアウトを含めて再現することが可能。PDFファイルや画像ファイルのほか、デジタルカメラやスキャナ、クリップボードなど、さまざまなソースから画像を読み込み、高い精度で認識する。テキストデータを含むPDFファイルではテキストを解析し、認識結果として表示する。「読取革命」シリーズの新バージョンで、エンジンのブラッシュアップで誤読率が減少(認識率が向上)したほか、Microsoft Office 2007形式のファイルへの対応も図られた。罫線なしの表をExcelのセルごとに出力することもできるようになった。
「読取革命」の特徴のひとつは、幅広いソースを読み取って原稿にできること。フラットベッド式のイメージスキャナはもちろん、特殊なドライバを用いるイメージスキャナ「ScanSnap」シリーズや、デジタルカメラで撮影された画像なども読み取ることができる。
画像ファイルの読み取りでは、BMP/JPEG/TIFF/WMFなどの主要な形式はもちろん、EPS/PSD/PBMといった特殊な形式にも対応する。カラーの読み取りにも対応し、認識時には文字色を含めて再現することが可能だ。
新バージョンでは、PDFファイルを読み取る機能が強化された。PDFファイルには文字データを含まず画像データから構成されるものと、画像の上に見えない文字コードを重ね合わせた「透明テキスト」を含むものとがある。「読取革命 Ver.12」では、透明テキストが含まれるものはテキストを解析し、含まれないものは画像を読み取って認識する。
読み取られた画像に対しては、不要部分のトリミングや傾き補正を行えるほか、複数の画像を結合したり、ひとつの画像を分割したりすることも可能。かすれた罫線や、もともと存在しない部分に線を引き、表として認識させることも可能だ。
元原稿のパラグラフや見出し、段組を自動的に認識する機能もある。新聞などの背景模様付き見出しでは、背景模様を削除して認識精度を高めることができるようになっている。一般的なOCRソフトでは、印刷文字(活字書体)と手書き文字は別々のソフトを使う場合が多いが、「読取革命 Ver.12」では設定により、活字書体/手書き文字のいずれにも対応する。
認識結果の確認は、
- テキスト表示
- 元レイアウトを再現した「領域表示」
- 背景までを含めた「カラーリアル表示」
- 原文画像と認識文字とを1行ずつ表示する「ハイパーチェッカー表示」
で目視確認できる。さらに音声合成機能により、認識結果を読み上げさせることも可能。別途、「ATLAS」などの翻訳ソフトを用意しておけば、認識結果を自動翻訳させることもできる。読み取り結果は、Microsoft Office(Word/Excel/PowerPoint)のネイティブファイルのほか、HTML/XML/CSV/TXTなどの汎用ファイル、一太郎/PDFなどに自動変換できる。Officeは最新バージョンの「Office 2007」に対応する。Wordファイルに出力する場合は、元原稿のレイアウトを再現する「レイアウト枠あり」変換やレイアウトを再現しない「枠なし」変換を設定することが可能。出力するファイル形式ごとに、あらかじめ出力時に使用する標準フォントを指定しておくこともできる。