OCRの正読率などの調査
OCRの正読率などの調査
出版デジタル機構(当時名称はなかった)の準備室が開設されたころ、電子書籍制作のための技術的な可能性を検討をするために、沢辺(ポット出版)が株式会社ゼロメガと日高崇さん深沢英次さんの協力得て行ったOCRに関する調査。 人間の校正には多くのコストがかかるため、紙面スキャンの画像と検索用のテキストの組み合わせでつくる電子書籍の可能性を見るために、いわゆる「自炊業者」のスキャンとOCRで1冊200円の精度の調査をおこなった。 この調査にはブックスキャンBOOKSCANに協力してもらった。
●ドキュメントスキャンPDF のコストと品質について PDF・766kb
株式会社ゼロメガ/日高崇(資料作成 2011年10月18日)
OCRの現状と、BOOKSCANによるスキャンの正読率の調査。
「既刊本のデジタル化では、ドキュメントスキャンによる「自炊PDF」がユーザーの支持を受けている。中でもまとまった量のPDF 化では、BOOKSCAN などいわゆる「自炊代行業者」に依頼するケースが増えている。代行業者はわずか1?2 年の間に全国で110 社を超え、多くの利用者からのニーズがあることを物語っている。( http://www.bookfire.net/? 調べ)
ここでは代表的な自炊代行業者「BOOKSCAN」によって作成されたPDF の品質とファイル形式、価格体系などを分析する。」
●?OCR 処理生成によるテキストデータと現物書籍との照合分析(2)PDF・12MB
株式会社ゼロメガ(資料作成 2011年10月20日)
紀伊國屋NetLibrary向けに制作された本のOCRの精度を調査したもの。
「 【対象書籍】
『近代日本と仏教』『生きる力を体で学ぶ』『編集とはどのような仕事なのか』(以上、全てトランスビュー刊)
【調査方法】
上記3 冊の書籍の本文20 ページ分のPDF と関連付けられたテキストデータに対して、校正者により現物書籍を元原稿として視認照合による校正を行い、差異を赤字で記入する。
発生した赤字を、「記号」「日本語」「英語」「数字」の別にカウントし、全体の文字数で除して処理の全体精度を把握する。
照合事例から共通に読み取れるもの、特殊な事例だと思われるものを分析者が読み込み、レポートする。」
公開日:
最終更新日:2016/12/18