ファイル編集手順マニュアル」の「1　入稿原稿のチェック」の「（4）OCRソフトを使ったテキスト作成」の「（i）学習辞書での一括処理［手順8］」

　まず学習辞書であるが、これはよくある文字読み取りの間違いをパターン化して一括検索・置換するもので、リストのかたちで保存できるから、再利用が可能である。この辞書の中身を充実させていけばいいのである。まず「検索」メニューから「検索・置換」を選択すると「検索・置換」ダイアログが表示されるので、検索したい文字列と置換したい文字列をそれぞれ入力する。ダイアログの右下にある「リスト置換」をクリックすると「置換リスト」が表示され、「追加」ボタンをクリックするとリストに登録される。必要な追加があれば、この作業を繰り返し、最大100組までの登録が可能である。右下の「リスト変更」ボタンをクリックして「名前を付けて保存」を選び、適当なファイル名をつければ、デフォルトでは「マイドキュメント」フォルダの「medeadrive」内の「e.Typist User Data」フォルダに「*.lst」の形式で保存され、呼び出すことができるようになる。このファイルは実体はタブ区切りのテキストデータなので、簡単に作成することもできる。

　ちなみにわたしがかつて紀伊國屋NetLibrary用に『宮本常一著作集』をOCRで読み取りしたときに作った「miyamoto.lst」という学習辞書（一括処理ファイル）が見つかったので、ご参考までに提示しておこう。これは古い活字を読み取るときによく起こる読み違いを拾い出したもので、あまり一般性がないので、あくまでも一例にすぎないことをくれぐれもお断りしておく。

＝一一二

劇軽剽軽

：： ......

食ぺ食べ

手ぱな手ばな

むつかしむづかし

たぺたべ

．

・：・ ......

ぺきべき

人聞人間

　「「

、　「、「

、　一、一

。　一。一

。。。

＝ハ一六

曲豆豊

、　『、『

。　（。（

。　『。『

胴子舸子

仲問仲間

＝一一

成皿盛

一っ一つ

，

』　（』（

入月八月

民聞民間

祈疇祈祷

村入村人

仲聞仲間

民問民間

　『『

飢謹飢饉

まアまァ

ゃアゃァ

はアはァ

なアなァ

一べん一ぺん

豆殴豆酘

庖瘡疱瘡

年聞年間

) ）

　左側が検索文字列、右側が置換文字列である。ご覧いただけばすぐわかるように、句読点やカッコ類の問題や単純な読み違え（たとえば「人間」を「人聞」とするなど）、さらにひとつの文字を分解して読んでしまう例（「豊」を「曲豆」と読むなど）があり、なかなかおもしろいが、笑ってもいられない。こういう間違いを集めておいて一括処理すれば、かなり手間が省けるのである。何パターンもリストを作っておいて使い分けるのもひとつの方法だろう。

ファイル編集手順マニュアル」の「1　入稿原稿のチェック」の「（4）OCRソフトを使ったテキスト作成」の「（i）学習辞書での一括処理［手順8］」

カテゴリ:

トラックバック(0)

コメントする

カテゴリ

月別アーカイブ

ウェブページ

検索

このブログ記事について

ファイル編集手順マニュアル」の「1 入稿原稿のチェック」の「（4）OCRソフトを使ったテキスト作成」の「（i）学習辞書での一括処理［手順8］」

カテゴリ:

トラックバック(0)

コメントする

カテゴリ

月別 アーカイブ

ウェブページ

検索

このブログ記事について

ファイル編集手順マニュアル」の「1　入稿原稿のチェック」の「（4）OCRソフトを使ったテキスト作成」の「（i）学習辞書での一括処理［手順8］」

月別アーカイブ