ファイル編集手順マニュアル」の「1 入稿原稿のチェック」の「(4)OCRソフトを使ったテキスト作成」の「(i)学習辞書での一括処理[手順8]」

| コメント(0) | トラックバック(0)
 まず学習辞書であるが、これはよくある文字読み取りの間違いをパターン化して一括検索・置換するもので、リストのかたちで保存できるから、再利用が可能である。この辞書の中身を充実させていけばいいのである。まず「検索」メニューから「検索・置換」を選択すると「検索・置換」ダイアログが表示されるので、検索したい文字列と置換したい文字列をそれぞれ入力する。ダイアログの右下にある「リスト置換」をクリックすると「置換リスト」が表示され、「追加」ボタンをクリックするとリストに登録される。必要な追加があれば、この作業を繰り返し、最大100組までの登録が可能である。右下の「リスト変更」ボタンをクリックして「名前を付けて保存」を選び、適当なファイル名をつければ、デフォルトでは「マイドキュメント」フォルダの「medeadrive」内の「e.Typist User Data」フォルダに「*.lst」の形式で保存され、呼び出すことができるようになる。このファイルは実体はタブ区切りのテキストデータなので、簡単に作成することもできる。
 ちなみにわたしがかつて紀伊國屋NetLibrary用に『宮本常一著作集』をOCRで読み取りしたときに作った「miyamoto.lst」という学習辞書(一括処理ファイル)が見つかったので、ご参考までに提示しておこう。これは古い活字を読み取るときによく起こる読み違いを拾い出したもので、あまり一般性がないので、あくまでも一例にすぎないことをくれぐれもお断りしておく。

=一 一二
劇軽 剽軽
:: ......
食ぺ 食べ
手ぱな 手ばな
むつかし むづかし
たぺ たべ
・:・ ......
ぺき べき
人聞 人間
 「
、 「 、「
、 一 、一
。 一 。一
。。
=ハ 一六
曲豆
、 『 、『
。 ( 。(
。 『 。『
胴子 舸子
仲問 仲間
一一
成皿
一っ 一つ
』 ( 』(
入月 八月
民聞 民間
祈疇 祈祷
村入 村人
仲聞 仲間
民問 民間
'
 『
飢謹 飢饉
まア まァ
ゃア ゃァ
はア はァ
なア なァ
一べん 一ぺん
豆殴 豆酘
庖瘡 疱瘡
年聞 年間
)

 左側が検索文字列、右側が置換文字列である。ご覧いただけばすぐわかるように、句読点やカッコ類の問題や単純な読み違え(たとえば「人間」を「人聞」とするなど)、さらにひとつの文字を分解して読んでしまう例(「豊」を「曲豆」と読むなど)があり、なかなかおもしろいが、笑ってもいられない。こういう間違いを集めておいて一括処理すれば、かなり手間が省けるのである。何パターンもリストを作っておいて使い分けるのもひとつの方法だろう。

トラックバック(0)

トラックバックURL: http://www.miraisha.co.jp/mt/mt-tb.cgi/299

コメントする

このブログ記事について

このページは、未来社が2013年6月19日 20:56に書いたブログ記事です。

ひとつ前のブログ記事は「ファイル編集手順マニュアル:1の(4)OCRソフトを使ったテキスト作成」です。

次のブログ記事は「「ファイル編集手順マニュアル」の「1」の「(4)OCRソフトを使ったテキスト作成」の「(ii)テキストエディタのマクロ処理[手順9]」」です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。