ユーザー定義パターン
概要
この記事では、ユーザー定義パターンについて説明します。
ユーザー定義パターン
ユーザー定義パターンは、文字や数字のパターンを作成し、読取項目フィールドに割り当てることで、割り当てられたパターンにしたがって文字の抽出や項目タイプエラーの表示を行うことができる項目タイプの 1 つです。
ユーザー定義パターンを作成するには、画面左側の [リソース] ページの [新規作成] ボタンのドロップダウンメニューから [ユーザー定義パターン] を選択してください。

ユーザー定義パターンを作成する手順は以下のとおりです。
- ユーザー定義パターンのコンポーネントを作成します
「abc」のような固定値のコンポーネントを追加するには、[テキスト追加] ボタンをクリックし、[テキスト値] に値を入力します。「1 ~ 9」のような可変値のコンポーネントを追加するには、[文字種追加] ボタンをクリックします。[文字種] では、許容する文字の種類を設定します。[追加文字] では、[文字種] で設定した文字の種類のほかに例外的に許容する文字などを設定します。[繰り返し] では、文字の長さを設定します。 - 「←」ボタンまたは「→」ボタンをクリックして、コンポーネントの順序を指定します
- 画面右上の [作成する] をクリックして作成します

ユーザー定義パターンには、3 つまでのパターンを設定できます。パターンを追加するには、[パターン追加] ボタンをクリックしてください。
ユーザー定義パターンを読取項目フィールドに設定するには、定型文書または不定形文書の文書読取設定の設定画面で、項目タイプ「ユーザー定義パターン」を選択した後、事前に作成したユーザー定義パターンを設定します。

定型文書の文書読取設定の設定画面では、[+ OCR設定追加] ボタンをクリックすることで、項目タイプ「ユーザー定義パターン」に高精度認識ルールを適用できます。

高精度認識ルールを適用すると、弊社 OCR (光学文字認識) モデルに、以下のユーザー定義パターンにしたがって、抽出した文字列を認識するようバイアスをかけることができます。例えば、ユーザー定義パターンに 1 ~ 3 桁の範囲の可変値のコンポーネントが含まれている場合、抽出された文字列を認識する方法は以下のようになります。
|
(認識処理の前の) 抽出した文字列 |
ユーザー定義パターンに基づく OCR 処理 |
ユーザー定義パターンに基づく OCR 処理 |
|
abc |
「abc」として処理し、エラー (一致する対象なし) を返す |
空白として処理し、エラー (一致する対象なし) を返す |
|
123 |
「123」として処理する |
「123」として処理する |
|
IOI |
「IOI」として処理し、エラー (一致する対象なし) を返す |
「101」として処理する |