DX事例

2024.06.17

開発者視点から見るAI-OCRによるペーパレス化【PART-1】

こんにちは、ペンネーム・傾奇者と申します。
以前、編集長のP太郎が記載した「AI-OCRによるペーパーレス化で業務効率化と顧客サービスの向上を実現」の内容を、今回は開発者の視点から所感を織り交ぜて詳しく記載します。

 

本PARTでは、社内システムから外部システムへのデータ送付プロセス(概略図の青色点線で示された部分)について説明します。

社内システム領域では、申込書をスキャナで読み込みPDFファイルを生成します。 一方、外部システム領域はそのPDFファイルからテキストを抽出する機能を持っています。

 

概要

 

①帳票の定義

スキャナでのテキスト抽出には、対象となる帳票のフォーマットを事前に定義しておく必要があります。ベンダーからは、テキスト抽出機能が対象の帳票フォーマットを学習し、抽出したい領域を指定する必要があるとの説明がありました。フォーマットが頻繁に変わる場合、帳票の定義を都度更新する必要がありますが、これは手間がかかります。弊社では申込書の先頭に抽出したいテキスト情報のみを記載した頭紙を使用することで、フォーマットを統一し問題を解決しています。

(所感)保険会社の申込書の種類の多さや、フォーマットの頻繁な変更には驚かされました。もっと汎用的なフォーマットに統一できないものかと思います。

 

帳票定義

 

②スキャナ設定 

申込書をスキャンし、指定したフォルダにPDFファイルとして出力するように設定します。テキスト抽出時に正確な読み取りを保証するため、解像度は400dpi以上に設定しました。また、ファイル名の重複を避けるため、一定のネーミングルールに従って自動でファイル名を生成するように設定しました。

 

  ネーミングルール:部署ID/取込日時/カウンタ.pdf

 

③PDFファイルのアップロード

スキャンしたPDFファイルをベンダー指定のサイトにアップロードします。ネットワーク帯域を考慮し、夜間にアップロードするようスケジュールしています。

(所感)このプロセスはPowerAutomateを使用して実行しています。クラウドでスケジュールを設定していますが、処理を行うPCに接続できないことがたびたびありました。原因は、自動起動するはずのサービスが正常に起動していなかったことでした。なんか10年以上前もこの手の話はあったんですよね・・遅延起動に設定を変更してからは、予定通りに動作しています。

 

テンプレート

 

④テキスト抽出処理

PDFファイルから、帳票定義に基づいた領域のテキストを抽出します。抽出したデータはCSVファイルとして出力することも可能でしたが、後続の処理を考慮すると、送付したPDFファイル名にデータを追加する方が適切と判断しました。

(所感)CSVファイルとして出力する方法は一般的ですが、ファイルをオープンして内容を取得し、その後ファイルをクローズする処理は、このプロジェクトでは不要だと感じました。大量のPDFファイルがあれば、それに相応する数のCSVファイルも存在することになり、処理時間が増加し、格納場所の容量も増加します。このアプローチを選ばなかった判断は正しかったと思います。

 

  ネーミングルール:部署ID/取込日時/カウンタ/保険会社名/証券番号主番/証券番号枝番.pdf

 

 

まとめ

私が特に面白いと感じたのは、テキスト抽出の仕組みです。以前までは、データを読み込んで全ての文字をテキスト抽出し、その後証券番号などの特定の単語を用いて必要な情報を選別するという単純なプロセスを想像していました。しかし、実際には帳票の事前定義が必要であり、この定義に基づいてテキスト抽出が行われるという点が非常に興味深いと思いました。具体的には、保険会社名と種目で帳票定義を選別し、その定義に従ってテキスト領域を特定するというプロセスはうまく考えられていると感じました。

一方で、躊躇したのは頭紙の運用の調整時でした。日々の申込書対応に加えて頭紙の運用を導入することには躊躇しました。自動的にテキストを抽出する目的とはいえ、運用の手間が増えることにためらいもありました。しかし、システム利用においては前提条件や制約が必要不可欠です。またフォーマットの変更が発生するたびに帳票定義を依頼する手間を考えると、変更が発生しない頭紙の運用はメリットがあると考えました。運用に協力してくれた部門には感謝しています。

 

以上、スキャナからテキスト抽出までのプロセスを説明しました。次回PARTでは、テキスト抽出したファイルのダウンロードから解説します。

 

(編集者・傾奇者)

 

⇒ AI-OCR導入に関するご相談はこちらから

 

【連載記事】

⇒ 「AI-OCRによるペーパーレス化で業務効率化と顧客サービスの向上を実現」
⇒ 「開発者視点から見るAI-OCRによるペーパレス化【PART-2】」
⇒ 「開発者視点から見るAI-OCRによるペーパレス化【PART-3】」

お問合せ先

事例やコラムに関するご照会、案件に関するご相談やお見積は以下のフォームからお問合せください。

保険代理店DX支援に関するお問合せ