人手を減らし再利用可能なデータへ
救急の現場では傷病者の状態や、お薬手帳や紹介状、身分証明書の内容が口頭で伝達され、その情報を電子カルテに手入力で行うことがあります。
これらは時に、ヒューマンエラーにより誤った情報が登録されることがあるため、蓄積されたデータの品質を落としてしまう問題があります。
OCR を導入し、入力作業を自動化することでヒューマンエラーを発生させず、高品質なデータを蓄積することができます。
また、定型化されたフォーマットでデータを蓄積することができるため、後々に調査・研究用となるデータを作成することができます。
OCR 導入における課題
救急の現場において、例えば救急車内での撮影では目標物以外の機材や書類、人物が映りこむことや、正面以外からの撮影も珍しくありません。
写真の OCR では、現場毎のこういった撮影角度・ノイズ・前景や背景といった問題の補正が必要不可欠です。
また、独特なフォントや、紹介状の自由な表構造のフォーマットには汎用の OCR では対応できないことは多々あります。
医療従事者向け専用 OCR の開発
OCR を構成する技術である、「セグメンテーション」「文字検出」「文字認識」において上記課題に対応した、医療従事者向け 専用 OCR を開発しました。
セグメンテーション
10 ~ 100 枚程度のサンプルで対象物(モニターやお薬手帳、表など)を学習すると、対象物の枠を大まかに検出できます。
検出結果の枠は頂点が欠けていたり凸凹しているため、画像処理でマスク結果を補正しながら頂点を推測し台形補正することで、目標物のみを正面に捉えることができます。
文字検出
お薬手帳などを手に持って撮影した場合などに歪んでしまう文字列に対応した文字列認識モデルを使用し、polygon の形状から後処理で歪みを考慮した行まとめや、別処理で検出した表構造を意識した文字列 BBOX に変形して対応しています。
また、独立した1文字や小さい文字列が重要な意味を持つ場合では、1文字単位の文字検出モデルや従来の輪郭検出やテンプレートマッチングも併用します。
文字認識
自動生成した文章にノイズや背景のデータ拡張をしてモデルを学習します。特殊な記号や文字フォントには数枚の生サンプルを用意します。
導入効果
汎用 OCR と比較し、以下のケースで文字認識精度が高くなりました。
- モアレ※や点線などのノイズ交じりの文字列
- 非常に狭い行間や文字間隔の文字列、または横幅を極端に狭めた文字列
結果として、お薬手帳 OCR では平均 3 秒、95%の精度(完全な正答をした枚数/テスト枚数)で処方された薬品名を出力しました。
また、バイタルモニタ OCR では平均 1.7 秒、こちらも 95%の精度(完全な正答をした枚数/テスト枚数)を出力しました。
※規則正しい繰り返し模様を複数重ね合わせた時に、それらの周期のずれにより視覚的に発生する縞模様