OCR
フルスペル:Optical Character Recognition
読み方:オーシーアール
別名:光学文字認識
OCRとは、スキャナなどで入力された画像情報の中から、文字の形状に基づいて文字を識別し、コンピュータ上で扱える文字データへと変換する仕組みのことである。
OCRの機能を備えた装置やソフトウェアも、同じくOCRと呼ばれる。この場合のOCRはOptical Character Readerの略とされる。
書籍や新聞などの印刷物をスキャナで読み取ると、一面の画像として入力される。OCRでは、主にパターン認識の技術を用いて、画像中から文字情報を認識している。一般的には、スキャナから入力された画像をPC上で専用のソフトウェアを利用して解析する方法が取られている。また、携帯電話の中にもOCRの機能が搭載された機種がある。
OCRを用いることで、例えば、古い書籍の情報を電子データ化する場合などに、タイピングによって人手で入力するよりも効率的に作業を進めることができる。
OCRは、あらかじめ登録された文字のパターンを参照して近似の形を判定するため、複雑な字形の漢字や、創作的な手書き文字を完全に正しく読み取ることは難しい。補助処理として、周囲の罫線などから文字の位置とつながりを確認する処理を行っている場合も多い。
|