1)python インストール
Windows PowerShellもあるけど、ディレクトリの移動も不自由したのでコマンドプロンプトで
C:\Users\ユーザ>python
インストールされていない場合は、Microsoft store が起動してインストールをうながされる。
あるいは下記を参照してインストール
https://www.python.jp/install/windows/install.html
コマンドプロンプトでインストールの確認
C:\Users\ユーザ>python
Python 3.11.1 (tags/v3.11.1:a7a450f, Dec 6 2022, 19:58:39) [MSC v.1934 64 bit (AMD64)] on win32
Type “help”, “copyright”, “credits” or “license” for more information.
>>>exit()
exit() でコマンドプロンプトへ戻る。
2)Tesseract インストール
https://github.com/UB-Mannheim/tesseract/wiki
japanese 4箇所チェック
下記にインストールされる
C:\Program Files\Tesseract-OCR
3)PyOCR のインストール
コマンドプロンプトで
C:\Users\ユーザ>pip install pyocr
C:\Users\ユーザ>pip list //インストールできたか確認
4)macだけど python の実行方法がわかる
https://plog.shinmaiblog.com/pyocr-tesseract/
python3 main.py
5)PySimpleGUIインストール
https://qiita.com/ku_a_i/items/20004800adc78fa94a0b
コマンドプロンプトで
C:\Users\ユーザ>pip install PySimpleGUI
6)ocr.py というファイルにしてコマンドから実行
https://qiita.com/ku_a_i/items/20004800adc78fa94a0b
上記のコードを参考にして、さくらエディタで「ocr.py」を保存
保存場所 C:\Users\ユーザ
コマンドプロンプトで保存場所へ移動
C:\Users\ユーザ>cd C:\Users\ユーザ
コマンドプロンプトで実行
C:\Users\ユーザ>python ocr.py
エラーが出る
Traceback (most recent call last):
File “C:\Users\MTGP\ocr0.py”, line 29, in <module>
txt_pyocr = tool.image_to_string(img_con , lang=’jpn’, builder=builder)
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
File “C:\Users\MTGP\AppData\Local\Programs\Python\Python311\Lib\site-packages\pyocr\tesseract.py”, line 372, in image_to_string
raise TesseractError(status, errors)
pyocr.error.TesseractError: (1, b’Error opening data file C:\\Program Files\\Tesseract-OCR\tessdata/jpn.traineddata\r\nPlease make sure the TESSDATA_PREFIX environment variable is set to your “tessdata” directory.\r\nFailed loading language \’jpn\’\r\nTesseract couldn\’t load any languages!\r\nCould not initialize tesseract.\r\n’)
パスの書き方が違っていた
<誤>
TESSERACT_PATH = ‘C:\Program Files\Tesseract-OCR’ #インストールしたTesseract-OCRのpath
TESSDATA_PATH = ‘C:\xProgram Files\Tesseract-OCR\tessdata’ #tessdataのpath
<正>
TESSERACT_PATH = ‘C:\\Program Files\\Tesseract-OCR’ #インストールしたTesseract-OCRのpath
TESSDATA_PATH = ‘C:\\Program Files\\Tesseract-OCR\\tessdata’ #tessdataのpath
個人番号については、QRコードで入力というのも手だけど。操作や手数は増やしたくないな。
違うパソコン、余計な部分を白にした画像でやった結果 かなりいい。