<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
python模組庫需要 pillow 和 pytesseract 這兩個庫,直接pip install 安裝就好了。
pip install pillow pip install pytesseract
下載地址:ocr下載地址
建議下載最新穩定版本:
tesseract-ocr-w64-setup-v5.0.0.20190623.exe。
安裝過程很簡單,直接點選下一步就完事了,其間可以預設安裝路徑,也可以自定義安裝路徑,裝好之後,把它的安裝路徑新增到環境變數中即可,如我的這樣:
我的安裝位置:
環境變數就這樣加:
我們pip install pytesseract 之後,在python直譯器安裝位置包裡可以找到pytesseract.py檔案如下:
開啟之後,更改:
至此,環境準備工作算是大功告成了。
ocr一直預設安裝,起始就可以支援數位和英文字母識別的,接下來
我們準備一張驗證碼圖片:
將圖片,命名為captcha.png,放到程式同一目錄下
import pytesseract from PIL import Image image = Image.open("captcha.png") print(pytesseract.image_to_string(image))
效果:
我們再嘗試一下中文識別。
在進行識別之前我們要先下載好中文拓展語言套件,
語言套件地址
下載需要的的語言套件,如下圖,紅框內為中文簡體語言套件:
下載後將該包直接放在ocr程式安裝目錄的tessdata資料夾裡面即可。
找一張圖片測試一下:
import pytesseract from PIL import Image image = Image.open("00.jpg") print(pytesseract.image_to_string(image,lang='chi_sim'))
效果:
有時候文字識別率並不高,建議影象識別前,先對影象進行灰度化和 二值化
程式碼範例:
import pytesseract from PIL import Image file = r"00.jpg" # 先對影象進行灰度化和 二值化 image = Image.open(file) Img = image.convert('L') # 灰度化 #自定義灰度界限,這裡可以大於這個值為黑色,小於這個值為白色。threshold可根據實際情況進行調整(最大可為255)。 threshold = 180 table = [] for i in range(256): if i < threshold: table.append(0) else: table.append(1) photo = Img.point(table, '1') #圖片二值化 #儲存處理好的圖片 photo.save('01.jpg') image = Image.open('01.jpg') # 解析圖片,lang='chi_sim'表示識別簡體中文,預設為English # 如果是隻識別數位,可再加上引數config='--psm 6 --oem 3 -c tessedit_char_whitelist=0123456789' content = pytesseract.image_to_string(image, lang='chi_sim') print(content)
import pytesseract from PIL import Image from selenium import webdriver def save_captcha(path): driver = webdriver.Chrome() # 建立瀏覽器物件 driver.maximize_window() driver.implicitly_wait(10) driver.get(url=url) image = driver.find_element_by_id('imgCode') image.screenshot(path) return driver def recognize_captcha(captcha_path): captcha = Image.open(captcha_path) # 開啟圖片 grap = captcha.convert('L') # 對圖片進行灰度化處理 data = grap.load() # 將圖片物件載入成資料 w, h = captcha.size # 獲取圖片的大小(寬度,高度) # 圖片二值化處理 for x in range(w): for y in range(h): if data[x, y] < 140: data[x, y] = 0 else: data[x, y] = 255 code = pytesseract.image_to_string(grap) # 對圖片進行識別 return code def login(driver, code): flag = True email = '1242931802@qq.com' # 註冊的古詩文網賬號和密碼 password = 'xxxx' try: driver.find_element_by_id('email').send_keys(email) driver.find_element_by_id('pwd').send_keys(password) driver.find_element_by_id('code').send_keys(code) driver.implicitly_wait(10) driver.find_element_by_id('denglu').click() except Exception as ex: flag = False return flag if __name__ == '__main__': url = 'https://so.gushiwen.org/user/login.aspx?from=http://so.gushiwen.org/user/collect.aspx' captcha_path = './captcha.png' count = 1 driver = save_captcha(captcha_path) # 獲取驅動 code = recognize_captcha(captcha_path) # 獲取驗證碼 print('識別驗證碼為:', code) if login(driver, code): driver.quit()
效果如下(有時候第一次可能識別失敗,可以寫個迴圈邏輯讓它多識別幾次,一般程式執行1-3次基本會識別成功):
到此這篇關於python實現簡單驗證碼識別的文章就介紹到這了,更多相關python驗證碼識別內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com!
相關文章
<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
综合看Anker超能充系列的性价比很高,并且与不仅和iPhone12/苹果<em>Mac</em>Book很配,而且适合多设备充电需求的日常使用或差旅场景,不管是安卓还是Switch同样也能用得上它,希望这次分享能给准备购入充电器的小伙伴们有所
2021-06-01 09:31:42
除了L4WUDU与吴亦凡已经多次共事,成为了明面上的厂牌成员,吴亦凡还曾带领20XXCLUB全队参加2020年的一场音乐节,这也是20XXCLUB首次全员合照,王嗣尧Turbo、陈彦希Regi、<em>Mac</em> Ova Seas、林渝植等人全部出场。然而让
2021-06-01 09:31:34
目前应用IPFS的机构:1 谷歌<em>浏览器</em>支持IPFS分布式协议 2 万维网 (历史档案博物馆)数据库 3 火狐<em>浏览器</em>支持 IPFS分布式协议 4 EOS 等数字货币数据存储 5 美国国会图书馆,历史资料永久保存在 IPFS 6 加
2021-06-01 09:31:24
开拓者的车机是兼容苹果和<em>安卓</em>,虽然我不怎么用,但确实兼顾了我家人的很多需求:副驾的门板还配有解锁开关,有的时候老婆开车,下车的时候偶尔会忘记解锁,我在副驾驶可以自己开门:第二排设计很好,不仅配置了一个很大的
2021-06-01 09:30:48
不仅是<em>安卓</em>手机,苹果手机的降价力度也是前所未有了,iPhone12也“跳水价”了,发布价是6799元,如今已经跌至5308元,降价幅度超过1400元,最新定价确认了。iPhone12是苹果首款5G手机,同时也是全球首款5nm芯片的智能机,它
2021-06-01 09:30:45