<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
小絲:魚哥, 你有沒有什麼辦法,提取PDF檔案的內容。
小魚:這個還問我??
小絲:哎呀,這個不是被難住了嘛 。
小魚:有啥難得?提示你一下,
小絲:嗯,可以可以。
小魚:去我的博文找,沒記錯的話,有兩種方法提取pdf的文字。
小絲:好嘞, 我這就去…找找…
小絲:魚哥,魚哥~
小魚:怎麼樣,你的這個需求,解決了吧。
小絲:沒呢,我想批次提取指定PDF檔案的內容…
小魚:批…量…
小絲:對啊,是批次,
小魚:這…還挺…
小絲:挺費勁嗎?
小魚:挺好的 ,不費勁, 一口氣,上7樓…
小絲:打住… 說正事! !
小魚:好嘞…
想到提取PDF檔案的內容,我們第一反應就是pypdf,
因為pypdf這個庫我在很多篇文章都介紹過, 還蠻好用的。
但是,今天,我們不使用pypdf,而是使用另一個庫,即:pdfminer。
pdfminer我相信很多同學都沒聽說過,除非,你經常提取/解析PDF檔案的內容,否則,你對ta,只能是陌生。
其實,提取PDF檔案內容解決方案,截止到現在, 只有pypdf 和pdfminer這兩種。
所以, 如果你厭倦了, pypdf,那隻能選擇pdfminer了。
那什麼是pdfminer 呢,或者 pdfminer有什麼神奇之處呢?
定義
PDFMiner是用於從PDF檔案提取資訊的工具;
與其他PDF相關工具不同,它完全專注於獲取和分析文字資料;
功能
PDFMiner允許獲取頁面中文字的確切位置以及其他資訊,例如字型或線條;
它包括一個PDF轉換器,可以將PDF檔案轉換為其他文字格式(例如HTML);
由於pdfminer是python 的第三方庫, 所以,需要安裝,
老規矩, 直接pip 安裝
安裝
pip install pdfminer
安裝完成:
因為我們需要用到 pdfminer的high_level 方法,所以
這裡必須要在安裝pdfminer.six模組,否則會報錯:
安裝
pip install pdfminer.six
安裝完成:
其它安裝方式,直接看這兩篇:
《Python3,選擇Python自動安裝第三方庫,從此跟pip說拜拜!!》
《Python3:我低調的只用一行程式碼,就匯入Python所有庫!》
安裝完成,我們就來寫上程式碼,
我們先來捋順一下思路,主要分3步:
1、遍歷pdf檔案
注:如果資料夾的檔案多個,需要單獨提取目標pdf檔案,否則都會輪巡匹配,費事費力費資源;
2、提取pdf檔案內容
3、根據正則匹配,提取需要的檔案資訊
我們就根據這個思路,來提取"企業基本情況",程式碼如下:
程式碼範例
# -*- coding:utf-8 -*- # @Time : 2022-11-30 # @Author : Carl_DJ from pdfminer import high_level import re,os #pdf檔案路徑 #root:資料夾路徑,dirs:資料夾下子目錄名,files:資料夾下的檔案 for root,dirs,files in os.walk('./data/'): #遍歷pdf檔案 for f in files: file_name = os.path.join(root,f) if file_name.endswith('.pdf'): #提取整個 pdf 文字資訊 text = high_level.extract_text(file_name) #提取 pdf檔案中 "企業進本情況:" 後面的資訊,利用正則進行匹配 regex = r'企業基本情況-(.*?)n' qy_base = re.findall(regex,text) print(f'輸出資訊:{qy_base}')
pdf檔案
執行結果
看到這裡,今天的分享,差不多就該結束了。
解析PDF是一件非常耗時和耗記憶體的工作,因此,pdfminer使用一種稱作Lazy Parsing的策略,減少內耗…
小絲:怪不得, 提到批次提取pdf的檔案內容, 你會猶豫了…
小魚:對啊,因為我們的的測試檔案內容很少,所以對記憶體的消耗相對來說沒那麼驗證,當PDF檔案的內容很多時, 就不得不使用pdfminer了。
到此這篇關於9行Python3程式碼實現批次提取PDF檔案的指定內容的文章就介紹到這了,更多相關Python提取PDF指定內容內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com!
相關文章
<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
综合看Anker超能充系列的性价比很高,并且与不仅和iPhone12/苹果<em>Mac</em>Book很配,而且适合多设备充电需求的日常使用或差旅场景,不管是安卓还是Switch同样也能用得上它,希望这次分享能给准备购入充电器的小伙伴们有所
2021-06-01 09:31:42
除了L4WUDU与吴亦凡已经多次共事,成为了明面上的厂牌成员,吴亦凡还曾带领20XXCLUB全队参加2020年的一场音乐节,这也是20XXCLUB首次全员合照,王嗣尧Turbo、陈彦希Regi、<em>Mac</em> Ova Seas、林渝植等人全部出场。然而让
2021-06-01 09:31:34
目前应用IPFS的机构:1 谷歌<em>浏览器</em>支持IPFS分布式协议 2 万维网 (历史档案博物馆)数据库 3 火狐<em>浏览器</em>支持 IPFS分布式协议 4 EOS 等数字货币数据存储 5 美国国会图书馆,历史资料永久保存在 IPFS 6 加
2021-06-01 09:31:24
开拓者的车机是兼容苹果和<em>安卓</em>,虽然我不怎么用,但确实兼顾了我家人的很多需求:副驾的门板还配有解锁开关,有的时候老婆开车,下车的时候偶尔会忘记解锁,我在副驾驶可以自己开门:第二排设计很好,不仅配置了一个很大的
2021-06-01 09:30:48
不仅是<em>安卓</em>手机,苹果手机的降价力度也是前所未有了,iPhone12也“跳水价”了,发布价是6799元,如今已经跌至5308元,降价幅度超过1400元,最新定价确认了。iPhone12是苹果首款5G手机,同时也是全球首款5nm芯片的智能机,它
2021-06-01 09:30:45