<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
Word
檔案 (.docx
) 是另一種主要用於儲存文字的常見檔案。它們通常由 Microsoft Office
建立和編輯,但也可以使用其他工具生成相容檔案。它們通常是共用可編輯檔案的最常見格式,同時在分發檔案時也非常常見。
在本節中,我們將學習如何使用 Python
從 Word
檔案中提取文字資訊。我們主要使用 python-docx
庫來讀取和處理 Word
檔案,其安裝方法與其它第三方庫完全相同:
$ pip install python-docx
首先,匯入 python-docx
庫:
>>> import docx
開啟 document_1.docx
檔案:
>>> doc = docx.Document('document_1.docx')
檢查儲存在 core_properties
中的後設資料屬性,需要存取 core_properties
屬性。這些屬性是為 Word
定義的檔案後設資料屬性,例如作者或建立日期。但並非所有檔案都具有這些後設資料資訊,因為許多生成 Word
檔案的工具不一定會填充這些屬性:
>>> doc.core_properties.title 'Research Overview of Adversarial Attacks and Defenses on Graphs' >>> doc.core_properties.keywords 'Abstract' >>> doc.core_properties.modified datetime.datetime(2020, 8, 1, 3, 11)
Word
檔案中最重要的特點是資料以段落(而不是頁)的形式結構化。字型大小、段落縮排和其他因素都可能會使頁數發生變化。檢查段落數:
>>> len(doc.paragraphs) 28
瀏覽段落以檢測包含文字的段落,大多數段落通常是空的,或者只包含換行符、製表符或其他空白字元,檢查段落時我們通常跳過這些空段落:
>>> for index, paragraph in enumerate(doc.paragraphs): ... if paragraph.text: ... print(index, paragraph.text)= ... 0 圖對抗攻防綜述 1 摘 要: 3 關鍵字: 5 Research Overview of Adversarial Attacks and Defenses on Graphs 6 Abstract 7 Deep neural networks (DNNs) have been widely applied to various applications, including image classification, ... 8 ... ... 27 參考文獻
可以利用 paragraphs
屬性獲取檔案段落列表並提取原始格式的文字,這些文字不包括樣式資訊,通常是自動處理資料時最常用的屬性。獲取第 5
段和第 6
段的文字,分別對應第一頁的標題和副標題:
>>> doc.paragraphs[5].text 'Research Overview of Adversarial Attacks and Defenses on Graphs' >>> doc.paragraphs[6].text 'Abstract '
每個段落都有一個 runs
屬性,這是具有不同樣式屬性的文字分割列表。檢查不同文欄位落是否為粗體或斜體:
>>> doc.paragraphs[5].runs[0].bold True >>> doc.paragraphs[5].runs[0].italic >>> doc.paragraphs[6].runs[0].bold >>> doc.paragraphs[6].runs[0].italic True
在範例 Word
檔案中,大多數段落只有一個 run
(即每個段落使用相同的樣式),但我們在第 7
段中文字具有許多不同的樣式。例如,Deep neural networks
使用粗體樣式,DNNs
使用斜體樣式:
>>> run_0 = doc.paragraphs[7].runs[0] >>> run_0.text 'Deep neural networks' >>> run_0.bold True >>> run_13 = doc.paragraphs[7].runs[13] >>> run_13.text 'DNNs' >>> run_13.italic True
到此這篇關於Python 讀取 Word 檔案操作的文章就介紹到這了,更多相關Python 讀取 Word 檔案內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com!
相關文章
<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
综合看Anker超能充系列的性价比很高,并且与不仅和iPhone12/苹果<em>Mac</em>Book很配,而且适合多设备充电需求的日常使用或差旅场景,不管是安卓还是Switch同样也能用得上它,希望这次分享能给准备购入充电器的小伙伴们有所
2021-06-01 09:31:42
除了L4WUDU与吴亦凡已经多次共事,成为了明面上的厂牌成员,吴亦凡还曾带领20XXCLUB全队参加2020年的一场音乐节,这也是20XXCLUB首次全员合照,王嗣尧Turbo、陈彦希Regi、<em>Mac</em> Ova Seas、林渝植等人全部出场。然而让
2021-06-01 09:31:34
目前应用IPFS的机构:1 谷歌<em>浏览器</em>支持IPFS分布式协议 2 万维网 (历史档案博物馆)数据库 3 火狐<em>浏览器</em>支持 IPFS分布式协议 4 EOS 等数字货币数据存储 5 美国国会图书馆,历史资料永久保存在 IPFS 6 加
2021-06-01 09:31:24
开拓者的车机是兼容苹果和<em>安卓</em>,虽然我不怎么用,但确实兼顾了我家人的很多需求:副驾的门板还配有解锁开关,有的时候老婆开车,下车的时候偶尔会忘记解锁,我在副驾驶可以自己开门:第二排设计很好,不仅配置了一个很大的
2021-06-01 09:30:48
不仅是<em>安卓</em>手机,苹果手机的降价力度也是前所未有了,iPhone12也“跳水价”了,发布价是6799元,如今已经跌至5308元,降价幅度超过1400元,最新定价确认了。iPhone12是苹果首款5G手机,同时也是全球首款5nm芯片的智能机,它
2021-06-01 09:30:45