首頁 > 軟體

Python 讀取 Word 檔案操作

2022-08-19 22:02:07

前言

Word 檔案 (.docx) 是另一種主要用於儲存文字的常見檔案。它們通常由 Microsoft Office 建立和編輯,但也可以使用其他工具生成相容檔案。它們通常是共用可編輯檔案的最常見格式,同時在分發檔案時也非常常見。

Python 讀取 Word 檔案

安裝 python-docx庫

在本節中,我們將學習如何使用 Python 從 Word 檔案中提取文字資訊。我們主要使用 python-docx 庫來讀取和處理 Word 檔案,其安裝方法與其它第三方庫完全相同:

$ pip install python-docx

首先,匯入 python-docx 庫:

>>> import docx

開啟 document_1.docx 檔案:

>>> doc = docx.Document('document_1.docx')

檢查儲存在 core_properties 中的後設資料屬性,需要存取 core_properties 屬性。這些屬性是為 Word 定義的檔案後設資料屬性,例如作者或建立日期。但並非所有檔案都具有這些後設資料資訊,因為許多生成 Word 檔案的工具不一定會填充這些屬性:

>>> doc.core_properties.title
'Research Overview of Adversarial Attacks and Defenses on Graphs'
>>> doc.core_properties.keywords
'Abstract'
>>> doc.core_properties.modified
datetime.datetime(2020, 8, 1, 3, 11)

Word 檔案中最重要的特點是資料以段落(而不是頁)的形式結構化。字型大小、段落縮排和其他因素都可能會使頁數發生變化。檢查段落數:

>>> len(doc.paragraphs)
28

瀏覽段落以檢測包含文字的段落,大多數段落通常是空的,或者只包含換行符、製表符或其他空白字元,檢查段落時我們通常跳過這些空段落:

>>> for index, paragraph in enumerate(doc.paragraphs):
...     if paragraph.text:
...             print(index, paragraph.text)=
...
0 圖對抗攻防綜述
1 摘 要:
3 關鍵字:
5 Research Overview of Adversarial Attacks and Defenses on Graphs
6 Abstract
7 Deep neural networks (DNNs) have been widely applied to various applications, including image classification, ...
8 ...
...
27 參考文獻

可以利用 paragraphs 屬性獲取檔案段落列表並提取原始格式的文字,這些文字不包括樣式資訊,通常是自動處理資料時最常用的屬性。獲取第 5 段和第 6 段的文字,分別對應第一頁的標題和副標題:

>>> doc.paragraphs[5].text
'Research Overview of Adversarial Attacks and Defenses on Graphs'
>>> doc.paragraphs[6].text
'Abstract '

每個段落都有一個 runs 屬性,這是具有不同樣式屬性的文字分割列表。檢查不同文欄位落是否為粗體或斜體:

>>> doc.paragraphs[5].runs[0].bold
True
>>> doc.paragraphs[5].runs[0].italic
>>> doc.paragraphs[6].runs[0].bold
>>> doc.paragraphs[6].runs[0].italic
True

在範例 Word 檔案中,大多數段落只有一個 run (即每個段落使用相同的樣式),但我們在第 7 段中文字具有許多不同的樣式。例如,Deep neural networks 使用粗體樣式,DNNs 使用斜體樣式:

>>> run_0 = doc.paragraphs[7].runs[0]
>>> run_0.text
'Deep neural networks'
>>> run_0.bold
True
>>> run_13 = doc.paragraphs[7].runs[13]
>>> run_13.text
'DNNs'
>>> run_13.italic
True

到此這篇關於Python 讀取 Word 檔案操作的文章就介紹到這了,更多相關Python 讀取 Word 檔案內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com!


IT145.com E-mail:sddin#qq.com