<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
最近在抓取http://skell.sketchengine.eu網頁時,發現用requests無法獲得網頁的全部內容,所以我就用selenium先模擬瀏覽器開啟網頁,再獲取網頁的原始碼,通過BeautifulSoup解析後拿到網頁中的例句,為了能讓迴圈持續進行,我們在迴圈體中加了refresh(),這樣當瀏覽器得到新網址時通過重新整理再更新網頁內容,注意為了更好地獲取網頁內容,設定重新整理後停留2秒,這樣可以降低抓不到網頁內容的機率。為了減少被封的可能,我們還加入了Chrome,請看以下程式碼:
from selenium import webdriver from selenium.webdriver.chrome.options import Options from selenium.webdriver.chrome.service import Service from bs4 import BeautifulSoup import time,re path = Service("D:\MyDrivers\chromedriver.exe")# # 設定不顯示瀏覽器 chrome_options = Options() chrome_options.add_argument('--headless') chrome_options.add_argument('--disable-gpu') chrome_options.add_argument('User-Agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36') # 建立Chrome範例 。 driver = webdriver.Chrome(service=path,options=chrome_options) lst=["happy","help","evening","great","think","adapt"] for word in lst: url="https://skell.sketchengine.eu/#result?lang=en&query="+word+"&f=concordance" driver.get(url) # 重新整理網頁獲取新資料 driver.refresh() time.sleep(2) # page_source——》獲得頁面原始碼 resp=driver.page_source # 解析原始碼 soup=BeautifulSoup(resp,"html.parser") table = soup.find_all("td") with open("eps.txt",'a+',encoding='utf-8') as f: f.write(f"n{word}的例子n") for i in table[0:6]: text=i.text #替換多餘的空格 new=re.sub("s+"," ",text) #寫入txt文字 with open("eps.txt",'a+',encoding='utf-8') as f: f.write(re.sub(r"^(d+.)",r"n1",new)) driver.close()
1. 為了加快存取速度,我們設定不顯示瀏覽器,通過chrome.options實現
2. 最近通過re正規表示式來清理格式。
3. 我們設定table[0:6]來獲取前三個句子的內容,最後顯示結果如下。
happy的例子
1. This happy mood lasted roughly until last autumn.
2. The lodging was neither convenient nor happy .
3. One big happy family "fighting communism".
help的例子
1. Applying hot moist towels may help relieve discomfort.
2. The intense light helps reproduce colors more effectively.
3. My survival route are self help books.
evening的例子
1. The evening feast costs another $10.
2. My evening hunt was pretty flat overall.
3. The area nightclubs were active during evenings .
great的例子
1. The three countries represented here are three great democracies.
2. Our three different tour guides were great .
3. Your receptionist "crew" is great !
think的例子
1. I said yes immediately without thinking everything through.
2. This book was shocking yet thought provoking.
3. He thought "disgusting" was more appropriate.
adapt的例子
1. The novel has been adapted several times.
2. There are many ways plants can adapt .
3. They must adapt quickly to changing deadlines.
補充:經過程式碼的優化以後,例句的爬取更加快捷,程式碼如下:
from selenium import webdriver from selenium.webdriver.chrome.options import Options from selenium.webdriver.chrome.service import Service from bs4 import BeautifulSoup import time,re import os # 設定模擬瀏覽器的位置 path = Service("D:\MyDrivers\chromedriver.exe")# # 設定不顯示瀏覽器 chrome_options = Options() chrome_options.add_argument('--headless') chrome_options.add_argument('--disable-gpu') chrome_options.add_argument('User-Agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36') # 建立Chrome範例 。 def get_wordlist(): wordlist=[] with open("wordlist.txt",'r',encoding='utf-8') as f: lines=f.readlines() for line in lines: word=line.strip() wordlist.append(word) return wordlist def main(lst): driver = webdriver.Chrome(service=path,options=chrome_options) for word in lst: url="https://skell.sketchengine.eu/#result?lang=en&query="+word+"&f=concordance" driver.get(url) driver.refresh() time.sleep(2) # page_source——》頁面原始碼 resp=driver.page_source # 解析原始碼 soup=BeautifulSoup(resp,"html.parser") table = soup.find_all("td") with open("examples.txt",'a+',encoding='utf-8') as f: f.writelines(f"n{word}的例子n") for i in table[0:6]: text=i.text new=re.sub("s+"," ",text) with open("eps.txt",'a+',encoding='utf-8') as f: f.write(new) # f.writelines(re.sub("(.s)(d+.)","1n2",new)) if __name__=="__main__": lst=get_wordlist() main(lst) os.startfile("examples.txt")
總結
到此這篇關於Python無法用requests獲取網頁原始碼的文章就介紹到這了,更多相關requests獲取網頁原始碼內容請搜尋it145.com以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援it145.com!
相關文章
<em>Mac</em>Book项目 2009年学校开始实施<em>Mac</em>Book项目,所有师生配备一本<em>Mac</em>Book,并同步更新了校园无线网络。学校每周进行电脑技术更新,每月发送技术支持资料,极大改变了教学及学习方式。因此2011
2021-06-01 09:32:01
综合看Anker超能充系列的性价比很高,并且与不仅和iPhone12/苹果<em>Mac</em>Book很配,而且适合多设备充电需求的日常使用或差旅场景,不管是安卓还是Switch同样也能用得上它,希望这次分享能给准备购入充电器的小伙伴们有所
2021-06-01 09:31:42
除了L4WUDU与吴亦凡已经多次共事,成为了明面上的厂牌成员,吴亦凡还曾带领20XXCLUB全队参加2020年的一场音乐节,这也是20XXCLUB首次全员合照,王嗣尧Turbo、陈彦希Regi、<em>Mac</em> Ova Seas、林渝植等人全部出场。然而让
2021-06-01 09:31:34
目前应用IPFS的机构:1 谷歌<em>浏览器</em>支持IPFS分布式协议 2 万维网 (历史档案博物馆)数据库 3 火狐<em>浏览器</em>支持 IPFS分布式协议 4 EOS 等数字货币数据存储 5 美国国会图书馆,历史资料永久保存在 IPFS 6 加
2021-06-01 09:31:24
开拓者的车机是兼容苹果和<em>安卓</em>,虽然我不怎么用,但确实兼顾了我家人的很多需求:副驾的门板还配有解锁开关,有的时候老婆开车,下车的时候偶尔会忘记解锁,我在副驾驶可以自己开门:第二排设计很好,不仅配置了一个很大的
2021-06-01 09:30:48
不仅是<em>安卓</em>手机,苹果手机的降价力度也是前所未有了,iPhone12也“跳水价”了,发布价是6799元,如今已经跌至5308元,降价幅度超过1400元,最新定价确认了。iPhone12是苹果首款5G手机,同时也是全球首款5nm芯片的智能机,它
2021-06-01 09:30:45