今日打算查下邊度有得睇銀行嘅定期利率走勢,但 Google 完都冇我想要嘅嘢。諗起之前 interview 嗰陣有傾開爬蟲可以用嚟做好多嘢,於是就想試下用嚟整合我想要嘅資訊。
Python
一講爬蟲,多數人都係黐埋 Python 一齊講。Python 可以做幾多嘢素有聽聞,但我一直以嚟都冇乜點接觸過。以下係一啲學爬蟲會用到嘅 packages。
Requests
簡單 GET request,適合攞 JSON results。
import requests
res = requests.get('https://belloah.gitlab.io/')
print(res.text)
Selenium WebDriver
模擬 browser,適合攞 loaded page 嘅 output,所謂嘅動態網路爬蟲。
from selenium import webdriver
options = webdriver.ChromeOptions()
options.add_argument("--headless=new")
driver = webdriver.Chrome(options=options)
driver.get('https://belloah.gitlab.io/')
pageSource = driver.page_source
print(pageSource)
driver.quit()
BeautifulSoup
Pulling data out of HTML and XML files,爬蟲常用 package。
import requests
res = requests.get('https://belloah.gitlab.io/')
from bs4 import BeautifulSoup
soup = BeautifulSoup(res.text, 'html.parser')
soup.title.string
接住落嚟會先熟習下呢三個 package,搵啲網頁嚟試下拎 data,之後再睇下有冇其他 package 可以處理爬返嚟嘅 data。
- 完 -