Skip to content

Compthinking-Dev/py-web-scraping

Repository files navigation

課程單元

  1. 環境設定與網頁爬蟲初探
  • 1-1. 環境設定: 安裝 Python 及使用 venv
  • 1-2. 使用 Visual Studio Code
  • 1-3. Browser-Based 開發環境
  • 1-4. 網頁文件解構與網頁爬蟲初探
  1. 使用 Beautiful Soup
  • 2-1. 不要重覆造輪子:寫爬蟲之前
  • 2-2. 使用 BeautifulSoup - 定位標籤元件
  • 2-3. 使用 BeautifulSoup - 巡覽網頁結構
  • 2-4. 正規表示式 (Regular Expression)
  1. 網頁爬蟲範例實戰
  • 3-1. 自由時報今日熱門新聞
  • 3-2. 東森新聞今日熱門新聞
  • 3-3. WordPress 部落格文章
  • 3-4. momo 購物網搜尋結果
  • 3-5. Yahoo 奇摩電影本週新片
  • 3-6. PTT 八卦板今日熱門文章
  • 3-7. GitHub Repositories 列表
  1. 使用 API
  • 4-1. API 簡介
  • 4-2. WordPress API 取得部落格文章
  • 4-3. 自由時報新聞網 API
  • 4-4. IMDB API
  • 4-5. GitHub API: Repositories 列表
  • 4-6. YouTube Data API: 頻道觀看數及影片列表
  1. 資料儲存
  • 5-1. 儲存為 JSON 與 CSV 檔
  • 5-2. 儲存圖片 (PTT Beauty 板圖片下載)
  • 5-3. 儲存資料到資料庫 SQLite
  1. 動態網站爬蟲
  • 6-1. 台銀法拍屋 - 使用 Selenium
  • 6-2. PCHome 搜尋 - 使用 Selenium 及分析 API Endpoint
  • 6-3. 臺灣證交所每日收盤行情 - 使用 Selenium 及分析 API Endpoint
  1. 爬蟲程式經驗談
  • 被封鎖的常見原因: Timing, Policy Violation (robots.txt)
  • 常用 Header 欄位、網站隱藏欄位
  • 使用代理伺服器

說明

  • 範例程式在各章目錄內, 講義在 lecture 目錄下
  • 範例程式所需套件 pip install -r requirements.txt (Python 3)