- 1-1. 環境設定: 安裝 Python 及使用 venv
- 1-2. 使用 Visual Studio Code
- 1-3. Browser-Based 開發環境
- 1-4. 網頁文件解構與網頁爬蟲初探
- 2-1. 不要重覆造輪子:寫爬蟲之前
- 2-2. 使用 BeautifulSoup - 定位標籤元件
- 2-3. 使用 BeautifulSoup - 巡覽網頁結構
- 2-4. 正規表示式 (Regular Expression)
- 3-1. 自由時報今日熱門新聞
- 3-2. 東森新聞今日熱門新聞
- 3-3. WordPress 部落格文章
- 3-4. momo 購物網搜尋結果
- 3-5. Yahoo 奇摩電影本週新片
- 3-6. PTT 八卦板今日熱門文章
- 3-7. GitHub Repositories 列表
- 4-1. API 簡介
- 4-2. WordPress API 取得部落格文章
- 4-3. 自由時報新聞網 API
- 4-4. IMDB API
- 4-5. GitHub API: Repositories 列表
- 4-6. YouTube Data API: 頻道觀看數及影片列表
- 5-1. 儲存為 JSON 與 CSV 檔
- 5-2. 儲存圖片 (PTT Beauty 板圖片下載)
- 5-3. 儲存資料到資料庫 SQLite
- 6-1. 台銀法拍屋 - 使用 Selenium
- 6-2. PCHome 搜尋 - 使用 Selenium 及分析 API Endpoint
- 6-3. 臺灣證交所每日收盤行情 - 使用 Selenium 及分析 API Endpoint
- 被封鎖的常見原因: Timing, Policy Violation (robots.txt)
- 常用 Header 欄位、網站隱藏欄位
- 使用代理伺服器
- 範例程式在各章目錄內, 講義在
lecture
目錄下 - 範例程式所需套件
pip install -r requirements.txt
(Python 3)