[公告] 本課程已停止更新。新版課程已發布於 Python 網頁爬蟲入門實戰 2023
已經購買 hahow 課程的舊生,可填寫此表單索取新版課程折價券
(以下為原課程內容)
hahow 線上課程: Python 網頁爬蟲入門實戰
- 註:本課程為 2017 年錄製,部份課程影片因為各大網站/服務變動的關係,影片內容可能過時/失效。但教材程式碼部份會不定時更新修正,購課前請參考
lecture
目錄下各章節講義,確認教材符合您的學習需求。 - 教材程式碼最後更新日期: 2022/01/05
- 環境設定與網頁爬蟲初探 (PyCharm 設定,virtualenv 設定,套件安裝,爬蟲初探與例外狀況處理)
- 網頁解構與 BeautifulSoup 講解 (寫爬蟲之前的注意事項,BeautifulSoup 重要功能如 find(), find_all() 講解,網頁結構巡覽,正規表示式)
- 網頁爬蟲範例實戰 (PTT 八卦版今日熱門文章, Yahoo 奇摩電影本週新片資訊, 兩大報當日焦點新聞, Google Finance 網頁)
- 與 API 互動 (API 格式簡介及實例介紹: freegeoip.net, facebook graph api, imdb api, google fianance api)
- 資料儲存 (儲存圖片檔、儲存資料到 CSV 檔、儲存資料到資料庫 SQLite)
- 各類型文件的爬蟲 (非 UTF-8 編碼的文件及 xml 檔)
- 期末專題 (手機比價)
- 處理表單及登入頁 (requests.post(), 搭配範例: 台灣證券交易所股票資料及空氣品質監測網)
- 處理動態網頁 (Selenium Webdriver)
- 中文自然語言處理 (jieba 簡介,斷詞,自訂與繁體字字典,搭配歌詞文字雲範例)
- 爬蟲撰寫經驗談 (常被網站封鎖的原因與解法,常見的網站安全措施的處理,如何更換代理 IP,補充教材)
- 範例程式在各章目錄內, 講義在
lecture
目錄下 - 範例程式所需套件
pip install -r requirements.txt
(Python 3)