Python爬蟲學習 learn from 大數學堂


依稀記得在七月初到台大上課,第一次聽到爬蟲,一直以為是某種高等生物.
但事實證明不是高等也不是生物,只是我等級太低,智商也是...
在PECU老師的帶領下,一步一步學習使用R來爬蟲.雖然有些迴圈我還是很頭痛.
不過真的對我未來的學習很有幫助,即使coding過程痛苦,但還是有些樂趣的.(扯遠了...

這篇文章是有關於如何在網路抓取資料的初心者學習紀錄
如果是您的等級較高,那就當作休閒來看看吧...

註:這篇文章爬蟲過程都從大數學堂學來,coding source 也是.
(這篇為簡略學習紀錄,大家有興趣,要仔細學習就請自行觀看大數學堂囉.)



由上圖可知,爬的資料是PTT的Money板.
把板上的標題-作者-日期都爬下來了.
對完全零基礎的人來說,可能覺得那複製貼上不是比較快,
但其實爬蟲可做到的是能快速地按照特定格式,擷取指定範圍的資料.
在新手還在整理複製貼上的原始資料時,高手就已經在泡茶囉.

資料爬下來後,
使用2016年開始到現在在Money板上出現的標題資料,直接使用R繪製WordCloud文字雲



註:以上wordcloud raw code 來自於 Nick Oliver


分析結果

將最後文字雲結果輸出,可以發現從年初到現在Money板都討論甚麼主題居多.
但因樣本不夠多,所以有些雲狀沒產生出來.

可發現金融市場動盪不安啊,
看空:金管會要查/出口連黑/浩鼎之後/假美金/比水便宜...
看多:人民幣美金/人民幣兌台幣/./////
有個很奇怪的標題字為三新竹場...我猜是三星(最近爆炸了...

Latest
Previous
Next Post »
0 Comment