2009年5月27日 星期三

舊學期新結束:Intern 心得 part II

上學期隨意接了一個intern,當初的想法說實話就是在賺外快;不過做一陣子之後真的有學到東西,再次感嘆學海無涯…。近來家裡總是寄來一些雜誌,每一本除了廣告外,通篇盡是密密麻麻的字,我就在想真的有那麼多東西好寫嗎?多少是被逼著交稿吧?早些時候更有聽聞其實英文文章通常一篇只有20%是重點,也如此衍生了挑重點看的現象;根本來說,作者如果一開始就只寫重點,不是雙方都開心?不得不說在這點上,我很是欣賞古代作詩的作法:把一個感覺、一個現象、一份心情,凝鍊到20個字裡,字字珠璣。離題了,主要是講到學海無涯…orz。所以多少還是可以安慰自己:雖然學識這麼多,每個人並不需要、也做不到每件事都知道。
歸題歸題…,在intern這段期間學到最重要的兩個技能就是PCA和embedded Matlab。

Principle Component Analysis真的是無心插柳學到的一項技巧,想不到現在在做生醫影像,這還是很重要的一個技巧呢!要我解釋的話,我就說是Linear regression的推廣吧,大家介紹PCA通常就帶到dimension reduction,以一個二維的(x,y)資料來舉例,linear regression就是要預測x,y之間的線性關係y=a*x+b。這裡有兩個特點值得觀察,第一、一旦預測出來a和b,剩下的就是只要給定x,就知道y,所以也可以說資料剩下一個維度(於是dimension reducted)。第二、要做linear regression多少就是想知道y=a*x+b在多大程度上代表了原始的(x,y)數據,如果y=a*x+b預測得很好,也就是一個維度的東西可以把二維的資料描述的很好,直接的好處就是資料就壓縮了;也可以說,第二個維度基本上就是廢物,並沒有提供更多的資訊。PCA就是有辦法做到這件事,而且是絕對客觀的預測,不得不佩服想到這個數學技巧的人,也再次體會數學之美;有趣的是這其實是心理學家Charles Spearman發明這個技巧的原型,早期叫做factor analysis,當初的想法大概舉例來說:當受測者做了一個決定,這決定有多少成份來自家庭的影響、多少來自朋友、多少來自老闆等等…。

第二個學到的是embedded Matlab。不得不說,Matlab"教育"學校還教育得真好(成功開拓市場),美國大學生幾乎都會一點,台灣的學生可能要加油一下了。Matlab一直被垢病處理迴圈太慢,因此他們就發展了embedded Matlab:Matlab code converts 'automatically' to C code。這是個聰明的決定,一來運算效能提升了;二來是更加開拓市場,因為Matlab並不是到處都有,但是幾乎大家都可以執行executable file,C code攜帶方便,完全增加了可見性!現在embedded Matlab似乎還在發展階段,並沒辦法支援太多函式,期待一下未來的版本吧!

沒有留言:

張貼留言