機(jī)器學(xué)習(xí)包括三個(gè)要素:輸入變量、輸出變量,以及連接它們的模型。一般人會(huì)分成訓(xùn)練集、驗(yàn)證集和測(cè)試集。傳統(tǒng)上機(jī)器學(xué)習(xí)擔(dān)心的是過(guò)度擬合,但也有一些機(jī)器學(xué)習(xí)方法不大害怕過(guò)度擬合。
比如有理論是誰(shuí)如果模型復(fù)雜度(包括變量、數(shù)目、變量結(jié)構(gòu)等)遠(yuǎn)超數(shù)據(jù)量,反而不會(huì)出現(xiàn)過(guò)度擬合的問(wèn)題,因?yàn)槿哂嗟淖兞炕蚪Y(jié)構(gòu)的權(quán)重會(huì)逐漸降低,導(dǎo)致測(cè)試誤差先升后降(double descent)。這也是很多深度學(xué)習(xí)敢于大力出奇跡的原因,因?yàn)橛羞@個(gè)雙下降作為保證。否則,傳統(tǒng)那種驗(yàn)證集的方法,中間找一個(gè)最優(yōu),之前欠擬合,之后過(guò)度擬合,這個(gè)過(guò)于玄學(xué)。如果你說(shuō)大膽加,越多越好,那么人們反而放心。
機(jī)器學(xué)習(xí)的要素
如果是強(qiáng)化學(xué)習(xí)那一套,本質(zhì)上也不怕什么過(guò)度擬合,因?yàn)闃颖净旧喜捎靡欢ǖ臋C(jī)制蒙特卡洛生成,不存在什么太離譜的噪音;而且沒(méi)有什么訓(xùn)練集、測(cè)試集這些概念,更多是打游戲,越高分越好,每次的場(chǎng)景都是固定模式生成的。
有了以上的這些基本概念,回到金融,回答一些基本問(wèn)題:

1、樣本分布改變的問(wèn)題

之前說(shuō)雙下降不怕過(guò)度擬合,那前提是默認(rèn)了測(cè)試集和訓(xùn)練集是同分布的,如果這個(gè)分布改變了,那么雙下降也沒(méi)用。至于判斷樣本分布是否改變,這是一個(gè)玄學(xué)。
當(dāng)然,這也取決于你對(duì)樣本的定義。如果你把樣本定義為一條路徑,那么歷史上只有一個(gè)樣本;或者你把一年的路徑定義為一個(gè)樣本,那你一年也只有一個(gè)樣本;但如果你是把1分鐘的價(jià)格變化定義為一個(gè)樣本,那么你的樣本可以多得多;或者你把一次交易定義為一個(gè)樣本,那么你也可以有非常多的樣本。
一般情況下,樣本越多,一般來(lái)說(shuō)擬合模型越好;另外,在越短的時(shí)間內(nèi),樣本穩(wěn)定性越高;所以做高頻交易不需要太多天的數(shù)據(jù)來(lái)訓(xùn)練也可以有比較好的效果,而且樣本分布變化不大,策略失效風(fēng)險(xiǎn)不大。
還有就是,如果品種多,每個(gè)品種的交易都是獨(dú)立樣本,也可以增加樣本數(shù)目,但擬合出來(lái)的是各個(gè)品種的共性,未必每個(gè)都能做好,因?yàn)樵u(píng)價(jià)標(biāo)準(zhǔn)是整體不錯(cuò)。不同品種的分布可能也會(huì)有所差異,或許需要調(diào)整,使得分布更為接近。

2、時(shí)間序列與橫截面的問(wèn)題

這本質(zhì)上是高頻和低頻的思路,時(shí)間序列本質(zhì)上是高頻思路,橫截面其實(shí)是低頻思路。所謂橫截面就是固定時(shí)間做決策,比如每5分鐘、10分鐘固定時(shí)刻做決策,這個(gè)可以方便各個(gè)品種對(duì)齊,因此可以方便調(diào)用其它品種的數(shù)據(jù),方便做對(duì)沖,都是同一個(gè)時(shí)間決策;而且可以把決策和交易執(zhí)行獨(dú)立開(kāi)開(kāi),有人專(zhuān)門(mén)負(fù)責(zé)算法交易。
但如果是高頻交易則不能,時(shí)機(jī)稍瞬即逝,一定要一出信號(hào)就買(mǎi)。另外不大適合做對(duì)沖,因?yàn)槊總€(gè)品種的價(jià)格序列是獨(dú)立的,難以對(duì)齊,因此更適合單品種,比如期貨類(lèi)的高頻策略。
機(jī)器學(xué)習(xí)對(duì)這兩種都可以,橫截面或許可以采用更大量的數(shù)據(jù),多品種混合建模。
CQF量化的發(fā)展前景

3、個(gè)人發(fā)展的問(wèn)題

確實(shí)有人工智能界業(yè)界頂級(jí)的大牛做量化投資失敗了,而且是幾乎全美國(guó)最牛的公司最好的資源,原因很難說(shuō)清楚,不去臆測(cè)了。
有的人雖然厲害,但需要找工作;有的人看起來(lái)不怎么厲害,但其實(shí)不需要找工作。比如經(jīng)常說(shuō)什么人工智能大神,離開(kāi)業(yè)界AI lab回歸高校,其實(shí)這些人就是反復(fù)橫跳,但讓他自己出來(lái),離開(kāi)體制(學(xué)校、公司都叫體制),他們其實(shí)是不敢的,或者說(shuō)離開(kāi)之后壓根是賺不到錢(qián)的,甚至沒(méi)法生存的。這就屬于看起來(lái)厲害,但還是需要找工作,離開(kāi)了體制,或許就真的什么都不是。
有的人其實(shí)更灑脫一些,不會(huì)依賴(lài)體制、公司、單位,進(jìn)退自如,自己可以獨(dú)立賺錢(qián)的,包括各種方式,比如炒股、炒期貨、炒數(shù)字貨幣,量化也好主觀也好,或者搞講座也好,反正就是不依賴(lài)體制也能活的。
公司打工的問(wèn)題在于你只能靠增量存活,沒(méi)有增量,你就拜拜了;你不能說(shuō)我之前積累了這么多策略這么多客戶(hù)這么多資源,這些也能繼續(xù)賺錢(qián);但問(wèn)題是沒(méi)有你公司也能用這些賺錢(qián),那要你何用?但自己干的話(huà)自己是可以利用存量賺錢(qián)的,這是最大的區(qū)別,但很多人沒(méi)想過(guò)這點(diǎn)。一些大券商考核甚至用今年比去年多賺多少錢(qián),或者今年新增了多少客戶(hù),存量客戶(hù)交易傭金降低權(quán)重。這樣對(duì)個(gè)人會(huì)很坑,因?yàn)檫@些錢(qián)公司還是賺的,不管存量還是增量公司都是賺的,只是沒(méi)有給個(gè)人。
公司的壓力來(lái)自于股東,因?yàn)槿绻找鏇](méi)有增長(zhǎng),股民拋售,股價(jià)下降,公司會(huì)有壓力?;蛘哒f(shuō)公司估值很大一部分來(lái)自于未來(lái)潛在增值的折現(xiàn),如果人們發(fā)現(xiàn)未來(lái)無(wú)法增值,那么可能會(huì)造成股價(jià)雪崩。但個(gè)人做沒(méi)有這方面的壓力。
所以,對(duì)于做量化這種最最不需要公司平臺(tái)的(我指的是法律規(guī)定的牌照類(lèi)資質(zhì)),應(yīng)該是最適合個(gè)人做的?;蛘哒f(shuō)得更直接一些,如果量化交易都沒(méi)法個(gè)人做,那么全世界幾乎不存在可以個(gè)人創(chuàng)業(yè)的領(lǐng)域。
以上就是資訊的全部?jī)?nèi)容,更多最新的CQF資訊,請(qǐng)關(guān)注高頓教育CQF頻道!