通過(guò)文本信息可以分析出最難得到的情緒。在數(shù)字世界里,通過(guò)建立關(guān)聯(lián)關(guān)系、因果關(guān)系等,可以基于海量數(shù)據(jù)和不停更新的算法,通過(guò)讀懂“情緒”,理解人們行為背后的驅(qū)動(dòng)力,進(jìn)而對(duì)投資或拋售的行為做出解釋。
本報(bào)記者 張佳星
特朗普勝了總統(tǒng)大選,川大智勝漲6%以上;希拉里輸了,西儀股份跌9%;文章出軌,伊利股份卻因?yàn)槲恼碌钠拮邮邱R伊琍而上漲……中國(guó)股市的“奇葩”表現(xiàn)讓人直呼“看不懂”。
這些看似不符常理的事件是不是就出離了經(jīng)濟(jì)學(xué)規(guī)律?北京大學(xué)國(guó)家發(fā)展研究院(以下簡(jiǎn)稱“北大國(guó)發(fā)院”)經(jīng)濟(jì)學(xué)教授沈艷認(rèn)為“并不是”。
近日,北大國(guó)發(fā)院發(fā)布中國(guó)投資者情緒指數(shù)。沈艷說(shuō):“通過(guò)網(wǎng)絡(luò)大數(shù)據(jù)、模型和算法等復(fù)雜運(yùn)算得出的投資者情緒指數(shù),可以幫助研判宏觀經(jīng)濟(jì)形勢(shì)、理解金融市場(chǎng)。”也就是說(shuō),掌握了足夠的數(shù)據(jù),進(jìn)行深度分析,“奇葩”事件是可以找到緣由、并作出研判的。
有了大數(shù)據(jù)的手段,北京大學(xué)的經(jīng)濟(jì)學(xué)家們和大數(shù)據(jù)企業(yè)正在共同探尋“不符常理”背后的經(jīng)濟(jì)學(xué)規(guī)律。“這僅僅是開始,團(tuán)隊(duì)后續(xù)還會(huì)利用網(wǎng)絡(luò)大數(shù)據(jù)和先進(jìn)的人工智能方法進(jìn)行系列指數(shù)研究,對(duì)于我們理解本土金融市場(chǎng),特別是股票市場(chǎng)提供幫助。”北大國(guó)發(fā)院院長(zhǎng)姚洋表示,指數(shù)用了很多大數(shù)據(jù)深度學(xué)習(xí)和機(jī)器學(xué)習(xí)上的先進(jìn)方法,研究獲得了專業(yè)大數(shù)據(jù)公司百分點(diǎn)公司在技術(shù)上的支持,這也是一次很好的產(chǎn)研合作研究的探索。
大數(shù)據(jù)“看臉色” 情緒里“暗藏”股價(jià)線索
“伊利上漲的部分原因是由于輿論和倫理站在了馬伊琍這邊。”沈艷說(shuō),在一些網(wǎng)站上,可以看到馬伊琍的聲援者表述:我們都在聲援馬伊琍,如果你也痛恨小三,請(qǐng)支持伊利股份。
買股票不是因?yàn)榭春闷髽I(yè)本身,此類投資者被研究者們稱為“噪音交易者”。“他們的情緒顯然是非理性的,但一定會(huì)對(duì)股價(jià)造成影響。”沈艷說(shuō),為了對(duì)這樣的影響因素做出度量,研究團(tuán)隊(duì)收集了網(wǎng)絡(luò)上能夠反映投資者情緒的上億條數(shù)據(jù),采用深度學(xué)習(xí)的方法,來(lái)度量投資者的情緒。
投資者情緒并不是個(gè)案,一些事件對(duì)于股價(jià)的影響,在最初幾天經(jīng)常是由情緒帶入。百分點(diǎn)董事長(zhǎng)兼CEO蘇萌舉例道,13日美聯(lián)儲(chǔ)大幅升息以及此前幾天比特幣的暴跌,都引起了相關(guān)論壇或網(wǎng)站上的情緒反應(yīng),也引起了道瓊斯指數(shù)的下跌。
“恐慌情緒會(huì)蔓延。”蘇萌指出,一些情緒如果擁有了“群眾基礎(chǔ)”,將變成可以進(jìn)行分析的數(shù)據(jù),并“暗藏”股價(jià)線索。他解釋:“比如說(shuō)比特幣大跌、美聯(lián)儲(chǔ)加息,我們?cè)谖⒉?、論壇里都能看到大量情緒信息,我們用自然語(yǔ)言處理技術(shù)處理這些雜亂無(wú)章的信息,讓算法能夠識(shí)別和分析。”
蘇萌介紹,判斷的基礎(chǔ)包括對(duì)分詞的準(zhǔn)確率和實(shí)體的識(shí)別率。百分點(diǎn)的分詞準(zhǔn)確率做到了98.97%,在實(shí)體識(shí)別的準(zhǔn)確率上做到了91.45%。
“通過(guò)文本信息可以分析出最難得到的情緒。”蘇萌說(shuō),在數(shù)字世界里,通過(guò)建立關(guān)聯(lián)關(guān)系、因果關(guān)系等,可以基于海量數(shù)據(jù)和不停更新的算法,通過(guò)讀懂“情緒”,理解人們行為背后的驅(qū)動(dòng)力,進(jìn)而對(duì)投資或拋售的行為做出解釋。
算法“同傳”不解渴 用中國(guó)金融情緒詞典注解
從海量信息里讀懂情緒,最大的挑戰(zhàn)是準(zhǔn)確。
“‘這可真是好啊’,這句話在中國(guó)的大部分語(yǔ)境中,是一句有諷刺意思的話。”沈艷說(shuō),團(tuán)隊(duì)面對(duì)的上億、零散、雜亂的用爬蟲技術(shù)歸攏來(lái)的網(wǎng)爬信息,而讓計(jì)算機(jī)對(duì)如此海量、如此不同(來(lái)自不同說(shuō)話習(xí)慣的人)的詞句都進(jìn)行理解,
并能夠與說(shuō)話人想表達(dá)的意思“沒(méi)有偏差”,是其中最艱難的部分。
很顯然,已經(jīng)成熟的國(guó)外文本分析算法僅能用于參考,用它們來(lái)“算”出中國(guó)話的特定含義很難不偏差,甚至可能“算暈”。“大多數(shù)算法是在英文語(yǔ)境中開發(fā)的,我們做了實(shí)驗(yàn),表明把它們拿到中國(guó)金融市場(chǎng)上來(lái)用,準(zhǔn)確度很難讓人滿意。”沈艷說(shuō)。和教小孩子一樣,團(tuán)隊(duì)先給完成特定任務(wù)的機(jī)器一本準(zhǔn)確的“詞典”。“專門針對(duì)中國(guó)股市的情緒,我們首先做了一個(gè)可以應(yīng)用的產(chǎn)品,叫做中國(guó)金融情緒詞典。”
北大國(guó)發(fā)院經(jīng)濟(jì)學(xué)博士陳赟表示,英文單詞是有限的,中文的詞語(yǔ)卻是無(wú)限的。同為金融領(lǐng)域的英文詞典可以遷移過(guò)來(lái),但詞典法之外,團(tuán)隊(duì)還采用了同義詞技術(shù)等幫助機(jī)器理解詞典之外的詞,以及它們與哪些詞語(yǔ)擁有情緒上的相似特征。
此外,為了讓機(jī)器對(duì)情緒的把握更準(zhǔn)確,團(tuán)隊(duì)還通過(guò)人力找出部分詞語(yǔ)交給機(jī)器學(xué)習(xí),通過(guò)小樣本(相較于網(wǎng)爬樣本,人工標(biāo)注樣本量?。?biāo)注集,完善機(jī)器對(duì)整個(gè)大數(shù)據(jù)的理解。“例如‘莊家’在經(jīng)濟(jì)學(xué)領(lǐng)域是特定含義,但經(jīng)常會(huì)被網(wǎng)友寫作‘莊稼’,也可能被錯(cuò)寫成‘押家’。”沈艷舉例道,“根據(jù)上下語(yǔ)境,一些和莊家沒(méi)有任何關(guān)系的詞,我們的算法也可以判斷出來(lái),這也是我們能有所突破的原因。”
“人工標(biāo)注的質(zhì)量是非常重要的,有一些詞典之所以不太好用,就是因?yàn)闃?biāo)注的質(zhì)量不能保證。”百分點(diǎn)集團(tuán)首席科學(xué)家杜曉夢(mèng)評(píng)價(jià),算法獲得結(jié)果的準(zhǔn)確與機(jī)器對(duì)所學(xué)數(shù)據(jù)的理解關(guān)系密切。
語(yǔ)言的時(shí)代特點(diǎn)也是團(tuán)隊(duì)需要考量的一個(gè)因素。陳赟說(shuō):“近些年,我們的語(yǔ)言變化非常迅速,現(xiàn)在00后用的語(yǔ)言和我們似乎不是一套語(yǔ)言,他表述正面情緒和負(fù)面情緒的方式與傳統(tǒng)詞語(yǔ)也大相徑庭。”
為此機(jī)器也做了相應(yīng)的學(xué)習(xí)。陳赟解釋,“算法會(huì)利用句子結(jié)構(gòu)去推測(cè)著理解,在學(xué)習(xí)了一段時(shí)間之后,機(jī)器會(huì)通過(guò)位置等信息判斷,但不會(huì)看詞語(yǔ)。例如‘割韭菜’這個(gè)詞,隨后變成‘香菇’‘西紅柿’……只要結(jié)構(gòu)相仿,也可以識(shí)別出語(yǔ)句中的情緒。”
AI能指導(dǎo)投資 預(yù)測(cè)力仍在“修煉”
通過(guò)與歷史事件的匹配,研究團(tuán)隊(duì)檢測(cè)了投資者情緒指數(shù)的可用性。算法構(gòu)建的模型將2008年到2018年的網(wǎng)上信息作為數(shù)據(jù)庫(kù),進(jìn)行指數(shù)分析,用一個(gè)折線圖反映。其所繪制的轉(zhuǎn)折點(diǎn)與歷史事件時(shí)間點(diǎn)相一致。
沈艷展示的比對(duì)圖顯示,2015年6月中旬到7月初的投資者情緒指數(shù)負(fù)值最大,對(duì)照股市記錄,這個(gè)月的股指下跌三成。此外,對(duì)其他標(biāo)志性事件,情緒指數(shù)也能夠做出準(zhǔn)確的推斷。人工智能(AI)的模型能計(jì)算出投資者情緒,除了對(duì)已發(fā)生情況有所反應(yīng),還會(huì)揭示對(duì)未來(lái)市場(chǎng)信息的預(yù)測(cè)。沈艷說(shuō):“能在一定程度上反映投資意愿和投資者對(duì)市場(chǎng)預(yù)期,進(jìn)而對(duì)于收益率,對(duì)于波動(dòng),對(duì)于交易量都有一定的預(yù)測(cè)能力,并能夠判斷發(fā)生的程度。”
“投資者情緒指數(shù)的預(yù)測(cè)準(zhǔn)確率和國(guó)外同款相比還是不錯(cuò)的。”沈艷介紹,團(tuán)隊(duì)將通過(guò)機(jī)器深度學(xué)習(xí)訓(xùn)練出的模型用以預(yù)測(cè)(數(shù)據(jù)采集時(shí))還沒(méi)出現(xiàn)過(guò)的股票行情,準(zhǔn)確率超過(guò)80%。
目前,研究團(tuán)隊(duì)已收集了全網(wǎng)A股所有上市公司的相關(guān)文本數(shù)據(jù),可以針對(duì)不同企業(yè)、不同行業(yè)給出情緒的數(shù)據(jù)度量。沈艷表示,該指數(shù)預(yù)期將持續(xù)發(fā)布,至于能不能為投資者指導(dǎo)投資,預(yù)測(cè)能力到底有多少,還需要進(jìn)一步量化,進(jìn)一步研究。
沈艷強(qiáng)調(diào),無(wú)論應(yīng)用上能發(fā)揮多大效能,在學(xué)術(shù)研究方面,給學(xué)界理解中國(guó)股市的所謂“奇葩”提供了新視角,可以為金融機(jī)構(gòu)和資產(chǎn)管理部門提供參考。