一、科技以好玩為本
我本來收集了大量人工智能的資料,從基本原理到技術(shù)再到應用整理了系統(tǒng)的新理論分析??墒怯H自體驗過人工智能的全新應用之后,我就覺得那些可以放后面再說了。人工智能到底有什么用?今天參加一個產(chǎn)品展示和體驗過后,的確是大開眼界。這個展示和體驗是由國際領(lǐng)先的人工智能應用技術(shù)和產(chǎn)品提供商宇視科技年度合作伙伴大會上提供的(2024年4月16日烏鎮(zhèn)召開)。雖然很多產(chǎn)品功能我過去都知道,之前在展廳和網(wǎng)上看過相應產(chǎn)品,甚至很清楚大量具體的技術(shù)參數(shù),但很多產(chǎn)品真的是只有親自體驗過后才知道,原來這東西居然還能做成這樣。這是我參加所有這類活動中運動量最大、最累的一次,在最新人工智能加持下的短跑、跳繩、立定跳遠、踢足球......原來還可以這么玩。
50多種體育活動項目,還可以一邊運動一邊測試背唐詩
河南學校實際案例視頻
可能有人會問,類似功能原來也有,這個突破是什么?其實,十幾年前類似功能我就見過,也嘗試過,但體驗并不好。顯然,如果只有一個人可以玩,不僅成本高,而且很難真正具有實用性。因為一個人在那里站著玩,其他人在旁邊看著,不太自然,也不具有競爭性,并且當時軟件抗干擾能力很不好,旁邊稍有干擾就會出錯。由于技術(shù)能力的顯著提升,現(xiàn)在可以支持5個人同時玩各種體育項目。這不僅成本低,而且具有競爭性,這樣才能使人們有很大興趣去玩。很多人工智能功能或應用類型都是類似的,演示技術(shù)早就有,但它真正的應用爆發(fā)點在什么水平是一個很關(guān)鍵的問題。
瞬間給出報告和各瞬間運動照片查看分解動作是否規(guī)范
人工智能短跑視頻。我試跑了一下,高一(3)班汪濤同學50米成績9秒1,居然及格了。
人工智能足球。因為宇視總裁張鵬國喜歡踢足球,所以這個軟件是他自己親自當測試工程師的產(chǎn)品。
還有更多好玩的。拍照自動消除身邊其他路人,當然你還可以專門選擇保留自己的朋友和家人。
再選擇一張背景,瞬間就穿越到印度泰姬陵
自動生成游覽視頻VLOG。這個在很多旅游點,博物館等都可以應用。自動生成在旅游點的短視頻。請點擊上面自動生成的我參加大會的VLOG視頻看看效果。
二、中美人工智能競爭并不像很多人想象中的那樣
當2023年初Chat GPT火爆全網(wǎng)的時候,普遍的說法是大模型將帶來一場革命,中國將被遠遠甩在后面。給出的理由主要有三個,似乎每一個都讓人絕望:
Chat GPT的迭代速度之快甚至會超過中國學習的速度。算法還不是最重要的,大模型需要喂給它海量的數(shù)據(jù)。根據(jù)維基百科顯示,截至2020年3月25日,W3Techs預測中文數(shù)據(jù)在全球互聯(lián)網(wǎng)前100萬網(wǎng)站上的內(nèi)容占比只有1.3%,排名第10位,排名第一的英文是59.3%。俄語(8.4%)、西班牙語(4.2%)、德語(2.9%)、土爾其語(2.9%)、波斯語(2.8%)、法語(2.8%)、日語(2.4%)、葡萄牙語(2.2%)。這個統(tǒng)計數(shù)據(jù)是否準確是值得討論的另外一個問題,但英語使用最為普遍,即使很多中文或其他語言的網(wǎng)站也提供了英文頁面,這個的確是事實。另外一個原因是W3Techs統(tǒng)計的是網(wǎng)站的數(shù)據(jù),而中文互聯(lián)網(wǎng)因為APP的發(fā)達,很多中文內(nèi)容已經(jīng)不在傳統(tǒng)的網(wǎng)站上,而是在移動手機APP平臺上。根據(jù)CNNIC的統(tǒng)計數(shù)據(jù),中國在移動互聯(lián)網(wǎng)流量近幾年在保持每年近40%的高速年增長率的同時,網(wǎng)站數(shù)量卻是在下降的。這個現(xiàn)象也對應了中文流量向APP平臺轉(zhuǎn)移的事實。但無論原因是什么,因為APP平臺上的數(shù)據(jù)相對封閉,一般的大模型平臺拿不到這部分數(shù)據(jù)。因此,無論中文的互聯(lián)網(wǎng)內(nèi)容事實上是多少,的確都帶來了一個對大模型的發(fā)展來說相同的結(jié)果:可供大模型訓練的中文數(shù)據(jù)相對英文少很多。需要大量的算力,是算力的“暴力美學”,而中國因中美芯片戰(zhàn)短期內(nèi)難以獲得高端人工智能芯片。這將拖累中國大模型的發(fā)展。
經(jīng)過一年多的喧囂,中美兩國人工智能產(chǎn)業(yè)界的細微差異展現(xiàn)了出人預料,卻又在情理之中的結(jié)果。
開源大模型的大量出現(xiàn),使得美國在算法上的領(lǐng)先優(yōu)勢體現(xiàn)得遠沒有想象得那么大。既然很多大模型開源了,也就沒有太大的“跟得上還是跟不上”的問題。
隨著大模型向細分領(lǐng)域迅速落地,最初只關(guān)注于互聯(lián)網(wǎng)數(shù)據(jù)的情況得以迅速改變。如果是應用于特定的行業(yè)細分領(lǐng)域,需要喂給大模型的數(shù)據(jù)都是在應用環(huán)境里,而不是在以網(wǎng)站為基礎(chǔ)的互聯(lián)網(wǎng)上。這樣本地應用環(huán)境里的封閉數(shù)據(jù)就占據(jù)了數(shù)據(jù)來源的絕對優(yōu)勢。
如果設想的應用目標是無所不包、無所不能的大模型,這個算力需求的確是會上天的。但如果只是把大模型看作一個平臺和工具,真正落地是要靠不斷從無所不包的全域數(shù)據(jù)向不斷細分的領(lǐng)域進行專業(yè)化。在這個過程中需要建立的參數(shù)量和算力需求就會呈數(shù)量級的減少。通用大模型加上行業(yè)小模型,甚至在此基礎(chǔ)上進入更加落地到具體客戶應用環(huán)境里的微模型,算力需求并不是向極大化方向爆炸性增長。并且,由于特定行業(yè)領(lǐng)域的數(shù)據(jù)質(zhì)量,本身就是經(jīng)過嚴格清洗的,遠比互聯(lián)網(wǎng)上的數(shù)據(jù)質(zhì)量高得多,垃圾信息相對較少。因此,這類產(chǎn)品可以在高度智能化、產(chǎn)品可靠性和算力成本之間獲得一個非常好的平衡。
以上討論并不止是理論分析,中國企業(yè)如宇視等已經(jīng)很好地解決了以上問題。
事實上,2023年5月9日,宇視科技就基于AIoT(人工智能物聯(lián)網(wǎng))應用發(fā)布了行業(yè)大模型“梧桐”。這個行業(yè)大模型本身就是針對CV(計算機視覺)行業(yè)、NLP(自然語言處理)進行裁剪和優(yōu)化的。這在極大降低算力需求基礎(chǔ)上卻增大了產(chǎn)品化的程度和產(chǎn)品可靠性。在必然要面對的分布式能源與算力結(jié)合的趨勢上,也成為宇視向非安防領(lǐng)域發(fā)力的一個機會窗。經(jīng)過近一年的迭代和優(yōu)化。在今天的合作伙伴大會上,宇視展示了系列化的大模型產(chǎn)品技術(shù)。
三、裝備大模型化為什么遠比大模型裝備化更容易成功
張鵬國總裁介紹說,在過去,就有+AI還是AI+的爭論。現(xiàn)在又有裝備大模型化還是大模型裝備化的爭論。這兩個爭論的區(qū)別,簡單說就是在原有成熟產(chǎn)品基礎(chǔ)上增加人工智能或大模型,還是在擁有人工智能或大模型基礎(chǔ)上做產(chǎn)品。人工智能只是一個功能性的工具,在任何一個實用化的領(lǐng)域,要做成產(chǎn)品需要遠遠超過單純?nèi)斯ぶ悄艿钠渌a(chǎn)品技術(shù)特性。因此,在已有的成熟產(chǎn)品基礎(chǔ)上增加相對成熟的人工智能技術(shù),顯然要遠遠比在單純的人工智能功能模塊基礎(chǔ)上做具體產(chǎn)品要容易得多。這并不是說在充分掌握人工智能技術(shù)的基礎(chǔ)上做產(chǎn)品不行,而是雙方研發(fā)工作量和難度的差異。
四、大模型使細分領(lǐng)域的需求滿足更加容易
2023年,宇視喊出一個口號:一切為了渠道,為了一切渠道, 為了渠道的一切。能夠喊這個口號不僅僅是一個好的愿望,也是因為有內(nèi)在能力支撐。正是因為有了梧桐大模型的支持,可以把很多針對非常細分、過去難以支持的應用,通過梧桐大模型交給渠道去做。這樣就使過去難以滿足的需求,現(xiàn)在就可以滿足了。只有這樣才能實現(xiàn)為了“一切渠道的一切需求”,使以上口號可以有效落地。為什么宇視大模型叫“梧桐”,是希望種下梧桐樹,引得鳳凰來。
五、產(chǎn)品定義失控與算力需求黑洞
美國的人工智能發(fā)展看似熱鬧,除了類似Alphafold預測蛋白質(zhì)結(jié)構(gòu)等獲得顯著成果外,至今并未看到有多少真正能扎扎實實落地的大模型應用。年初又引爆網(wǎng)絡的Sora在賺足眼球的同時,不免讓對人工智能發(fā)展歷史深刻了解的人處于還是有些心里沒底的狀態(tài)。真的要讓這種人工智能自動生存的視頻達到實用化的程度,究竟還有多少距離,這個太難評估了。
這是人工智能發(fā)展史上一個經(jīng)常遭遇的難題:技術(shù)是一回事情,產(chǎn)品又是另外一回事情。任何一個在現(xiàn)實世界成功的實用產(chǎn)品,都需要在開發(fā)之前有清晰的產(chǎn)品功能、性能目標和產(chǎn)品實現(xiàn)的可靠性指標的定義。人工智能特別容易產(chǎn)生“產(chǎn)品定義失控”的問題。因為它太容易帶給人們無限的想象空間了,很容易使打上人工智能標簽的產(chǎn)品被賦予無限的功能和性能幻想。這樣的功能在特定條件下“秀一下”,其表現(xiàn)可能是很誘人的,但當真的作為產(chǎn)品被客戶部署以后,在使用中遇到各種難以提前預料和設想的無限復雜場景時,產(chǎn)品可能難以給用戶帶來預想中的體驗。所謂產(chǎn)品定義失控,就是因為對智能本身研究的欠缺,人們往往并不清楚自己想象的人工智能產(chǎn)品究竟需要具備什么樣的能力。以為6層樓房就是想象中的樓房,最后實際可能要建到600層才勉強能達到想象中的樓房樣子。
之所以出現(xiàn)這種情況,更深入的原因是人工智能存在的算力需求黑洞問題。很多人工智能的算力需求人們很難確認它究竟需要多大,而在其他技術(shù)領(lǐng)域完全不是這樣。例如在船舶領(lǐng)域,如果我們要造一艘能運載30萬噸鐵礦石的船舶,根據(jù)現(xiàn)在的船舶知識可以非常準確地計算出需要把船造多大,需要多厚的鋼板,需要把船設計成什么樣。對相應的能力需求是可以非常清楚的。無論進行某種精度的氣象預報,還是某種程度的核爆炸計算機仿真模擬,我們是可以提前預測出需要多大運算量,從而要在特定時間內(nèi)完成計算,我們可以預先估算出需要多大算力。
但是,如果想造出一個能夠很好地實現(xiàn)人工智能自然語言翻譯的機器,人們并沒有可靠的數(shù)學模型準確計算出到底需要多大的算力。因此,20世紀五十年代,人們就誤以為只要把字典輸進當時的電腦,就可以實現(xiàn)自然語言理解和翻譯。但事實證明人們對實現(xiàn)這個能力的算力需求估計差得實在是太離譜了。
直到最近,自然語言的翻譯,自然語音的理解才算達到實用化水平。而現(xiàn)在的計算設備與上個世紀50年代相比,如果按摩爾定律來計算,算力增長是超過10萬億倍。大多數(shù)我們設想中的人工智能功能都是類似的,我們并不清楚要使它們達到實用化的水平,需要的算力究竟會有多大,只有通過實際工程中不斷嘗試,最終成功地商用化以后,人們才清楚知道算力需求的結(jié)果是什么。很多時候看起來好像差一點點就可以使某個人工智能應用商用化了,但事實上為了彌補表面上差距不大的性能表現(xiàn),實際所需要的算力增長遠遠超過預期。問題稍微復雜一點點,計算的需求就會需要很多個數(shù)量級地增長。
我們可以清楚地知道某個人工智能芯片可以進行多少個大模型參數(shù)的訓練,但要想解決某個特定的人工智能問題,到底需要多少萬億參數(shù)才能達到實用化的水平,現(xiàn)在并沒有確切的數(shù)學模型可以算出來。
因此,歷史上真正成功的人工智能產(chǎn)品,往往是技術(shù)往無限增強的方向去擴展和想象,實際應用卻都是對當前的人工智能技術(shù)進行限定、裁剪、問題簡化、高度縮小的清晰產(chǎn)品功能和性能定義而獲得。通過這種方式極大降低算力需求,從而使得當前的芯片性能可以使相應的產(chǎn)品功能得以有效商用化。
人工智能計算機視覺會去努力解決一切圖像和視頻的識別與處理問題,但在實用中,對相對規(guī)范的車輛號牌信息、車輛顏色型號、司機是否系安全帶、人臉、印刷文字等高度限定或規(guī)范化的圖像信息識別問題,相應產(chǎn)品就較早獲得實際應用。目前對自然語音、鮮花、植物、動物等識別也獲得較好的結(jié)果。
由于摩爾定律的逐步失效,算力的增長越來越放緩。因此,人工智能不僅不會帶來革命、出現(xiàn)奇點,而且因算力增長越來越困難和緩慢,更加需要采用另一個方向的努力:簡化問題和縮減目標范圍,以使得所需要的算力獲得數(shù)量級的降低。只有這樣才能使人工智能有效商用化。
關(guān)于人工智能的本質(zhì),有統(tǒng)計派和推理派的分歧?,F(xiàn)在的人工智能,無論是深度學習還是現(xiàn)在的大模型,本質(zhì)上都只是一種統(tǒng)計。這種技術(shù)路線的問題有兩個,一個是需要大量的算力和數(shù)據(jù),第二它永遠是一種概率性的結(jié)果,在可靠性上存在提升的天然障礙。
我非常同意張鵬國總裁在大會上的觀點:大模型技術(shù)只是升級不是革命。革命是秩序從上到下的顛覆。但大模型至今為止并沒有顯示出這種顛覆。對于這個觀點,從宇視發(fā)布梧桐大模型時我就與宇視各位領(lǐng)導反復交流過。在這次大會之前與張鵬國總裁等宇視領(lǐng)導的交流中,我也支持這樣的看法。
大會演講照片
張鵬國總裁演講全文可參見:宇視張鵬國:AIGC千里之行,始于足下
由于美國在工業(yè)領(lǐng)域空心化太嚴重,因此人工智能可以落地的應用領(lǐng)域已經(jīng)相當有限。而中國產(chǎn)業(yè)領(lǐng)域極為豐滿和完備,擁有一切人工智能可能落地的行業(yè)細分領(lǐng)域。這是中國可以在人工智能領(lǐng)域突圍乃至部分領(lǐng)先的巨大優(yōu)勢所在。4月2日,在2024賽迪論壇開幕式主論壇上,第十四屆全國政協(xié)常委、經(jīng)濟委員會副主任苗圩引用專家的話提到,中國應該利用大模型來賦能中國制造業(yè),賦能各個具體領(lǐng)域,來實現(xiàn)中國人工智能的應用,從而實現(xiàn)差異化的發(fā)展道路。
在大模型出來之前,各種應用早已經(jīng)覆蓋幾乎所有市場,宇視的選擇是工具和裝備的大模型化。大模型會催生大量細分市場小場景的應用,所有產(chǎn)品都需要再做一遍技術(shù)升級。中國會很快實現(xiàn)這種技術(shù)升級。會上,宇視科技首席AI科學家李聰廷發(fā)布了梧桐2.0
宇視科技首席產(chǎn)品官朱兵總介紹了極為豐富的大模型產(chǎn)品應用案例,不僅讓人大開眼界,而且讓人深為感嘆大模型的應用原來如此之廣泛。
對特定的場景進行訓練以后,可以:
發(fā)現(xiàn)不安全的加油方式。
出門遛狗沒帶狗繩。
汽車生產(chǎn)過程中各種不規(guī)范操作識別。
......
另一個展示的應用讓人深為動容,宇視與國際愛護動物基金會ifaw合作,將大模型用于珍稀動物的保護和救治。
要談人工智能,先得搞清楚以下問題:
是將大模型用于保護珍稀動物,還是用于生成一篇糊弄上級和員工的報告?
用于學生體育鍛煉,還是用于替學生答題?
用于自動生成游客旅游過程的VLOG,還是用于生成虛幻的視頻?
用于生產(chǎn)過程的安全檢測,還是用于生成莫名其妙的圖片?
用于發(fā)現(xiàn)新材料,還是用于替研究生寫論文?
......
不僅是現(xiàn)在的人工智能技術(shù)本身有幻覺,太多人討論人工智能的態(tài)度和出發(fā)點就存在幻覺。大模型炒作一番之后,人們會發(fā)現(xiàn)其結(jié)果是中國的社會生活和生產(chǎn)全面大模型化了,而美國卻還生活在非人工智能時代,甚至是模擬時代。
2024年4月16日于宇視合作伙伴大會現(xiàn)場
延伸閱讀:(見純科學公眾號)
宇視張鵬國:AIGC千里之行,始于足下
專業(yè)大模型,而不是“通用”人工智能
網(wǎng)上最權(quán)威的人工智能分析
資深I(lǐng)T人詳解什么是“元宇宙”——細說歷史上那些“什么都不是”的概念
汪濤:網(wǎng)上最專業(yè)的VR分析文章
還沒有評論,來說兩句吧...