始于2013年,文案撰寫↓
我們可能是專業(yè)的,滿意為止!

火爆全網(wǎng)的ChatGPT到底是個啥?專家深度解讀

chatgpt下載

Keyupdates:

1、ChatGPT和以前GPT大模型的區(qū)別:ChatGPT是基于GPT3.5的基礎模型框架,核心變化在于通過真實的調(diào)用數(shù)據(jù)以及人類反饋的強化學習進行訓練。

2、國內(nèi)企業(yè)與ChatGPT的差距:百度、華為等頭部廠商都有大模型,百度文心模型參數(shù)量已經(jīng)達到2600億,從技術(shù)能力上國內(nèi)相比專家判斷比chatGPT約晚1-2年,OpenAI第一梯隊,Google第二梯隊,百度第三梯隊。從數(shù)據(jù)、算力、模型的維度上,主要是差在模型環(huán)節(jié),包括清洗、標注、模型結(jié)構(gòu)設計、訓練推理的技術(shù)積累。

3、訓練成本昂貴:GPT3.0離線訓練成本高達1200萬美元,大模型重新訓練成本達400萬美元,都是租用微軟的計算資源,成本與訓練數(shù)據(jù)量成比例,增加GPU也可提升訓練速度,中小廠商或?qū)o法承擔高昂的大模型自研成本。

4、模型訓練所依賴的高性能芯片被美國卡脖子的解決方案:1)采用國內(nèi)自研GPU;2)用分布式CPU替代,部分大廠應用采用分布式CPU的方式進行訓練。

5、未來商業(yè)模式:OpenAI或?qū)ν廨敵瞿P湍芰?,國?nèi)百度等企業(yè)也會跟進,國內(nèi)應用軟件企業(yè)未來可能采用OpenAI或百度等廠商的AI模型作為基礎能力。

專家發(fā)言:

首先介紹一下ChatGPT,ChatGPT去年出來后,在全球AI界、創(chuàng)投界掀起熱烈的討論潮。很多人想了解ChatGPT具體是做什么的,我們可以理解為通用的問答系統(tǒng),發(fā)布方是OpenAI公司,OpenAI是業(yè)內(nèi)比較知名的人工智能研究機構(gòu)。ChatGPT模型從18年開始迭代為GPT1,到19年有GPT2,到20年有GPT3等等,通過一系列的模型迭代,在今年推出了ChatGPT。這個模型是基于GPT3的模型框架,GPT3的參數(shù)量級非常大,有1700多億,所以這個模型出來后效果比較好,大家體驗下來發(fā)現(xiàn)功能強大,在業(yè)界受歡迎。

很多人好奇,能力跟之前比具體有哪些進步?ChatGPT模型關(guān)鍵的能力來自于三個方面:1)前身是InstructGPT,通過真實的調(diào)用數(shù)據(jù)以及反饋學習,ChatGPT下載在模型結(jié)構(gòu)、學習方式和InstructGPT基本上是完全一樣的,InstructGPT基于GPT3.5的強大能力,整個模型通過OpenAI一個系列的迭代,有很多技術(shù)積累;2)ChatGPT主要的3個學習階段包括,從OpenAI調(diào)用數(shù)據(jù)集中采取AI訓練編寫答案,第一階段通過監(jiān)督學習方法訓練GPT3版本,然后用比較型的數(shù)據(jù)訓練一個reward模型,用到一些對比學習和reward model,第三階段是強化學習里面的PPO算法和獎勵模型的語言生成策略;3)跟之前的很多模型比,單純用監(jiān)督學習或無監(jiān)督學習以及強化學習的端到端形式,現(xiàn)在分成多階段來做,整體模型的訓練開銷非常大,這個模型有1700億參數(shù),訓練一次要400多萬美元的成本,對資源的使用比較大。

Q&A環(huán)節(jié)

Q:分享一下國內(nèi)頭部玩家,比如百度、阿里、騰訊、字節(jié)、訊飛、商湯等目前AI大模型的參數(shù)量,以及與ChatGPT的差距在哪里?我們用多久能追上?

A:國內(nèi)這樣的大模型非常多,百度、華為都有大模型。百度文心模型參數(shù)量已經(jīng)達到2600億,不遜于GPT3.0。百度今年宣稱3、4月份推出類似于ChatGPT的模型,可能首期的應用場景會跟搜索結(jié)合,會形成ChatGPT、搜索的雙引擎結(jié)合模式,會發(fā)布demo出來,整體看,模型的參數(shù)量級比GPT3.0大了50%。

我們國內(nèi)的發(fā)展水平是不是和ChatGPT達到同等程度?這個地方可以看一下OpenAI發(fā)展的技術(shù)史,動態(tài)看18年后一到兩年時間國內(nèi)的技術(shù)追趕比較快,提出比較好的改進模型,但真正的差距拉開是20年中,也就是GPT3.0出來后,當時可能很多人覺得GPT3.0不僅是技術(shù),體現(xiàn)了AI模型的發(fā)展新理念,這個時候我們跟OpenAI的差距拉得比較遠,因為OpenAI對這一塊有技術(shù)的獨到見解,也領先了國外的Google,大概Google比OpenAI差了半年到一年的時間,國內(nèi)差了兩年的時間。所以梯隊上,OpenAI排第一梯隊,Google排第二梯隊,百度排第三梯隊,差距不是那么大。動態(tài)看事情的發(fā)展,百度還是有機會做得更好。從百度發(fā)布的模型看,內(nèi)測版還沒有開放出來,我們體驗下來發(fā)現(xiàn)效果不錯,模型參數(shù)量級看上去和GPT3.0是不差的,所以目前看上去我們相對比較有期待。

國內(nèi):比如字節(jié)跳動也在做大模型,一方面是應用場景,接下來可能有一些商業(yè)化。這個模型不是一兩個月就能做出來,需要時間積累,隨著后面AIGC、ChatGPT的深度發(fā)展,里面會形成越來越多的商業(yè)化內(nèi)容,對于頭部公司來說,做前沿的技術(shù)積累,有利于形成先發(fā)優(yōu)勢。所以像字節(jié)跳動、阿里都在往這方面做。阿里、騰訊不會復制ChatGPT模式,而是做一些與AIGC相關(guān)的產(chǎn)業(yè)化。阿里現(xiàn)在往智能客服系統(tǒng)、AI+營銷做,使得商品介紹、廣告介紹不需要人工生成文案,而是通過AI生成內(nèi)容。頭條也用AI生成內(nèi)容,因為頭條是以內(nèi)容生產(chǎn)、分發(fā)為主要業(yè)務的公司。

總結(jié)看我們跟國外的區(qū)別是,模型大小上我們很多公司可以媲美,從技術(shù)角度或者paper角度,可能我們跟他們的差距可能有一到兩年的距離。

Q:OpenAI GPT3.0 20年推出來,現(xiàn)在推出了ChatGPT之后市場大火。ChatGPT相對于GPT3.0有什么實質(zhì)性的改變,造成市場認可度高?熱度會不會突然下去?

A:現(xiàn)在ChatGPT做了會話機器人,不是IT圈子里面的人也可能去試用,使得人群受眾變廣,其實基本的模型、訓練方式,兩者之間沒有多大區(qū)別,而是在GPT3.0基礎上做了特定領域的數(shù)據(jù),拿過來做訓練得到特定領域的模型。所以總結(jié)下來不是之前的GPT3.0做得不好。

現(xiàn)在比較熱,熱度會不會過兩個月下去?坦率說,從我的認知來講,短暫時間內(nèi)熱度不會下去。從業(yè)界很多企業(yè)對這個事情的反饋來看,比如Google、百度相繼在發(fā)力。Google已經(jīng)列為紅色預警,包括將來對搜索引擎的顛覆,有很高的優(yōu)先級;百度也是因為搜索引擎,對這塊非常上心,3月份會推出新的模型,到時候看市場的效果。所以從大公司的反應來看,這個事情可能不是噱頭,而是新的技術(shù)革命的發(fā)展。甚至有夸張的說法,業(yè)內(nèi)一些專家認為這是PC互聯(lián)網(wǎng)之后的又一個里程碑式的發(fā)展。包括我們自己體驗下來,ChatGPT的功能確實是很智能,而且隨著OpenAI的研發(fā),接下里朝著AGI方向的發(fā)展的更大規(guī)模的模型,我們有理由期待這個事情不是一波流的,而是從現(xiàn)在開始持續(xù)形成大的影響,并且擴散出去。

Q:從數(shù)據(jù)、算法到算力,國內(nèi)有沒有可能做出ChatGPT這種有商業(yè)化價值的模型?聽到一種說法,國內(nèi)號稱模型參數(shù)高,但效果特別差?我們中國獨特的市場有沒有辦法培育出比較好的產(chǎn)品出來?

A:從GPT模型的pipeline來看,有數(shù)據(jù)、算力、模型。數(shù)據(jù)上,國內(nèi)是不缺的,百度、今日頭條有大量用戶的真實場景的數(shù)據(jù)。算力角度,一些大廠比如百度的文心模型達到2000多億參數(shù)量,雖然訓練成本非常高,但大公司承擔得起。

我們真正缺乏的是技術(shù)積累,包括數(shù)據(jù)怎么做清洗、標注以及模型的結(jié)構(gòu)設計,怎么做訓練、推理,這個地方很多都是需要經(jīng)驗和積累。包括里面的很多算法是OpenAI和deepmind提出來的,作為原作者的理解能力是我們遠不及的。20年GPT3.0出現(xiàn)的時候,我們跟國外的差距就拉大了,當時很少人覺察到GPT3.0不僅是一項技術(shù),那個時候我們開始逐步落后,坦率講國內(nèi)這塊技術(shù)方面落后于國外,而數(shù)據(jù)、算力不會存在瓶頸。

總結(jié)下問題,我們跟OpenAI的距離確實存在,重點的技術(shù)瓶頸可能在這塊的模型上面,這也是國內(nèi)的弱點,所以我們需要投入更多的人力、資源逐漸彌補上,百度投入也非常多,按照這種速度下去,也許不用花兩年的時間,我們能追上步伐。

Q:大模型為什么會產(chǎn)生?百度文心模型為什么不如ChatGPT?

A:涉及到模型參數(shù)的量級,以及數(shù)據(jù)的量級。比方說算力提升10倍,那么把模型參數(shù)做更大,或用更多數(shù)據(jù)來訓練。如果我們單變量來看這個事情,數(shù)據(jù)變大,模型效果變好,或者單純把模型參數(shù)變多,模型效果也更好。如果算力提升10倍,這兩個怎么平衡?光把模型參數(shù)變大,不一定會效果好,數(shù)據(jù)集的質(zhì)量也要有保證。單純的模型大小不足以刻畫模型效果,還跟數(shù)據(jù)集的大小、質(zhì)量有關(guān)。第二點,模型之間存在差異。百度、OpenAI模型的本身結(jié)構(gòu)不一樣,參數(shù)量大不代表模型效果好,因為不一定學到通用能力。百度沒有公布模型的細節(jié),我們不太了解是怎么做的,而單純通過參數(shù)量級比較,不大能夠看出效果的差別。百度對這塊細節(jié)公布不多,數(shù)據(jù)集大小、模型的框架結(jié)構(gòu)沒有特別公布,所以不大了解整體模型的效果,以及跟OpenAI技術(shù)的差距有多大,我們只是單純從參數(shù)量大小判斷,不太好判斷。

我們很好奇一件事情,比如一個模型學了很多東西,東西學到哪里去了?這也是一個問題。大家可能會去想,那么通用的東西存到哪里去了。這一塊目前做研究的同行非常多。目前一個主流觀點是模型主體結(jié)構(gòu)用transformer結(jié)構(gòu),更多做一些知識的存儲,包括可能涉及到Key value的形式,涉及到知識檢索的能力,但里面的細節(jié)就需要比較多的時間來解釋。

Q:OpenAI大模型今后是否提供給個人或機構(gòu)使用?國產(chǎn)辦公軟件底層的人工智能,會不會用微軟OpenAI

A:微軟產(chǎn)品中各種場景都會接入,其中2b的業(yè)務比較有影響,比如訂閱office軟件的企業(yè)的員工可以享受智能化服務。國內(nèi)軟件目前沒有這個功能,為了面對微軟的競爭,未來都會往這個方向發(fā)展。國內(nèi)其他公司如百度也會通過輸入AI能力來進行2b的商業(yè)化布局,所以對國內(nèi)的企業(yè)來說也可能會有很多選擇,可以選擇接入openAI或者Google海外公司,也可以接入百度等國內(nèi)公司提供的AI模型,市場競爭看模型的整體效果和價格。此外也涉及法律法規(guī)的問題,目前AI底層能力的使用這方面還沒有特別的限制,還是法律盲區(qū),未來是否能夠順利引入微軟OpenAI的算法模型,還要有待未來立法的規(guī)范。但是AI模型未來接入應用場景是大勢所趨,具體接入產(chǎn)品看情況。

Q:AI是否會大幅降低人工,未來AI為底層生態(tài)之后,之后在傳統(tǒng)軟件的參與者會減少?國內(nèi)大模型做的更好之后,小模型的企業(yè)存在的必要性還有嗎?

A:有些行業(yè)的工作人員確實有可能被替代,內(nèi)容生產(chǎn)的,AIGC的占比會大幅提升,擠占投稿的量級,AI也幫助提高了生產(chǎn)力,幫助投稿的質(zhì)量和效率提升。

NLP領域的會存在這樣趨勢,小模型的廠商會慢慢被競爭掉,中小廠商沒有辦法去創(chuàng)造大模型,接入2b的服務,沒有辦法自研,這種模式在將來會存在。

Q:訓練中采用的硬件設施通過買或者租的形式,每次訓練迭代成本怎么計算?買和租各要多少錢?國內(nèi)那種方式做大模型比較多?

A:GPT3.0涉及1700億參數(shù),內(nèi)存達300+GB,訓練過程耗費1200+萬美金,此外離線訓練后,訪問請求來來的線上服務也需要開銷?;A設施都是微軟的計算系統(tǒng)進行,沒有自建。訓練過程中會出現(xiàn)bug,但是都沒有敢重新訓練這個模型,因為成本太高了,所以沒有做及時的修補,披露出的數(shù)據(jù)是重新訓練一次要400+萬美金。

Q:據(jù)說chatGPT是40個人員做強化學習,為什么能在人員投入這么少的情況下,在GPT3上做出chatGPT?核心能力是什么?

A:ChatGPT跟GPT3的主要區(qū)別,額外finetune增加了訓練的數(shù)據(jù)集,增加了通過人工標注的樣本,所以40個人是不準確,實際上還有大量標注的團隊,40個人可能只是用來判斷回答是否符合標準。從算法的角度來說,GPT3.0和ChatGPT在模型上沒有太大區(qū)別,只是加了專屬領域的數(shù)據(jù)集進行訓練。

Q:替換人工的問題,傳聞數(shù)字媒體已經(jīng)被替代了,實際情況如何?GPT3.0專注于專業(yè)領域,是否比chatGPT更快一些?

A:AIGC各家都開始鼓吹并開始投入,到2023為止,網(wǎng)絡內(nèi)容20%通過AIGC生成的,網(wǎng)絡編輯是很容易替代的,比如摘要、新聞等。頭條這邊也在逐步用AI生成投稿,這塊趨勢是通過AI生成內(nèi)容會逐步增加,機構(gòu)預測2025年AIGC內(nèi)容占比達30%+,量級很大,增長也很快,能夠幫助大幅提高生產(chǎn)力。

Q:和其他AI模型相比,對GPU的需求區(qū)別?

A:GPT3.0對GPU算力要求很大,訓練過程采用400+個GPU。未來對GPU需求越來越大,價格變得貴+產(chǎn)業(yè)鏈供應能否跟上需求是重要的限制條件。這也導致創(chuàng)業(yè)公司會更難做相關(guān)的事情,可能更多集中在大廠做這些事情。

Q:chatGPT訓練數(shù)據(jù)截止到2021,但是對話內(nèi)容也可以涉及最新的信息,怎么結(jié)合在一起?

A:模型具有泛化能力,模型可以做到這一塊,通過歷史數(shù)據(jù)訓練,不可避免有時間限制,2023年的問題可能在模型里面找不見,但是其他字段能夠在模型找到聯(lián)系,模型可以實現(xiàn)預測。同時也跟數(shù)據(jù)分布有關(guān),歷史數(shù)據(jù)的函數(shù)關(guān)系,已經(jīng)能夠刻畫絕大部分關(guān)系了,用新的數(shù)據(jù)訓練,可能也會有類似的分布。

Q:訓練的頻次怎么界定,是否要每隔一段時間后更新數(shù)據(jù)集,對大模型重新訓練?

A:比較快的是用finetune的形式,但是引入新的數(shù)據(jù)集可能會導致災難性的遺忘問題,這就是LM模型的難點問題,也是主流的研究方向。我們也可以累計到一定程度進行重新訓練,但是這樣成本高,未來LM模型的訓練方式也是會持續(xù)優(yōu)化,如何不斷加入新的訓練數(shù)據(jù),同時又不導致原有模型性能下降。

Q:ChatGPT訓練依賴高性能的芯片,中美競爭情況下,被卡脖子的情況?

A:大模型依賴GPU的芯片,如果對GPU芯片封鎖,會有比較大影響,解決方式是有國內(nèi)自研的芯片,二是我們大量用GPU進行訓練,供應能力跟不上需求,也可以用分布式的CPU進行替代,會慢一些,字節(jié)這邊是分布式的CPU用的比較多,包括主流的搜索推薦等需求。

Q:模型訓練+租金是1200萬美元,離線訓練的階段需要多長時間?

A:依賴于GPU的投入量,從而加快訓練速度,之前提到中美在這個領域的差距有一年半到兩年是指達到整體的效果所需要的時間。實際人員整體投入應該很大,OpenAI光論文中研究人員都有30多人,還有大量的工程師等,百度這邊投入也有200-300人。新增數(shù)據(jù)訓練的費用,要看增加的訓練數(shù)據(jù)的量級,費用和數(shù)據(jù)量是成比例的

Q:首選百度還是bing?預測哪個效果更好?

A:不太好判斷,需要產(chǎn)品發(fā)布后比較。

Q:未來兩年的角度,中美AI領域的差距是否會因為GPU芯片禁運等原因差距拉大?

A:GPT4.0今年會發(fā)布,性能會有進一步提升,差距拉大是有可能的。

Q:chatGPT類的模型是否對知乎這種內(nèi)容平臺起到更大的作用?

A:知乎本身就是問答系統(tǒng),問題的回答有可能通過chatGPT來實現(xiàn),甚至比人工效果更好,包括程序debug的角度也可以朝著自動化靠攏。

Q:只有大的平臺能做大模型,知乎能自己研發(fā)嗎?

A:涉及到商業(yè)模式的問題,知乎這類的企業(yè)可能不需要自己研發(fā),未來可能百度等頭部廠商會對外開放這種能力,其他企業(yè)直接采購使用就可以。

贊(0) 掃一掃加微信了解
未經(jīng)允許不得轉(zhuǎn)載:【代寫社】 » 火爆全網(wǎng)的ChatGPT到底是個啥?專家深度解讀

代寫社-專業(yè)文案代寫平臺

代寫服務案例展示

有代寫需求,可以隨時咨詢我們

支付寶掃一掃打賞

微信掃一掃打賞