您認為RWKV、Mamba等架構如何挑戰Transformer?

您認為RWKV、Mamba等架構如何挑戰Transformer?

閱讀全文
请先 登录 后评论
  • 1 關注
  • 0 收藏 51 浏覽
  • 用戶 提出于 2024-01-16 21:13:39

1 回答

厚德載物
擅長:AI

開源LLM RWKV背後的元始智能,種子輪融資已於1月16日走完工商變更,由陸奇於2018年創立的奇績創始和某匿名投資者投資,目前元始智能已開始繼續融第二 輪。


RWKV是國產開源的首個非Transformer架構的大語言模型,目前已經迭代到第六代RWKV-6。 它的作者彭博在2022年5月開始訓練RWKV-2,當時只有1億(100M)參數規模,後續在2023年3月訓練了RWKV-4 140億(14B)參數版本。


RWKV-5的15億和30億參數版本已發布,且70億參數版本會在2024年1月發布。 而RWKV-6的15億和30億參數版本將在2024年2月發布,然後再繼續訓練70億和140億參數版本。


RWKV-5和RWKV-6系列的特點是,支援全球100+種語言,也支援數十種程式語言,目前可以在 www.rwkv.com 頁面上的鏈接,體驗在線Demo。


彭博香港大學物理系本科畢業,此前在香港對沖基金做過多年的量化交易,也在深圳做過智慧硬體。


在2020年,因為對AIGC小說生成感興趣,他在優化GPT的過程中設計了RWKV。 在模型架構上,RWKV創新地將GPT Transformer改寫成推理更快的RNN形式,同時仍保持了Transformer的平行訓練能力與表現。


彭博6歲開始編程,擁有30多年編程經驗,迄今RWKV的基底模型都是由他一個人訓練的。 他認為,大模型被少數公司壟斷會對於人類有風險,所以訓練出RWKV後便開源了,目的是想創造一個更開放的模型生態。


彭博的AI宇宙世界觀是,現在人類正處於與 AI逐步開始對決的時刻。 彭博從量子物理的角度認為,人類或許只是宇宙實現某個更高目標的工具。 因此,如果 AI 比人類更適應宇宙的目標,最終宇宙就會選擇 AI 取代人類,這就是人類的危險之處。


目前RWKV的Discord社群在海外擁有8,000多位開發者,他們來自美國、歐洲、亞洲、中東等等。 國內開源社群有五個QQ群,擁有上萬人。


RWKV 元始智能聯合創始人羅璇告訴AI科技評論,奇績創壇投為什麼投他們——主要是認為非 Transformer架構的RWKV可能會為大模型帶來更多創新與突破。


在Transformer一統大模型天下的今天,有部分人覺得換不同架構能打破Transformer當下的瓶頸。


國際頭部科技公司也正在尋求不同的路徑。 在2022年2月時, OpenAI注意到了RWKV和彭博,並寄給他入職訪談邀請信。


彭博當時還沒成立商業公司,但他立刻回信婉拒了。 他認為目前的OpenAI過於封閉,他希望做更開放的事情,所以給出的回復是「如果以後OpenAI願意做開源的大模型,歡迎合作」。


羅璇表示,基礎模式RWKV會一直開源,目前已經放到了Linux基金會下屬的LF AI & Data 孵化(https://lfaidata.foundation/projects/rwkv/),藉此讓RWKV被更多人看見。


目前,RWKV團隊有近十人,且正在持續招聘,目標是15至20人的規模。 而基底模型的訓練由彭博一個人負責,其他人會做模型應用、微調、最佳化、多模態、生態建設等工作。


對RWKV團隊來說,彭博希望在訓練千億等級模型前,先將模型的架構優化到最好,這樣算力資源可以得到更好的運用。 「現在RWKV-6架構代表了非transformer架構的最前沿水準,正在設計第7代模型的架構」。


在將架構做到極致後,由於RWKV從1億到140億參數的性能提高曲線(scaling law)穩定,且訓練過程穩定,因此千億模型的訓練只需有算力就能完成。


團隊未來主攻三件事:1.訓練出千億模型;2.做infra,會將端側的高效運行作為infra的一個切入點,跟高通、英特爾、聯發科等晶片大廠(他們在2023年底的 發表會都寫明了與RWKV的合作)合作去推動模型落地到端側設備上,例如手機、PC、車載;3.孵化應用和生態。


國內已經有一些公司在嘗試用RWKV來訓練模型,國外拿RWKV開源創業,拿到融資的,據羅璇了解已經超過10家。


在過去一年裡,RWKV已經在To C、To B都有落地,To C主要在Agent、遊戲、音樂生成、角色扮演領域;To B包括銀行、律師事務所等。


據羅璇透露,此次融資的錢主要用於工具棧建設、孵化生態、孵化應用,模型訓練主要靠贊助和合作,現在最大的阻礙是需要更多算力,所以訓練出千億模型仍然是 他們當前最具挑戰性的任務。

请先 登录 后评论