規(guī)模更小、開源的人工智能大型語言模型為企業(yè)提供了利用自己的數(shù)據(jù)資產(chǎn)進行創(chuàng)新和獲取可持續(xù)競爭優(yōu)勢的機會。

圖源:GORODENKOFF(圖片上傳者,可以譯為用戶GORODENKOFF,或者GORODENKOFF) / SHUTTERSTOCK
在過去的30年里,能夠收集、管理和利用組織所收集的知識資產(chǎn)的夢想從未真正實現(xiàn)過。跨企業(yè)共享信息資產(chǎn)的系統(tǒng)在復(fù)雜性方面有所發(fā)展,但無法通過有效地將數(shù)字文件中的信息轉(zhuǎn)化為可用的知識來將其提升到更一個更高的層次。數(shù)據(jù)存在于越來越大的數(shù)據(jù)筒倉中,但真正的知識仍然存在于員工身上。
但是,large language models (LLMs/大型語言模型,是使用深度學(xué)習(xí)算法處理和理解自然語言的基礎(chǔ)機器學(xué)習(xí)模型。這些模型在大量文本數(shù)據(jù)上進行訓(xùn)練,以學(xué)習(xí)語言中的模式和實體關(guān)系。LLM可以執(zhí)行多種類型的語言任務(wù),例如翻譯語言、分析情緒、聊天機器人對話等。)的興起正開始使真正的knowledge management (KM/知識管理,在組織中建構(gòu)一個人文與技術(shù)兼?zhèn)涞闹R系統(tǒng),讓組織中的信息與知識,透過獲得、創(chuàng)造、分享、整合、記錄、存取、更新等過程,達到知識不斷創(chuàng)新的最終目的,并回饋到知識系統(tǒng)內(nèi),個人與組織的知識得以永不間斷的累積,從系統(tǒng)的角度進行思考這將成為組織的智意資本,有助于企業(yè)做出正確的決策,以因應(yīng)市場的變遷。)成為現(xiàn)實。這些模型可以以超出人類分析師能力的規(guī)模和速度從數(shù)字數(shù)據(jù)中提取意義。《The 2023 State of the CIO/2023年首席信息官狀況》調(diào)查顯示,71%的受訪首席信息官預(yù)計未來三年將更多地參與商業(yè)戰(zhàn)略,85%的受訪者表示他們將更加注重數(shù)字化和創(chuàng)新。LLM(大型語言模型)在組織知識資產(chǎn)中的應(yīng)用有可能加速這些趨勢。
一、少即是多
OpenAI(在美國成立的人工智能研究公司,核心宗旨在于“實現(xiàn)安全的通用人工智能/AGI”,使其有益于人類。 OpenAI于2015年由一群科技領(lǐng)袖,包括山姆·阿爾特曼、彼得·泰爾、里德·霍夫曼和埃隆·馬斯克等人創(chuàng)辦。)的ChatGPT(Chat Generative Pre-trained Transformer,是人工智能技術(shù)驅(qū)動的自然語言處理工具,它能夠通過理解和學(xué)習(xí)人類的語言來進行對話,還能根據(jù)聊天的上下文進行互動,真正像人類一樣來聊天交流,甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼,寫論文等任務(wù))和Dall-E2(是OpenAl公司推出的人工智能圖像生成器,具有創(chuàng)造性和藝術(shù)性,可以根據(jù)自然語言的文本描述創(chuàng)建圖像和藝術(shù)形式。)generative AI/生成式人工智能(GenAI/即通過各種機器學(xué)習(xí)/ML方法從數(shù)據(jù)中學(xué)習(xí)工件的組件/要素,進而生成全新的、完全原創(chuàng)的、真實的工件/一個產(chǎn)品或物品或任務(wù),這些工件與訓(xùn)練數(shù)據(jù)保持相似,而不是復(fù)制。簡單理解,生成式AI就是利用現(xiàn)有文本、音頻文件或圖像創(chuàng)建新內(nèi)容的技術(shù)。使用生成 AI,計算機檢測與輸入相關(guān)的基本模式并生成類似內(nèi)容。)模型已經(jīng)徹底改變了我們對人工智能的看法及其功能。從寫詩到創(chuàng)建圖像,計算機如何通過幾個簡單的提示來創(chuàng)作新內(nèi)容的能力令人震驚。然而,用于執(zhí)行這些任務(wù)的LLM(大型語言模型)的規(guī)模對于OpenAI來說是巨大且昂貴的。GPT-4(OpenAI為聊天機器人ChatGPT發(fā)布的語言模型)在34天內(nèi)通過超過1000個GPU(graphics processing unit,圖形處理器,又稱顯示核心、視覺處理器、顯示芯片,是一種專門在個人電腦、工作站、游戲機和一些移動設(shè)備。如平板電腦、智能手機等上做圖像和圖形相關(guān)運算工作的微處理器。)進行了超過45TB(太字節(jié),計算機存儲容量單位1TB=1024GB=2^40字節(jié)。)的文本數(shù)據(jù)的訓(xùn)練,花費了近500萬美元的計算能力。2022年,OpenAI雖然融資113億美元,但仍虧損了5.4億美元。
顯然,這些成本及其運營規(guī)模超出了大多數(shù)想要開發(fā)自己的LLM(大型語言模型)的組織的能力。然而,許多企業(yè)的人工智能未來在于基于自己的內(nèi)部數(shù)據(jù)資產(chǎn)構(gòu)建和調(diào)整規(guī)模小得多的模型。與依賴OpenAI等公司提供的API(Application Programming Interface,應(yīng)用程序編程接口,是一些預(yù)先定義的函數(shù),目的是提供應(yīng)用程序與開發(fā)人員基于某軟件或硬件的以訪問一組例程的能力,而又無需訪問源碼,或理解內(nèi)部工作機制的細節(jié)。)和將潛在敏感數(shù)據(jù)上傳到第三方服務(wù)器的風(fēng)險不同,新的方法允許公司在內(nèi)部引入較小的LLM(大型語言模型)。調(diào)整LLM(大型語言模型)模型和Mojo(Modular開發(fā)的專門為 AI 設(shè)計的新編程語言。目前仍處于開發(fā)過程中,但完全可以在 JupyterHub 測試環(huán)境中試用。)和PyTorch(是一個開源的Python機器學(xué)習(xí)庫,基于Torch,用于自然語言處理等應(yīng)用程序。PyTorch既可以看作加入了GPU支持的numpy,同時也可以看成一個擁有自動求導(dǎo)功能的強大的深度神經(jīng)網(wǎng)絡(luò)。除了Facebook外,它已經(jīng)被Twitter、CMU和Salesforce等機構(gòu)采用。)等人工智能編程框架的參數(shù),可以顯著減少運行人工智能程序所需的計算資源和時間。
二、開放更好
正如網(wǎng)絡(luò)是建立在開源軟件和協(xié)議之上一樣,許多企業(yè)人工智能計劃很可能會建立在LLaMA(Meta AI推出的大語言模型。之后源代碼公開到了 4chan 論壇上,使得任何一個普通工程師,都有機會開發(fā)自己的聊天機器人產(chǎn)品。只需要一臺筆記本電腦就能部署,不必像 OpenAI 那樣動輒上萬塊 GPU,對中小開發(fā)者極其友好,且性能也沒差到哪去。泄漏后的幾個月內(nèi),一位斯坦福大學(xué)的研究人員,只花了不到 600 美元就做出了一個性能尚可的 AI 聊天機器人;大洋彼岸的哈工大,數(shù)位研究人員用 " 美洲駝 " 和專業(yè)數(shù)據(jù)做出了一個醫(yī)學(xué)知識 AI,取名叫“華駝”。圍繞 LLaMA,一個生態(tài)開始涌現(xiàn)。)等開源模型和LoRa(Low-Rank Adaptation of Large Language Models,可以理解為stable diffusion/SD模型的一種插件,和hyper-network,controlNet一樣,都是在不修改SD模型的前提下,利用少量數(shù)據(jù)訓(xùn)練出一種畫風(fēng)/IP/人物,實現(xiàn)定制化需求,所需的訓(xùn)練資源比訓(xùn)練SD模要小很多,非常適合社區(qū)使用者和個人開發(fā)者。)等免費技術(shù)之上。根據(jù)最近泄露的谷歌備忘錄。
“進入培訓(xùn)和實驗的障礙已經(jīng)從一個大型研究機構(gòu)的總產(chǎn)出下降到一個人、一個晚上和一臺結(jié)實的筆記本電腦?!?/p>
這些準入壁壘只會變得更低,結(jié)果也只會更好,使初創(chuàng)公司和企業(yè)能夠建立專注于企業(yè)和工作流程特定需求的新商業(yè)模式。
三、從GenAI到SynthAI
這些發(fā)展的核心是從基于簡單提示創(chuàng)建新內(nèi)容的人工智能系統(tǒng),轉(zhuǎn)變?yōu)榛谄髽I(yè)內(nèi)部數(shù)據(jù)進行訓(xùn)練并編程生成可用見解和建議的(?。┠P?。
像ChatGPT這樣的LLM(大型語言模型)通常會產(chǎn)生可信的結(jié)果,但尚不清楚輸入模型的數(shù)據(jù)是如何使用的,也不清楚它給出的答案是真實的還是虛構(gòu)的。最近,一名紐約律師使用ChatGPT提交法庭文件,并列出可能是歷史悠久的案件來支持其當(dāng)事人的主張,這表明了依賴通用型AI(生成式人工智能,即通過各種機器學(xué)習(xí)/ML方法從數(shù)據(jù)中學(xué)習(xí)工件的組件/要素,進而生成全新的、完全原創(chuàng)的、真實的工件/一個產(chǎn)品或物品或任務(wù),這些工件與訓(xùn)練數(shù)據(jù)保持相似,而不是復(fù)制。簡單理解,生成式AI就是利用現(xiàn)有文本、音頻文件或圖像創(chuàng)建新內(nèi)容的技術(shù)。使用生成 AI,計算機檢測與輸入相關(guān)的基本模式并生成類似內(nèi)容。)輸出的風(fēng)險:盡管看起來像是真實證據(jù),但其列出的案件中有六起從未發(fā)生過。
硅谷風(fēng)險投資公司A16Z(全稱是 Andreessen Horowitz,取自兩位創(chuàng)始人的姓氏,由 Marc Andreessen 和 Ben Horowitz 于 2009 年創(chuàng)立。已經(jīng)成為加密世界的頂級機構(gòu),其在加密領(lǐng)域的投資一定程度上代表了加密領(lǐng)域未來的方向。)最近概述了其信念,即人工智能在工作場所的未來不一定是像ChatGPT那樣的LLM(大型語言模型),而是旨在滿足特定商業(yè)需求的更專注的為(?。┠P汀K麄儗⑵浞Q為SynthAI(合成人工智能。在第二波生成式Al浪潮之中,相信市場會見證更多用于信息匯集的生成式Al應(yīng)用,這些應(yīng)用會通過綜合現(xiàn)有信息,向我們展示更精細化、篩選出來的內(nèi)容。為了和第一波生成式Al浪潮進行區(qū)分,我們把第二波生成式Al浪潮,稱為合成人工智能),其模型基于專有數(shù)據(jù)集進行訓(xùn)練,并針對離散目的進行優(yōu)化,例如解決客戶支持問題、總結(jié)市場研究結(jié)果和創(chuàng)建個性化營銷電子郵件。
應(yīng)用SynthAI方法來更好地管理公司的數(shù)據(jù)資產(chǎn),是人工智能革命的下一階段的自然演變。咨詢公司BCG(波士頓咨詢公司。是一家著名的全球性企業(yè)管理咨詢公司,在戰(zhàn)略管理咨詢領(lǐng)域公認為先驅(qū)。公司的最大特色和優(yōu)勢在于公司已經(jīng)擁有并還在不斷創(chuàng)立的高級管理咨詢工具和理論,管理學(xué)界極為著名的“波士頓矩陣”就是由公司20世紀60年代創(chuàng)立的。BCG的四大業(yè)務(wù)職能是企業(yè)策略、信息技術(shù)、企業(yè)組織、營運效益。)采用這種方法保存了50年的檔案,主要是從調(diào)查和客戶參與中收集的報告、演示和數(shù)據(jù)。以前,員工只能通過關(guān)鍵字搜索來搜索這些文件,然后通讀每個文檔以檢查其相關(guān)性?,F(xiàn)在,該系統(tǒng)為問題提供了可用的答案。
用人工智能實現(xiàn)知識管理的夢想正在成為現(xiàn)實。
作者:Martin De Saulles(馬丁·德·索勒斯)
Martin De Saulles(馬丁·德·索勒斯)博士是一位作家和學(xué)者,專門研究數(shù)據(jù)驅(qū)動的創(chuàng)新和人工智能并著作。您在他的博客martindesaulles.com上查看更多他的作品。