人工智能自動化正在成為一個備受關(guān)注的領(lǐng)域。Jarvis作為其中的代表性產(chǎn)品,展示了LLM在自動化任務(wù)中的強大潛力。各大科技公司紛紛布局,競爭激烈。未來,隨著技術(shù)的不斷發(fā)展,人工智能自動化將會在我們的工作和生活中發(fā)揮越來越重要的作用。預(yù)計將于今年12月推出的Jarvis(Project Jarvis,是一個旨在通過人工智能技術(shù)自動化網(wǎng)頁任務(wù)的大型動作模型。旨在通過自動化網(wǎng)頁任務(wù)來提升用戶體驗。該項目預(yù)計將在12月進行首次展示,并由谷歌未來版本的Gemini模型驅(qū)動,特別針對Chrome瀏覽器進行優(yōu)化。)可能在企業(yè)中有多種用途,如開發(fā)、CRM(客戶關(guān)系管理,是指企業(yè)為提高核心競爭力,利用相應(yīng)的信息技術(shù)以及互聯(lián)網(wǎng)技術(shù)協(xié)調(diào)企業(yè)與顧客間在銷售、營銷和服務(wù)上的交互,從而提升其管理方式,向客戶提供創(chuàng)新式的個性化的客戶交互和服務(wù)的過程。其最終目標(biāo)是吸引新客戶、保留老客戶以及將已有客戶轉(zhuǎn)為忠實客戶,增加市場。)和ERP(即企業(yè)資源計劃,是一種主要面向制造行業(yè)進行物質(zhì)資源、資金資源和信息資源集成一體化管理的企業(yè)信息管理系統(tǒng)。ERP是一個以管理會計為核心可以提供跨地區(qū)、跨部門、甚至跨公司整合實時信息的企業(yè)管理軟件。針對物資資源管理-物流、人力資源管理-人流、財務(wù)資源管理-財流、信息資源管理-信息流,集成一體化的企業(yè)管理軟件。)等各種任務(wù)。

圖源:GORODENKOFF(圖片上傳者,可以譯為用戶GORODENKOFF,或者GORODENKOFF)?/ SHUTTERSTOCK
谷歌也加入了由Agentic AI(代理人工智能,?是一種高級的人工智能系統(tǒng),它能夠自主規(guī)劃和采取行動以實現(xiàn)用戶定義的目標(biāo)。核心特點包括自主設(shè)定目標(biāo)、做出決策和根據(jù)對復(fù)雜環(huán)境的理解采取行動。)驅(qū)動的基于人工智能的計算機使用之戰(zhàn),與Anthropic(是一家人工智能初創(chuàng)公司,由前?OpenAI?員工創(chuàng)立,成立于2021年,總部位于舊金山,致力于構(gòu)建可靠、可解釋和可控的人工智能系統(tǒng)。)和OpenAI(在美國成立的人工智能研究公司,核心宗旨在于“實現(xiàn)安全的通用人工智能,AGI”,使其有益于人類。OpenAI于2015年由一群科技領(lǐng)袖,包括山姆·阿爾特曼、彼得·泰爾、里德·霍夫曼和埃隆·馬斯克等人創(chuàng)辦。)等公司一起,努力在新興且不斷發(fā)展的基于人工智能的自動化市場中獲得份額。
據(jù)The Information(?是一家位于硅谷的付費訂閱科技新聞媒體,成立于2013年。該媒體以獨家和深度報道著稱,追蹤科技行業(yè)的獨家新聞和商業(yè)動態(tài),如Snap Inc.的IPO計劃、Uber董事會的決策、Nest Labs創(chuàng)始人的詳細報道等。)報道,該公司正在開發(fā)Jarvis,它將允許用戶在谷歌的Gemini 2.0(是谷歌即將發(fā)布的下一代AI模型,預(yù)計在2024年12月發(fā)布?。其在圖像生成和文本創(chuàng)作方面有著顯著的提升,能夠生成更為逼真的圖像和撰寫更具創(chuàng)意的文本,同時在多模態(tài)學(xué)習(xí)和自然語言處理領(lǐng)域展現(xiàn)出強大的應(yīng)用潛力。)大型語言模型在Chrome browser(?Chrome瀏覽器,?是由谷歌公司開發(fā)的一款高效、安全的網(wǎng)絡(luò)瀏覽器,以其快速的加載速度、穩(wěn)定的性能和豐富的功能而備受用戶喜愛。其采用了多進程架構(gòu),能夠更好地利用計算機資源,提高瀏覽器的運行速度和穩(wěn)定性。)上自動化研究和購物等任務(wù)。
據(jù)The Information援引的消息人士稱,Jarvis控制操作和完成瀏覽器任務(wù)的能力將結(jié)合多種基于LLM(大型語言模型。是使用深度學(xué)習(xí)算法處理和理解自然語言的基礎(chǔ)機器學(xué)習(xí)模型。這些模型在大量文本數(shù)據(jù)上進行訓(xùn)練,以學(xué)習(xí)語言中的模式和實體關(guān)系。LLM可以執(zhí)行多種類型的語言任務(wù),例如翻譯語言、分析情緒、聊天機器人對話等。)的開發(fā)技術(shù),如讀取和理解屏幕截圖、生成文本以及模擬用戶交互。
谷歌利用基于LLM的人工智能自動化用戶任務(wù)的努力,與Anthropic上周發(fā)布的“computer use(是一種革命性的新功能,使得Claude AI模型能夠像人類一樣操作電腦。Claude可以通過API獨立操作鼠標(biāo)光標(biāo)在屏幕上移動、點擊按鈕、輸入文本等,無需用戶直接干預(yù)。這種操作方式真正模擬了人類與計算機交互的方式,使得AI助手能夠使用為人類設(shè)計的各類軟件。)”能力非常相似,專家認為,一旦作為成品推出,這可能會徹底改變自動化市場,因為大量的工作仍在計算機上進行。
反過來,Anthropic的“computer use”能力,使開發(fā)人員能夠通過Anthropic API(?是由Anthropic公司開發(fā)的一種強大的自然語言處理/NLP API,旨在通過API靈活配置和調(diào)用AI系統(tǒng),完成各種任務(wù)。Anthropic公司致力于推動人機交互的界限,其API的核心在于強大的自然語言處理能力,通過先進的機器學(xué)習(xí)模型,能夠理解并生成近乎自然的語言。)指示Claude 3.5 Sonnet(?是Anthropic公司推出的一款A(yù)I模型,屬于Claude 3.5模型家族中的首個版本。Claude 3.5 Sonnet旨在提高智能水平,超越競爭對手和之前的模型,并在廣泛的評估中表現(xiàn)出色,成為行業(yè)新標(biāo)桿?。)閱讀和解釋顯示的內(nèi)容,輸入文本,移動光標(biāo),點擊按鈕,以及在窗口或應(yīng)用程序之間切換——就像今天的robotic process automation/RPA(機器人流程自動化,是以軟件機器人及人工智能為基礎(chǔ)的業(yè)務(wù)過程自動化科技。RPA系統(tǒng)是一種應(yīng)用程序,它通過模仿最終用戶在電腦的手動操作方式,提供了另一種方式來使最終用戶手動操作流程自動化。)工具可以被指示——但更為繁瑣地——去做。
雖然Jarvis似乎是針對消費者的,但這項技術(shù)也可以在企業(yè)中使用,因為許多開發(fā)活動、工作流和自動化管理、CRM、ERP等都是通過基于萬維網(wǎng)的客戶端或界面在瀏覽器上訪問的。
事實上,如果Django(?是一個高級的Python Web框架,旨在快速開發(fā)安全和可維護的網(wǎng)站。它由經(jīng)驗豐富的開發(fā)者構(gòu)建,能夠處理網(wǎng)站開發(fā)中的許多常見問題,使開發(fā)者能夠?qū)W⒂诰帉憫?yīng)用程序,而無需重新開發(fā)。)網(wǎng)絡(luò)框架的共同創(chuàng)建者Simon Willison(西蒙·威利森)是可信的,谷歌可能比Anthropic更早地解鎖了從屏幕截圖或圖像中確定坐標(biāo)的能力。
然而,在借助基于人工智能的代理和LLM控制計算機方面,Anthropic可能是第一個將這種能力與其他能力結(jié)合起來率先推向市場的公司。
另據(jù)報道,OpenAI自2月以來一直在開發(fā)類似的能力。
此外,在他的一篇領(lǐng)英帖子中,軟件專家Martin Bechard(馬丁·貝查德)聲稱OpenAI已經(jīng)開發(fā)了一個名為Tools(?OpenAI Tools功能?是OpenAI提供的一組預(yù)定義工具,旨在簡化與OpenAI API的交互,并擴展其功能應(yīng)用范圍。這些工具可以快速實現(xiàn)復(fù)雜任務(wù),廣泛應(yīng)用于智能聊天機器人、企業(yè)級應(yīng)用、教育平臺等領(lǐng)域。)的功能,該功能遵循與Anthropic的computer use能力相同的基本原理。
微軟、Meta和蘋果也參與其中。
雖然微軟本月早些時候展示了其Copilot(是微軟在Windows 11中加入的AI助手,該AI助手是一個集成了在操作系統(tǒng)中的側(cè)邊欄工具,可以幫助用戶完成各種任務(wù)。)的新功能Vision(?Copilot Vision是微軟最新推出的功能,旨在提升用戶在瀏覽網(wǎng)頁時的體驗。在日常使用中,其可以幫助用戶快速找到網(wǎng)頁上的關(guān)鍵信息,例如總結(jié)文章、提取重要數(shù)據(jù)等。此外,它還可以幫助用戶進行更復(fù)雜的任務(wù),如布置新公寓、搜索家具、找到合適的調(diào)色板等。),可以閱讀和理解圖像并回答有關(guān)它們的問題,蘋果一直在通過其Apple Intelligence(是2024年蘋果公司推出的自家的人工智能系統(tǒng)。是蘋果自主研發(fā)的人工智能版本,它專注于將技術(shù)注入軟件并升級現(xiàn)有應(yīng)用程序,使其更加智能化和實用。值得一提的是,Apple Intelligence將由蘋果自主研發(fā)的技術(shù)以及與知名人工智能公司OpenAI的合作共同提供支持。)更新,努力向其虛擬助手Siri(是Speech Interpretation & Recognition Interface的首字母縮寫,原義為語音識別接口,是蘋果公司在iPhone、iPad、iPod Touch、HomePod、Apple Watch、Apple TV、Apple CarPlay等產(chǎn)品上應(yīng)用的一個語音助手,利用Siri用戶可以通過手機查找信息、撥打電話、發(fā)送信息、獲取路線、播放音樂、查找蘋果設(shè)備等??梢灾С肿匀徽Z言輸入,并且可以調(diào)用系統(tǒng)自帶的天氣預(yù)報、日程安排、搜索資料等應(yīng)用,還能夠不斷學(xué)習(xí)新的聲音和語調(diào),提供對話式的應(yīng)答。Siri可以令iPhone4S及以上手機,iPad 3以上平板變身為一臺智能化機器人。)引入自動化能力。
另一方面,Facebook(是一個流行的社交網(wǎng)絡(luò)平臺,允許用戶與朋友、家人和其他人分享照片、視頻、鏈接和消息。)的母公司Meta(美國互聯(lián)網(wǎng)公司,原名Facebook,創(chuàng)立于2004年2月4日,總部位于美國加利福尼亞州門洛帕克。“Meta”,來源于“元宇宙”,Metaverse,意思是包涵萬物無所不聯(lián)。Facebook堅定地希望甩掉問世以來就牢牢被貼在身上的標(biāo)簽——社交媒體,要跳出發(fā)家領(lǐng)域社交媒體的“舒適圈”,著力開拓元宇宙e。)一直在努力將其LLMs壓縮到智能手機中。今年早些時候,谷歌在Chrome瀏覽器中展示了幾個新的基于人工智能的功能,包括使用人工智能比較兩個標(biāo)簽頁之間的信息,并提出將相似標(biāo)簽組合在一起的建議。
作者:Anirban Ghoshal(阿尼班·戈沙爾)
Anirban Ghoshal(阿尼班·戈沙爾)是一位資深作家,為CIO.com報道企業(yè)軟件,為InfoWorld報道數(shù)據(jù)庫、云和人工智能基礎(chǔ)設(shè)施。
譯者:寶藍
【睿觀:
人工智能,尤其是大型語言模型(LLM),正在推動自動化領(lǐng)域的新浪潮,各大科技巨頭紛紛布局,Jarvis是其中一個代表性的產(chǎn)品。
支撐論點:
Jarvis的潛力:
基于Gemini模型,針對Chrome瀏覽器優(yōu)化。
可自動化網(wǎng)頁任務(wù),提升用戶體驗。
在企業(yè)端有廣泛應(yīng)用前景(開發(fā)、CRM、ERP等)。
行業(yè)趨勢:
各大科技公司競相投入人工智能自動化領(lǐng)域。
Anthropic、OpenAI等公司在LLM驅(qū)動的計算機自動化方面取得進展。
功能包括:閱讀理解屏幕截圖、生成文本、模擬用戶交互等。
潛在應(yīng)用場景廣泛,可徹底改變自動化市場。
技術(shù)細節(jié):
Jarvis利用LLM技術(shù),結(jié)合圖像識別、文本生成等能力。
Anthropic的computer use能力與Jarvis相似。
OpenAI的Tools功能也具備類似能力。
其他公司如微軟、Meta、蘋果也在積極布局。
具體例子:
Jarvis可通過讀取和理解屏幕截圖,自動完成購物等任務(wù)。
Anthropic的Claude 3.5 Sonnet可以像人類一樣操作電腦。
OpenAI的Tools功能可以遵循與Anthropic的computer use能力相同的原理。
微軟的Copilot Vision可以閱讀和理解圖像。】
