av婷婷久久网,91视频这里只有精品,91午夜福利一区二区,啊啊啊一区二区久久久,啪啪亚洲视频,www.插插,亚洲婷婷精品二区,开心五月激情射,久青草在在线

你好,歡迎您來到福建信息主管(CIO)網(wǎng)! 設(shè)為首頁|加入收藏|會員中心
您現(xiàn)在的位置:>> 新聞資訊 >>
IBM推出ITBench SaaS平臺,旨在為企業(yè)人工智能設(shè)定行業(yè)標準
作者:CIO&睿觀 來源:CIOCDO 發(fā)布時間:2025年05月12日 點擊數(shù):

IBM的IT automation benchmarking platform(IT自動化基準測試平臺)現(xiàn)已向公眾開放,該平臺通過AI Alliance(AI聯(lián)盟)帶來了透明度、特定領(lǐng)域的指標以及協(xié)作機會?!?span style="font-family: 微軟雅黑, "Microsoft YaHei"; letter-spacing: 0.578px; text-indent: 34px; outline: 0px; font-style: italic;">ITBench是一個專門用于評估AI智能體在真實IT自動化任務(wù)中表現(xiàn)的框架,它特別關(guān)注站點可靠性工程(SRE)、合規(guī)與安全運營(CISO)以及財務(wù)運營(FinOps)這三個關(guān)鍵領(lǐng)域。該框架由IBM在2025年初發(fā)布,旨在通過模擬真實世界的IT環(huán)境和事件,來衡量AI智能體的有效性?!?/span>

圖源:Laborant / Shutterstock

IBM研究院正通過推出ITBench(該公司用于企業(yè)IT自動化的基準測試平臺)的SaaS版本,大力推動人工智能評估指標在全行業(yè)的標準化。此舉將2月份開始的有限學術(shù)測試升級為建立衡量IT運營中人工智能有效性的行業(yè)標準。

隨著此次面向公眾發(fā)布,IBM正式與AI聯(lián)盟展開合作。該聯(lián)盟由150多個組織組成,包括科技公司、學術(shù)機構(gòu)和研究實驗室,旨在推動企業(yè)領(lǐng)域更廣泛地采用標準化的人工智能評估方法。

IBM研究院負責IT自動化人工智能的主任Daby Sow(達比·索)向筆者表示:“我們旨在借助與人工智能聯(lián)盟等開源社區(qū)的合作,將ITBench擴展到復雜IT環(huán)境中的新領(lǐng)域和現(xiàn)實場景。通過將該工具開源,我們邀請合作伙伴共同塑造基準,并建立基于標準的可靠評估實踐。

一、公開發(fā)布的平臺增強功能

ITBench現(xiàn)在作為一個完整的SaaS應(yīng)用程序運行,具備自動環(huán)境部署和場景執(zhí)行功能。Sow(索)解釋道:“ITBench可以處理與企業(yè)相關(guān)場景的設(shè)置和執(zhí)行,無需手動配置?!?/span>

IBM還在GitHub上發(fā)布了一個公開的排行榜,透明地跟蹤不同供應(yīng)商和解決方案的性能指標?!癐TBench排行榜托管在GitHub上,提供透明的性能跟蹤,促進IT自動化領(lǐng)域的競爭和創(chuàng)新?!盨ow(索)說。

根據(jù)測試期間的反饋,該框架也進行了擴展,納入了更全面的場景。該平臺現(xiàn)在涵蓋了三個關(guān)鍵企業(yè)領(lǐng)域的94個現(xiàn)實場景:Site Reliability Engineering/SRE(站點可靠性工程)、Financial Operations/FinOps(財務(wù)運營)以及Compliance and Security Operations/CISO(合規(guī)與安全運營)。

IBM現(xiàn)在通過與人工智能聯(lián)盟合作,正式將ITBench定位為行業(yè)標準,從學術(shù)合作階段邁向更廣泛的行業(yè)應(yīng)用。

二、解決企業(yè)AI評估的缺口

與現(xiàn)有的主要側(cè)重于編碼技能或聊天功能的人工智能基準測試不同,ITBench旨在解決企業(yè)市場中的一個基本空白,即為關(guān)鍵任務(wù)IT運營提供評估指標,因為這些運營中的故障可能會對業(yè)務(wù)產(chǎn)生重大影響。

“如果沒有標準化的測試或基準,幾乎不可能評估哪些系統(tǒng)真正有效,”Sow(索)指出,“這就是為什么強大的基準測試至關(guān)重要,不僅是為了指導應(yīng)用,也是為了確保安全性、問責制和運營彈性?!?/span>

該平臺與現(xiàn)有基準測試方法的不同之處在于,它專注于在動態(tài)IT環(huán)境中對人工智能智能體進行端到端評估。據(jù)IBM稱,當前行業(yè)基準測試通常側(cè)重于狹窄的功能,如“靜態(tài)異常檢測、表格工單分析或硬編碼故障注入”,這些無法充分反映企業(yè)IT運營的復雜性。

三、特定領(lǐng)域的評估與部分評分系統(tǒng)

ITBench框架的一個顯著特點是其以領(lǐng)域為中心的評估指標,這些指標針對特定企業(yè)功能進行了定制,可能會提供比通用人工智能基準更細致的評估。

Sow(索)解釋說:“評估指標以領(lǐng)域為中心,根據(jù)SRE、CISO和FinOps的特定需求進行定制。例如,SRE任務(wù)側(cè)重于故障診斷,檢查人工智能智能體能夠多好地找出問題的起源和傳播方式,以及緩解措施,即問題能夠多快得到解決。”

Sow(索)說:“ITBench還采用了部分得分系統(tǒng),超越了簡單的及格/不及格評估。推理質(zhì)量也會被評分,即使最終答案并不完美,也會對有意義的進展給予部分分數(shù)。

【睿觀:ITBench是一個專門用于評估AI智能體在真實IT自動化任務(wù)中表現(xiàn)的框架,它特別關(guān)注站點可靠性工程(SRE)、合規(guī)與安全運營(CISO)以及財務(wù)運營(FinOps)這三個關(guān)鍵領(lǐng)域。該框架由IBM在2025年初發(fā)布,旨在通過模擬真實世界的IT環(huán)境和事件,來衡量AI智能體的有效性。初步的研究結(jié)果表明,目前最先進的AI模型在解決這些復雜的IT任務(wù)方面仍有很大的提升空間。

ITBench具有一些重要的特點,例如它以實際的IT場景為基礎(chǔ)進行評估,并且是一個開放、可擴展的框架,鼓勵社區(qū)參與貢獻。此外,它還采用了部分評分機制,這意味著即使AI智能體沒有完全解決問題,只要在推理過程中展現(xiàn)出有價值的步驟,也能獲得一定的分數(shù)。評估指標是根據(jù)SRE、CISO和FinOps的具體需求定制的,例如,SRE任務(wù)會側(cè)重于故障診斷和問題解決的速度。

ITBench的架構(gòu)基于Kubernetes,并提供了便捷的環(huán)境部署工具。它還包含了使用CrewAI框架構(gòu)建的參考AI智能體,這些智能體可以配置不同的LLM模型。初步的評估結(jié)果顯示,即使是最先進的LLM模型,在解決ITBench的復雜場景時成功率仍然較低,這突顯了真實世界IT自動化任務(wù)的難度以及未來AI在該領(lǐng)域的發(fā)展?jié)摿?。ITBench包含94個不同的場景,涵蓋了SRE、CISO和FinOps三個領(lǐng)域】

這種方法可能會提供比傳統(tǒng)基準測試更現(xiàn)實的評估,不過該行業(yè)是否會將這些指標作為標準采用還有待觀察。任何基準測試工具面臨的挑戰(zhàn)都是在多個供應(yīng)商之間建立可信度,并避免可能偏袒特定方法的偏差。

四、開源但有部分限制

IBM將ITBench描述為一個免費的開源SaaS平臺,不過實際上公眾可訪問的內(nèi)容存在一定限制。

雖然該公司開源了11個演示場景和智能體,但為了“維護基準測試的完整性,防止數(shù)據(jù)泄露到基礎(chǔ)模型中”,公司特意對一些場景保密。這種部分公開的做法引發(fā)了人們對該平臺是否能真正被視為完全開源的質(zhì)疑,不過IBM堅稱,這種做法對于防止系統(tǒng)被惡意利用是必要的。

對于那些難以評估相互矛盾的人工智能供應(yīng)商說法的首席信息官和IT領(lǐng)導者來說,標準化的基準測試能夠提供急需的明確指引。Sow(索)稱:ITBench通過提供一種基于現(xiàn)實場景、由開源工具支持的透明且系統(tǒng)的評估方法,滿足了這一需求。

作者:Gyana Swain(吉亞納·斯萬),Gyana(吉亞納)是一位特約撰稿人。

譯者:寶藍

【睿觀:?IBM 推出了 ITBench 這一公開的 SaaS 化基準測試平臺,并與 AI 聯(lián)盟合作,致力于為企業(yè) IT 自動化領(lǐng)域的人工智能評估建立行業(yè)標準。該平臺通過提供針對 SRE、FinOps 和 CISO 等關(guān)鍵領(lǐng)域的特定指標、端到端評估以及創(chuàng)新的部分評分機制,填補了現(xiàn)有 AI 基準測試的空白。盡管其開源程度受到一定限制以確?;鶞实耐暾?,ITBench 旨在為 IT 領(lǐng)導者提供一個透明、可靠的工具,以評估和比較不同 AI 解決方案在復雜現(xiàn)實場景中的表現(xiàn)。

(一)解決方案分析:(SCA - Situation, Complication, Answer)分析

  • 情景 (Situation):

    企業(yè)在 IT 運營中越來越多地尋求利用人工智能(AI)來提升自動化水平,但缺乏統(tǒng)一標準來評估這些 AI 解決方案的真實有效性。

  • 沖突 (Complication):

    現(xiàn)有的 AI 基準測試主要集中在通用技能(如編碼、聊天),未能滿足企業(yè)在關(guān)鍵 IT 運營(如站點可靠性工程SRE、財務(wù)運營FinOps、合規(guī)與安全運營CISO)中評估 AI 智能體復雜、動態(tài)、端到端表現(xiàn)的特定需求,導致企業(yè)難以客觀比較和選擇合適的 AI 工具。

  • 答案 (Answer):

    IBM 通過 AI 聯(lián)盟公開發(fā)布了 ITBench 平臺——一個專注于企業(yè) IT 自動化的 SaaS 化基準測試解決方案,旨在通過提供透明的、領(lǐng)域特定的評估指標(針對 SRE、FinOps、CISO)、部分評分機制以及一個協(xié)作但有控制的開源框架,為行業(yè)樹立評估 AI 在關(guān)鍵 IT 運營中效能的新標準,幫助企業(yè)做出更明智的技術(shù)決策。

(二)支撐核心論點的關(guān)鍵理由:

  1. ITBench 通過公開發(fā)布和與 AI 聯(lián)盟合作,推動 IT 自動化 AI 評估的行業(yè)標準化:

    • 平臺已從有限學術(shù)測試升級為向公眾開放的 SaaS 應(yīng)用程序,具備自動環(huán)境部署和場景執(zhí)行功能。

    • 通過與 AI 聯(lián)盟(包含150多個組織)合作,旨在將 ITBench 擴展到新的領(lǐng)域和現(xiàn)實場景,并建立基于標準的可靠評估實踐。

    • 在 GitHub 上發(fā)布了公開排行榜,以透明地跟蹤不同供應(yīng)商和解決方案在 IT 自動化領(lǐng)域的性能指標,促進競爭和創(chuàng)新。

  2. ITBench 填補了企業(yè)級 AI 評估的關(guān)鍵空白,專注于關(guān)鍵任務(wù) IT 運營:

    • 與現(xiàn)有主要關(guān)注編碼技能或聊天功能的 AI 基準測試不同,ITBench 專為評估在SRE、FinOps、CISO 這三個關(guān)鍵企業(yè)領(lǐng)域的 AI 有效性而設(shè)計(目前涵蓋94個現(xiàn)實場景)。

    • 強調(diào)對 AI 智能體在動態(tài) IT 環(huán)境中進行端到端評估,而不是像當前行業(yè)基準測試那樣僅關(guān)注靜態(tài)異常檢測或表格工單分析等狹窄功能。

    • 旨在解決因缺乏標準化測試而難以評估系統(tǒng)真實有效性、安全性、問責制和運營彈性的問題。

  3. 平臺提供針對特定領(lǐng)域的精細化評估指標和創(chuàng)新的部分評分系統(tǒng):

    • 評估指標以領(lǐng)域為中心,根據(jù) SRE(側(cè)重故障診斷和緩解速度)、CISO 和 FinOps 的特定需求進行定制,提供比通用 AI 基準更細致的評估。

    • 采用部分評分系統(tǒng),超越簡單的及格/不及格評估,對推理質(zhì)量進行評分,即使最終答案不完美,也會對有意義的進展給予部分分數(shù),以提供更現(xiàn)實的評估。

  4. ITBench 在提供透明度的同時采取有控制的開源策略以維護基準完整性,旨在為 CIO 提供決策依據(jù):

    • 雖然被描述為免費的開源 SaaS 平臺(IBM 開源了11個演示場景和智能體),但為維護基準測試的完整性并防止數(shù)據(jù)泄露到基礎(chǔ)模型中,特意對一些場景保密。

    • 這種做法旨在防止系統(tǒng)被惡意利用,盡管引發(fā)了對其是否完全開源的質(zhì)疑。

    • 最終目標是通過提供一種基于現(xiàn)實場景、由開源工具支持的透明且系統(tǒng)的評估方法,滿足 CIO 和 IT 領(lǐng)導者在評估相互矛盾的 AI 供應(yīng)商說法時對明確指引的需求?!?/span>

溧水县| 昆明市| 响水县| 顺义区| 水城县| 工布江达县| 汤原县| 页游| 霍林郭勒市| 东乡族自治县| 元氏县| 天峨县| 建昌县| 仙桃市| 梅河口市| 丹寨县| 兰坪| 斗六市| 潜江市| 花垣县| 临沧市| 永靖县| 昔阳县| 东至县| 湟中县| 银川市| 东海县| 文安县| 宁夏| 任丘市| 淮安市| 通辽市| 富锦市| 台北县| 赫章县| 锡林浩特市| 浑源县| 黑水县| 张家川| 太和县| 龙山县|