Geekbench 6 是該系列中最新的基準測試。
關於蘋果向基准開發人員支付報酬以使其 iPhone 能夠擊敗三星最新機型的指控是毫無根據的,而且是基於部落主義。這就是為什麼。
社交媒體抱怨三星的 S23 Ultra 比iPhone 在推出 Geekbench 6 後曾招致了偏袒蘋果的指責。實際上,這只是一個問題,基準測試如何被視為智能手機價值的全部和最終結果。
自 2 月推出 Geekbench 6 以來,三星和 Android 的粉絲紛紛在 Twitter 和其他公共論壇上抱怨其結果。具體來說,互聯網上的爭論是關於三星的 Galaxy S23 Ultra 與 iPhone 14 Pro 系列相比如何得分。
在 Geekbench 5 下,Galaxy S23 Ultra 的單核分數約為 1,600,多核分數約為 5,000,與 iPhone 14 Pro 的 1,900 和 5,500 分數大致相當。
Geekbench 下結果的大致數字5
使用 Geekbench 6 進行測試時,Galaxy S23 Ultra 的單核測試成績約為 1,900,多核成績約為 5,100。同時,iPhone 14 Pro 的單核成績為 2,500,多核成績為 6,500。
注意分數的較大差異Geekbench 6 的大致結果。
實際上,iPhone在Geekbench 5下單核比三星高18%,多核比三星高10%,切換到Geekbench 6,領先優勢擴大到31%和18%分別。
三星 Galaxy S23 Ultra
社交媒體用戶聲稱,分數的這種變化一定意味著遊戲對 Apple 存在某種偏見。推文認為,Geekbench 5 中相當接近的比賽在 Geekbench 6 中當然應該同樣接近。
因此,對於這些人來說,存在一定程度的親蘋果偏見。幾乎總是如此,有人已經指責蘋果支付 GeekBench 費用以提高結果。
遊戲已經改變
首先要考慮的是基準測試本身的內容。綜合基準執行各種測試,並將結果編譯成最終的單一分數。
這些測試在基準生成的整個生命週期中都不會改變。因此,在很長一段時間內,設備之間的測試具有一定程度的一致性。
但是,基準測試工具確實必須經常更新,以匹配硬件規格的趨勢,以及用戶期望使用其設備執行的任務類型。
Geekbench 6 的發布正是這樣做的,對現有測試進行了更改並引入了新測試以更好地匹配現代設備的可能性。這包括專注於機器學習和增強現實的新測試,這些都是計算領域相當大的增長領域。
“這些測試經過精心設計,以確保結果代表真實世界的用例和工作負載,”Geekbench 6 的描述中寫道。
機器學習是一個成長領域,能夠創造“藝術”,因此將基準的重點轉移到那個方向是有道理的。
把它想像成短跑運動員和某人之間的跑酷比賽。比賽通常可能類似於短跑運動員習慣的 100 米短跑,但更改為類似 Tough Mudder 障礙賽的比賽可能會以不同的結果結束。
如果您沒有從這篇文章中拿走任何其他內容,那麼這裡就是主要要點。 如果你改變測試的內容,結果當然會有所不同。
這與將 Geekbench 5 的結果與其他基準測試的結果進行比較沒有什麼不同套房。由於有不同的測試和每個進入最終分數的替代權重,您會發現設備之間的性能差異也會因基準測試工具而異。
如果您將 Geekbench 6 視為與 Geekbench 5 完全不同的基準測試工具,則性能差異可以更合理地理解。
是的,改變權重使某些區域比其他區域對分數更重要可能會導致分數發生變化。但是,只要它不影響直接將分數與同代應用程序的其他分數進行比較的能力,這就不是真正的問題。
信任的必要性
基準測試工具處於特權地位,因為它們是一個完全依賴於用戶信任的實體。在他們提供的結果中。開發人員表示,該工具將執行一組已知測試,並且每次都將以特定方式執行。
總的來說,基準測試工具靠的是這種可信度,沒有公司特定的偏見在起作用。得出的結果被認為是合法的,根本沒有犯規行為。
假設,如果向基準測試開發人員提供一大筆錢,讓其將結果投向製造商的青睞,則有可能實現。除了與基準測試行業其他公司相比的結果差異可能會突然引起用戶質疑測試帶來的結果。
這種情況會破壞對基準測試工具結果的信任,因為其他結果會受到質疑。
因此,基準測試開發人員需要減少測試結果中的任何偏差,以便他們盡可能準確,以保持可信度並建立信任。
等一兩分鐘
這種可信度需要時間才能形成,這對於基準測試工具來說可能是一開始的問題。
經過一年的運行,像Geekbench這樣的工具可以建立一個結果集合,供用戶參考。由於媒體和發燒友對 Geekbench 5 的使用如此之高,該系列非常重要。
但是,正如我們所討論的,Geekbench 6 不是 Geekbench 5,而且它才推出幾週。它還沒有建立能夠充分比較各種設備的結果目錄。
隨著時間的推移,Geekbench 6 將趕上 Geekbench 5 的結果目錄大小。
不幸的是,這意味著人們將嘗試將 Geekbench 6 的結果與 Geekbench 5 的結果進行比較,直到該目錄充實到足夠重要為止。
這個問題不會立即得到解決,因為它依賴於使用該工具從數百萬次測試中收集的結果。這可能需要幾個月的時間才能出現,當然不是自 Geekbench 6 本身發布以來已經過去的兩週。
等幾個月,再看看基準測試。如果 Geekbench 6 值得信賴,您將在其測試的所有設備上看到相同的趨勢。
來自歷史的警告
基準測試被認為是將一個設備與另一個設備進行比較的主要方式,這可能會導致一些人認為它是最終的仲裁者你能買到的最好的智能手機是什麼?
正如我們剛剛闡明的那樣,基準應該只是您整體購買決策的一小部分,而不是全部。這種將基準測試作為“最重要的事情”的優先順序在過去已經導致了奇怪的情況。
以 2022 年 3 月的報導為例,當時三星被發現調整其設備的工作方式,特別是考慮到基準測試。
三星的 Galaxy S21 系列捲入了一場涉及基準測試的節流醜聞。
為了讓智能手機正常運行且沒有問題,智能手機製造商可以選擇限制其設備的處理能力。這在一定程度上是有道理的,因為消費者不喜歡熾熱的智能手機,也不會耗盡電池電量。
當時,三星被發現讓一長串應用程序受到“性能限制”,即出於這樣的原因限制它們。除了像 Geekbench 5 和 Antutu 這樣的基準應用程序完全沒有受到限制,並且不受限制地運行。
對於最終用戶而言,這意味著該設備可以進行良好的基準測試,但在實際使用中,最終運行的性能水平將遠低於許多普通應用程序的預期水平。
這實際上是在欺騙最終用戶,讓他們相信設備運行速度比實際情況要快,至少在基準測試中是這樣。
Benchmarks are not the real world
benchmarks 的全部意義在於它為您提供了一種標準化的方式來比較一個設備和另一個設備,並一般都知道性能上的差異。關鍵是標準化,就像生活的許多領域一樣,這不一定會導致對某些功能的真實反映。
這種專業化甚至可以深入到特定的基準測試本身,因為雖然 Geekbench 是一個更通用的基準測試,但還有其他一些針對特定受眾的基準測試。
例如,許多遊戲玩家依賴於遊戲中的基準測試,例如《古墓麗影:崛起》中的基準測試。這作為一個基準是有意義的,因為它是一個真正的遊戲,它可以更好地測試設備性能的元素,同時考慮到遊戲玩家的需求。
同時,儘管 Cinebench 提供的測試重點是 GPU,但它對從事 3D 渲染工作的人來說更有用,因為它更多地迎合了該領域,而不是一般的 3D 需求。
還有基於瀏覽器的基準測試,但雖然對那些在以在線為中心的領域工作的人有用,但它們對那些從事 3D 工作的人或狂熱的遊戲玩家就沒那麼有用了。
理想情況下,用戶需要選擇滿足他們需求的基準測試工具。 Geekbench 是一個簡單且通用的測試套件,但雖然它不是特定場景的最佳選擇,但其易用性和通用性使其成為大眾市場測試的理想選擇,例如在出版物中。
即便如此,無論您使用什麼基準測試,您都不會獲得滿足您特定需求的完整概要。您仍然會得到指示,但不確定。
那個短跑運動員在短距離比賽中表現出色,但他們可能不會那麼擅長報稅,或者知道超市裡的雞蛋在哪裡。知道他們在比賽中的位置並不能幫助你更快地完成會計工作,但你至少會知道他們身體健康。
同樣,智能手機可以很好地完成基準測試中的特定任務,但這仍然是您希望使用該設備執行的操作的近似值。例如,您可以優先考慮執行生物識別解鎖所需的時間或相機的圖像質量。
基準測試工具只能提供一般指南,說明智能手機在特定條件下如何與其他智能手機進行比較。它不會告訴你它將如何適應你的生活。