Geekbench 6 is de nieuwste benchmark in de serie.

Beschuldigingen dat Apple benchmark-ontwikkelaars heeft betaald zodat zijn iPhone de nieuwste modellen van Samsung kan verslaan, zijn ongegrond en gebaseerd op tribalisme. Dit is waarom.

Klachten op sociale media over Samsung’s S23 Ultra doet het slechter dan de iPhone na de introductie van Geekbench 6 heeft geleid tot beschuldigingen van vooringenomenheid ten gunste van Apple. In werkelijkheid is het gewoon een probleem in hoe benchmarks worden gezien als de allesomvattende waarde van een smartphone.

Sinds de introductie van Geekbench 6 in februari zijn fans van Samsung en Android naar Twitter en andere openbare fora gegaan om te klagen over de resultaten. Concreet gaat het internetprobleem over hoe de Galaxy S23 Ultra van Samsung scoort ten opzichte van de iPhone 14 Pro-reeks.

Onder Geekbench 5 zou de Galaxy S23 Ultra ongeveer 1.600 krijgen voor de single-core score en 5.000 voor de multi-core, in de marge van de iPhone 14 Pro’s 1.900 en 5.500 scores.

Ballpark-cijfers voor resultaten onder Geekbench 5

Bij testen met Geekbench 6 zou de Galaxy S23 Ultra ongeveer 1.900 halen voor de single-core test en 5.100 voor de multi-core. Ondertussen beheert de iPhone 14 Pro 2.500 voor het single-core resultaat en 6.500 voor de multi-core.

Let op het grotere verschil in scores voor de Geekbench 6 ballpark-resultaten.

In feite is de iPhone 18% beter in single-core en 10% beter in multi-core dan de Samsung onder Geekbench 5. Overschakelen naar Geekbench 6, de voorsprong is toegenomen tot 31% en 18% respectievelijk.

Samsung Galaxy S23 Ultra

Inwoners van sociale media beweren dat deze verandering in score moet betekenen dat er een soort vooringenomenheid in het spel is ten opzichte van Apple. Een redelijk hechte race in Geekbench 5 zou toch even dichtbij moeten zijn in Geekbench 6, beweren de tweets.

Daarom is er voor deze mensen een zekere pro-Apple-vooringenomenheid. Zoals bijna altijd het geval is, heeft iemand Apple er al van beschuldigd GeekBench te hebben betaald om de resultaten te verbeteren.

De game is veranderd

Het eerste waar u aan moet denken, is wat er in een benchmark zelf komt. Een synthetische benchmark voert een verscheidenheid aan tests uit, waarbij de resultaten worden samengevoegd tot een definitieve, unieke score.

Deze tests veranderen niet gedurende de levensduur van de benchmarkgeneratie. Er is dus een zekere mate van consistentie bij het testen tussen apparaten gedurende een lange periode.

Benchmarktools moeten echter zo nu en dan worden bijgewerkt om te voldoen aan trends in hardwarespecificaties en het soort taken dat een gebruiker met zijn apparaten kan verwachten uit te voeren.

De release van Geekbench 6 deed precies dit, met aanpassingen aan bestaande tests en de introductie van nieuwe tests om beter aan te sluiten bij wat mogelijk is met een modern apparaat. Dat omvat nieuwe tests die zich richten op machine learning en augmented reality, wat aanzienlijke groeigebieden zijn in de informatica.

“Deze tests zijn nauwkeurig ontworpen om ervoor te zorgen dat de resultaten praktijkcases en werklasten vertegenwoordigen”, luidt de beschrijving voor Geekbench 6.

Machine leren is een groeigebied en kan’kunst’creëren, dus het is logisch om de focus van een benchmark in die richting te verschuiven.

Zie het als een race tussen een sprinter en iemand in parkour. De race is normaal gesproken zoiets als de 100 meter sprint, waar de sprinter aan gewend is, maar het veranderen naar zoiets als een Tough Mudder-hindernisbaan zal waarschijnlijk een ander resultaat opleveren.

Als je niets anders uit dit stuk weghaalt, is hier het belangrijkste punt. Als je verandert wat er wordt getest, zullen de resultaten natuurlijk anders zijn.

Het is niet anders dan wanneer je de resultaten van Geekbench 5 zou vergelijken met die van een andere benchmark suites. Aangezien er verschillende tests zijn en een alternatieve weging van elk in de eindscores, zult u verschillen in prestaties tussen apparaten vinden die ook variëren tussen benchmarktools.

Als je Geekbench 6 beschouwt als een compleet andere benchmarktool dan Geekbench 5, zijn de verschillen in prestaties redelijker te begrijpen.

Ja, een wijziging in de weging om sommige gebieden belangrijker te maken voor een score dan andere, kan ertoe leiden dat scores veranderen. Maar zolang het geen invloed heeft op de mogelijkheid om een ​​score direct te vergelijken met anderen van dezelfde generatie van de app, is het niet echt een probleem.

De behoefte aan vertrouwen

Benchmarktools bevinden zich in een bevoorrechte positie, omdat ze een entiteit zijn die volledig afhankelijk is van het vertrouwen van gebruikers om waarheidsgetrouw te zijn in de resultaten die ze opleveren. De ontwikkelaars zeggen dat de tool een reeks bekende tests zal uitvoeren en dat ze elke keer op een bepaalde manier zullen worden uitgevoerd.

Over het algemeen gedijen benchmarktools op deze geloofwaardigheid, dat er geen bedrijfsspecifieke vooringenomenheid in het spel is. De resultaten die eruit komen, worden als legitiem beschouwd en er is helemaal geen kwaad opzet in het spel.

Als, hypothetisch gezien, een benchmark-ontwikkelaar een enorme zak met geld zou krijgen om de resultaten in het voordeel van één fabrikant te gooien, zou het mogelijk zijn om dit te bereiken. Behalve dat het verschil in resultaat in vergelijking met de rest van de benchmarking-industrie er waarschijnlijk en plotseling voor zal zorgen dat gebruikers de resultaten die de test oplevert in twijfel trekken.

Een dergelijke situatie schaadt het vertrouwen in de resultaten van een benchmarktool, aangezien andere resultaten in twijfel worden getrokken.

Benchmark-ontwikkelaars hebben daarom behoefte om eventuele vertekening in testresultaten te verminderen, zodat ze zo nauwkeurig mogelijk kunnen zijn, om de geloofwaardigheid en het opgebouwde vertrouwen te behouden.

Wacht een hete minuut, of twee

Die geloofwaardigheid heeft tijd nodig om zich te vormen, wat in het begin een probleem kan zijn voor benchmarktools.

Na een jaar in gebruik kunnen tools zoals Geekbench een verzameling resultaten opbouwen waarnaar gebruikers kunnen verwijzen. Nu Geekbench 5 zo veel wordt gebruikt door de media en enthousiastelingen, is die verzameling enorm belangrijk.

Maar zoals we hebben besproken, is Geekbench 6 niet Geekbench 5 en is het pas een paar weken uit. Het heeft die catalogus met resultaten nog niet opgebouwd om vergelijkingen tussen een breed spectrum aan apparaten adequaat mogelijk te maken.

Na verloop van tijd zal Geekbench 6 haal de catalogusgrootte van de resultaten van Geekbench 5 in.

Helaas betekent dit dat mensen de resultaten van Geekbench 6 zullen proberen te vergelijken met Geekbench 5 totdat die catalogus voldoende is uitgewerkt om er toe te doen.

Dit is een probleem dat niet onmiddellijk zal worden opgelost, omdat het afhankelijk is van de resultaten die zijn verzameld uit miljoenen tests met behulp van de tool. Dat kan maanden duren om te ontstaan, zeker niet de twee weken die zijn verstreken sinds de release van Geekbench 6 zelf.

Wacht een paar maanden en bekijk dan de benchmarks. Als Geekbench 6 betrouwbaar is, zul je dezelfde soort trends zien op alle apparaten die ermee worden getest.

Een waarschuwing uit de geschiedenis

Nu benchmarks worden beschouwd als de belangrijkste manier om het ene apparaat met het andere te vergelijken, kan dit ertoe leiden dat sommigen denken dat het de ultieme scheidsrechter is van wat is de beste smartphone die je kunt kopen.

Zoals we zojuist hebben uiteengezet, zou een benchmark slechts een klein onderdeel moeten zijn van uw algehele koopbeslissing, en niet de hele. Dit prioriteren van benchmarks als het”belangrijkste”heeft in het verleden al tot rare situaties geleid.

Neem het voorbeeld van rapporten uit maart 2022, toen Samsung werd betrapt op het aanpassen van de manier waarop zijn apparaten werken, specifiek met benchmarks in het achterhoofd.

De Galaxy S21-reeks van Samsung was verwikkeld in een smorend schandaal met betrekking tot benchmarks.

Om smartphones koel en probleemloos te laten werken, kan een smartphoneproducent ervoor kiezen om de verwerkingscapaciteit van zijn apparaten te beperken. Dit is tot op zekere hoogte logisch, in die zin dat een roodgloeiende smartphone niet wenselijk is voor consumenten, en ook niet een die de batterij kan leegmaken.

Destijds werd Samsung betrapt op het onderwerpen van een lange lijst apps aan’prestatielimieten’, namelijk het afknijpen om precies die reden. Behalve dat benchmark-apps zoals Geekbench 5 en Antutu helemaal niet werden gesmoord en onbeperkt werkten.

Voor de eindgebruiker zou dit betekenen dat het apparaat goed zou benchmarken, maar dat het bij daadwerkelijk gebruik op een veel lager prestatieniveau zou werken dan verwacht voor veel normale apps.

Hiermee doe je de eindgebruiker in feite tekort door ze te laten geloven dat het apparaat sneller werkt dan in werkelijkheid, althans onder benchmarks.

Benchmarks zijn niet de echte wereld

Het hele punt van een benchmark is dat het u een gestandaardiseerde manier geeft om het ene apparaat met het andere te vergelijken en kennen over het algemeen het verschil in prestaties. De sleutel is standaardisatie, en zoals op veel gebieden van het leven, leidt dat niet noodzakelijkerwijs tot een waarheidsgetrouwe weerspiegeling van de mogelijkheden van iets.

Deze specialisatie gaat zelfs terug naar de specifieke benchmark zelf, want hoewel Geekbench een meer algemene is, zijn er andere met specifieke doelgroepen in gedachten.

Veel gamers vertrouwen bijvoorbeeld op in-game benchmarks zoals die in Rise of the Tomb Raider. Dit is logisch als benchmark, aangezien het een echte game is, kan het beter alleen elementen van de prestaties van een apparaat testen met de behoeften van een gamer in gedachten.

Hoewel Cinebench tests aanbiedt die gericht zijn op GPU’s, is het grotendeels nuttiger voor degenen die in 3D-weergave werken, omdat het meer op dat gebied is gericht dan op algemene 3D-behoeften.

Er zijn ook browsergebaseerde benchmarks, maar hoewel ze nuttig zijn voor degenen die in online-georiënteerde velden werken, zullen ze niet zo nuttig zijn voor degenen die in 3D werken of fervente gamers zijn.

In het ideale geval moeten gebruikers de benchmarktools kiezen die aan hun behoeften voldoen. Geekbench is een eenvoudige en gegeneraliseerde testsuite, maar hoewel het niet de beste is voor specifieke scenario’s, maakt het gebruiksgemak en de algemene aard het ideaal voor testen op de massamarkt, zoals in publicaties.

Toch krijgt u geen volledig overzicht van uw specifieke behoeften, ongeacht welke benchmark u gebruikt. Je krijgt nog wel een indicatie, maar geen zekerheid.

Die sprinter is geweldig op korteafstandsvluchten, maar ze zullen waarschijnlijk niet zo goed zijn in het doen van hun belastingen, of in het weten waar de eieren in een supermarkt liggen. Weten hoe ze zich in een race plaatsen, helpt niet om uw boekhouding sneller af te ronden, maar u weet in ieder geval dat ze fysiek fit zijn.

Evenzo kan een smartphone het goed doen in het uitvoeren van specifieke taken in een benchmark, maar het is nog steeds een benadering van wat u met het apparaat wilt doen. U kunt bijvoorbeeld prioriteit geven aan de tijd die nodig is om biometrische ontgrendeling uit te voeren, of aan de beeldkwaliteit van de camera.

Een benchmarktool geeft alleen een algemene indicatie van hoe een smartphone wordt vergeleken met een andere onder specifieke omstandigheden. Het zal je niet vertellen hoe goed het in je leven zal passen.

Categories: IT Info