栏目前言
这算是一个全新的栏目,算是一种尝试。因为兰拓菌本人并非文科(政治/经济/法律类)专业,相关知识多来自于自学等渠道,故可能相对于理工篇的键摄科普会出现一些不严谨和疏漏,在此希望大家能多多宽容并加以指正(鞠躬
文章前言
相对于“做蛋糕”的理工科,文科(或者说特指政治/经济/法律类,下同)更倾向于研究如何“分蛋糕”,也就是以最小的社会开支来尽量确保最大多数人的利益。当然这个设定非常理想化,呃,实际上理工科也非常理想化,就像之前讨论键摄知识,没少说“理想传感器”和“理想镜头”这两个物理模型一样。
用到评(jian)测(she)上,也是分工明确——理工科知识负责测量与数据处理,文科知识确保能够以最小的偏差给出最多数人信服的结论。然而,就像上面这一段所说,这也是一种十分理想的状态。本篇文章,就是来试图从理论上阐述一下这个问题。
关于得分与综合评价机制
实际上,我们在评测当中给出的都是单项数据,而最终的“总结”,是由这些单项数据产生的。仔细想一下这像不像普选制下的民主选举制度?把每一个单项成绩看作一位选民,它们每人手里有若干张选票,用于选出最终胜利的那台相机或者说那支镜头。我们接下来的问题讨论,也是基于这个模型。
乍一看,这没什么太大的问题,现代采用选举制度的地方,都是这么个游戏规则,大家手握选票去投。但是选票还是那个选票,最终采用不同的计票规则,其结果也会大相径庭。
既然要选举投票,就首先要设计选票。最简单的选票设计就是——一个选民仅持有一张选票,并且只能把它投给一位候选者或者弃权,得票数最多的候选者胜出。这个方案非常古典, 在投票理论里,这种方式被称为“多数投票制”,或者叫古典投票制,其思想依据是:得到最多票数的那个候选者最能得到选民们的集体拥戴。这个模型放到键摄得分评价里,就是“每一项只给一位被钅宀的胜者,胜1项积1分,出现平则各积0分(等于“选民”弃权),最终积分最多者获胜”。
这是一种最简单,也被采用最多的评价方案,各种AvsB的比赛,比如足球篮球都是类似这种的方案。回到键摄,包括前两天DPReview的D850 vs A7R3评测,也是采用了类似这种的评价方式,只不过二者很多都是打平,单项各计0分,最终给出了一个差不多的评价。
采用累进积分的方式来作图,我们可以清晰的看到DPReview给出结论的投票机制。(声明:截图和链接均转载自DPReview评测,不代表本XXX赞同或支持其结论)

DPReview评测原文链接:Nikon D850 vs Sony a7R III: Which is best?有兴趣的可以点进去看一下。
古典计数法的缺陷与波达计数法
这种单项对拼最终决胜的方案,虽然简单,但是也有明显缺陷。公元18世纪, 法国数学家让-查理·德·波达(Jean-Charles de Borda)指出,上述规则只适用于候选者/参赛者仅为两人的情况,在有三个或更多候选人的选举活动中,最终获得票数最多的那个人未必代表全体选民的真正心愿。
道理很简单,在一个极端的环境下,可能存在两强一弱,两强实力旗鼓相当,但是最弱的那个弱鸡有一个可能并不很重要的单项第一。结果两强对拼都是打平,一直打到最后一项都是0:0:0。而弱鸡却靠着单项第一最后把分数扳成0:0:1,最终大吉大利晚上吃鸡。

这种情况说成“苟到最后1杀吃鸡”貌似更容易被(ceng)理(re)解(dian),在游戏里其实无所谓,大家都图个乐嘛。但是这种规则用于严谨的、多人参与的比赛显然是有漏洞的(这也是之前有人质疑吃鸡游戏能否成为正式电竞项目的一个理由),回到评测中,假设D850和A7R3都弥补了各自在上面DPReview评测里提到的各自的缺点,再拉个6D2(我知道跟前面两部机不是一个定位,但举极端例子就要这么举)进来做横评,玩到最后D850和A7R3全部打平,6D2一项没赢,积分0:0:0,最后,来比个屏幕吧,喔,不得了,0:0:1了,所以6D2最终获胜——显然这作为一个严谨评测的结论,是非常扯淡的。(至于某些“评测媒体”利用古典投票规则的缺陷蓄意这么写软文的行为,在此表示强烈的批判和反对)
回到波达计数法上来, 波达在1770年设想的方法是用一个特定的分数表示一个特定的名次,把每一张选票上的候选人排名名次转换成一串相应的数字,然后把所有选票上每个候选人各自得到的分数全部加在一起,算出代表该候选人排名总情况的一个综合分数,再把全部候选人的综合分数放在一起比较大小,最后得出他们的总排名。这种方法就被命名为“波达计数法”(Borda Count)。
波达计数法的操作上有两种方式, 一种是用某个候选人击败的人数表示。比如在有4个候选人的选举中,排在第1名的候选人因为击败了3个人所以得3分。同理,第2名得2分,第3名得1分,第4名得0分,最后累计得分最高者获胜。另一种是排名第几然后反序积分。比如在有4个候选人的选举中,第1名得3分,第2名得2分,第3名得1分,第4名得0分,最后累计得分最高者获胜。两种方法本质上是一样的,只是一个思路和计算法的区别,可以不做区分。
这种就相当于吃鸡游戏不是比谁苟到最后,而是改为KDA机制(我知道这个游戏没有助攻,但是都习惯这么写了,就这样吧),1杀吃鸡LYB显然在这个机制下占不到优势。回到之前类比的评测中来,前6项中修改了缺陷的D850和A7R3都击败了6D2所以积1分,最后比屏幕6D2击败了A7R3和D850所以积2分,在这个评测里最终的结论是6:6:2,D850和A7R3在改进各自缺点之后打平,6D2落败。
波达计数法虽然以法国数学家波达的名字命名,但实际上早在公元2世纪就已被古罗马议会采用。此外,它还曾被斯洛文尼亚、瑙鲁等国用于政治选举。有多人/多队伍参加的体育比赛是使用波达计数法最多的场合,橄榄球之类的最常用,足球世界杯小组赛的积分赛制也可以看作是一种变体的波达计数法。
波达计数法的缺陷
波达计数法虽然解决了古典投票计数方式中LYB的问题,但是本身也并非完美:首先波达计数法要求每个选民/队伍/选项都要排出一二三四五的顺序,这本来就很麻烦,还好相机镜头评测一般都是CNS三家,顶破天CNSOPFSYLPH十一家,做大横评排个序也不是很难。但是如果是几百上千……呃,想想就头疼。
波达计数法的另一个缺陷是投票结果人为操纵起来很容易,或者放到评测当中就是依然很容易利用这种机制来故意造假。最常见的一种情况是,选民们为了帮助自己最偏爱的候选人获胜,或者评测机构为了吹某台机器,常常会把最有力的竞争对手排在最后,以此来最大限度地降低该对手的累计得分。
我们举个例子来说明这个问题,假设我们不是评测,而是由100个人给心目中的相机排个顺序,我们加入一台宾得K-1,这样的话,理论上一共有4!=24种排序,但是为了讨论方便,我们假设其中的大部分组合没人投,实际投出了这么一个票数:

按照波达计数法的积分机制,我们来进行计算:
尼康D850:51×3+5×0+23×0+21×0=153
索尼A7R3:51×1+5×2+23×3+21×1=151
宾得K-1:51×2+5×3+23×2+21×2=205
佳能6D2:51×0+5×1+23×1+21×3=91
最终宾得K-1胜出。
然而很明显我们发现这违背了少数服从多数的常识——明明是投D850第一的人最多啊?然而这并没有什么卵用,其它三家的粉丝都觉得尼康药丸,或者D850影响自己支持的机器排第一,都把它放到了最后,这直接把宾得给送成了第一,得到了一个明显不科学的结论。
而且支持宾得第一的人,从人数上来看还是最少的。
换成测试项目也一样如此,如果一个编辑想吹个宾得(虽然这种情况感觉基本不可能……),那他大可以拉两个炮灰陪练,按这种思路去设计测试项目,或者再不要脸一点给项目乘个人为设定的权重作为杠杆,得到一个“看起来非常严谨”的评测结论。换言之,波达计数法被人为操控的可能性不低,同时并不能完全反映真正的多数民意。
孔多塞(Condorcet)投票制
为了避免波达计数法的缺陷,孔多塞(我真是非常想吐槽这个中文翻译)在1788年发表了他所提出的计票方法,简单来说,就是两两对比,票多的赢,票少的输,最后按谁的赢数最多来积分,积分最多者胜。
投票的方法依然是一样的,还是给参赛选手来一二三四排个序,所以我们继续用前面那个案例:

按照这种投票机制来计算前面那个表格里的分数,我们就会发现:
D850排在A7R3前面的票数为51票,A7R3排在D850前面的票数为49票,所以D850>A7R3;
A7R3排在K-1之前的票数为23票,A7R3排在K-1之后的票数为77票,所以K-1>A7R3;
D850排在K-1之前的票数为51票,……
6D2排在A7R3之前的票数为21票,……
原理就是这个原理,不一一计算了。总之D850赢了。
孔多塞计数法最大的优点就是被人为操纵的可能性降低,因为两两之间都需要比较,而且细微的数据很多时候能反映出一些问题(比如上面这个案例D850虽然赢了但是优势并不大)。以及,可以反映多数的、压倒性的民意(一旦有某位选手拿下过半票数/项目便可直接钅宀胜利,原因也只需显然二字)。
当然它也并非完美,这个计数法第一个缺点就是超麻烦,需要两两都比出来,参赛选手稍微一多计票就极度繁琐,所以在计算机大规模普及的时间点之前并没有怎么在实践中采用。
另外一个就是项目少的时候反而很容易陷入阿罗悖论,比如回归A7R3、D850、6D2的对决,只对比LV能力、屏幕、像素数这三个极端选项:
LV能力:A7R3>6D2>D850;
屏幕:6D2>D850>A7R3;
像素数:D850>A7R3>6D2。
然后就会发现……按孔多塞规则,这三台机器A7R3>D850,D850>6D2,然而6D2>A7R3,因为这三个选项的排名正好首尾循环,此时无法决出胜负,因为由投票结果导出的三个结论互相矛盾。
那么如果我们要自己设定一个评分制度呢?
回顾之前的两种多选项计票方法我们可以发现,一个完美的投票制度,或者说评分机制,必须拥有以下五点要素,叫作阿罗公理(实际上举上面两种投票制度是为了说明下面的第二点和第三点是多么的脆弱,因为第1、4、5点基本不会有什么问题):
- 确定性:如果所有项目中A都击败了B,则A击败了B。
- 这个基本可以认为是公理性质的认知,应该不会有人反对吧。
- 自洽性:如果选项A击败了B,B又击败了C,那么就一定能够推出A击败了C的结论
- 孔多塞循环就是这种情况的反例,优秀的方法不应该允许这种情况出现。
- 独立性:选项A和B的对比,不应该受到选项C的影响
- 波达计数法没有满足这个条件。因为它本质上是按名次设定分数的。极端一点来说,比如我们加入参赛的机器是不是宾得K-1,而是IQ3100+Alpa 12 STC,后者没法自动对焦,所以无法参与这个项目,其它参赛机型的自动对焦得分会因为这个而产生变化,这显然是不合适的。
- 任意性:所有投票人就备选方案所想到的任何一种次序关系都是实际可能的。你不能因为自己喜欢A7R3,就不让别人选D850
- 不能钅宀:这个就很明确了,假设我们给便携性10000票,其它画质对焦什么的加起来一票,那把其它的三台机器打包起来拿锅砸也赢不了A7R3
那么,有没有一种评分方式可以完美的满足以上五要素呢?

不存在的。
1972年度诺贝尔经济学奖获得者,美国经济学家肯尼思·J·阿罗提出并证明了“阿罗不可能定理”,这个定理的结论让我们非常不安——
当至少有三名候选人(参赛选手)和两位选民(项目)时,不存在满足以上五条阿罗公理的选举(积分)规则。
这个定理的证明有好几种方法,而且——不要一提证明就打怵,这个定理的证明并不需要什么数学公式上的推理和运算,但是需要能不被绕晕的严谨逻辑能力。
放一种比较容易看懂的证明出来,供学有余力的读者学习一个。
(1) 首先定义对于备选方案x和y的决定性集合, 记作D, 它指的是, 只要这个集合中的所有成员都偏好x> y, 即使其他人都偏好y> x, 集体也将选择x> y;
(2) 假定D中的所有成员都偏好x> y> z, 而所有非D中的成员(构成集合N)都偏好y> z> x(自洽性);
(3) 由(2)及决定性集合定义, 集体将选择x>y;
(4) 若所有个人都偏好y> z意味着集体将选择y> z;(确定性)
(5) 由上面(3), (4)及理性条件之传递性公理(自洽性), 集体将选择x> z;
(6) 由(2)知, 只有D中成员偏好x> z, 虽然前面只定义D为对于x和y的决定性集合, 但是, 对于确定的集合, 集体对于备选方案x与z的选择仅仅由其成员对x和z的偏好所确定, 而与方案y无关, 因此, 可由决定性集合的定义知, D也是对于备选方案x和z的决定性集合;
(7) 重复(1)到(6), D对于每一对备选方案都可以是决定性的;
(8) 由非独裁性(不能钅宀), 集合D中应包含两个或更多的个人;
(9) 可将集合D分为两个非空的子集, A和B, 并设A中的所有成员都偏好x> y> z, B中的所有成员都偏好z> x> y, 非D集合N中成员的偏好仍为y> z> x;
(10) 由于D中成员被分为两类, 上面(4)不再成立, 即, 需重新考虑集体在y和z之间的选择, 由于不知集合A, B, N中各有多少成员, 所以, 有必要分别考虑可能出现的三种结果: y>z, y<z, 或z与y无差异;
(11) 先考虑若集体选择的结果为y> z或y与z无差异的情形, 由D的定义, 已知x> y, 再按传递性公理, 则有集体偏好x> z, 而只有D的子集A中的成员才有此偏好, 依决定性集合的定义可知, A为对x和z的决定性集合;
(12) 再考虑若集体选择的结果为y< z的情形, 由(9)中的假定得知, 只有D的子集B中的成员有此偏好, 依决定性集合的定义可知, B为对x和z的决定性集合;
(13) 由(11), (12)及对A, B的假定可知, 原来的决定性集合D可以缩小为或A或B;
(14) 无论新得到的决定性集合是A还是B, 重复(8)到(13), 可进一步缩小决定性集合的成员数, 直到只剩下一个成员为止, 而一旦如此, 就意味着这一个成员的集合将成为决定性的, 亦即这个人被钅宀, 非独裁性条件遭到破坏。至此, 阿罗所给出的前四个合理条件与第五个合理条件出现了冲突, 阿罗不可能定理得到了证明。
为何要慎谈“综合第一”
这个定理及其证明过程告诉了我们一个键摄结论:
在多于两台相机/镜头,多于一个评测项目的测试(第2、3条)当中,除非某单品能毫无争议(第4、5条)的拿下所有单项第一(第1条),否则得出“综合第一”的结论其过程必然违反了至少一条阿罗公理。
(吐槽:网络对喷实践当中一般违反的都是第四或者第五条)
如果要在不违反阿罗不可能定理的前提下作出评测结论,非要给出综合第一,实际上,也有那么几个办法:
1、只做AB两机对比,那直接选大家公认的若干项目,用古典计票法就行了,其实我也挺喜欢的,乐得轻松(手动滑稽),然而DPReview竟然哑火了没给出综合第一,……
2、只做单项对比,比如有明确定义和测试条件下的,某个ISO点位的宽容度or高感画质,赢就是赢输就是输,还能拉个天梯图出来,除了测试的误差和可能产生的错误之外,得出结论的流程并没有问题。
3、最终结论不用子项结论产生,而是主观点评或者另立标准
这也是很多评测(DxO也疑似)和试用体验文章常用的方式,当然也会或多或少的招喷,毕竟一千个人眼里有一千个XX这种句式,XX是相机也很正常
4、直接违反第五公理去钅宀
这个……不多说了
实际上,从这一个定理出发,我们不仅发现谈综合第一是很不科学的做法,同时,对于某些喜欢动不动把客观挂嘴边,尤其是拿来要求别人的人……
这个世界本源上都不容许你客观,你靠什么来客观?
参考文献&书单
《经济学原理》(曼昆)
《A Course in Game Theory》 ( Martin Osborne & Ariel Rubinstein)
《沉默的决策者:法国公民投票制度化进程研究》(孙一萍)
《理性选民的神话 为何民主制度选择不良政策》(Bryon Caplan)
维基百科相关词条

暂无评论,快来添加评论哦