大数据分析:2019NBA中国赛个人利益vs国家利益

这个问题在知乎上昨天半夜出现，到现在十多个小时，每次点击进来，排名第一的答案的赞数总是在发生巨大的变化。有时候是六千多，有时候只剩两千，有时候是一万多，有时候只有几百。但不管城头大王旗如何变幻，唯一不变的是：下次你再点进来的时候，之前排名第一的那个答案已经常常就不见了，被反对到不知道什么地方去了。

等你向后翻页、翻页、翻页，不断翻页，总算在刚刚出现的0赞答案后面翻到这些万赞答案，才会意识到，这些万赞答案到底拿了多少反对票，才能排到这儿呀。

所以，在这个问题里面，我先不评价这场比赛，不评价去看比赛的观众，也不评价其他答案，而是单单评价刚刚说到的这个现象——由于首位赞同被大量反对，造成首位答案不断变化，这会使得出现在问题首位的答案赞数往往比较低。

那么，这类问题的首位答案赞同数除以这个问题的总阅读数，其实就可以体现出这个答案的「意见统一度」。当这个比例比较高的时候，说明问题阅读者赞同回答前几名的概率很高，读者意见统一比较高。反之在意见统低度较高时，则说明问题阅读者反对或赞同前几名的答案的概率差不多，会使首位答案不断变化，赞数始终无法积累。

我将这个指标称之为——首位赞读比。

那么，以目前2019年10月11日下午2点为准，这个问题的前五名回答分别有3033、8764、221、2098、372票，平均每个回答2897.6票，整个问题共有10794746个阅读，那么他的首位赞读比就等于万分之2.68。

然后，我收集了去年一整年来我回答或关注、且阅读量在500万以上的一共20个问题，把他们的前五名答案的赞同平均值除以答案的阅读量，做了一个排序，如下图所示：

第一名是有关上海迪士尼翻包，第二名是教育部是否应该减负，第三名是顺风车司机杀人的责任归属，这三个问题的首位赞读比都在千分之一以上，说明这几个问题大家的「意见统一度」比较高。

这两个问题，首位赞读比都只有万分之二到万分之三，大概只有前几名的20%。

那么，我们能否从首位赞读比的大小，判断出每个读者对答案的赞同/反对概率呢？

答案是肯定的。首先让我们回顾知乎的排序算法

接下来，我们取等于5%双侧置信区间的阈值1.96，做了一个模拟。我们假设一个问题有100个回答，每个答案初始赞同数和反对数都是0-5之间的一个随机数，模拟顺序如下：

1，每次阅读会让读者看到排序前5个回答。

2，读者会对这5个回答给出赞同/反对的评价，赞同/反对取决于这个问题的「意见统一度」，当「意见统一度」接近1时，读者几乎肯定会给出赞同的评价，反之则会给出反对评价。

3，根据威尔逊算法重新排序后，再次呈现排序前5名的回答，重复5000次。

4，将「意见统一度」从0到0.99遍历100次。

这样重复了五十万次试验后，用前5个答案的平均赞同除以5000，计算「首位赞读比」，和「意见统一度」做散点图如下：

可以看到，千分之一到千分之二的「首位赞读比」对应的是0.9左右的意见统一度，也就是10个读者里面有9个会赞同这个答案。

而万分之二到万分之三的「首位赞读比」，对应的是0.6左右的意见统一度，10个读者来看，只有6个会给赞同，另外4个会选择点反对。

10个人里面，6个赞同4个反对。

我写到这里，这个问题的答案已经超过了7000个，其中写答案表达了反对意见的可能不超过5%，大概2%都没有，看起来是一个一面倒的意见。但当前几名的答案呈现给一个随机的读者时，他却有4成的可能默默点下了一个反对。

他们没有发声写出自己的看法，也没有构成「沉默的大多数」，但却构成了「沉默的近半数」。

调查涵盖了2379名被访者，其中包括了被访者的学历、收入、职业，以及对许多问题的看法，其中有一个问题是这样的：

把“不知道”去掉后，结果如下：

15.7%的被访者选择了「反对」或「强烈反对」，55.1%的被访者选择了「同意」或「非常同意」。

分教育程度看则是这样的（每行加总为100，每个格子代表每个学历被访者选项分布）：

如果只看专科、本科、硕士、博士，趋势更加明显：

再来看分家庭年收入情况的分布：

最后再看分职业情况的分布，最右一列是填写该职业的被访者人数：

从这几张表中，我们可以看到，选择了把个人利益放在了国家利益之上的，主要都是哪一些特征的人群。

可是，他们为什么没有发出自己的声音，唯独沉默呢？我找到了一个可能的理由，也是在网民社会意识调查中的一题：

这个问题的回答，和国家利益与个人利益一题的回答，有什么样的关系？

上图的横轴为「个人利益必须无条件服从国家利益」的答案，纵向的分布为「我相信的事情肯定都是对的」的答案。看到「我相信的事情肯定都是对的」从左到右的的「同意」比例从7.01%上升到37.47%，我感觉似乎找到了问题的答案。

推荐阅读