◇◇新语丝(www.xys.org)(xys7.dxiong.com)(xys.ebookdiy.com)(xys2.dropin.org)◇◇

上海科学学研究所技术预见项目造假

作者：员工甲

（内部反映没用，还是发在新语丝吧，附上原始数据。）

　　此事是我最不愿回首的一件事情，作为一名ＸＸ大学的毕业生，目睹这件事
是我人生中最大的阴霾。当确认这件事情的真实性的时候，我几乎不敢相信自己
的眼睛。

　　上海技术预见造假的证据如下：

　　1、《上海技术预见报告》，上海科学技术出版社。此书第32页，关于“发
展路径”的解释，说明“4个选项选择一个即可”。但在原始数据变革的范例中，
发展路径部分却是多选的，有原始数据表格为证。

　　2、生活质量、制约因素部分，在该书中未详细解释是多选，在问卷调查中
却全部为多选。

　　3、在该书第34页，“其他说明”是这样解释的：“生活质量、制约因素、
发展路径下选项的赋值为选择该项的标准人数占参与回答此题标准人数的百分
比”。

　　可是，在实际问卷调查中，在计算这几个部分的数据时，根本没有使用回答
此题的标准人数，而是对每个部分分别计算，将每个部分（比如生活质量）中的
每个选项的有效选项数加起来，然后用其中每个子选项（如生活质量中的人口健
康）除以选项（如生活质量）的总有效选项数。

　　这个算法，虽然在《上海技术预见报告》中前面的解释中并不是这样写的，
但事实上却是这样计算出来的。对此有疑惑可以参考这本书后面的附录，有相关
的部分原始数据（用百分比表示的数据），只要核对一下，就可以发现“生活质
量、制约因素、发展路径”这三个部分，每个部分下的子选项的百分比数字之和
全都是 1。之所以是1，就是因为它实际使用的这个求和后再用每个部分除以总
和得出百分比数据的算法。按照这个算法，子选项之和不是1反倒奇怪了。

　　那么，这个数据处理到底有什么问题？凡是学过数理统计的人，应当都能理
解：既然这几个选项都是多项选择，各个子项之间就是相互独立的，你选了A，
仍然可以选 B，不选B，也不会妨碍选A。如果是单项选择，这个处理数据的方式
是近似的，因为在理想情况下，假设回收的问卷都是完满的，对单项选择的数据
进行处理，理 论上可以证明：给定一个独立于其它部分的选项组，其中的选项
是单项选择，那么每个子选项的有效选项数之和，基本上等同于这一选项组的答
题标准人次。尽管在实际上，这样处理数据也会有偏差（可能会存在漏填和误
填）。

　　可问题是，这些部分并不是单项选择，而是多项选择。这个错误，可以从
《上海技术预见报告》此书前面的说明中加以反推：如果这个数据处理过程确实
是正确的，为什么它要造假，把真正采用的数据处理隐瞒掉，还说发展路径部分
是单项选择，说处理数据采用的是答题标准人次？

　　在实际处理中，这几个部分根本就没采用标准人次的算法。研究这个事情我
当初花了不少时间，想搞清楚有没有标准人次的数据。最后问了半天没有结果，
估计这个标准人次的数据是没用的。当时，我还花了不少时间对数据进行重新演
算，但结果始终不理想。我很希望能获得这个标准人次的数据，然后对数据进行
重新演算，看看对 结果的影响。但后来的进一步的发现，让我很崩溃。因为这
个发现告诉我：即使有标准人次的数据，重新演算也是没有意义的。

　　这是因为：这个数据不只是第二轮是这样操作的，它从第一轮就是这样运算
的。而且，这是德尔菲的调查，数据要反馈给专家，然后促成专家意见进一步收
敛。这也就意味着，在这次调查中，返给专家为其提供的信息是错误的和有问题
的数据，在这种情况下收集反馈回来的数据，算是什么样的数据呢？

用一个多选表格说明错误。
假定这个表格是首轮问卷的一部分，包含3个技术项目
这部分试卷的标准人次是10
A、B、C、D四个选项中打勾的统计人次分布如下：

          A   B   C   D
    ---------------------
1   10   9   6   3   2
    ---------------------
2   10   1   2  3   4
    ---------------------
3   10   0   0   0   5
    ---------------------

按照德尔菲标准计算方式，得出下面的表格：

          A   B   C   D
    ---------------------
1   1   0.9   0.6   0.3   0.2
    ---------------------
2   1   0.1   0.2   0.3   0.4
    ---------------------
3   1   0   0   0    0.5
    ---------------------

按照上海技术预见的实际计算方式，能得出这个表格：

          A   B   C   D
    ---------------------
1   1   0.45   0.3   0.15   0.1
    ---------------------
2   1   0.1   0.2   0.3   0.4
    ---------------------
3   1   0   0   0   1
    ---------------------

　　相比较下会明显发现后一数据处理方式完全歪曲了真实的专家意见分布状况。
技术项1中的A选项，专家打勾人次是最集中的，然而与技术项3的D选项相比，后
一数据处理方式却将其处理成100%的高打勾比率，实际上只有5个专家打勾，反
倒变成了最高比率。类似地，技术选项1同技术选项2之间的意见比率差距，也极
大地失真了。这种求和算百分比的处理方式，当且仅当每一行的选项打勾数恰好
等同于答题标准人次时才会与标准算法一致。而无论当打勾人次大于或小于标准
人次时，都会出现数据处理的失真。像这样的失真数据，在第二轮反馈给专家后，
反倒会误导专家。这样就丧失了德尔菲调查的反馈意义。

　　因此，可以毫不夸张地说，这次调查彻底失败。而且这样的案例堪称德尔菲
调查中经典的失败案例。但是，就是这样一个豆腐渣工程，居然能通过评审，什
么院士，专家，博导，海龟，层层把关形同虚设，最后还能在上海拿到科技进步
奖。这一切是不是在搞笑？

　　如果有人还怀疑这件事的真实性，欢迎作进一步的探讨。有相关原始数据和
证据可以提供。但其实不用原始数据，如果你确实认真学过统计，就凭已经出版
的这本书， 也可以确定调查数据存在问题。很明显的，上面说过的几个选项组
中的子选项，并不是互斥的，那么专家的选择结果构成的百分比之和，怎么毫无
例外地会总是1 呢？

　　这个案例的发生，恐怕绝非偶然。负责这个项目的领导，当时是我的顶头上
司，李某。我曾就这个事情问过他，他满口否认数据有任何问题。 直到今天，
李某作为这一事件最主要的具体事务的负责人，仍然稳稳的坐在领导岗位上，而
且被视为白领骨干精英，继续着一个又一个重要项目，后来还借此评上正高研究
员职称。而且，这恐怕还不简单是哪一两个人的问题，从上海市科学学研究所，
到上海市科委，牵涉这么多人员和这么多经费，像这么重大的项目出现如此严重
的问题，几乎所有人却都视而不见， 全都集体装傻？这一切都是怎么发生的，
最后为什么会弄出这个效果？

　　如果说这件事情确实已经过去，问题已经解决了，那么视而不见也还有点道
理。可是这件事情真的过去了吗？问题真的解决了吗？那么，是不是自我反省和
吸取教训的结果，只是下次招员工的时候只找脸皮枪打不透嘴巴严丝合缝的？下
次出报告出专著的时候，凡是原始数据一律变成国家机密不予出示？下次做项目
的时候，不惜一切违反研究规范，都首先要考虑要让领导满意？如果用这样的方
式来解决问题，那么这样的问题永远都无法解决。

　　谎言毕竟是谎言，它不可能持久。作为这个项目的参与者之一，在发现这件
事情后很久，考虑再三，我还是决定公布这件事情。这是我在很长时间的犹豫不
决之后，终于决定鼓起勇气要做的事情。这件事情可能不会为我带来什么现实利
益，但它肯定是正确的，是我作为一个公民应该做的事情——它会让我睡得更香，
心情更愉快，活的更开心。我也知道，说出这个真相改变不了中国，甚至改变不
了一个小小的研究所。但我还是相信，它肯定可以让一个人性世界变得更加纯粹，
更加美好。

(XYS20121224)

◇◇新语丝(www.xys.org)(xys7.dxiong.com)(xys.ebookdiy.com)(xys2.dropin.org)◇◇