本书发布页面在这里
下载右侧的 "Releases" 并解压,打开 "index.html" 即可阅读。不提供 pdf 版本。
翻译本书的初衷有两点。
其一,中文统计教科书/专著屈指可数。当然这要排除入门级统计教材,因为这已经泛滥成灾了。当统计学专业的学生接受了前两年的本科教学,试图寻找中高级统计学亚学科的教材/专著时——在 2024 年,统计学在中国独立于数学成为单独一级学科的 13 年后——会看到这样的景象:英文专著浩如烟海,中文专著屈指可数。我就想,既然有能力的人不愿意写,没能力的人写不出来,不如由我来翻译吧。为什么是我?不为什么,而要反过来问,为什么不是我?
其二,应用统计界对于方法的滥用误用到了令人发指的程度。这不是统计人的错,而是各行各业研究者对于统计方法的误解、对于统计建模的无知所导致的。这其实很矛盾,因为如果统计人能写出优秀的中文专著,而不是在浩如烟海的英文专著里披沙炼金,会在很大程度上减少如此事件的发生。统计语言本身就已经高深莫测了,再加上自然语言对统计学科学习的阻碍,这是火上浇油的事情。
事实上这两者是“相辅相成”的。大量的中高级统计学方法是通过“计算机语言”来学习的,这类文本是最多的。写这类文本的作者会语重心长的教你怎么“拟合模型”,这行命令代表了模型的哪个公式,输出的结果应该怎么解释?。但我们最好在“几行命令就生成大量统计输出”的浮躁世界中停下来想一想,在“统计语言”、“学科语言”中间插入一个“计算机语言”,这对于学习或者做研究有什么影响?从根本上来说,统计语言是计算机语言的爸爸(当然统计模型的发展离不开算法的进步,现在在很大程度上是相辅相成了),通过计算机语言来学习统计语言就像是“先有儿子后有爸爸”,甚至是直接利用儿子生出孙子(以学科语言表达的研究结论),而不关心爸爸,这令人百思不得其解。当我们用统计软件包做统计分析时,我们需要明确想做什么、正在做什么,以及想做的是否等于正在做的。事实上只有科学地进行了如此的认知和比较的过程,我们才可能得到科学的分析。再加上作者在第 3 章开头说的,我们还需要在学科语言与统计语言之间的灵活转译。
三门语言都十分重要,最不重要的应该是用的最多的计算机语言。为什么?首先,统计学的生命力在于应用,统计学是服务于其他学科的工具学科,从这一点上讲,学科语言是最重要的——身为统计人的我对于统计学没有主要话语权也表示遗憾,但我认为事实就是如此;其次,计算机语言依据统计语言来编写,只有搞懂了统计语言才有可能搞懂计算机语言——否则在统计软件包之间进行切换,会对结果感到一头雾水——若反过来则是本末倒置的笑话。这本质上是一个“质疑xx、理解xx、成为xx、超越xx”的过程。会有人说,时间精力有限,三门语言我不可能同时掌握。或者,会有人试图在有限的时间精力中掌握三门语言,然而这是危险的(如上所述)。这就是统计人的用武之地了:统计学能独立于数学成为单独的一级学科,统计人自身的价值和重要性不言而喻。
当统计世界似乎对 R 等开源软件敞开怀抱时,为什么原书要用 SAS. 我十分认同作者给出的理由,还可在作者所言的基础上加一条。SAS 的全称是 Statistical Analysis System,这可能是当今浮躁世界少有的名副其实了,因为它确实称得上是统计分析系统——统计分析、并且非常系统。
我不敢保证读者会喜欢本书。首先,读者可能会认为原书作者喜欢说教,而不是一上来就写出模型、抛出示例并甩出代码。但至于读者认不认同“忠言逆耳利于行”,这是读者自己的事情;其次,贯穿全书的软件是闭源收费的 SAS,这与许多应用研究者的想法背道而驰。但作者的意图很明显,我们需要慢下来仔细想想统计方法之原理,统计建模之思想究竟是什么。
希望你喜欢,并且希望你在线性模型的世界里玩的开心。