论文挑战！你能做出这样的图表吗？（1）

图表是任何学术论文中极其重要的一部分。

我们几乎很难找到一篇完全没有图表作辅助说明的论文，当然有些纯理论的论文可能没有，但如果有一两张好的图表的话那更是锦上添花。正如Edward Tufte——美国统计学家，耶鲁大学政治科学，统计学和计算机科学的杰出教授，数据可视化领域的先驱——他曾经说过：“图表如果用好了，那它将是推理定量信息的不二工具。”^[1]因为几乎所有的学术论文都需要推理定量信息，所以图表是必不可少的。

作为一种学术交流的普遍方式，图表特别适合于快速有效地传递来自复杂数据集的信息。统计分析的目标是数据简化，通过几个简单的度量来表示大量的数据，而图表则保留了数据的完整信息。图表利用了人类大脑的强大功能来识别视觉/空间模式，并快速地将焦点从大图转移到小细节。图表在科学文献中非常流行^[2]，原因很简单，就是它们非常有效。

但就像所有形式的学术交流一样，图表既可以用来解释说明，也可以一不小心造成误解和困惑。因此，制作一张好的图表的首要规则很简单：它们必须帮助揭示数据背后的清晰的逻辑与信息。正如漫无目的的文章往往暗示作者毫无组织的思维一样，一张不能说清楚数据信息的图表通常意味着作者不知道应该通过这张图表明什么。因此，应该对图表的设计和绘制给予足够的重视，就像对学术论文本身的规划与安排一样。

在设计图表时，首先要选择要呈现什么数据。呈现何种数据间接但有力地界定了你想要引以为证的范围，因为读者想要的信息是从更大的数据集中挑选出来的。像魔术师一样，图表制作者只告诉读者他们意在表达的东西^[3]。因此，这一选择可能是最重要的，因为它定义了图表以及论文的观点将会和什么无关。图表代表着论文结果的核心，所以作者不必纠缠于细节。

图表本身的设计应该由数据中的结构以及数据要传达的论点来驱动的。由于大多数图表都期望通过比较的方式来说明观点，基于这种方法来决定哪些数据的呈现决定了所展开的观点的范围。然而，在和强迫你想要讲的观点之间有一条微妙的界限。呈现良好的数据应该鼓励去考虑其他解释，而不仅仅是你喜欢的解释。

总的来说，绘制图表应该遵循以下基本步骤^[4]：

选择要呈现的数据；
界定要传达的消息；
选择支持该数据的图表样式；
绘制图表以寻求清晰度；
然后修改它，直到正确为止。

正如Tufte所指出的^[5]，一个图表的设计和绘制与整体论文的写作没有什么不同——我们需要一个定量的和可论证的因果机制，所以图表，作为使用定量证据来科学推理的工具之一，可以引导我们找到我们想要的结果。因为科学是通过建立模型来归纳我们的实验经验，所以图表应该有助于发现和评估这些模型。

考虑到绘制大型数据集的复杂程度，有很多方法会无意识或者故意地导致图表的表达错误。

不过，即使是正规的科学研究出版物，这些表达错误也会出现——William S. Cleveland在《科学》（1980）第207卷发表的一项研究中发现30%的图表是存在显著错误的，这一数字还是令人感到非常惊讶^[6]。他发现的错误类型分为结构性错误（标签错误、刻度或标记错误、缺失部分重要的结构：占总图表的6%）、绘制错误（图表的某些内容缺失：占6%）、难以辨识（无法区分符号类型、线条样式等：图表总数的10%），说明能力欠缺（图表中有部分内容没有说明，无论是标题还是文字都没有说明：占图表总数的15%）。

顺便说一下，这一统计只包括了有实际错误的图表，而排除了在表述能力上表现糟糕的图表（根据William S. Cleveland的说法，还有更多的图表他没有考虑进统计中）。

自1980年以来，作者们绘制图表的过程发生了很大变化。无处不在的计算和绘图软件很可能降低了某些类型错误的频率。但是，虽然这些工具可以更快更容易地生成高质量的图表，但它们也可以更容易地生成糟糕的图表。由于最常见的错误类型，即对图上内容的不完整解释，是在生成图本身的技术过程之外的，因此我们的软件工具是否对这类错误的产生起辅助作用是值得深思的。不幸的是，很多研究者不得不承认，四十年前，Cleveland所谓的30%的错误率与今天的表现相差不大（大人，时代没变！）。

与学术写作的各个方面一样，诚信在设计和输出图表时扮演着关键的角色。图表是一种强大直观的交流工具，人们必须选择呈递真实的实验数据而不是伪造和故意篡改。Tufte大师还建议运用这些问题来测试你图表是否合格^[7]：

图表反映了真实的实验数据吗?
表述是否准确?
数据是否被仔细记录?
图标格式是否避免了数据被误读?
是否呈现了合理的背景信息以及对比?

除此之外，InVisor芳老师认为还要加上三点……

你所选择的数据是必要的吗?
数据中的不确定性能否得到恰当的评估？
其他人能根据你提供的信息复刻你的结果吗?

最后这个问题，芳老师认为它是学术论文出版伦理中最重要的一部分：要使一个结果具有一定的研究价值，并对科学知识体系作出贡献，就必须对其进行充分的描述，以便他人能够复刻它。

举个简单的例子，任何数轴上没有清晰的数字标记的图表都不能算作是合格的图表，因此审稿是不允许通过的。

在图表的绘制过程中，确保图表的真实性和低错误率将大大提高图表满足其本身承载的目的和整个论文的研究目的的能力。一篇写得很好的论文却没有漂亮专业的图表，人们永远不会记住这是一篇写得很好的论文～

最后，希望各位同学可以给InVisor芳老师赞同，点赞，收藏哦～点击三连，感谢三连鸭！！！！！如果你对于有学术科研有任何想法的话，非常欢迎来狂撩芳老师哟～（一般人不会告诉他的客服微信：invisor003，备注“学术科研”齁）❤️❤️

参考

^ Edward R. Tufte, The Visual Display of Quantitative Information, p. 6, Graphics Press, Cheshire, Connecticut, (1983).
^John W. Tukey, Exploratory Data Analysis, Addison-Wesley, Reading, MA (1977).
^Edward R. Tufte, Visual Explanations, p. 43, Graphics Press, Cheshire, Connecticut (1997).
^Marcin Kozak, “Basic principles of graphing data,” Sci. Agric., 67(4), 483–494 (July/August 2010).
^Edward R. Tufte, Visual Explanations, p. 53, Graphics Press, Cheshire, Connecticut (1997).
^William S. Cleveland, “Graphs in Scientific Publications,” The American Statistician, 38(4), 261–269 (Nov. 1984).
^Ibid., p. 70.