论文挑战!你能做出这样的图表吗?(2)

【心理学】不可饶恕的爱好:连环杀手都在想些什么鬼?
2020年8月15日
【InVisor科研项目体验】科研实验室里的“00后”
2020年8月19日

论文挑战!你能做出这样的图表吗?(2)

伟大的统计学家和图表专家约翰·图基(John Tukey)说过:

一幅图片的最大价值在于它能迫使我们注意到我们从未预料到的东西。

虽然有许多图表形式可以帮助我们实现这一目标,但对科学最有用的是x-y散点图。2012年,据统计,在论文中运用x-y散点图约占所有论文论文图表的1/3,更是约占所有数据类型图表的70%。第一个现代散点图被认为是由发现天王星和红外光的威廉·赫歇尔的儿子约翰·赫歇尔(1792-1871)创造的。

而在1833年,约翰·赫歇尔(John Herschel)借助“眼睛”和“手”——天文望远镜的帮助来做出判断,并利用噪声双星测量的散点图提炼出恒星发现的规律,从而实现了图基的目标。

x-y散点图是“沿着两个轴绘制了两个变量的图表,其中的点根据研究对象的数据来表示这些变量的值,这样就可以看到变量之间的联系形式。”如果x轴描绘了时间,我们通常称之为时间序列图,并且由于时间在因果关系中的独特作用,经常对数据使用独特的分析或解释框架。

这里芳老师只讨论更一般的x-y散点图而不是时间序列图,并且还将忽略大部分x-y散点图作为多变量数据(即三个或更多个变量)的映射的作用。尽管这个作用很有趣也很重要,但芳老师将集中讨论这个最受欢迎的论文图表的基础知识:

  • 怎样才能得到一个好的x-y散点图?

对于所有的图表,其目标应该是让数据有效地显现研究对象的隐藏逻辑。所以好图表的第一条规则,正如芳老师上一篇提到的一样,就是它必须有助于揭示论点。x-y散点图的设计和绘制可以帮助或甚至是阻碍这一目标。虽然芳老师可以讨论图表怎样帮助数据研究和数据表达,但这里俺更想说一说后者。

虽然芳老师只有一些亲身经历(所以不算是统计数据)作为证据,但俺确信大多数学生为了图方便会倾向于使用Microsoft Excel绘制他们的x-y图(以及他们论文中的大多数其他图表)。当然,Excel有时候绘制并不是不可以,在国外的有些期刊其实是认可的。因此,芳老师的第一个示例将解释如何将经Excel制作的非常糟糕的默认散点图转换为国外科学期刊审稿人可接受的图表。

这个例子其实很简单:一个(虚构的)实验数据图和一个对数据建模的方程。图嘛,芳老师就放在下方了。下面是芳老师在Excel中完成的从默认图表“改装成”最终图表的一系列步骤。芳老师假设最终的图表将以一页两图的格式排版进一页内。对于其他页面格式的期刊,可能需要对这些方向进行一些调整。

1. 设置图表面积大小为高12.7厘米,宽17.1厘米(这是大多数期刊所要求的最终尺寸的2倍,但是发布后会缩小50%,所以这样的散点图可以放在一列中)。如果数据显示一个出更好的形状(长得很“正常”,有内味儿),可以根据需要调整图表区域高度,但这里使用的4∶3宽高比是一个很好的默认值。

2. 设置图表的字体大小为14点(在缩小50%的图形后,它们最终会是7点)。

3. 如果图例不是特别需要,就删掉它(如果合适的话,尝试在图中添加标签,而不是使用图例)。

如果使用图例,看看在绘图区域内是否有空间放置它。在上面的例子中,使用符号和直线方程意味着图例可以嵌入到标题中。

4. 删除所有网格线。

5. 将轴线颜色从灰色(Excel的默认值)更改为黑色,并设置为1点的粗细。

6. 将大刻度改为“与数轴相交”,小刻度改为“置于数轴外围”。

7. 将图表区域格式化为无边框。

8. 将图表区域格式化为实心黑色边框(1点厚)和无填充。

9. 设置“轴交叉”点,使两个轴在左下角相交。

10. 调整坐标轴数值,使其具有适当的小数点后数量。

11. 如果有必要,调整轴的最小值和最大值(Excel的默认值通常很难受)。要知道,我们的目标是让数据几乎占满所有的图表空间,但要尽量避免数据点重叠到图表区域周围的实线上。

12. 添加轴标题,设置为18点(如果标题太长,就设置小一点),不加粗,并使用旋转的垂直标题。

13. 格式化“数据”,使其具有适当的颜色、图标或风格,以最大限度地提高数据之间的可读性和区别。我通常为我的线条使用1.5点的权重(默认的2.25太粗了),当同时绘制多个内容时,我首选的符号是开口圆。

14. 如果使用线段连接数据点,千万不要打开“线性平滑”特性。

15. 确保没有主标题。

16. 如果这样做有助于解释数据,则最好在图中添加基线,但默认情况下不包括y轴。

17. 推荐:在图形区域边框的右侧和顶部打勾(这在Excel中是很棘手的,但可以使用“二级轴”)。

(⚠️注意:步骤的确有很多,但是每漏掉一步都会得到一个不太完整的图表!!!)

要知道,绘制图表也是美学的一部分,因为使图表更悦目通常等同于使其更具可读性。例如,开口圆符号能够使人们看到符号后面的线和其他数据点。在原来的实方符号图中,你能辨识出在x=-1和x=3.4处有多少个数据点吗?当使用多个符号时,一定要考虑符号的大小和形状,以便在重叠时获得最大的可见性。

另外一个例子(图也在后面哒~)展示了如何将标签放入图表中以避免来回引用图例。

芳老师经常遇到的一个问题是,带有数据的图没有使用完图表区域中的空间。

比如,一个作者收集了实验数据并希望图表能够显示他们所测试的激光有多稳定(见下图),所以他们将y轴范围扩大到数据范围的10倍。但这样的话,我们却看不到数据的变化了。那么,何必费心去制作这个图表呢?即使没有接近于零的数据,也可以通过在y轴尺度上加入零来获得类似的效果(想象一下用开尔文表示地球表面温度的图表,然后从y轴的零开始——科学家一直强调的全球变暖将“消失”——因为看起来全球温度没啥变化)。

芳老师想借用这个例子来提醒大家而不仅仅只是说说而已——使用图表有时候会隐藏而不是更好地展现实验结果

如果数据中没有什么值得看的,就应该用简单的统计信息来替换图表:平均值、标准差、输出的最小/最大值,或许还可以加上一个声明,即线性回归给出的斜率在统计学上与零相差不大。如果数据中有值得看的内容,那么调整y轴比例,以便可以看到。

对于同学们使用x-y散点图还会出现其他的错误方法,有些方法不像前面的例子那样微妙。无单位的数轴是那些至少不希望展现全部数据结果的人的最爱,但没有明确标记的轴是绝不允许的。对y轴使用“任意单位”的同学,芳老师不能完全否定这种做法是错的,因为在某些情况下,这样的标签是合适的(相对的度量,基于个体实验未校准的标准,可以用来比较类似的度量)。

一个常见的例子是光谱分析中使用的相对强度:不喜欢任意的单位,但有时是必要的。不应该使用任意的单位来隐藏作者不想透露的已知单位。此外,任意单位有任意的比例尺,但没有任意的零点。因此,当使用任意单位时,图表必须在刻度上标记零点。

x-y散点图的一个常见而重要的应用是比较不同的图(因此增加了第三个变量,有时更多)。比如下图就显示了一个2×3的图表倍数数组,匹配x轴和y轴的比例,便于比较。对于小倍数,可以比较更多的图形。

当展示结果时,一个好的图表就像一个好的科学理论——一旦你看到它,一切都是有意义的。但要达到这一点,需要慎重和考虑。在芳老师上一篇文章中,咱们在较高的层次上讨论了如何制作好的图表。在这里,芳老师针对特定类型的图表——运用比较广泛的x-y散点图——进行了说明。同学们不妨试一试以这种方式来制作图表,芳老师希望,这些图表能帮助作者实现有效沟通的目标。

最后最后,如果大家喜欢就点个赞和收藏呗!InVisor芳老师给你们比个小心心~

大家若有对于科研辅导、论文发表有任何想法的话,非常欢迎来狂撩芳老师哟~(一般人不会告诉TA的客服微信:invisor001,备注“知乎学术科研”齁)

发表评论

电子邮件地址不会被公开。 必填项已用*标注