数据可视化发展历程

数据可视化是数据描述的图形表示,是当今数据分析发展最快速、最引人注目的领域之一。借助于可视化工具的发展,或朴实,或优雅,或绚烂的可视化作品给我们讲述着各种数据故事。在这个领域中,科学、技术和艺术完美地结合在一起。

数据可视化一般被认为源于统计学诞生的时代,并随着技术手段、传播手段的进步而发扬光大; 事实上,用图形描绘量化信息的思想植根于更早年代人们对于世界的观察、测量和管理的需要。本节将探索数据可视化的发展历程。

01、数据可视化的起源

欧洲中世纪晚期是一个孕育着新纪元的时代。经济发展和文艺复兴点燃了欧洲人对人文和科学知识的追求,现代科学开始蹒跚起步。同时地理大发现如同大爆炸一般,把一个有待探索的新世界呈现在西欧人的面前,商人和探险家等满怀着对财富、贸易或者知识的渴望登上了驶向远方的航船。面对未知的新世界,很多新的科技,如绘图学、测量学、天文学等在迅速地更新着人们对世界的认识。

在16世纪,天体和地理的测量技术得到了很大的发展,特别是出现了像三角测量这样的可以精确绘制地理位置的技术。到了17世纪,笛卡儿发展了解析几何和坐标系; 哲学家帕斯卡发展了早期概率论; 英国人John Graunt开始了人口统计学的研究。数据的收集整理和绘制开始了系统的发展。这些早期的探索开启了数据可视化的大门。

02、18世纪——新的图形符号出现

18世纪是一个科学史上承上启下的时代。在这个世纪开始的时候,牛顿爵士已经在苹果树下发现了天体运动的伟大方程,微积分建立起来了,数学和物理知识开始为科学提供坚实的基础; 在这个世纪里,化学也摆脱了炼金术,开始探索物质的组成; 博物学家们继续在世界各地探索着未知的事物。社会生活也在发展,在这个世纪稍晚的年代,英国开始了工业革命,从此社会化大生产深刻地改变了整个世界——技术成为科学的另一条主线,社会管理也走向数量化和精确化。

与这些社会和科技进步相伴,统计学出现了早期萌芽。一些与绘图相关的技术也出现了,如三色彩印(1710)和平板印刷(1798)(后者被当今学者称为如同施乐打印机一般伟大的发明)。数据的价值开始为人们所重视,人口、商业等方面的经验数据开始被系统地收集整理,天文、测量、医学等学科的实践也有大量的数据被记录下来。人们开始有意识地探索数据表达的形式,抽象图形和图形的功能被极大地扩展,许多崭新的数据可视化形式在这个世纪里诞生了。

这些新的图形创新涵盖很多图形领域。

在地图中,出现了以等值线(Edmund Halley,1701)以及等高线表示的3D地图(Marcellin du Carla-Boniface,1782)。比较国家间差别的几何图形开始出现在地图上(Charles de Fourcroy,1782)。时间线被历史研究者引入,用来表示历史的变迁(Priestley,1765)。

法国人Marcellin du Carla-Boniface绘制的等高线图(见图1-1),用一条曲线表示相同的高程,对于测绘、工程和军事有重大的意义,成为地图的标准形式之一。

特别重要的是,在后来被人们作为基本图形使用的饼图、圆环图、条形图和线图也出现了。

03、19世纪前半叶

19世纪前半叶是最好的时代也是最坏的时代。科技在迅速发展,工业革命从英国扩散到欧洲大陆和北美。但是财富的增加并未同步地改善社会生活,各种革命在这个时代里层出不穷。但对数据可视化来说,这是一个快速发展的好时代。随着社会对数据的积累和应用的需求,以及技术和设计的进步,现代的数据可视化——统计图形和主题图的主要表达方式,在这几十年间基本都出现了。

在这个时期内,数据可视化的重要发展包括: 在统计图形方面,散点图、直方图、极坐标图和时间序列图等当代统计图形的常用形式都已出现。在主题图方面,主题地图和地图集成为这个时期展示数据信息的一种常用方式,应用领域涵盖社会、经济、疾病、自然等各个主题。

(1) 主题地图和社会学的发展。

在1801年,英国地质学家William Smith(1769—1839)绘制了第一幅地质图,这幅描绘了英格兰地层的信息图在1815年出版后引起轰动,引领了一场在地图上表现量化信息的潮流。

1826年,法国男爵Charles Dupin发明了使用连续的黑白底纹来显示法国识字分布情况的方法,这可能是第一幅现代形式的主题统计地图。

(2) 霍乱地图与传染病的研究。

19世纪上半叶的欧洲,伴随工业迅速发展的是城市的扩张和人口的增长,但是公共管理并未能与时俱进。城市居民极易受到传染病的侵害。1831年10月,英国第一次暴发霍乱,夺走了5万余条生命。在1848—1849年和1853—1854年的霍乱中,死亡人数更多。霍乱传播因何而来又如何传播?可视化最终给出了答案。

1854年,英国Broad大街大规模暴发霍乱,John Snow对空气传播霍乱理论表示了怀疑,于1855年发表了关于霍乱传播理论的论文。John Snow采用了点图的方式,图中心东西方向的街道即为Broad大街,黑点表示死亡的地点。这幅图揭示了一个重要现象,就是死亡发生地都在街道中部一处水源(公共水泵)周围,市内其他水源周围极少发现死者。通过进一步调查,他发现这些死者都饮用过这里的水。后来证实离这口水泵仅3英尺(1英尺≈0.3048米)远的地方有一处污水坑,坑内滋生的细菌正是霍乱发生的罪魁祸首。他成功地说服了当地政府废弃那个水泵。这是可视化历史上的一个划时代的事件。

(3) 提灯女神的玫瑰图。

玫瑰图即极坐标面积图(Polar Area Diagram),将极坐标平面分为若干角相等但面积不等的区域,适合表示周期循环的数据。这种图形可以被视为饼图的一个变种,又因为每个扇区区域面积不同,又称玫瑰图(也称为风玫瑰图)。

在克里米亚战争期间,南丁格尔通过搜集数据发现,很多人死亡的原因并非是“战死沙场”,而是因为在战场外感染了疾病,或是在战场上受伤,却没有得到适当的护理。

为了解释这个原因,并降低英国士兵的死亡率,她绘制了这幅著名的图,并于1858年送到了维多利亚女王手中。这幅图中一个切角是一个月,其中面积最大的灰色块代表着可预防的疾病。这幅图真的很厉害,为什么呢?第一,它用面积直观地表现出了一个时间段内几种死因的占比,让任何人都能看懂; 第二,它还很漂亮,像一朵玫瑰花一样。它为什么要那么漂亮?因为这幅图的汇报对象以及最终的决策人是维多利亚女王。南丁格尔的故事告诉我们: 数据可视化是为了更好地促进行动,所以要让行动的决策人看懂。

04、19世纪下半叶的黄金时期

19世纪下半叶,系统地构建可视化方法的条件日渐成熟,进入了统计图形学发展的黄金时期。值得一提的是法国人Charles Joseph Minard,他是将可视化应用于工程和统计的先驱者。其最著名的工作是1869年发布的描绘1812—1813年拿破仑进军莫斯科大败而归的历史事件的流图。

这幅拿破仑1812年的远征图被后世学者称为“有史以来最好的统计图表”。这场战争以法国军队的惨败而告终,侵入俄国的42万人最终生还者仅数万。造成法军损失惨重的原因,除了俄罗斯人的顽强抵抗,还有恶劣的自然条件,特别是1812年冬季的严寒。

这幅远征图反映了这场战争全景,其经典之处在于在一幅简单的二维图上,表现了丰富的信息: 法军部队的规模、地理坐标、前进和撤退的方向、抵达某处的时间以及撤退路上的温度。这张图对1812年的战争提供了全面、强烈的视觉表现,如撤退路上在别列津河的重大损失、严寒对法军损失的影响等,这种视觉的表现力用历史学家的文字是难以比拟的。

05、19世纪前半叶

19世纪下半叶,系统地构建可视化方法的条件日渐成熟,进入了统计图形学发展的黄金时期。值得一提的是法国人Charles Joseph Minard,他是将可视化应用于工程和统计的先驱者。其最著名的工作是1869年发布的描绘1812—1813年拿破仑进军莫斯科大败而归的历史事件的流图。

这幅拿破仑1812年的远征图被后世学者称为“有史以来最好的统计图表”。这场战争以法国军队的惨败而告终,侵入俄国的42万人最终生还者仅数万。造成法军损失惨重的原因,除了俄罗斯人的顽强抵抗,还有恶劣的自然条件,特别是1812年冬季的严寒。

这幅远征图反映了这场战争全景,其经典之处在于在一幅简单的二维图上,表现了丰富的信息: 法军部队的规模、地理坐标、前进和撤退的方向、抵达某处的时间以及撤退路上的温度。这张图对1812年的战争提供了全面、强烈的视觉表现,如撤退路上在别列津河的重大损失、严寒对法军损失的影响等,这种视觉的表现力用历史学家的文字是难以比拟的。

06、20世纪上半叶

20世纪上半叶,数据可视化最重要的影响是在天文、物理、生物和其他科学领域中。图形方法被广泛应用在新发现、新思想和新理论的过程中。其中主要包括: ①E.W.Maunder(1904)的蝴蝶图,研究了太阳黑子随时间的变化。他发现1645—1715年太阳黑子的频率有明显减少。图1-2是由NASA按照Maunder方法绘制的蝴蝶图; ②Hertzsprung-Russell图(1911),作为温度函数的恒星亮度的对数图,解释了恒星的演化,成为现代天体物理的奠基之一; ③Henry Moseley关于原子序数的发现(1913),这也是基于大量的图形分析。

在这个时期稍晚的阶段,统计和心理学上的一些多维数据可视化的思想和方法提供了超越二维图形表现的动力。

在主题图方面,这个时期的一个有意思的创新是关于伦敦地铁图(见图1-3)的设计,并由此产生了Tube Map这样一种交通简图的表现手法。早期的地铁图与普通地图无异,对乘客来说,地理信息充分但远非简明直观。1931年,身为电气工程师的Beck重新设计了伦敦地铁图,使之具有三个比较明显的特点: ①以颜色区分路线; ②路线大多以水平、垂直、45°三种形式来表现; ③路线上的车站距离与实际距离不呈比例关系。其简明易用的特点使其在1933年出版后迅速为乘客接受,并成为今日交通线路图形的一种主流表现方法。

07、20世纪下半叶至今——数据可视化的创新思维时代

引领这次大潮的首先是一个划时代的事件——现代电子计算机的诞生。计算机的出现彻底地改变了数据分析工作。1957年,出现了第一个用于计算的高级程序语言FORTRAN,从此用于统计数据的高效的计算机处理工具开始慢慢出现。到20世纪60年代晚期,大型计算机已广泛分布于西方的大学和研究机构,使用计算机程序绘制数据可视化图形逐渐取代手绘的图形。计算机对数据可视化的影响是提供了高分辨率图形和交互式图形分析,实现了手绘时代无法企及的表现能力。

其次是唤醒可视化的历史事件是统计应用的发展,这是一个可能缓慢但是坚定地慢慢深入的过程。数理统计把数据分析变成了坚实的科学,第二次世界大战后的工业和科学发展使数据处理这门科学运用到各行各业。统计的各个应用分支建立起来,处理各自行业面对的数据问题。在应用中,图形表达占据了重要地位,比起参数估计、假设检验,明快直观的图形形式更容易被人接受。

下面来看一下这个时期的一些新发展。

(1) 美国统计学家John Tukey是较早认识到统计作为应用学科价值的数理统计学家之一。1962年,John Tukey发表论文呼吁把实践性的数据分析作为数理统计的一个分支。随后,他投身于发展新的、简单有效的图形表现之中,创造了茎叶图

(Stem-Leaf Plot)、盒形图(Box Plot)等我们今天常用的图形。

(2) 除了John Tukey的各种描述性数据图形,统计图形领域在这个时期最引人注目的发展是多元数据的可视化。如Andrews Plot(1972)利用有限的傅里叶序列表现高维数据。另外,聚类图和树形图等也在1970年开始应用。

(3) 另一个发展是数据缩减(Data Reduction)的图形技术。多维标度法(Multi Dimensional Scaling,MDS)是一种在低维空间展示“距离”数据结构的多元数据分析技术,是一种将多维空间的研究对象(样本或变量)简化到低维空间进行定位、分析和归类,同时又保留对象间原始关系的数据分析方法。多维标度法与主成分分析(Principal Component Analysis,PCA)、线性判别分析(Linear Discriminant Analysis,LDA)类似,都可以用来降维。

(4) 出现了现代GIS(Geographic Information System,地理信息系统)和二维、三维的统计图形交互系统。

对于可视化来说,三维是必要的,因为典型问题涉及连续的变量、体积和表面积(内外、左右和上下)(见图1-4)。然而,对于信息可视化来说,典型问题包含更多的分类变量和股票价格、医疗记录或社会关系类数据中模式、趋势、聚类、异类和空白的发现。

1986年10月,美国国家科学基金会主办了一次名为“图形学、图像处理及工作站专题讨论”的研讨会,旨在为从事科学计算工作的研究机构提出方向性建议。会议将计算机图形学和图像方法应用于计算科学的学科称为科学计算之中的可视化。

1990年,IEEE举办了首届IEEE Visualization Conference(可视化会议),汇集了一个由物理、化学、计算、生物医学、图形学、图像处理等交叉学科领域研究人员组成的学术群体。2012年,为突出科学可视化的内涵,该会议更名为IEEE Conference on Scientific Visualization。

进入21世纪,现有的可视化技术已难以应对海量、高维、多源、动态数据的分析挑战,需要综合可视化、图形学、数据挖掘理论与方法,研究新的理论模型、新的可视化方法和新的用户交互手段,辅助用户从大尺度、复杂、矛盾甚至不完整的数据中快速挖掘有用的信息以便做出有效决策,从而催生了可视分析学这一新兴学科。该学科的核心理论基础和研究方法目前仍处于探索阶段。从2004年起,研究界和工业界都朝着面向实际数据库、基于可视化的分析推理与决策、解决实际问题等方向发展。随着大数据和人工智能技术的发展,数据可视化开始朝着智能化和自动化的方向发展。智能数据可视化工具可以根据数据的特征,自动选择合适的图形和图表,并对数据进行自动整理和处理。这一阶段的特点是数据可视化工具能更智能地理解用户需求,提供更准确、更有价值的数据分析和数据可视化结果。同时,自动化功能也提高了数据可视化的效率和准确性。

随着数据可视化技术的不断发展和普及,越来越多的人开始接触和使用数据可视化工具。这不仅包括专业的研究人员和开发者,还包括各行各业人员、管理者。数据可视化已经成为一种通用的数据呈现和沟通方式。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/94523.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/94523.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深入理解C++中的stack、queue和priority_queue

目录 前言 1. stack(栈) 1.1 基本概念 1.2 常用接口 1.3 应用示例:最小栈 1.4 模拟实现 2. queue(队列) 2.1 基本概念 2.2 常用接口 2.3 模拟实现 3. priority_queue(优先队列) 3.1…

C++ 操作 Redis 客户端

引言 前面几篇文章都在介绍 Redis 原生命令行客户端,在实际应用开发中,开发人员更希望使用针对特定编程语言的专用客户端,通过编程的方式操作 Redis 数据库。因此,Redis 支持多种编程语言。本文将介绍 如何使用 C 语言来操作 Red…

批量提问程序开发方案:基于Python的百度文小言接口实现

批量提问程序开发方案:基于Python的百度文小言接口实现 1. 项目概述 1.1 项目背景 在现代信息检索和自动化办公场景中,批量提问功能已成为提高工作效率的重要工具。本项目旨在开发一个基于Python的批量提问程序,专门针对百度文小言平台&am…

Apollo中三种相机外参的可视化分析

Apollo中三种相机外参的可视化分析一、什么是相机外参?为什么需要可视化?二、不同外参来源对比三、详细操作步骤1. 环境准备2. 获取 NuScenes外参数据3. 外参到空间位置的转换及可视化四、可视化对比1. NuScenes数据集外参2. Apollo BEV模型外参3. Apoll…

虚拟化KVM常用命令汇总

KVM(Kernel-based Virtual Machine)是一种开源的硬件虚拟化解决方案,它是 Linux 内核的一部分,允许在支持虚拟化技术的硬件(如 Intel VT-x 或 AMD-V)上运行虚拟机。KVM 将 Linux 内核转变为一个裸机虚拟机监…

6s081环境配置以及使用vscode连接本地wsl2

6s081环境配置以及使用vscode连接wsl2 本人环境:windows11、wsl2ubuntu20.04 课程:6s081的2020版本的:https://pdos.csail.mit.edu/6.S081/2020/schedule.html 一、wsl2ubuntu20.04配置6s081环境 注:关于如何在window中安装wsl,这…

C++实现线程池(3)缓存线程池

三. CachedThreadPool 的实现3.1 需求:动态调整线程数量:与 FixedThreadPool 不同,CachedThreadPool 的线程数量是动态调整的。当有新任务提交时,如果线程池中有空闲的线程,则会立即使用空闲线程执行任务;如果线程池中…

WMS+自动化立库:无人仓的现在进行时

传统仓库正面临严峻挑战:效率瓶颈日益凸显,人力成本持续攀升,空间利用率逼近极限,而订单响应速度却难以满足市场需求。如何破局?WMS(仓库管理系统)与自动化立体库(AS/RS)…

多模态大模型研究每日简报【2025-08-05】

训练数据相关 EditGarment: An Instruction-Based Garment Editing Dataset Constructed with Automated MLLM Synthesis and Semantic-Aware Evaluation (https://arxiv.org/abs/2508.03497):提出了一种自动化的流程,用于构建服装编辑数据集EditGarmen…

4、docker数据卷管理命令 | docker volume

1、命令总览命令作用出现频率备注★ docker volume create新建卷高-d 指定驱动,-o 指定驱动选项★ docker volume ls列出卷高--filter danglingtrue 查孤儿卷★ docker volume inspect查看卷详情高输出 JSON,可加 --format★ docker volume rm删除卷高只…

计数组合学7.14(对偶 RSK 算法)

7.14 对偶 RSK 算法 存在 RSK 算法的一种变体,其与乘积 ∏i,j(1xiyj)\prod_{i,j}(1 x_{i}y_{j})∏i,j​(1xi​yj​) 的关系类似于 RSK 算法本身与 ∏i,j(1−xiyj)−1\prod_{i,j}(1 - x_{i}y_{j})^{-1}∏i,j​(1−xi​yj​)−1 的关系。我们称此变体为对偶 RSK 算法…

C语言中的进程、线程与进程间通信详解

目录 引言 基本概念 1. 进程(Process) 2. 线程(Thread) 线程编程实战 1. 常见线程库 2. 合理设置线程数 3. pthread 创建线程 线程同步机制 1. 互斥锁 pthread_mutex_t 2. 条件变量 pthread_cond_t 3. 读写锁 pthread…

[假面骑士] 555浅谈

假面骑士555(faiz)是我最先接触的一部平成系列的假面骑士,同时也是我个人最喜欢的一部假面骑士。一、大纲简介震惊,人类最新的进化形态——奥菲一诺,横空出世!日本的顶级财团,Smart Brain,的前任社长&#…

Vue Router 路由的创建和基本使用(超详细)

一、路由的基本概念 你是否好奇单页应用(SPA)是如何在不刷新页面的情况下实现页面切换的?这就离不开路由的功劳。 路由:本质是一组 key-value 的对应关系,在前端领域中,key 通常是路径,value …

深入理解设计模式:策略模式的艺术与实践

在软件开发中,我们经常会遇到需要根据不同情况选择不同算法或行为的场景。传统的做法可能是使用大量的条件语句(if-else或switch-case),但随着需求的增加和变化,这种硬编码的方式会导致代码难以维护和扩展。策略模式&a…

概率/期望 DP llya and Escalator

题目链接:Problem - D - Codeforces 看了这篇文章来的:【算法学习笔记】概率与期望DP - RioTian - 博客园 这篇博客写得挺好的,讲了一些常见方法,概率 / 期望的题多练练就上手了。 题目大意: n 个人排队上电梯&…

大陆电子MBDS开发平台转到其他国产控制器平台产生的问题记录

u8_StComLowSpdGearSwt变量为例,之前用的时候只有输入,没什么实际意义,导致新环境下编译报错,缺少声明,解决办法:注释掉输入模块。今天解决的另一个比较大的问题,不同模型函数公用函数模块生成代…

机器学习模型调优实战指南

文章目录模型选择与调优:从理论到实战1. 引言2. 模型评估:为选择提供依据2.1 偏差-方差权衡2.2 数据集划分与分层抽样2.3 交叉验证(Cross-Validation)2.4 信息准则(AIC / BIC)3. 超参数调优:让模…

【教程】Unity CI/CD流程

测试机:红帽 Linux8 源码仓库:Gitee - MrRiver/Unity Example   系统环境准备 1)yum 源 sudo curl -o /etc/yum.repos.d/CentOS-Base.repo https://mirrors.aliyun.com/repo/Centos-8.repo sudo sed -i s/\$releasever/8/g /etc/yum.repos…

文献阅读 | Briefings in Bioinformatics | Hiplot:全面且易于使用的生物医学可视化分析平台

文献介绍文献题目: Hiplot:一个综合且易于使用的 Web 服务,用于增强出版物准备的生物医学数据可视化 研究团队: Openbiox/Hiplot 社区 发表时间: 2022-07-05 发表期刊: Briefings in Bioinformatics 影响因…