在日常工作中,也越来越多的行业倾向大数据分析,大数据的兴起,也为日常工作带来了众多便利。那么常见的数据有哪些展现方式呢,以及有哪些语言可以实现数据可视化?
常见的数据可视化方式有:
条形图和柱状图
使用场景:柱状图一般用于表现分类的变量或者是连续的分类变量的组合。
柱状图是最常见的图表,也最容易解读。
它的适用场合是二维数据集(每个数据点包括两个值x和y),但只有一个维度需要比较。年销售额就是二维数据,"年份"和"销售额"就是它的两个维度,但只需要比较"销售额"这一个维度。
柱状图利用柱子的高度,反映数据的差异。肉眼对高度差异很敏感,辨识效果非常好。柱状图的局限在于只适用中小规模的数据集。
通常来说,柱状图的X轴是时间维,用户习惯性认为存在时间趋势。如果遇到X轴不是时间维的情况,建议用颜色区分每根柱子,改变用户对时间趋势的关注。
折线图
使用场景:折线图适合二维的大数据集,尤其是那些趋势比单个数据点更重要的场合。
折线图是排列在工作表的列或行中的数据可以绘制到折线图中。折线图可以显示随时间(根据常用比例设置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势。
在折线图中,类别数据沿水平轴均匀分布,所有值数据沿垂直轴均匀分布。
饼图
饼图是一种应该避免使用的图表,因为肉眼对面积大小不敏感。但在具体反映某个比重的时候,配上具体数值,会有较好的效果。
饼图广泛得应用在各个领域,用于表示不同分类的占比情况,通过弧度大小来对比各种分类。饼图通过将一个圆饼按照分类的占比划分成多个区块,整个圆饼代表数据的总量,每个区块(圆弧)表示该分类占总体的比例大小,所有区块(圆弧)的加和等于 100%。
散点图
使用场景:散点图通常用于分析两个连续变量之间的关系。适用于三维数据集,但其中只有两维需要比较。
散点图也叫 X-Y 图,它将所有的数据以点的形式展现在直角坐标系上,以显示变量之间的相互影响程度,点的位置由变量的数值决定。
气泡图
气泡图是散点图的一种衍生,通过每个点的面积大小,反映第三维。
排列在工作表的列中的数据(第一列中列出 x 值,在相邻列中列出相应的 y 值和气泡大小的值)可以绘制在气泡图中。气泡图与散点图相似,不同之处在于:气泡图允许在图表中额外加入一个表示大小的变量进行对比。
雷达图
雷达图适用于多维数据(四维以上),且每个维度必须可以排序。数据点一般6个左右,太多的话辨别起来有困难。
雷达图(Radar Chart),又可称为戴布拉图、蜘蛛网图(Spider Chart),是财务分析报表的一种。即将一个公司的各项财务分析所得的数字或比率,就其比较重要的项目集中划在一个圆形的图表上,来表现一个公司各项财务比率的情况,使用者能一目了然的了解公司各项财务指标的变动情形及其好坏趋向。
数据可视化并非是一门简单的学科,它的实现方式是由编程语言根据规则实现的。下面是一些需要编程性语言的工具。
工具——编程语言
R
R 经常被称为是“统计人员为统计人员开发的一种语言”。如果你需要深奥的统计模型用于计算,可能会在 CRAN 上找到它――你知道,CRAN 叫综合R档案网络(Comprehensive R Archive Network)并非无缘无故。说到用于分析和标绘,没有什么比得过 ggplot2。而如果你想利用比你机器提供的功能还强大的功能,那可以使用 SparkR 绑定,在 R 上运行 Spark。
Scala
Scala 是最轻松的语言,因为大家都欣赏其类型系统。Scala在JVM上运行,基本上成功地结合了函数范式和面向对象范式,目前它在金融界和需要处理海量数据的公司企业中取得了巨大进展,常常采用一种大规模分布式方式来处理(比如Twitter和LinkedIn)。它还是驱动Spark和Kafka的一种语言。
Python
Python 在学术界当中一直很流行,尤其是在自然语言处理(NLP)等领域。因而,如果你有一个需要 NLP 处理的项目,就会面临数量多得让人眼花缭乱的选择,包括经典的 NTLK、使用 GenSim 的主题建模,或者超快、准确的 spaCy。同样,说到神经网络,Python 同样游刃有余,有 Theano 和 Tensorflow;随后还有面向机器学习的 scikit-learn,以及面向数据分析的 NumPy 和 Pandas。
Java
Java 可能很适合你的大数据项目。想一想 hadoop MapReduce,它用 Java 编写。HDFS 呢?也用 Java 来编写。连 Storm、Kafka 和 Spark 都可以在 JVM 上运行(使用 Clojure 和 Scala),这意味着 Java 是这些项目中的“一等公民”。另外还有像 Google Cloud Dataflow(现在是 Apache Beam)这些新技术,直到最近它们还只支持 Java。
本文由威海软件公司半岛科技转载整理2018.05.17