年底所有的事情忙完了,现在坐等放假和发年终奖。最后一周上班,机会难得,有时间学习,并提升下自己的技能了。最近浏览各大论坛,博客,并捡到了一款可视化神器——Altair。这一周,好好研究下,看看能不能总结出一些好用的数据可视化模板。
关于Altair
Altair为数据可视化框架vega在Python环境的封装,vega又为交互可视化神器D3框架封装,即使你不懂JavaScript知识。有了Altair,就可以利用D3框架来实现数据可视化了。
D3框架不好用,更准确说法应该是学习曲线太高了,奈何没有系统学习JavaScript知识,也没有更多精力细细研究D3框架,就只能够站在巨人肩膀上,利用Altair框架来实现数据可视化了。
因为电脑内已经安装了Anaconda数据分析环境,Altair并非anaconda默认工具包,需要手动安装。使用以下命令,完成Altair安装。安装包不大,国内如果安装慢,可以切换到清华源、或者豆瓣等镜像源安装。
pip install altair==
pip install vega-datasets
vega-datasets并非必须安装,但Altair官网案例数据集基本来自这个数据集,为了便于学习,建议大家安装这个数据包。安装成功后,就可以利用Altair来实现数据可视化了。
因为Altair利用JavaScript实现数据可视化,之前配置在Excel内jupyter开发环境,这次研究Altair发挥了用武之地。在Excel内启动jupyter编辑器,并新建Altair notebook文件。
Altair案例1:数据排名变化
?Altair排位变化图,很类似地铁线路图,简约美观,有着曲线图趋势基因,少了趋势线的凌乱感。数据排位变化情况一目了然。很适合用来绘制团队成员之间KPI指标排位变化情况。
Altair绘制排位变化图,代码很简洁。只需要通过命令和参数即可实现绘制,而且Altair最强的地方在于,能够对数据进行聚合运算。只需要指定初始数据。
import altair as alt
from vega_datasets import data
import pandas as pd
stocks = data.stocks()
source = stocks.groupby([pd.Grouper(key="date", freq="6M"),"symbol"]).mean().reset_index()
alt.Chart(source).mark_line(point = True).encode(
x = alt.X("date:O", timeUnit="yearmonth", title="date"),
y="rank:O",
color=alt.Color("symbol:N")
).transform_window(
rank="rank()",
sort=[alt.SortField("price", order="descending")],
groupby=["date"]
).properties(
title="Bump Chart for Stock Prices",
width=,
height=,
)
Altair案例2:旋风图动画
Altair制作旋风图也很简单,而且支持旋风图动画,官方案例之中展示的人口年龄构成随年份变化动画。后期好好研究,怎么让排位图也显示出来动画。
import altair as alt
from vega_datasets import data
source = data.population.url
slider = alt.binding_range(min=, max=, step=)
select_year = alt.selection_single(name='year', fields=['year'],
bind=slider, init={'year': })
base = alt.Chart(source).add_selection(
select_year
).transform_filter(
select_year
).transform_calculate(
gender=alt.expr.if_(alt.datum.sex == 1, 'Male', 'Female')
).properties(
width=
)
color_scale = alt.Scale(domain=['Male', 'Female'],
range=['#1f77b4', '#e377c2'])
left = base.transform_filter(
alt.datum.gender == 'Female'
).encode(
y=alt.Y('age:O', axis=None),
x=alt.X('sum(people):Q',
title='population',
sort=alt.SortOrder('descending')),
color=alt.Color('gender:N', scale=color_scale, legend=None)
).mark_bar().properties(title='Female')
middle = base.encode(
y=alt.Y('age:O', axis=None),
text=alt.Text('age:Q'),
).mark_text().properties(width=)
right = base.transform_filter(
alt.datum.gender == 'Male'
).encode(
y=alt.Y('age:O', axis=None),
x=alt.X('sum(people):Q', title='population'),
color=alt.Color('gender:N', scale=color_scale, legend=None)
).mark_bar().properties(title='Male')
alt.concat(left, middle, right, spacing=5)
?Altair案例3:最惊艳的散点图
Altair官方案例之中,最让我感到惊艳的图就是可交互分析的散点图了。该图很适合前期数据构成初探分析。而且代码构成也非常简单。后期真的有必要研究下,怎么把这个图做到EFunction模板之中。
因为散点图只支持二维数据,平时数据分析过程之中,可以利用PCA等降维技术,先将数据降维,再用Altair散点图对数据构成进行探究分析。
import altair as altfrom vega_datasets import data
source = data.cars()
brush = alt.selection(type='interval')
points = alt.Chart(source).mark_point().encode( x='Horsepower', y='Miles_per_Gallon', color=alt.condition(brush, 'Origin', alt.value('lightgray'))).add_selection( brush)
bars = alt.Chart(source).mark_bar().encode( y='Origin', color='Origin', x='count(Origin)').transform_filter( brush)
points & bars
?
D3真的是网页端数据可视化之首,Altair案例很丰富,只是可惜,国内学习资料比较少,其他后续慢慢研究,计划先将这三个案例整合到EFunction模板之内,后续可视化数据,就不用重复造轮子了!