数据科学的三个方面:
一是认识现实数据是认识宇宙、认识物质、认识生命、认识社会的基础,为自然科学和社会科学研究提供一种新的方法,称为科学研究的数据方法,其目的在于揭示自然界和人类行为现象和规律。
二是认识网络数据是认识网络游戏、网络病毒、网络武器、垃圾数据的基础,也是掌握未来竞争力的核心要素,是网络空间安全核心内容。
三是认识数据界的发展和变化,研究数据在网络中的流向、流量,研究网络流量文明,研究大数据是如何产生和发展的。
借助计算机分析实验仪器或模拟仿真产生的大量数据,并从中发现知识和规律。现在我们人人都在关注雾霾天气。我们想知道:雾霾天气是如何发生的,如何预防?首先需要在一些“代表性”位点建立气象站,来收集一些与雾霾形成有关的气象参数。根据已有的机理认识,雾霾天气的形成不仅与源头和大气化学成分有关,还与地形、风向、温度、湿度气象因素有关。仅仅这些有限的参数,就已经超过了常规监测的能力,只能进行简化人为去除一些看起来不怎么重要的,只保留一些简单的参数。那些看起来不重要的参数会不会在某些特定条件下,起到至关重要的作用?如果再考虑不同参数的空间异质性,这些气象站的空间分布合理吗,足够吗?从这一点来看,如果能够获取更全面的数据,也许才能真正做出更科学的预测,这就是第四范式的出发点,也许是最迅速和实用的解决问题的途径。
数据驱动创新是未来方向、是新的创新模式,创新需要试验,数据驱动的创新需要数据试验。那么,当数据集膨胀到用现有信息技术难以在可接受的时间内管理、处理和分析时,怎么办?因此,在可接受的时间内如何获得期望结果是核心技术问题。
当前,信息技术的泛在化应用导致数据资源的爆炸式增长,反过来信息技术在利用爆炸式增长的数据资源时将面临大数据传输、管理、计算和分析等方面的严峻挑战,信息技术的每一次新突破又会进一步加剧数据资源的增长速度,两者间具有迭代式的发展特点。为有效开发利用大数据资源,必须不断发展与之相适应的信息处理技术,大数据试验场就是为创新信息处理技术而提供的开发与试验平台。这对大数据应用乃至整个信息领域的学术、技术、产业的发展具有重大的基础性作用,能够成为连接政府、企业、资本、技术、数据资源的桥梁和纽带。在上海率先建设大数据试验场具有全球意义。