社科网首页|客户端|官方微博|报刊投稿|邮箱 中国社会科学网
新兴领域

【吴基传 翟泰丰】大数据与认识论

人类社会史可以认为是人对自然、对社会、对自身认识和改造的历史。伴随着认识、改造世界的进程,人类创造出不同的生产工具,造就了具有显著特征的时代文明。人类经历以石器为工具的原始社会时代,以铁器为主的农耕时代,以蒸汽机发明为代表的工业初级时代,以电气为主的发达工业时代,随着信息技术的发展尤其是互联网的诞生,标志着人类开始步入一个以信息为主体的信息化时代。

信息科技的快速发展与广泛应用使人类社会正在以前所未有的速度积累着各类信息和数据,形成了规模巨大、种类繁杂、变化快速、总量达到ZB级的数据集合(1ZB约为1024EByte字节,ZB=1024EBEB=1024PBPB=1024TBTB=1024GBGB=1024KBKB=1024Byte),人类名副其实地进入了大数据时代。数据与信息不仅让我们更好地局部感知自然和社会,更为重要的是对这些大数据中蕴涵的规律和关联的挖掘,正成为人们加快认识世界的有力工具。这种方法丰富着当代认识论的内涵,给认识论研究工作者带来了新的课题。本文试图简析大数据发展及可能对认识论产生的影响,目的是引起信息科学、社会学、哲学、经济学、数学、统计学等学科领域专家对此问题的重视,抛砖引玉,引发更多对该问题的探讨。

数据是将人类各种信息,即语言、文字、图像、视频等统一转化为二进制的数码形式,并通过结构化数据、半结构化数据和非结构化数据进行数码存储、分析、处理,再将数码还原为各自的信息。在第二次工业革命爆发后,以文字为载体的数据量约每十年翻一番;从工业化时代进入信息化时代后,数据量以每三年翻一番的速度持续增长。随着计算机技术和网络技术的快速发展,结构化、非结构化数据大量涌现,数据的产生已不受时间和空间的限制(参见李德毅,第17-33页;郭华东,第3),从而产生了越来越多的大数据。

据美国《大数据时代》作者维克托·迈尔-舍恩伯格统计,在200075%的全球数据还是模拟式的,而此后的15年期间内,人类已完成了从模拟信号世界到数字世界的转变。人类正迎来大数据的新时代。(参见迈尔-舍恩伯格,第12-15)

大数据是信息技术发展和应用的产物,是信息科学领域探讨的重要课题,自2008年美国《自然》杂志首次刊发大数据专辑后,大数据引起了世界各国政府、学术界、产业界以及各应用领域的高度关注。包括中国在内的很多国家将大数据提升到国家战略高度,在政策法规、科研项目、产业发展、实际应用等各个方面加以推进,学术界和产业界在大数据的采集、存储、传输、管理、安全、分析、应用等方面开展了学科和跨学科的研究和开发工作。

到目前为止,业界还没有一个较完整、权威的对大数据本身的定义,比较公认的看法是:“大数据”是现有信息技术难以应对的数量超大、结构复杂的数据集,其核心属性是数据量巨大、数据结构复杂、处理分析难度大,业界通常也会从这几个方面综合判断是否为大数据。当数据量很大,但分析任务简单的也可称为“小数据”;当数据量不是很大,但分析复杂性高的也可称为“大数据”。业界学者将大数据的特征概括为四个“V”,即数据量大(Volume)、变化快(Velocity)、种类多(Variety)和价值高(Value)。在大数据处理过程中,处理目标和方式又有新特点,呈现三个“I”的特性:近似性(Inexact),即大数据处理中精确性不再是绝对追求目标,而是从中快速预测出宏观趋势;增量性(Incremental)即大数据处理不仅要对离线大数据进行分析处理,也要分析处理实时动态变化的数据;相关性(Inductive),即不是完全遵循根据结果查找原因的处理模型,而是更加重视事物之间的关联性。(参见怀进鹏,第6)

从大数据处理过程来划分,大数据研究的内容包括大数据的获取、存储、分析和应用。从获取手段来讲,大数据一般来自观测和实验的记录以及后续加工,在这个处理过程中,更多地依赖于物联网的建立,通过各类传感器感知,实现现实世界到虚拟世界的映射。从数据内容来讲,大数据又分为自然科学大数据、社会科学大数据和人类本体大数据。科学大数据一般表征自然客观对象和过程,社会学大数据主要记录自然人的社会活动中各项物质与精神生产生活的轨迹,人类本体与人自身的大数据主要记录人作为主体对客观世界的认识,以及人自身的各项生理、心理反应。从数据体量来讲,大数据在各个学科中存在巨大的差异,从EB级别(地学、高能物理学)MB级别(工业控制)均有,数据量巨大是大数据的一大特征。从数据速率来讲,大数据在各个学科中存在巨大的差异,包括高能物理、对地观测等领域的“快”数据和天体演变、地质过程、人类进化等领域的“慢”数据。从分析手段来讲,大数据一般以科学原理模型来形成知识发现的方法;完全依赖数据分析而抛开科学原理模型的领域与方法并不多见。

大数据及其分析挖掘可以广泛地应用于人类生产生活的各个方面并带来巨大的经济和社会价值。据麦肯锡公司统计,大数据可以给美国医疗保健业每年提供3000亿美元的价值,给欧洲公共管理领域提供2500亿美元管理上的价值,给服务提供商带来6000亿美元年度盈余价值,给零售商带来60%的利润增加,给制造业带来50%成本的下降。大数据是新财富,价值堪比石油。(参见邬贺铨,第91)如表1所示:

 

认识论探讨人类认识的本质、结构,人的认识与客观物质世界存在的关系,认识的前提和基础,认识发生、发展的过程及其规律以及认识的真理标准等问题,属于哲学范畴。唯物主义认识论坚持从物质到意识的认识路线,认为物质世界是客观存在,强调人的认识是客观外在物在头脑中的反映,申明世界是可以认识的。辩证唯物主义的认识论则进一步把实践作为认识的基础,把辩证法运用于认识论。人们主动的认识世界,改造世界。

在人类漫长的发展进程中,认识的客体既包括自然世界,也包括人类社会和人自身。在经历了原始社会的神话思维、古代社会的史鉴思维、近代社会的理性思维后,逐步形成了更加有效的现代实证思维,可以说“实证”作为认识自然界、认识人类社会以及认识人类本身的基本原则和基本形式,对于近代科学的形成和当代科学的发展都有着重要意义,是当代认识论的重要内容。

科学的认识是从对外在物完整的表象出发,以概念作为逻辑起点,消除掉事物丰富的感性特征,把共性提取到自己的观念里的过程;科学工作者使用一整套科学上的逻辑方法去开发、去精炼,以构成一个对应于感性事物系统的规律系统或理论体系,这套理论体系能够指导人们有效地变革事物达到预期的目的。

1962年美国科学哲学家托马斯·库恩在《科学革命的结构》一书中阐述了范式的概念和理论。所谓范式,就是一种公认的模型和模式,是常规科学所赖以运作的理论基础和实践规范,是研究者群体在从事科学研究时所共同遵守的世界观和行为方式,是他们所共同接受的一组假说、理论、准则和方法的总和。范式的演变则表示科学研究的一套方法及观念被另一套方法及观念所取代。(参见库恩,第23)

2007年,计算机图灵奖得主吉姆·格雷(J.Grey)在美国国家研究理事会的报告中提出了科学研究的“第四范式”,即以数据密集型计算为基础的科学研究范式。格雷先生的四个科学范式理论基本内容为:第一范式产生于几千年前,是描述自然现象的,以观察和实验为依据的研究,可称为经验范式;第二范式产生于几百年前,是以建模和归纳为基础的理论学科和分析范式,可称为理论范式;第三范式产生于几十年前,是以模拟复杂现象为基础的计算科学范式,可称为模拟范式;第四范式今天正在出现,是以数据考察为基础,联合理论、实验和模拟一体的数据密集计算的范式,数据被一起捕获或者由模拟器生成,被软件处理,信息和知识存储在计算机中,科学家使用数据管理和统计学方法分析数据库和文档,可称为数据密集型范式。(参见刘红,第37)

无论是哪种科学研究的范式,都为人类认知世界提供了良好的工具。

随着信息科技的发展及广泛应用,人们在生产、生活过程以及科研活动中,积累和产生着海量数据。现在全球每分钟有2亿多封电子邮件发送、近20万张照片被上传分享、推特网上发布的微博超过5000万条、IP数据传输总量达到64GB2012年全球创建和复制的数据量达2.7ZB,相当于3000亿部时长2小时的高清电视的信息量,此数据量在2020年更将会达到35ZB。人类的确步入了信息社会,进入了大数据时代。海量数据蕴含的未知规律、价值信息、丰富知识,通过进行数据挖掘、数据分析以及机器学习、可视化等科技手段,提炼出有价值的信息,去伪存真,这将改变人们的思维方式,成为人类认识世界新的有效工具,从而更好地推动社会进步和文明发展。

在大数据条件下,人们认识事物方式有了新的变化。过去由于条件限制以及工具落后,人们往往采用“解剖麻雀”的方式,先抽取样本,研究个体,进而找出事物的共同规律。现代信息技术的发展,可以将事物包含的全部样本在不同条件、不同侧面、不同时间和空间的大规模数据快速有效地采集、存储,并通过建立适当的模型进行挖掘分析,找出基于整个信息样本的规律和价值信息。这种由抽样研究分析到全样研究分析的方法,在大数据条件下成为可能,是人们认识事物方式的新变化。2008年,美国谷歌公司通过分析全样本的搜索数据,准确地预测了美国H1N1流感的大爆发。同样,中国的阿里巴巴通过对网上交易数据的分析,提早做出了2008年出现金融危机的预测。

大数据影响人们认识事物的新变化还表现在从因果关系的探究到更加注重关联关系的分析。因为任何事物总是相关和相互联系的,但这种联系和相关性又是纷繁复杂的。数据量小的条件下,信息之间看似无关联,但海量数据和信息之间,就有可能存在着各种关联关系,这些关联关系就是事物之间相互作用、相互影响的规律。通过大数据手段找出事物之间的关联关系,这种“只需知其然,无需知其所以然”的认识方法,对于人们在经济、社会领域发现事实、预测未来有着积极的现实意义。

云计算、大数据等新一代信息技术使人类可以拥有每秒3亿亿-5亿亿次浮点运算的高速计算系统,拥有PB级的存储系统,这样的技术手段可以帮助人们在庞大、复杂且快速变化的数据中分析出有价值的信息,加快人们认识事物的速度。面对海量信息,任何人都只需要对自己有益和有用的信息,大数据的处理、分析功能可以缩短人们从个别认识再到一般认识的时间,可以直接快速找出事物带有的共性规律,使人们对世界认识更快、更便捷。所以大数据可以加速人们认识世界的进程,加速人类从必然王国到自由王国的进程。

认识论的辩证过程是从实践到认识,再从认识到实践,如此实践、认识、再实践、再认识,循环往复以至无穷的辩证发展过程;认识过程中始终存在着主观和客观的矛盾,人的认识往往要经过由感性认识到理性认识再由理性认识到实践的多次反复才能完成。大数据挖掘分析出事物的规律,就是对客观世界的一种认识,可以用于指导人类实践。人们利用这一工具虽然能够加速对客观世界的认识,但认识的辩证发展过程却是同样的,也需要实践、认识、再认识的循环往复过程。

人类进入信息社会,大数据分析是一个认识世界可以利用和升华的新工具。

在经济、生产领域,可以通过大数据分析,提前预测将发生什么,可以做到迎接新的商机到来,可以防止影响经济发展的因素;在社会管理方面,可以通过大数据分析,从各国、各民族文化的特点出发,找出社会管理的结构形式和科学管理方法,还可以通过对大数据的分析预测在政策执行中的问题和成就;在当今世界还可以尽早预测到促进和影响世界和平发展的各种不同因素的变化。总之,各国政府已把大数据分析作为国家重要战略在抓,我国政府也十分重视,但由于大数据分析各国都处在起步,还有许多理论问题、科技核心问题有待解决。为此,期待我们的信息科技工作者、社会学工作者、数学基础理论等学科的工作者,大胆创新,抓住当前有利时机,从伟大的实践中不懈探索人类在大数据时代的认识论。

【参考文献】

[1]编写组,2013年:《马克思主义基本原理概论》,高等教育出版社。

[2]郭华东,2014年:《科学大数据驱动学科发展》,第六届中国云计算大会报告。

[3]怀进鹏,2014年:《对云计算大数据的几点认识与思考》,第六届中国云计算大会报告。

[4]库恩,2003年:《科学革命的结构》,金吾伦、胡新和译,北京大学出版社。

[5]李德毅,2014年:《大数据挖掘》,第六届中国云计算大会报告。

[6]刘红,2013年:《数据革命:从数到大数据的历史考察》,载《自然辩证法通讯》第6期。

[7]迈尔-舍恩伯格,2012年:《大数据时代》,周涛译,浙江人民出版社。

[8]欧阳康,2012年:《马克思主义认识论研究》,北京师范大学出版社。

[9]王小红,2010年:《科学发现认知结构的哲学研究》,西安交通大学出版社。

(原载《哲学研究》2015年第11期)