社科网首页|客户端|官方微博|报刊投稿|邮箱 中国社会科学网

【张贵红】论数据的本质及其与信息的关系

 

作为当前科学哲学的重要分支之一, 信息哲学正给科学哲学乃至整个哲学界带来深刻的变革, 甚至有学者称当前的分析哲学在经历了20世纪上半叶的语言转向之后, 正在经历着一场信息转向 (informationturn) 。当代哲学家弗洛里迪 (Luciano Floridi) 将语言哲学、心灵哲学和认知科学哲学等领域都当作是信息哲学的一部分。随着大数据等新兴信息技术的快速发展, 信息哲学正逐渐开拓着整个分析哲学的视野。然而, 当前的数据哲学还未形成一个完整的理论体系, 其根本原因是对于数据和大数据的本质还未形成一致的认识。本文就尝试解决数据哲学的这个基本问题:何为数据或什么是数据的本质?当前的数据哲学主要围绕新兴的大数据技术的社会实践哲学层面的分析, 关注热点是对大数据技术的伦理分析, 近几年已经出版了多部大数据伦理领域的作品, 对数据的形而上学和认识论方面的分析也正逐渐开展。

传统的逻辑经验主义者并未给予数据足够的关注, 到了20世纪80年代, 随着新实验主义的兴起, 科学实践逐渐成为科学哲学的重要研究对象, 数据 (主要是科学数据) 也成了科学哲学的重要分析内容。当前的数据哲学应该包括两个方向的内容:一是科学哲学方向, 二是伦理价值方向, 而科学哲学方向又包括形而上学层面、认识论层面和传统科学哲学层面。传统科学哲学家如伍德瓦德 (JamesWoodward) 从科学哲学的视角分析数据和现象的关系, 而信息哲学家如弗洛里迪则持有更加新颖的信息视角。因此, 就产生了两种对数据的本质的理解, 一种为表征论, 另一种为关系论。两种观点可简单表述为数据是事实的表征, 还是单纯体现了事物之间的关系。此外, 还有数据的信息解释和计算解释, 经过简单分析可知, 这两种观点并不会引起太多的争议。关键是如何在表征论与关系论之间进行取舍, 这两种观点的差异在于:数据本身是否具有“意义”, 或者说是否可以表征“事实”。经过分析, 两种观点的差异在于科学哲学关注科学数据分析, 而信息哲学则将关注点转向数据本身以及大数据。随着大数据技术的进步, 传统科学哲学的观点遇到了新的挑战, 从科学哲学的视角来看, 科学数据本身是有意义的, 而大数据则不再关注数据的具体意义。科学哲学家将数据与现象进行了区分, 却没有预见到大数据技术所带来的革命性视角。从大数据的角度看, 通过数据本身就可以帮助我们分析现象, 从大数据的角度可以使得数据与其“理论”以及“意义”相脱离, 实现“理论自由”。可见, 数据的两种定义并非不相容的, 对于科学数据来说, 其本身是附带“意义”的, 而大数据则是“意义自由”的。从这个层面看, 科学哲学与信息哲学在大数据技术的层面是可以融合的, 但是传统科学哲学的许多理论都需要进行变革。对数据的分析, 可以进而澄清数据与信息的关系。香农为了便于计算, 在信息的经典定义中, 剔除了信息的“意义”层面的内容, 而当前的信息哲学家则希望能够将“意义”重新引入对信息的解释, 因此提出“信息=数据+意义”。为此, 本文提出数据1和数据2的表述, 分别用来表示无“意义”的数据或信息, 以及附带“意义”的数据或信息。这种澄清可以解决许多与之相关的哲学问题, 并有助于帮我们进一步开展认知科学哲学等领域的研究。

一、当前的数据哲学

数据哲学的兴起。根据IBM提供的数据, 人类每天可以生产出2.5×1018 (quintillion) 的数据。a大数据正逐渐改变着人类的生活方式, 数据爆炸的时代正在来临。随着大数据技术的进步, 传统科学方法和科学哲学正面临着激烈的挑战。类似“大科学”或“大数据驱动的科学”的学科领域正在涌现, 比如在天文学、生物信息, 以及环境科学等领域, 大数据正在逐渐构建新的研究范式。人类正在夜以继日地收集、保存, 甚至利用计算机自动分析数据, 大数据的兴起开启了一个新的时代, 人类在研发能够自动搜集、储存和加工数据的仪器方面做得越好, 在科学中的角色就越小。b由此, 对大数据的哲学审视显得尤为重要, 可以将此看作科学哲学的一个新兴领域——数据哲学。然而当前的数据哲学主要集中于社会价值层面的思考, 例如大数据伦理学研究。此外, 还有大量关于大数据的经济学、未来学与社会学方面的分析。随着大数据带来的哲学问题越来越多, 当前最新的科学哲学和信息哲学领域的参考书都将数据哲学作为一个章节来提出, 如“数据哲学”作为第17章出现在了2016年出版的《劳特里奇信息哲学手册》的“ (信息的) 自然和物理方面”中, “数据”也作为第35章出现在同年出版的《牛津科学哲学手册》中的“科学哲学新兴研究领域”内。

数据哲学的三个层面。然而, 对于数据的社会价值层面的思考属于应用与实践层次的思考, 从科学哲学视角出发, 还有三个方面的哲学问题值得深入思考。一是大数据对传统科学哲学的冲击, 比如, 如何理解大科学方法、数据与实验以及理论的关系、仪器的作用、科学测量的目的等等;二是认识论层面的问题, 包括大数据与知识的关系、数据与事实的区别、数据与信息的差异, 以及计算机认识论的探索等;三是最深层次的形而上学问题, 如数据的本质究竟是什么, 数据与信息之间是怎样的关系, 数据和信息哪个才是基础, 还有数据的本体论意义何在, 以及数据与现象的区别等。对于所有这些哲学问题的思考, 第三个层面的问题是最基础的问题, 无论是科学方法争论还是认识论分析, 抑或伦理学探索, 关于数据的本体论分析才是最根本的问题, 也就是数据的形而上学分析。本体论问题可以简化为两个:数据是什么?数据和信息是什么关系?如果不解决这两个难题, 所有的争论都会缺乏根基。第一个问题的解决, 也就同时带来第二个问题的解决。本文接下来首先探讨四种对数据的本质的解释路径, 进而提出关系论与表征论这两种基本观点的差异及适用范围;然后从数据与现象的区分入手, 来分析这种区分对于我们理解数据的本质有何启发, 并提出对于数据本质的新理解;最后参照香农和弗洛里迪对信息的定义, 重新审查数据与信息的关系。

二、对数据的本质的争论

两种观点的争论。当前科学哲学界对数据之本质的研究主要有两种观点, 一是关系论 (relationaltheory) , 二是表征论 (representationaltheory) 。关系论的提出者为弗洛里迪, 表征论的主要发起者为伍德瓦德 (JamesWoodward) 。弗洛里迪目前为牛津大学网络学院的信息哲学和信息伦理学教授, 是当前国外最有影响力的信息哲学代表人物之一, 撰写了大量信息哲学专著, 并编辑了大量信息哲学论文集, 其主要作品为《信息哲学》 (2011) 、《计算哲学导论》 (1999) 等。而伍德瓦德则是科学哲学研究领域的知名学者, 主要研究因果性与科学解释, 他于2003年出版的因果论专著《使事物发生:一个因果解释理论》 (Making Things Happen:A Theory of Casual Explanation) 曾获得2005年的拉卡托斯奖。2010年至2012年他担任美国科学哲学协会主席, 目前为匹兹堡大学科学史与科学哲学系的特聘教授 (Distinguished Professor)

对数据的四种解释。对于数据“本质”的分析, 不同的哲学家使用的表述也有一定的差异。弗洛里迪和里昂 (AidanLyon) 称之为“解释” (interpretation) , 并指出有四种解释, 分别为认知解释 (epistemicinterpretation) 、计算解释 (computational interpretation) 、信息解释 (informationalinterpretation) 和差异解释 (diaphoric interpretation) ;莱奥内利 (S.Leonelli) 称之为“观点” (view) , 认为存在两种不同的观点, 分别为关系观 (relationalview) 和表征观 (representationalview) 。而本文倾向于用“理论” (theory) 一词, 原因在于, 解释和观点这两个词弱化了两种理论的差异, 只表示存在着若干不同的解读和理解, 不足以表示一种完整的理论体系。而从这两种观点的形成到至今的发展来看, 分别代表了两种不同的解读体系, 其背后是完整的、自洽的理论学说相支撑, 弗洛里迪的理论以信息哲学为基础, 而伍德瓦德的理论以因果解释论为基础a, 因此应该使用“理论”一词。可见这些不同的说法可以统一成两种:差异解释和关系观都属于关系论的不同表述方式, 认知解释和表征观则属于数据表征论的内容。下面来加以详细分析。

信息解释和计算解释。第一种观点为信息解释, 该观点认为数据就是信息, 或者是信息的表示方式。此观点重视信息与数据的内在关联, 比如对于生物数据库, 生物数据本身就是信息的载体或表示方式, 从数据中开展挖掘, 就可以找到所需要的信息, 因而将信息与数据等同。然而, 数据挖掘 (datamining) 的目的是为了获取信息, 在未进行任何加工之前的原始数据库, 不能被看作是信息, 只能是信息的来源。因此, 原始的生物数据, 并非信息, 对其进行加工与解释之后, 才能称之为信息, 可见数据与信息不能画等号。同时, 加工之后的数据, 或者选择之后的数据, 才可等同为信息或其载体。邬琨的观点a接近信息解释, 他认为数据本身就承载着信息, 否则经过加工或解释后, 也不可能成为信息。笔者认为, 对于数据的加工或解释, 是以人的行为为基础的, 是一种意向性行为。承载有信息的数据, 就是被人解释后的数据, 并非原始数据。假设在大数据的理想状态下, 整个世界所有的数据都可以获得, 那么呈现在我们面前的就是世界本身的数据, 人类根本无法认识, 只有经过选择和解释后, 才能理解, 即获得信息。第二种观点认为, 数据是可计算元素的积累, 例如计算机技术中的二元制元素。这种解释可以很好地说明各种信息均可以用数据的形式来表示, 例如声音、图像或视频都可以数据化。然而, 此解释将数据化与存储方式相等同, 却忽视了二者的差异, 即数据能够用计算机来表示, 而计算机并非数据的唯一表示方式, 例如至今许多音乐产品依然在使用黑胶唱片作为数据表示方式。b因此, 数据与计算元素间无法等同。

何为表征论。第三种观点, 表征论, 弗洛里迪将之表述为数据是事实的收集。此观点认为, 数据为进一步的理论推理提供了基础, 或者数据表征了基本的经验证据, 科学家基于这些证据开展推理。c里昂支持事实表征论, 为了克服表征论所面临的难题, 他对其进行了详细的解读, 并提出更为普适的表征观:

例如, 不再说数据是表征可解释事实的符号, 我们可以说, 只要满足一定的状态, 或者当满足一定的状态的时候, 相关的事实就可以进行解释, 它们 (数据) 就可以表征相关的事实。d

里昂为了解决表征论的诸多反例, 在文章中举了多个科学数据的例子来进行阐明数据表征事实的方式。然而, 这种宽泛的解释依然面临着难以解释的案例, 例如在电脑中由01数字串表示声音, 对于我们来说, 字符串根本就无法展示出声音, 只有经过电脑播放后, 我们才能理解这些数据。莱奥内利则在文中使用了英国皇家学会的定义:“数据就是为某一现象指派一种归属的数字、字符或图像。”a这种解释可以很好地解释数据与所表征的现象之间的关联, 而且也可以解释在数据进行转换的过程中, 它所表征的现象具有稳定性, 比如当将特定字符数据转化为JPEG或者PDF格式时, 依然可以保持其表征性。然而, 存在的问题是, 同样的数据有可能表征不同的现象, 这依赖于解释者的知识背景。例如, 20世纪50年代, 当弗兰克林 (RosalindFranklin) 首次制作出DNA机构图的时候, 作为一名晶体学家, 他将其解释为染色体中的核酸排列。然而, 有着生物学和生物化学背景知识的沃森和克里克则将该数据进行了重新解释, 发现了DNA的编码方式, 并因此获得了诺贝尔奖。b

虽然存在者诸多难以解决的问题, 表征论依然被许多科学哲学家所支持, 原因在于, 这种观点反映出数据与事实之间的内在关联, 表征也是数据与解释者之间的桥梁, 如果没有表征特性, 人类将无法理解自然界的现象。但是, 表征是数据的目的, 而非其本质, 用目的来代表本质, 并没有揭示其真实的本质。同样的DNA结构图可以有不同的解释, 正体现出数据的目的的多样性。以上分析可知, 数据具有表征的特性, 而表征并非其本质。

关系论的提出。关系论由弗洛里迪提出后, 一直存在着诸多争议。弗洛里迪将其称为差异解释, 该观点可表述为:

更加形式化一些, 根据差异解释, 数据的一般化的定义为: (D) 数据=x作为不同于y的存在, 在这里xy为两个未加解释的变量, 并且这个领域对于未来的解释是开放性的。c

莱奥内利将关系论的说法进行了更加通俗的解读:

事物均能够成为数据, 当且仅当 (1) 它可以为现象提供一个或者多个表达的一种潜在的证据, 以及 (2) 它在不同的个体间可以流通。a

关系论的优点为, 数据的含义变得非常宽泛, 任何事物x, 只要其不是唯一的, 那么它就可以成为另一个事物的数据。例如若要测量某物x的长度, 只需要找到任何一个非x的物体y, y作为尺度即可。因此, 如果没有加以指定, 任何事物都可以当作“米”的测量单位。也可以这样说, 只要找到一个差异物, 万物都可以成为数据。这个定义不会遇到反常案例, 因为万物皆可数据化, 以致在这种意义上可以说:万物皆数据。b

分歧的关键在于“意义”。里昂从科学实践的角度出发, 认为关系论将任何事物都纳入数据的范围, 因此对于人的认知来说就缺乏认知价值, 因为人类获得一个数据是为了将其作为某种结论的证据, 并且保证其真实性。也可以说, 数据对于人类来说, 意义和真实性 (truthfulness) 是其关键要素, 而关系论并没有将意义和真实性纳入其范围。c此外, 未加任何解释的数据, 如何进行或者限定解释也是需要加以分析的。这也是莱奥内利质疑关系论的关键, 他认为数据是可携带的并且构成了物质实体。人类搜集数据, 是带有将其转化为证据的期望的, 而同一个数据在不同的语境中使用, 它所对应的物质实体就有所差异。因此, 在科学实践中产生的数据, 其本质与获得该数据的科学活动以及数据的使用是分不开的。可见, 里昂和莱奥内利均倾向于表征论, 因为数据在科学实践中才有意义, 而这种意义或解释的价值, 才是数据的本质属性。

为了更加深入地理解数据与事实 (或事实的解释, 或数据的意义) 之间的关系, 应该引入科学哲学与形而上学领域一个充满争议的话题——数据和现象的关系。因为, 在一定意义上, 可以说, 现象代表了事实, 现象也构成了被解释了的事实。如果数据与现象之间是非相等的, 那么就可以推导出数据与事实之间的差异性, 从而为关系论和表征论提供一种调和方案。

三、数据与现象的区分以及大数据带来的启示

区分数据与现象。前文提到伍德瓦德是表征论者, 他的表征论主要体现在他和博根 (Bogen) 对于数据和现象的关系的研究上, 这两位科学哲学家发表了多篇论述数据与现象的文章, 在科学哲学界引起很大的反响, 并且对科学的因果性、理论、观察、测量、解释和方法论层面都产生了不小的影响。a1988年发表的《拯救现象》 (SavingthePhenomena) 这篇影响甚广的论文中, 博根和伍德瓦德提出了数据与现象的区分。他们以此为基础来反驳逻辑经验主义的经典表述:科学理论的目的是解释被观察到的事实。然而博根和伍德瓦德指出, 科学理论的目的并不是解释可观察到的事实, 而是解释现象, 这种现象经常是不可观察到的。两位哲学家在随后的一系列文章中, 对这种区分进行了详细辩护, 并尝试着使用这种区分来解释科学哲学中的其他问题, 例如因果性、科学推理、观察与理论问题等。此外, 数据和现象的区分引起了众多科学哲学家的支持或反驳。下文将先对这种区分的争论进行分析, 然后重点阐明数据和现象在何种意义上是需要加以区分的, 接着分析这种区分为我们理解数据的本质, 以及数据与信息的内在关联, 带来了哪些新的启发。

数据与现象是不同的。例如, 为了研究铅的熔点, 科学家会用温度计多次测量铅融化的温度, 并对这些数据进行加工以计算出铅的融化现象, 温度计的数据和铅的融化是截然不同的事物, 科学家只是利用数据来分析铅融化的现象。为了进一步阐述这种区分, 博根和伍德瓦德又分析了科学史中的多个案例:例如人类骨骼的X射线影像图, 这种作为数据的图片帮助我们分析骨骼现象;以及爱因斯坦广义相对论的日食观测验证, 爱丁顿经过观测获得的只是一些数据, 跟引力现象是两回事, 只是爱因斯坦的理论帮助我们通过数据理解引力现象。可见, 数据所对应的是其背后的科学理论的因果关联, 以及本地化的科学实践和测量行为, 一个科学数据所依赖的是科学理论和科学实践。科学家所强调的实验的可重复性, 其实为一种近似的可重复, 数据在其本质上是本地的和特殊的, 是不可重复的。

支持表征论的证据。博根和伍德瓦德的数据与现象相区别的观点, 增进了对数据本质的表征论的思考。既然数据是现象的一种展现或表征, 那么数据所表征的现象就是一种事实, 因此, 数据就是与某种现象所对应的有待阐释的事实的表征。同时, 在这个意义上可以说, 事实就是现象的不完全展现。在名为《数据、现象和可靠性》的文章中, 伍德瓦德进一步根据这种观点为数据提供了一个清晰的定义:

数据是通过测量和实验生产的公共记录 (中子流状况下的云室图片, 爱丁顿科学考察中的恒星位置图片) , 这种数据为现象而存在或者作为其具有某种特性的证据而存在。a

里昂认为这种定义就是表征论, 它说明数据是科学仪器和测量行为所生产的对于可观察的科学事实的真实记录。里昂强调说, 数据的可观察性所体现的正是不可观察的现象, 可观察的数据能够解释不可观察的现象。如果这一点正确, 那么该理论就可以为范·弗拉森的建构经验论提供一个很好的反驳。然而, 数据其实并非一定是可观察的, 例如大型强子对撞机 (LHC) 这样的大型仪器, 每天都在产生大量的数据, 这些数据的产生过程都是不可观察的。可见, 不应该用可观察与不可观察作为数据与现象区别的依据。

大数据技术带来的新思路。此刻, 对数据的本质的分析尚未得出结论, 却出现了更多的难题, 现在需要澄清的概念包括:数据与现象、可观察与不可观察、理论与证据、经验与事实, 以及最开始的表征与关系等。值得欣慰的是, 大数据为我们提供了一种走出迷雾的新路径。前文提及, 大数据技术带来的革命, 不仅仅在改变着我们的生活与科学方法, 还在改变着当前的科学哲学观点, 接下来分析大数据技术如何帮我们澄清这些难题。对于大数据的定义, 当前依然存在着许多争议, 然而对于大数据的存在是没有什么争议的, 本文为了避免争议, 暂且将大数据技术定义为超越传统科学理论和方法的处理数据的方式, 同时将大数据看作现有传统科学方法与理论无法处理的数据。

伍德瓦德为了解释数据与现象的关系, 将数据定义为事实的记录或表征, 而这种表征本身是需要推理加以实现的, 因此数据推理本身就预示着某些科学理论, 可见数据是负载理论的。然而, 大数据技术却为我们理解数据推理的科学方法提供了一个全新的视角:

博根和伍德瓦德, 1988年……为一种……从数据建构科学现象的颠覆性的观点进行了论证。对于他们来说, 现象的建构是“理论自由” (theory-free) , 并且是统计推理的唯一内容, 它控制着杂乱的事实和错误的资源, 以及数据的还原。a

虽然伍德瓦德并不认可这种说法, 但是只有在“理论自由”的前提下, 才能为数据与现象的区分提供一个无争议的基础。而大数据技术就提供了理论自由的基础——只要数据足够“大”, 就根本不需要“理论”的存在, 即不需要也没必要对现象进行解释, 因为大数据可以显示现象。同时也不需要从数据中推理出现象, 大数据本身就体现了现象。同样, 大数据将不可观察的现象都以数据的形式体现出来, 所以数据包括可观察与不可观察两类, 事实也分可观察与不可观察两类。数据可以表征事实, 也在表征经验, 所以可以说事实就是经验, 也是现象。这也符合前文中给出的大数据的定义, 大数据本身就是远离现有理论的数据, 大数据技术只有算法, 而不需要“理论”来支持其结论, 这就是“理论自由”的一种展示方式。

大数据技术不仅仅是一种数据处理技术, 它还是一种理解世界的哲学观点。经过大数据技术的革命性视角, 以上的种种争论可以画上一个句号。从大数据的观点看, 在客观世界中, 大数据就是事物之间的关系, 大数据也并非是所有的数据, 只需足够揭示现象即可。在大数据的世界中, 对数据本身的计算处理, 就可以表示所有的现象, 无须先提出理论来解释这种现象。在这种视角下, 现象也就是事实, 也构成了主体的经验和理论。这种解释还符合奥卡姆剃刀原则, 不仅简洁清晰, 还可以将理论、观察、经验等多余的术语消解。与此相关的更深层次的问题还包括如何用信息视角来解释心灵现象, 以及世界是否可以还原为只包括物质和信息两种基本实体等。

四、重新审视数据与信息的关系

两种观点的差异在于出发点不同。上一节, 我们从大数据的视角提出数据的本质就是事物之间的关系, 从而为关系论提供了一种辩护。从前文分析可知, 数据与现象的区分所遇到的最大的反驳为:数据本身是负载理论的, 因此数据所表征的现象也是与理论相关的。面对这种反驳, 伍德瓦德并未展现出最初的革命性见解, 即将数据与理论严格区分开, 而是逐渐弱化自己的观点, 他从数据推理的角度加以分析, 并阐明这种推理是需要其他的经验假设的, 或者说数据推理是需要理论做基础的。a他之所以会弱化自己的立场, 主要在于伍德瓦德没有意识到未来的大数据技术所带来的革命性。博根和伍德瓦德为了反驳传统的科学哲学观点, 提出了影响甚广的数据与现象的划分, 以此来解释观察与理论的深层次关系。然而在争论中, 他们逐渐回到传统科学哲学的视角, 用传统科学哲学思维来分析数据的本质, 这也是为何伍德瓦德逐渐支持数据表征论的观点, 因为他是在科学哲学的语境中进行分析的。

之所以伍德瓦德会支持表征论, 是因为在科学史以及人类的经验案例中, 所有获得的数据都是有限的, 不可能达到“理论自由”的程度, 所以这些数据不可能离开科学理论。可见伍德瓦德是从科学哲学的视角来分析的, 他的数据不是“理论自由”的大数据, 只能用表征论来解释, 因此也就离不开科学理论。而弗洛里迪正是从信息哲学的角度来看数据的本质, 他使用的是信息视角, 所以他指出所有的事物都可纳入数据的范畴内, 因此他所指的数据就是大数据。为了对这两种数据的用法加以区分, 在下文中用数据1来指弗洛里迪关系论中的数据, 用数据2来指伍德瓦德表征论中的数据, 没有下标的则为通用。

然而, 目前还有其他问题需要澄清:伍德瓦德所指的数据究竟是什么?主体层面的“理论”和经验的本质怎样解释?数据推理的本质又是什么?为了澄清这些难题, 我们需要对另一个重要概念——“信息”——进行澄清, 然后比较信息与数据的关系。其实, 正是信息哲学帮我们澄清了科学哲学对数据本质的争论, 对于相关的科学哲学难题, 也需要从信息哲学的立场来解决。下文, 先来对信息的本质进行分析, 然后澄清数据与信息的关系。

香农论信息的本质。对于信息的本质, 许多学者有着不同的定义。b目前来看, 应用最广泛的是香农在其通信理论的经典论文中提出的定义, 香农的定义也被称为经典定义, MTC (MathematicalTheoryofCommunication) 形式定义。其观点可表述为:与某个消息 (message) 相关的系统的通信熵 (communicationentropy)

 

其中pi是消息iA中的概率, 2为底的对数使得该符号串能够用二进制来表示。然后这个消息x所携带的信息就可以表述为

 

香农这种量化的信息定义, 对其后发展起来的信息科学及认知科学有着深远的影响, 同时这个定义也可以用于对科学哲学问题的分析。这个定义的本质在于用对数与概率表示某个事物的信息本质, 因此信息在本质上是对于事物x的概率关系。而x可以是所有的物质, 因此万物均可以信息化, 于是可以认为万物皆信息。香农的定义与计算方法使得二元制的语言可以表述一种作为概率形式的信息。

澄清数据与信息的关系。从香农的定义来看, 他的公式所展示的信息, 其实就是前文所分析的数据1, 即作为关系实体的数据。在这个层面上看, 数据与信息之间是没有区别的。对照弗洛里迪的数据定义与香农的信息定义, 可见对于x并没有限定, x均可指任何事物:任何事物的存在状态都可转化为信息, 同时也可以转化为数据。因此这两个定义也可解释为:万物皆可数据化或信息化, 数据1与信息1并没有本质区别。数据和信息的区别在于表示事物的关系的方法不同, 因此这就不同于数据的信息解释。香农的定义并没有赋予信息语义层面的内容, 然而在现实世界中, 人类所接受到的所有的信息都是有意义成分的, 对香农的信息定义来说, “苹果是水果”跟“狗是动物”之间没有信息差别, 这也正是数据1所展示的关系。为此, 需要引入更加实用的定义, 弗洛里迪使用了《剑桥哲学词典》中对信息的定义:

一种客观 (独立于心灵的) 实体。它可以由消息 (语词、句子) 或其他认知者 (解释者) 的产品生成或携带。信息可以被编码和转移, 但是信息的存在独立于它的编码和转移过程。a

弗洛里迪将此定义称为信息的标准定义 (SDI) , 并指出其基本特性为DOS (可陈述的、客观地、语义的) 。最初信息的定义并未与主体、概率分布和决策过程等相联系, 在后期的信息论发展中才逐渐用语境的观点来解读信息, 并将信息定义为:信息=数据+意义。弗洛里迪据此提出信息的语义解释, 即语义信息 (semantic information) , 将意义和真理引入信息的解释。这样表述概率关系的信息就转化为具有真理和意义的信息, 同时数据1就转化为数据2。有意义的信息, 其实就是表征了事实的数据。为了清晰区分, 我们将香农的信息定义用信息1表示, 用信息2表示弗洛里迪的语义信息。至此, 可以再次将前文的难题简化, 从而澄清数据与信息的关系:表示关系实体的数据1就是信息1, 数据2就是信息2, 双方之间有着表述方式的差别。之所以开始会遇到各种难题, 是因为对数据和信息本身的理解和定义的差异, 在不同的语境中均有着不同的定义, 其中意义或事实是否出现是关键所在, 通过分析数据和信息的不同定义, 就可以解决这些难题。a对于这种区分, 其他哲学家也曾进行过论述, 如塞尔 (K.Sayre) 曾在一篇论文中用Info (t) 表示MTC中对信息的形式定义 (即技术定义) , 同时用Info (s) 来表示语义信息, 并提出Info (s) 能够解释意向性现象。b可见, 对数据和信息的本质的认识, 并非仅仅是为了澄清数据与信息的关系, 而是以此进一步分析其他哲学问题, 而且是这些分析的出发点。

五、结论

本文从当前数据哲学的现状分析出发, 指出数据哲学尤其是与大数据相关的哲学争论, 对数据本身的定义尚未明确, 为此提出应该澄清数据的定义, 正确数据的本质。对数据本质的争论近几年日益增多, 对数据的哲学探讨, 也成为当前科学哲学与信息哲学共同研究的基本问题。争论的焦点体现在关系论和表征论之争, 即事实或意义是否属于数据范畴之内。如果数据本身并未表征意义, 那么数据就是事物的关系, 而如果数据本身负载着意义, 那么就说明数据就是在表征事实。对这个问题, 信息哲学家和科学哲学家有着不同的理解, 以弗洛里迪为代表的关系论, 认为数据就是纯粹的事物关系, 只有对其进行加工, 或者赋予意义之后, 才成为科学中的数据。而以伍德瓦德为代表的科学哲学家, 更倾向于认为数据本身就与事实的表征相关。

科学哲学家对该问题的争论, 与科学理论、可观察性、科学事实与科学现象等问题纠缠在一起。因此, 该问题又牵扯到争论已久的由博根和伍德瓦德在1988年提出来的“数据与现象”相区分的问题。问题进入更加深入的层次, 如果数据与现象相区别, 那么数据就无须同与现象相关联的事实发生关系, 这样数据就和表征事实区别开来。然而, 虽然伍德瓦德等人做了大量工作, 论证数据与现象之间的区分, 但是伍德瓦德却并非走出科学哲学的视野, 他眼中的数据就是科学数据, 这种数据并非纯粹的无意义的数据, 其本身就是被选择加工了的数据, 不可能与意义或事实相区别开来。为此, 仔细分析信息哲学和科学哲学对于数据的不同理解后, 本文提出了数据1和数据2的区分, 并指出两类哲学家之间的争论其实是相容的, 他们对于数据的定义是根据其讨论问题的语境相关。从大数据的角度看, 只要数据足够“大”, 就可以走出伍德瓦德后期认为的数据负载理论的迷雾。可见, 大数据是不需要理论作为基础的, 数据和现象之间是可以完全区别开来的, 大数据为博根和伍德瓦德的早期的革命性观点提供了支持, 同时也支持了弗洛里迪的关系论。

以此为基础, 本文进一步从香农的信息形式 (技术) 定义出发, 澄清了信息与数据的关系。信息的本质和数据一样, 有着多重语境定义, 对于香农的形式定义, 信息就是数据1, 而对于弗洛里迪的语义信息定义, 信息就相当于已经被加工了的、赋予了意义和真理性的数据2。为此, 本文提出信息1和信息2的区别。从信息哲学层面, 进一步澄清了科学哲学中的争论, 数据1就是信息1, 两者都是关系实体, 数据2就是信息2, 都是对单纯的关系实体赋予了意义或理论的实体。

本文看似澄清了数据和信息的关系, 然而却引出许多新的哲学问题。包括与信息相关的真理理论是什么样的真值论、信息语义学如何解释语义信息、如何分析数学和分析命题的信息语义, 以及知识如何进行信息解释等等。同时, 科学哲学中的理论、观察、经验和实验等术语, 也需要重新加以研究。此外, 基于信息科技的人工智能为科学哲学带来了更多的难题, 包括认知与信息的关系、心灵哲学的信息论解释、人机交互关系和计算主义智能等。希望本文对数据的本质以及数据与信息关系的研究, 能够为以上诸多哲学问题带来新的思考和启发。

【注释】

1 AidanLyon, “Data”, in The Oxford Handbook of Philosophy of Science, editedbyPaulHumphreys, Oxford:OxfordUniversityPress, 2016, pp.738—758.

2 P.Humphreys, “Twenty-First Century Epistemology”, Revista Anthropos, Vol.214, 2007, pp.65—70.

3两种理论体系的差异, 产生了两种不同的对数据本质的解读。弗洛里迪多使用信息论的术语, 并将数据与信息和计算等概念加以对比, 而伍德瓦德则使用因果论和科学解释的术语, 从解释的视角来分析数据的因果关系。由此, 可以预见两种理论之间的差异, 从两种理论体系出发, 可以更好地理解数据的本质。

4该观点引自20171014日邬琨教授在上海大学所作的学术报告。邬琨认为数据与信息是不同的事物, 但是信息是数据的基础, 而我认为数据是信息的基础, 这种差异我在后文中再加以分析。

b黑胶唱片的例子来自L.Floridi, Data, in International Encyclopedia of the Social Sciences, edited by W.A.Darity, New York:Macmillan Reference USA, 2008, p.235

6 L.Floridi, “Data”, p.234.

7 S.Leonelli, “The Philosophy of Data”, in The Routledge Handbook of Philosophy of Information, edited by Luciano Floridi, London:Routledge, 2016, p.741.

8 S.Leonelli, “The PhilosophyofData”, p.198.

9 Ibid., pp.197—198.

10 L.Floridi, “Data”, p.235.

11 S.Leonelli, “The Philosophy of Data”, p.196.

12万物皆数据, 是一种认识论意义上的提法, 并非指所有的物质都等同于数据, 而是说所有的物质都可以作为数据的形式存在, 比如长度、重量等都可以用任何事物做量化的尺度。这是一种认识论意义上的表述, 而非本体论的表述, 对于本体论的表述, 邬琨教授指出世界由物质 (能量) 、信息和精神三种事物所构成, 物质为实在的存在, 而信息为非实在的存在。

13 Aidan Lyon, “Data”, pp.738—758.

14两位哲学家发表了大量相关文章, 他们提出该观点后, 从科学史的案例出发, 对一般科学哲学中的诸多观点提出了新的解释和挑战。

15作者还在2011年的文章中再次重述了这个定义。

16参见S.Schindler, Rehabilitating Theory:Refusal ofn theBottom-UpConstruction of ScientificPhenomena, Studies in History and Philosophy of Science Part A, Vol.38, No.1, 2007, pp.160184

17参见J.F.Woodward, Data and Phenomena:A Restatement and Defense, Synthese, Vol.182, No.1, 2011, pp.165179

18目前主要包括六种信息的定义:费舍、香农、柯尔莫果洛夫、量子、主体状态和语义定义。参见Adriaans, Pieter, Informatica, in Stanford Encyclopedia of Philosophy, 2012, https://plato.stanford.edu/entries/information/

19 L.Floridi, “Is Semantic Information Meaningful Data?”, Vol.70, No.2, 2005, p.352.

20邬琨教授认为, 信息是分层次的, 其实就是指的信息在不同的语境中定义不同。他在最初的定义上使用的是信息1, 而在论述信息的作用时, 使用的是信息2

21bK.Sayre, “Intentionality and Information Processing:An Alternative Model for Cognitive Science”, The Behavioral and Brain Science, Vol.9, 1986, pp.121—166.

(原载《哲学分析》20184月)