因素空间理论简介
因素空间是一门新的认知数学理论,是信息、智能和数据等学科的共同基础,它由中国学者汪培庄教授创立,对于智能化的网络建设和运用具有指导意义。
一.什么是因素和因素空间?
因素空间是研究事物质根的数学理论,从哲学的角度看,因素是事物本体构成和认知描述中的元词。在语言中,‘的’是使用得最广泛的字眼,有些语句例如“张三很好”看起来没有用到‘的’字,但其明确含意应该是“张三的人品很好”或者是“张三的身体很好”或者其它。‘的’字如此常见,那它的受词是什么?这是一个根本的哲学问题。有人说,的字的受词是属性,不对,在“张三的人品很好”这句话中,受词是‘人品’而不是‘很好’。‘好’与‘不好’是属性,‘很好’也是属性,它们是一组可以相互比较的质态,人品不是属性,而是这一组属性在质态变化中保持不变的根。叫做质根。本文将特别强调质根。中国人把红,橙,黄,绿,蓝,靛,紫视为一组属性,它们的质根是颜色,为将质根与属性相区别,就不把颜色再叫属性而叫因素。后面将会看到这样叫的理由。在本文中,因素就是事物的质根。因素是属性之名而非属性之值。
‘的’字的作用是分析(注*),因素就是分析的根位和维度,它直接涉及事物的构造而成为本体构成的元词。为了彻底揭示生物的奥秘,孟德尔提出了基因的概念,基因是生命体的质根。是打开生命之门的钥匙,基因导致了DNA的出现。孟德尔最早把基因叫做因素,英文就是Factor,后来才改称Gene,我们现在所指的因素就是基因的推广,就是广义的基因,它是一切事物的构成之因。因素空间是以因素为轴的坐标架,任何事物都可被抽象成因素空间的一个点。它是事物描述的普适性框架。
语言是思维的工具,‘的字语言’是思维的分析工具。因素是的字语言的第一词,也就成为思维描述的元词。人脑的思考是分析与综合反复交叉的过程,就是因素与因素不断分解与合成的过程,因素空间建立了因素之间这两种基本运算和其它多种运算。一个因素统领着一串属性,这一串属性的集合叫做它的相空间。例如,颜色的相空间记为X(颜色)={红,橙,黄,绿,蓝,靛,紫}。因素是一个映射,它把对象映射成它所统领的一个属性(或称相值)。概念是一组因素的属性组合。多个因素的联合相空间是它们相空间的笛卡尔乘积X。假定每个因素都有3个属性,n个因素就有3的n次方那么多个属性组合。因素空间理论所要的,不是所有这些设想出来的属性组合,而是要从实际数据中考察样本在X中所形成的分布,叫做(诸因素的)背景分布。背景分布支撑集中的每一个实际存在的属性组合都是一个内涵描述,它以所对应着的一类对象为外延而确定一个概念,叫做原子概念。任意一组原子概念用‘或’字连接起来就可以生成复合概念,形成一个布尔代数。因素空间提供算法可以自动生成出所有的概念。问题不是怕生不出概念来,而是怕太多。那些能写成合取范式,也就是在相空间中能用超矩形表示的概念,叫做基本概念。因素空间有简单算法求取基本概念,并用尽量少的因素使基本概念半格的结构尽量简单,使专家能从中选择少数合用的概念,进行命名并存入知识库里。这样,因素便成为概念生成之因。
因素不仅是事物构成之因,也是事物的发展之因。因素与因素之间的关联造就了因果律,因果律产生逻辑,语言是逻辑的展现。的字语言中所展现出来的一种特有逻辑叫做因素逻辑。因素逻辑研究诸因素在一定对象上所呈现的因果律,“若张三的血压很高则他的健康不佳”这个推理句中涉及的是同一个人在不同因素之间的因果联系。“若北冰洋的冰山加快融化,则马尔代夫的面积就会加快缩小”这个推理句中所涉及的看似两个不同的对象,但实际上这两个对象必须联合视为一体,或者扩大到地球这一体上来,才能谈论因果。在因素逻辑中,一个因素是一个逻辑变元,其变化域就是它的相空间,对多个变元而言,如果背景分布充满乘积相空间X,则这些因素是相互独立的,独立因素之间无因果联系,不会增添任何具有信息价值的推理。因果律只出现于背景分布的支撑集小于X的时候。例如,气温与降雨量是两个密切关联的因素,在它们的背景分布中要排除(低温,豪雨)和(微热,无雨)这样的属性组合。此时就会出现气温与降雨量呈正变的趋势。给定诸因素的分布数据,因素空间提供算法,可以求出从条件因素到结果因素的推理规则树,叫做因果树。问题不在于是否能提出规则,而是怕提得太多。因果树算法有办法约简因素而使因果树的枝叶尽可能地少,使专家能从中选择少数合用的规则,变成人们理解的语言并存入知识库里。因素空间是因果推理的平台。背景分布的变化可以改变推理句的真值。随着背景分布的收缩,因果规则就会增加。当背景分布集中在一条曲线上时,推理规则演变成函数关系,当二元背景分布集中在(a,b)这一点上时,因果律就最多。只要A包含a且B包含b,则A®B就是一条因果律。因素逻辑能反映背景分布的变化,在实际应用中就能反映场景的变化。
理性思维的过程是建立在概念与推理这两个基本环节之上的,因素空间既能打通这两个基本环节,也就可以从数学上描写全部的理性思维。人类知识的大厦建立在无数知识单元上,每个知识单元都是按问题的需求而选择一组因素来对一个上位概念做出更细的划分,然后再运用这些新概念进行判断推理和其它高级理性思维。一个知识单元所要做的事情恰好就是一个因素空间所能做的事情。
例如,有一个农村,得心血管疾病的人较多,于是,以这一地区的居民为论域,以心血管防治为问题导向,考虑象征、引起、和防止心血管疾病的因素,如血压、血脂,血糖、烟酒历史、嗜好情绪、家庭环境、生活习惯等等。按人按时按因素收集数据,这样就形成了一个数据包。由于这个数据包是按因素设置的,叫做因素库或因素数据包。前述因素空间的几个算法是人工智能的万用工具,利用这些工具就能对这个数据包建立一个问答系统(Answer),它可以自动回答这一知识单元中所包含的三类理性问题:
(1)直接概念判断,例如,“张三的血压是否正常?”“收缩血压正常,舒张血压偏高的人群是那些?’“甲类人群的共同特征是什么?”,这些问题都与新生成的概念有关,要回答这些问题,只需从内涵找外延或从外延找内涵,便可得到答案。
(2)基于推理的概念判断。例如,“基于某些特征,他的病该属于哪一类型“?“基于某些状况,究竟该作什么决策”?“基于某些指标,究竟该作什么评价”?“基于某些征兆,究竟该作什么预测”?“基于某些险情,究竟该如何控制”?…,这些问题都可运用因果树算法而得到答案。若把分类当做结果因素,则因果树就自动分类,若把决策当做结果因素;则因果树就对专家设置的各种备择方案作出选择;若把评价当做结果因素,则因果树就自动地给出评价等级;若把预测当做结果因素,则因果树就自动预测;若把控制当做结果因素,则因果树就自动进行控制;如此等等。
(3)回答前因后果的问题,如“这是因为什么”?“这将会引起什么”?“为了实现甲,我该如何改变乙”?所有这三类问题的回答,都离不开专家的审核和整理,实现良好的人机结合。
于是,因素空间为人工智能建立了万用工具箱,可以引导各行各业的人士在他们自己的专业知识单元中建立起一个个将信息转化为知识的智能演算器或知识产生器。然后再用因素藤和因素神经网络理论把这些知识包连结起来,由局部到整体,从系统到行业,形成整个社会的巨型知识网络。这样的智能神经网络就是因素空间理论所要推动的伟大智能工程!
数据是信息的载体,信息的价值在于它所含有的意义。数据一旦放进因素的相空间,便显示了它所携带信息的意义。因素空间强调背景分布是智能演算的核心,背景分布决定一切知识,背景分布是每个知识产生器的培植目标,而这个目标是靠同表头的样本分布叠加出来的,因此,因素空间把数据的地位从奴仆提升为培植的对象和塑造的主体。同表头样本的叠加可以在不同地方进行并行计算。样本是对母体的单调逼近,越用越稳定,可以经得住大数据的冲击,样本点在相空间中不留对象姓名,不涉及隐私,这些都是因素空间理论面对大数据所具有的优势。这样,因素空间既是人工智能的理论基础,也是信息和数据科学的理论基础。
人脑是信息的优化处理器。没有因素,属性就像断线的珍珠撒满遍地。因素是对属性的优化,人脑的感觉神经元就是按因素分区分层分片地组织起来的。一个因素所辖的神经元分别对该因素所属的不同属性值负责。每个神经元对所负责的属性值兴奋而对其它属性值抑制。一个对象在不同因素下有不同的兴奋元,同时兴奋的神经元之间的突触要加粗。多次重复加粗就要形成突触瘤。每个突触瘤对应于一个原子概念。从这个意义上说,人脑具有因素特质。人脑从信息中提取知识,同时又被知识所塑造,知识在头脑中不是虚空,而是被记忆所固化的由突触瘤所联成的神经网络,因素空间理论在信息生态系统,知识生态系统和人脑记忆神经网络之间建立了三位一体的同构观念,在因素空间指导下所要构建的超大智能神经网络就是这种同构观念的物质实现。
因素空间从战略高处俯视当今世界,其内容、意义与方法都契合时代发展的需要,可以引领以网络为翅膀、以智能为核心的大数据传播浪潮。
二.因素空间的应用与发展因素思维
因素空间不是空洞的理论,它已经具备实用的条件,问题在于用与不用。最直接的应用就是在各行各业建立起能在网上吞吐数据的知识产生器(或智能演算器,智能答问器,智能检测器)及其网联体。目前已经开始试用在煤矿监测、故障分析、信息安全、收益率曲线调节、银行商业软件开发、智慧网答问、倒逼机制评价系统,心血管疾病防治,顾客爱好分析,网络建模,社区和谐系统,智慧城市等等方面。随着因素空间理论的普及,类似的应用将如雨后春笋般地涌现。应用深度将从一般模式转向人性化的特殊模式。
因素空间的运用需要发展因素思维。
幼儿园就在培养儿童的因素思维。四件物品中有三件具有同质根的属性,要孩子把第四个看不顺眼的物件删掉,这就把因素意识潜移默化地放进了孩子们幼小的心灵。小学也在培养因素思维,让学生学会画因素图,例如,先画一个圆圈,里面写爱因斯坦的名字,从这个圆圈向四周画出一些箭头,一个箭头注明是相貌特征,在这个箭头后面连着一个方框,里面写着‘俏皮的大胡子’,一个箭头注明的是学术成就,连着的方框中写的是‘提出相对论’,其它箭头涉及性格,警句,如此等等。因素图画多了,因素思维也就发展起来了。
发展因素思维需要突出因素的八个特性:
1、主动性。因素是对思维的主动牵引,聪明的人会出点子,就是会抓因素。会抓因素的人永远主动;
2、变化性。因素只有在变化中才能显示其对结果的影响。雨量充沛之所以是粮食丰收的原因是因为降雨量的变化可以使粮食丰收,也可以使粮食颗粒无收;
3、分辨性。因素的意义在于区分事物。有特点的因素才珍贵。卓别林走的是横一字步,要鉴别一个对象,只需注意他与众不同的特征;
4、层次性。每个因素都要作用在具体的对象上,对象都有层次结构,因素要随着对象的层次而层次化。例如人体的形态是一个因素,它有描写人体形态的一串描述指标。但是人有头、身躯和四肢等部位,于是人的形态就细分成头部形态、身躯形态和四肢形态等更细因素,它们各有自己不同的描述指标。人头又分为眼、眉、鼻、口等部分,于是,头部形态又可进一步地细分。如此下去,形成因素的层次结构。人靠眼、耳、鼻、舌、身来主管视觉、听觉、嗅觉、味觉和触觉,就是这几种因素细分下去,形成无数的因素,物质世界如此,精神世界仍然如此。因素再多,能实际搭配的总是某几项基本因素在不同层次中的组合。
5、权衡性。因素有主次之分,要权衡轻重。权重运算可承载神医名厨和能工巧匠的秘笈。神经网络要学习的是权重分配,深度学习的精髓在于对因素权重如何进行优化。
6、可分性。因素的分解隐藏着精细化的奥妙。工艺的精细在于因素的精细,两个因素只要有相依的关系,就应该可以分解出一个更细的因素。但是,如何进行分解?这一点还是因素空间理论中尚待解决的疑难问题。
7、约简性。因素要约简,抛弃那些次要因素,事情再复杂,只抓少量的因素就足以应付事态;因素不约简,大数据便无法应对。
8、隐密性。从本源上说,因素的状态不可能完全裸露,能被描述和掌控的因素不可能总是完全的。不确定性永远存在。
三.因素空间的发展历史
汪培庄教授在上世纪六十年代,为了探索随机性而启动了因素思维。在概率论课堂上画出了投掷硬币的因素空间,指出随机性是由于试验的条件因素不充分而引起的事件发生的不确定性。概率论所研究的是在不充分条件下广义的因果律。(广义因果律生出广义的逻辑,就是后来学者们提出的概率逻辑)。把概率论的基本空间看作是因素空间,可以更好地促成随机性向确定性的转化。1982年,汪培庄教授在研究模糊数学的时候,为了弄清楚模糊性的根源以及它与随机性之间的联系与区别,再次启动了因素思维,并正式发表了因素空间的论文。模糊性是由人脑识别因素的不充分而引起的概念外延的不确定性。把模糊集合的定义域看成是因素空间,汪培庄教授提出了模糊落影理论,把论域U上的模糊分布转化为幂P(U)上的随机分布,奠定了集值统计(包括区间统计)的数学思想,证明了四种非可加的主观性测度与幂上随机分布对应的存在性和唯一性定理。在钱学森教授的指导下,凭借着理论优势,于1988年5月在北师大研制出当时国际上第二台模糊推理机,从日本首台每秒一千万次提高到每秒一千五百万次推理运算。这是因素空间在模糊数学研究中所取得的成就。因素空间是模糊数学的深入发展。自此以后,因素空间一直用于知识表示和模糊计算机的研制,出版了相应的著作。
在1982年出现因素空间的同时,德国的Wille提出了形式概念分析,波兰的Pawlak提出了粗糙集。Wille用内涵与外延的对合性,首次在数学中定义了概念,并提出了生成基本概念半格的算法,开辟了智能数学的先河,计算机也开始自动生成概念。Wille看重属性,在他的形式背景表中按属性设列,造成列数膨胀的困难。Pawlak用属性名取代属性值,克服了这一困难。他是数据知识发现的领头人之一,研究目标十分明确,他的信息系统表格是关系数据库的标准形式,粗糙集成为数据库的理论基础。他所选取的属性名就是因素,但遗憾的是,他只知其然而不知其所以然,没有足够的因素思维,有些理论问题说不清楚,存在漏洞,以粗糙集为基础的数据库理论难以应对大数据的挑战。
汪培庄教授在2012年开始把因素空间的理论转移到数据库上来,建立了因素库的理论和方法,使因素空间获得了新的发展。现在,用因素空间来描述智能与数据科学,在理论上能把问题叙述得更清楚,处理得更严密,在方法上能使算法更简捷,在目标上把视野提得更深远。能够引领大数据的潮流。
值得指出的是,早在1931年,美国心理测量学家Thurstone就提出了因子分析(Factor Analysis),其中心理测量的因子就是因素空间的因素,尽管他并没有把心理测量提到认知数学的高度,所用的数学方法也是四则运算,后来才用了数理统计方法,但他却早就举起了因素的大旗而成为先驱.如今,因素空间要继承他所举起的这面旗帜,与因子分析、粗糙集、形式概念分析等兄弟学科相辅相成地向前发展.从长远发展来看,因素空间要得到发展,还必须运用更深刻的数学理论,如张量Topos、代数拓扑、Domain理论和辛几何等。
注* ‘的’字的用途主要有5类:1.用‘的’表示目的,是名词,如‘有的放矢’;2.用‘的’字作语气词,例如‘好样的’、‘他妈的’;3.用‘的’字连接形容词和名词,例如‘蓝的天’、‘美好的回忆’等等,这样的‘的’叫做‘修饰的’;4.用‘的’字连接一个总体和它的局部,例如‘中国的北京’,‘老虎的前额’等等,这样的‘的’叫做‘属于的’;5.用‘的’字连接一个对象和它的属性,例如‘汽车的颜色’、‘文章的结构’等等,这样的‘的’叫做‘分析的’。第一、二两类用得极少,第三类虽然在文学中用得很多,但在自然和人文社会科学中却较少。作为科学研究,‘的’字的用途属于第四、五两类。在这两类运用中,‘的’字的作用等价于英文中的of(但次序相反),可以合称为‘of的’。‘属于的’是把考察对象缩小范围,可以被‘分析的’所概括,因而在科学领域所使用的‘的’字本质上是‘分析的’。