比喻实例讲哲理,引玉之砖释小波!
数据挖掘中要用到小波,如基于小波分析的时间序列挖掘、聚类、分类、相似性搜索等,我们研究团队也有些实践,由于选修学生来自理工医文,基础有差异,部分学生反映学习小波像幼时背古诗文,不太爽顺,需要一些通俗解释。这个任务有点难。相关书籍相当厚,例如教科书有400多页,研究生用一个学期来学习,也是个不轻松的课程。利用周末,从讲课的PPT中取了一些素材,写成这篇博文。以学过小波而觉不爽的学生为参考对象、以教学方法讨论为目的,从大思路、远轮廓、以及哲理的角度给讨论开个头,为避开复杂公式和形式化描述,采用例子和比喻来做解释,例子和比喻不能取代数学老师的严格训练。疏漏之处,请朋友们指正。
小波三特点:一小、二波、三速降
图1中给出了典型的小波,1号中规中矩、3号像白鹤亮翅,正视着读者;4号是哈尔小波,体型方头方脚,尺度有胖有瘦;5号是墨西哥草帽,漂亮且对称。
图1
从外形看,它们像一粒珍珠落入了九寨沟那湖面如镜的镜湖,动静不大而信息丰富。首次冲击之后,激起的涟漪随时间很快地渐行渐小。这里说“像”而不用“是”,是因为有两个物理对象:中心点的上下振动随时间变化的曲线图,它在人的想像中(可视为小波);水面波,由周围的质点振动形成,且传递能量,可被视觉感知。因为前者是后者的原因,所以波形相像。特征可描述为:一小、二波(有正有负,有起有落)、三速降。这些特性确保了小波分析的局部性,后两条还保证了在无穷区间上积分收敛,有如数学上的交错级数,有正有负,而绝对值渐行渐小,级数和不会无穷大。
下面给出一些类比的例子,与小波相比,事虽不同,但哲理同;旨在说明采用有语义、有内涵的坐标基,可以描述比较复杂的对象。下面由浅入深地表述。
几何坐标基底简单但缺乏语义
解析几何中,在直角坐标系X、Y、Z轴正方向上,各选一个单位向量,记为 i、j、k,向量V=a*i+b*j+c*k,对应从原点指向 (a,b,c) 那一点的向量。
在等式两边点乘k,立刻得到V*k=c;坐标值c 即v 在k 上的投影的长度,(a、b也有类似意义)计算、存储和信息交换都很方便。
但是,这可能误导初学者, 以为单位向量都是那么抽象、那么简单、没有内部结构、也没有语义。
带语义的7维象棋空间
中国象棋讲究“势”和“力”, “势”由棋子类型及其位置的综合表达,“力”是一个7维向量,(红方的)向量基底是<帅,仕,相,车,马,炮,兵>。向量 (1,2,2,2,2,2,5)表示开局时红方16个棋子的全部力量。中国象棋中,子型不能变换,所以各维度可视为正交,而向量 (1,1,0,1,0,0,0,0) 就表示只剩下一帅、一仕、一 车的残局了。此例中,单位向量有一点语义了。
人生追求的坐标系
考虑描述理想与追求的多维空间,设有坐标基底( 土地(亩),牛,炕,车,房,妻子,儿子,职称,论文,成果,….),则向量 (30,1,1,0,0,1,1,0,0,….) 就表示了“三十亩地一头牛….”的那种低标准追求。
音乐的合成与分解
一场有众多乐器的合奏,在菜鸟耳中,也许只是一个好听的波W。而乐队指挥或骨灰级的发烧友能够准确地把W按音色个性分解,例如,分解出W=1*钢琴+3*提琴+1*长号+1*黑管+… ,在排练时,谁出了一点小错,都逃不过乐队指挥那明察秋毫的耳朵。
这是以复杂对象(如钢琴,提琴,长号等)为基元的分解,而不是傅里叶分解,傅里叶分解的基本单元是没有音色个性的Sin(ωt),Cos(ωt)。ω 好像一盘东北农家名菜“大丰收”,而傅里叶分解把他们全磨成了带有频率标记的粉末,打乱后,再按频率标记分堆;已经品尝不到玉米、土豆、花生的单独的味道了。
用墨西哥草帽小波来做基向量
设有三个两两正交墨西哥草帽波U,V,W,根据其外形,依次给绰号为:胖帽,中帽和瘦帽。
图2
不难造一个波Y=3*U+4*V+5*W ,即Y 可以由三个胖帽,4个中帽和5瘦帽来合成。Y的形状比较复杂,普通人看到Y,难知其配方,好像按秘方配制的云南白药。而分解成3*U+4*V+5*W之后。就容易描述、分析、复制或重建了,下面是一个应用。
人工多喷口间歇泉的池面波分析和异地重建。为了简单,想象一个人工间歇喷泉,有三个涌泉水管,捆绑在一起(从而可简化为一个点涌),每隔N分钟,喷涌一次。精心设计喷口形状,使得喷涌波形(近似地)表达为胖、中、瘦的三个墨西哥草帽小波,且草帽的尺度(暂理解为水平方向的代表性尺寸)为w1、w2、w3。控制水压,使得三个涌泉口以一定的加权系数p.q.r喷涌,他们在时间上依次延时b秒(时间轴上的平移b)。
结果,观众看到了复杂多变的美丽喷泉和一池水波。如果知道w1、w2、w3,b,p,q,r,则池面波形可计算、可重复,可在异地重建。
现在反过来,设w1、w2、w3,b,p,q,r或其中一部分是秘密参数。用摄录像机记录下了池面波的视频,能够从视频分析出上述数值吗?换言之,能把池面的波分解为小波基底上的向量吗?
不知类似的分析能否在防洪堤坝的管涌分析方面找到应用?
小波压缩和信息编码
如果上述分解成功了, 就不需要存储和传送复杂的池面的波函数,而只需传递ww1、w2、w3,b,p,q,r等数值。如果系数p比q、r小10000倍,忽略它引起的失真很小,这就压缩了小波,在异地重建时可节约经费。如果秘密参数w1、w2、w3,b,p,q,r包含一条重要信息的编码,间歇喷泉就构成了喷泉密码或小波密码;外行看到的是美丽的喷泉,内行知道其传递的消息。
由解析几何常识,正交的基向量能使表达简单,怎样寻找正交的小波基呢?方法之一是:时间平移创造正交。
下图中有4个尺度一样的但带不同时间平移的Harr小波,现说明他们是正交的。
图3
两个函数U(t)、V(t) 的向量内积U*V= |U|*|V|cos(α)=∫U(t)V(t)dt(在一定的积分限上)。如果内积为0,表示α为直角, 称两函数(向量)正交或无关(没有缘分)。
看他们都长得端庄方正,似乎有缘,由于巧妙的延时,它们约会作内积时,你不为零我为零,我不为零你为零,总是相错,即使相约无穷长时间,内积还是为0;那匍匐在横轴上的长长尾巴,就像一声长叹:实在是有缘无分。显而易见,上面4个向量是两两正交的。
其他类型的小波要复杂一些。大致情况是:在适当的时移之下,两个小波的主部在时间上错开,而次要部分的绝对值渐行渐小,又正负抵消,以至内积为零,当然,有了直观启示后,还需要严格的数学计算。
所以,用适当的时移可以创造正交的向量集。
文章已经较长,剩下的内容还要长一些或许更有趣一些,拟在下文中回答下列问题:
· 问尺度,常听说2K倍尺度,为什么2K倍尺度能创造正交小波?有直观解释吗?
· 问显微,人说小波分析是数学显微镜?怎样显微,有直观解释吗?
· 问基底,怎样直观地构造一个小波正交基底?有直观解释吗?
参考文献
陈安龙, 唐常杰, 元昌安, 朱明放, 段 磊,基于小波和偶合特征的多数据流压缩算法, , 软件学报 Vol.18, No.2。P177-184
陈安龙, 唐常杰, 傅彦, 廖勇, 基于能量和频繁模式的数据流预测查询算法,软件学报,2008,Vol.19 ,,N0.6 PP,1413-1421
Zheng Jiaoling, Tang Changjie, Qiao Shaojie, Yang Ning, Wang Yue, Chen Yu, Zhu Jun, MMIR: Mining Multi-scale Intervention Rules in Sub-Complex System, The 12th International Asia-Pacific Web Conference (APWeb 2010, pp369-371)
成礼智等, “小波的理论和应用”(研究生教学丛书),科学出版社,2004.9
来源:唐常杰科学网博客,作者:唐常杰。
页:
[1]