歐拉公式(BEE)是很多數學方向的根基,而二進制是計算機理解人類世界的語言。近日,美國北卡羅來納大學教堂山分校副教授張凱、天普大學副教授趙志根以及科羅拉多州立大學副教授周文,利用對連續隨機變量的二進制逼近,在數據科學中對這兩個經典理論做了結合和創新,特別是為均勻性檢測以及隨機向量的獨立性檢測提供了一個全新的非參數理論框架,并將現有理論方法統一在新的框架之下。相關成果預印本日前發表于arxiv.org。
研究人員在研究成果中首次從概率論角度發展出了基于兩點分布的BEE。假設A是任意一個僅取值于-1和1的隨機變量,則對任意的實數x有eiAx= cos x+iA sin x。該等式是經典BEE在概率意義下直觀的推廣。
作者進一步將上述公式應用于張凱于2019年發表的二進制展開檢驗的非參數統計框架,指出對于任意一個連續隨機向量,首先將其耦合分布的每一個維度進行二進制展開,再結合BEE,可以得出初始分布的特征函數的二進制逼近(BEAUTY)。這個基于BEE的BEAUTY為當前廣泛應用于均勻性檢測和獨立性檢測的眾多非參數方法提供了統一的理論基礎,并為進一步改進和提高指明了方向。
在此基礎上,該論文進一步構造了基于BEAUTY的BEAST檢驗方法。在統計方面,研究人員利用大量數據實證檢驗了該方法,證明與現有方法相比,BEAST不僅大幅提高了檢測的一致性和穩健性統計功效,而且提高了對各種復雜的關聯結構的解釋性。在計算方面,研究人員通過將觀測值轉化成二進制,使得該算法可以直接對存儲于機器中的數據進行位操作,從而大幅提高了計算效率。在應用方面,由于該檢驗屬于不受分布限制的非參數統計方法,所以可以被廣泛應用于生物、工程、醫學、經濟等自然和社會科學領域,為數據分析提供了有力的新工具。相關的統計應用軟件R語言包BET已經發布在CRAN上,可供免費下載使用。(唐鳳)