近日,我院莫凡洋團(tuán)隊(duì)與東方理工大學(xué)張東曉團(tuán)隊(duì)合作,通過(guò)結(jié)合統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)方法,首次明確揭示了薄層色譜(TLC)與柱色譜(CC)之間的量化關(guān)系。該研究提出了一種知識(shí)發(fā)現(xiàn)技術(shù)、建立了可解釋的公式,將專(zhuān)家經(jīng)驗(yàn)(Chemist’s experience)轉(zhuǎn)化為“人工智能經(jīng)驗(yàn)”(AI experience),為色譜分離實(shí)驗(yàn)條件的確定與優(yōu)化提供了理論支持。相關(guān)成果發(fā)表于《自然·通訊》(Nature Communications)。

圖1. 相關(guān)工作于1月19日發(fā)表于Nature Communications
薄層色譜和柱色譜都是一種基于色譜原理(Chromatography)的分析分離方法,廣泛應(yīng)用于合成化學(xué)實(shí)驗(yàn)室。在進(jìn)行柱色譜實(shí)驗(yàn)時(shí),往往需要先進(jìn)行薄層色譜分析,通過(guò)保留因子(RF值)來(lái)評(píng)估混合物中組分與流動(dòng)相的相對(duì)極性。在實(shí)際操作過(guò)程中,流動(dòng)相的組成和比例通常會(huì)根據(jù)需要進(jìn)行調(diào)整,以確保目標(biāo)化合物的RF值大致在0.2到0.3之間。這一源于經(jīng)驗(yàn)的方法非常有效,然而其背后的原理尚未得到充分闡明,存在“知其然而不知其所以然”的現(xiàn)象,阻礙了研究者對(duì)色譜分離化學(xué)本質(zhì)的深入理解。

圖2.色譜分離的專(zhuān)家經(jīng)驗(yàn)與數(shù)據(jù)驅(qū)動(dòng)的關(guān)系量化
為回應(yīng)這一科學(xué)問(wèn)題,研究團(tuán)隊(duì)采取以數(shù)據(jù)為中心的視角,試圖直接從大量實(shí)驗(yàn)數(shù)據(jù)中識(shí)別出薄層色譜與柱色譜之間的潛在耦合關(guān)系,并將其表達(dá)為簡(jiǎn)潔的方程形式。為此,研究團(tuán)隊(duì)開(kāi)發(fā)了一種自動(dòng)化柱層析平臺(tái),系統(tǒng)采集了不同實(shí)驗(yàn)條件下192種化合物的柱色譜保留體積,共獲得了5984條數(shù)據(jù)。基于此,研究團(tuán)隊(duì)通過(guò)機(jī)器學(xué)習(xí)方法分析了薄層色譜的保留因子(RF值)與柱色譜保留體積之間的關(guān)系,并通過(guò)符號(hào)回歸方法得出了明確的數(shù)學(xué)公式。

圖3. 柱色譜的保留時(shí)間與薄層色譜的RF值之間關(guān)系的公式識(shí)別與預(yù)測(cè)效果
研究揭示了柱色譜中化合物的保留體積分布范圍與其RF值存在的顯式關(guān)系。此外,通過(guò)遷移學(xué)習(xí)還可實(shí)現(xiàn)該公式在不同色譜柱規(guī)格上的推廣。該研究結(jié)合機(jī)器學(xué)習(xí)方法,運(yùn)用AI在識(shí)別科學(xué)數(shù)據(jù)集中的模式與關(guān)系的能力,破解了化學(xué)經(jīng)驗(yàn)的“黑箱”,為實(shí)驗(yàn)化學(xué)中的色譜分離原理提供了重要的理論支持,有助于確定色譜分離的條件,有望為相關(guān)研究帶來(lái)更高效的解決方案。
北京大學(xué)莫凡洋長(zhǎng)聘副教授、東方理工大學(xué)張東曉教授(美國(guó)工程院院士)為本論文的共同通訊作者。該研究得到了國(guó)家自然科學(xué)基金、博士后科學(xué)基金、北京大學(xué)深圳研究生院AI4S交叉專(zhuān)項(xiàng)計(jì)劃等項(xiàng)目的支持。