高分子材料大數(shù)據(jù)研究:共性基礎(chǔ)、進(jìn)展及挑戰(zhàn)
高分子材料成就了我們生活的方方面面,在提升人類生活的便易性,健康舒適,助力人類探索未知世界的同時,也成為全球人類可持續(xù)發(fā)展和環(huán)境保護(hù)的主要挑戰(zhàn)之一. 高分子材料的機(jī)械熱、光電聲磁、分離、降解和加工性質(zhì)是設(shè)計、生產(chǎn)和應(yīng)用的聚焦內(nèi)容,其柔性可設(shè)計的特征,有力地支撐著社會的多樣化發(fā)展,對密切相關(guān)的組成、加工、結(jié)構(gòu)及其性質(zhì)關(guān)系的認(rèn)識也在不斷完善中. 在對高分子材料個性化、智能化生產(chǎn)和應(yīng)用的驅(qū)動下,傳統(tǒng)經(jīng)驗理論提供的定性指導(dǎo)模型漸不能滿足,而對支撐給定性質(zhì)實現(xiàn)材料逆設(shè)計的定量決策模型產(chǎn)生大量需求. 特別是人們對于給定目標(biāo)性質(zhì)實現(xiàn)對材料組成工藝精準(zhǔn)定位“逆設(shè)計”的渴求,迫切需要對高分子材料多因素及其聯(lián)系的定量化研究,即大數(shù)據(jù)研究,取得進(jìn)展. 基于我們4年前對材料基因組學(xué)研究的梳理[
1 材料大數(shù)據(jù)研究的共性基礎(chǔ)
眾所周知,人類探索未知世界存在4種認(rèn)知范式,即以實驗試錯法為主的第一范式,以理論推理演繹為主的第二范式,以基于模型的計算模擬仿真為主的第三范式,和以數(shù)據(jù)驅(qū)動創(chuàng)新為主的第四范式. 這4種范式都可以產(chǎn)生基礎(chǔ)可用的數(shù)據(jù),在數(shù)據(jù)基礎(chǔ)上建立聯(lián)系形成可流通的信息,從信息流中梳理出一定條件下存在的模式形成知識,進(jìn)一步凝練出法則(principle)從而獲得智慧,即科學(xué)認(rèn)知的DIKW (Data,Information,Knowledge,Wisdom)框架. 在該框架中,人類生活生產(chǎn)和研究長期匯集的基礎(chǔ)科學(xué)數(shù)據(jù)逐步成為一種資源并可以較為廣泛地公開共享,機(jī)器學(xué)習(xí)、人工智能、深度學(xué)習(xí)和大數(shù)據(jù)(注:這4個專業(yè)名詞的內(nèi)涵具有高度重疊的共同知識,但有不同的側(cè)重,相互間聯(lián)系仍在變化中)為代表的新興理念和技術(shù)手段,正快速地發(fā)展并重塑著生產(chǎn)力和生活模式. 統(tǒng)計力學(xué)和貝葉斯統(tǒng)計學(xué)與多個學(xué)科交叉,先后形成了生物信息學(xué)、化學(xué)信息學(xué)和材料信息學(xué)3個前沿學(xué)科. 目前生物信息學(xué)發(fā)展的典型代表是AlphaFold2[
高分子材料的大數(shù)據(jù)研究是材料信息學(xué)的前沿核心內(nèi)容,而材料信息學(xué)的研究存在如
Fig. 1 The common frame for the composition-process-structure-property- performance relationship (CPSPPr) and their key subterms (a). The general pattern for an attribute with distribution A, evolutes to a significantly different state with distribution D, through tailed distributions B and C (b).
在工藝方面,主要包含對配方組分的反應(yīng)、分散和融合3類操作. 反應(yīng)是化學(xué)鍵的變化,涉及物質(zhì)本征屬性改變,包括物質(zhì)的合成、修飾改性、化學(xué)交聯(lián)、降解等,常見的因素包括手性、異構(gòu)、鍵生成斷裂平衡、活性、選擇性以及與反應(yīng)關(guān)聯(lián)的小分子產(chǎn)物,反應(yīng)過程伴隨的物質(zhì)和能量擴(kuò)散和傳遞的調(diào)節(jié)控制等. 分散是通過對體系助劑或能量輸入,提升物相接觸交換界面,使材料快速達(dá)到熱力學(xué)平衡狀態(tài)(一般是熵增過程),或者使物質(zhì)分布達(dá)到具有特定分布結(jié)構(gòu)的穩(wěn)態(tài)狀態(tài). 融合主要是破壞或黏合熱力學(xué)不相容表界面使體系成為整體,如表面活性劑、膠黏劑或者“鎖-鑰原理”實現(xiàn)結(jié)構(gòu)錨定(藥物篩選的原則之一)等. 這些工藝涉及較多人為經(jīng)驗性因素,易造成精細(xì)層面的可重復(fù)性低,對復(fù)雜、精密、長期或在極端條件服役的材料體系,在生產(chǎn)和應(yīng)用之前一般會引入宏觀尺度的計算機(jī)輔助設(shè)計/制造(CAD/CAM). 在實際CAD建模計算模擬仿真中,常常需要引入材料中組分的體相宏觀性質(zhì),如密度、模量、泊松比以及可以描述物質(zhì)相態(tài)的本構(gòu)方程等[
性質(zhì)分為組分、材料和器件性質(zhì),組分性質(zhì)一般接近其本征性質(zhì),但在材料的多組分作用下,其性質(zhì)可能發(fā)生大幅變化. 在高分子材料體系里,無論是從單體到聚合物,還是聚合物鏈的交聯(lián)、共混等,材料性質(zhì)都很難用組分性質(zhì)直接或者加權(quán)平均近似[
不同于小分子、金屬、無機(jī)非金屬材料,利用大數(shù)據(jù)研究實現(xiàn)從性質(zhì)到分子結(jié)構(gòu)的“逆設(shè)計”已有不少成功報道[
2 高分子材料結(jié)構(gòu)定量數(shù)據(jù)其中,C,P,S,M,D分別代表組成、工藝、結(jié)構(gòu)、表征生產(chǎn)應(yīng)用條件和分布函數(shù),x則代表組成工藝中的某一可控變量,{ }代表集合.分布函數(shù)D = {ρi} 可以是熱力學(xué)平衡分布(高斯分布、玻爾茲曼分布等),也可以是偏倚分布(對數(shù)正態(tài)分布、帕累托分布、雙指數(shù)分布、泊松分布等),或者是描述材料內(nèi)部組成基元在正、倒空間(傅里葉變換)的分布. 性質(zhì)Z可表述為在具有一定結(jié)構(gòu)S和測試應(yīng)用條件M下可由材料的組成C和加工成型工藝P改變,或者表述為材料在特定條件M下結(jié)構(gòu)及其變化對外場響應(yīng)而表達(dá)出性質(zhì)Z. 結(jié)構(gòu)S則可以表述為參考態(tài)的穩(wěn)定分布D與該分布在演化條件中擾動量
一般地,材料結(jié)構(gòu)的定義為組成基元的時空間分布,組成基元可以是電子、原子、離子、基團(tuán)、分子片段、分子、聚集體、相區(qū)和器件單元,分布可以表達(dá)為笛卡爾坐標(biāo)、極坐標(biāo)、內(nèi)坐標(biāo)或傅里葉倒空間的基元豐度,或者場模型中的概率密度. 基元的屬性和分布可以隨時間發(fā)生變化,存在內(nèi)部的熱漲落或?qū)ν獠康拇碳ろ憫?yīng),從而通過表征手段獲得信號或表達(dá)出材料的不同性質(zhì). 結(jié)構(gòu)是一系列探測手段與材料作用的譜學(xué)信號,而性質(zhì)也是材料對外部的刺激響應(yīng)結(jié)果. 因此,材料的定量結(jié)構(gòu)活性/性質(zhì)關(guān)系(QSAR/QSPR)在本質(zhì)上是不同譜學(xué)信號的相互關(guān)聯(lián),當(dāng)某些表征信號可以比較完備地描述性質(zhì)時,該表征手段常被作為性質(zhì)的代理量(surrogate). 如利用某種試劑盒的UV特征吸收表達(dá)物質(zhì)的生物活性,用楊氏模量刻畫材料的彈性,特定條件下的熔融指數(shù)衡量高分子材料的加工性,以及溶脹率表征材料的體積穩(wěn)定性等. 因為結(jié)構(gòu)可由組成和工藝共同決定,并通過物理、化學(xué)的知識闡明機(jī)理,因而結(jié)構(gòu)性質(zhì)關(guān)系常用結(jié)構(gòu)特征建立性質(zhì)的代理模型或代理量,從而用于理解、設(shè)計和調(diào)節(jié)控制材料的宏觀性質(zhì).
從理論和計算模擬仿真角度來看,高分子材料的結(jié)構(gòu)僅包括化學(xué)結(jié)構(gòu)和聚集結(jié)構(gòu)兩方面. 化學(xué)結(jié)構(gòu)用于區(qū)分組成物質(zhì)的屬性,其定量化是化學(xué)信息學(xué)研究的核心內(nèi)容. 主要包含化學(xué)語言的定量描述,包括編碼與解碼,比較成熟的有SMILES (simplified molecular-input line-entry system)和InChI (international chemical identifier) 2套系統(tǒng). 化學(xué)結(jié)構(gòu)的圖論和圖特征表達(dá)這類有長久歷史的方法也存在一定程度應(yīng)用和發(fā)展[
另一方面是精確力場的發(fā)展,受高通量藥物和精準(zhǔn)催化劑設(shè)計的驅(qū)動,經(jīng)典的通用力場如CHARMM[
該計算難題同樣也存在高分子材料多尺度結(jié)構(gòu)的實驗表征中,特別是聚集結(jié)構(gòu)的定量解析實現(xiàn)還需要長時間的努力. 化學(xué)結(jié)構(gòu)、晶體結(jié)構(gòu)或單分散結(jié)構(gòu)通過X光衍射、NMR、冷凍電鏡、小角散射等可以較準(zhǔn)確解析,而在計算方面,除共聚或共混兩相組裝相圖有較系統(tǒng)的定量數(shù)據(jù)外,實際材料至多有半定量數(shù)據(jù). 常見的材料結(jié)構(gòu)實驗表征和計算方法的共性認(rèn)識如
Fig. 2 The general frame to acquire the structure information for polymer materials at different temporal and spatial scales, the detectors and interactions, popular experimental techniques and computational methods.
3 大數(shù)據(jù)研究的數(shù)據(jù)和算法進(jìn)展
材料大數(shù)據(jù)研究的主要流程可參考綜述文獻(xiàn)[
Table 1 List of representative data resources for the big data study of polymer materials.
Sources | Name | Type |
---|---|---|
Book | Polymers: a property database[ | Experimental |
Handbook of polymers[ | Experimental | |
Properties of polymers[ | Experimental | |
Prediction of polymer properties[ | Experimental | |
Polymer synthesis: theory and practice[ | Experimental | |
Polymer handbook[ | Experimental | |
Phase equilibria and thermodynamic data of aqueous polymer solutions[ | Experimental | |
Online | PoLyInfo (polymer.nims.go.jp/en) | Experimental |
CROW: polymer properties database (polymerdatabase.com) | Experimental | |
Polymers: a property database (poly.chemnetbase.com) | Experimental | |
CAMPUS plastics (campusplastics.com) | Experimental | |
Landolt-B?rnstein (materials.springer.com) | Experimental | |
Polymer property predictor and database (NIST) (pppdb.uchicago.edu) | Mixed | |
Khazana database (khazana.gatech.edu) | Simulation | |
Identify database (www.ringgold.com/identify) | Experimental |
在機(jī)器學(xué)習(xí)的算法方面,如
Fig. 3 List of representative machine learning and deep learning algorithms.
在強(qiáng)化學(xué)習(xí)算法方面,其原理類似于給定模型的計算模擬仿真,通過打分和懲罰函數(shù)在迭代反饋中優(yōu)化,建立代理模型. 典型的強(qiáng)化學(xué)習(xí)算法有Q-learning方法(如深度Q-網(wǎng)絡(luò)[
特別值得一提的是近幾年深度學(xué)習(xí)對整個機(jī)器學(xué)習(xí)算法、人工智能和大數(shù)據(jù)從基礎(chǔ)研究到生產(chǎn)應(yīng)用都帶來了極大的沖擊. 人工智能自動編程,機(jī)器學(xué)習(xí)數(shù)據(jù)自動生成等的急速發(fā)展與深度學(xué)習(xí)算法的高速發(fā)展密切相關(guān),在廣泛應(yīng)用的機(jī)器學(xué)習(xí)編程語言Python,R,Matlab的基礎(chǔ)上,新產(chǎn)生了一些建??蚣埽鏟ytorch,TensorFlow,MxNet等. 一些新的數(shù)據(jù)和工具包也形成了一定的流行度,如Hyperopt[
4 高分子材料大數(shù)據(jù)研究的代表性進(jìn)展
4.1 進(jìn)展分類
高分子材料大數(shù)據(jù)研究是材料基因組學(xué)或材料信息學(xué)中極具挑戰(zhàn)的重要課題,當(dāng)前階段材料基因組學(xué)強(qiáng)調(diào)高通量計算、高通量表征和高通量制備及數(shù)據(jù)共享,但高通量對于高分子材料實現(xiàn)起來存在諸多困難,源于高分子材料多分散和多尺度關(guān)聯(lián)等特性. 另一方面,以核酸、蛋白、多糖、多酚和小分子為主要研究對象的生物信息學(xué)最先發(fā)展成型,這類體系的組成單元收斂可枚舉,多分散性效應(yīng)不明顯. 近年來仍在高速發(fā)展的化學(xué)信息學(xué),聚焦化學(xué)語言數(shù)值化、微觀結(jié)構(gòu)多角度精確計量等極大地促進(jìn)了材料信息學(xué)的發(fā)展,特別是在小尺寸強(qiáng)關(guān)聯(lián)體系用化學(xué)信息學(xué)方法可直接指導(dǎo)材料的“逆設(shè)計”.
為了系統(tǒng)地介紹近幾年高分子材料大數(shù)據(jù)研究的代表性進(jìn)展,在CPSPPr中,主要按材料應(yīng)用性質(zhì)分類,包含新型高分子合成與自組裝、機(jī)械熱性質(zhì)、光電聲磁性質(zhì)、分離性質(zhì)等材料分類. 在大數(shù)據(jù)計算方法、數(shù)據(jù)集,以及計算預(yù)測與實驗驗證迭代的方法和思路的進(jìn)展也將融合到這些具體材料分類中. 整體來說,得益于化學(xué)信息學(xué)對物質(zhì)化學(xué)屬性和近程作用的精確刻畫,光電聲磁功能高分子材料的大數(shù)據(jù)研究已取得可媲美金屬合金、無機(jī)非金屬材料方面的成功應(yīng)用,但其他性質(zhì)的高分子材料大數(shù)據(jù)研究還缺乏能夠推動行業(yè)研究和生產(chǎn)模式發(fā)生改變的顯著成果. 在組成工藝決定結(jié)構(gòu)、結(jié)構(gòu)性質(zhì)關(guān)系(QSPR/QSAR)以及性質(zhì)性能3類主要關(guān)系中,結(jié)構(gòu)性質(zhì)關(guān)系研究較多,而結(jié)構(gòu)多數(shù)限于化學(xué)結(jié)構(gòu),對高分子材料聚集結(jié)構(gòu)的關(guān)聯(lián)關(guān)系研究報道非常少見. 高分子材料大數(shù)據(jù)研究的實際應(yīng)用如配方工藝優(yōu)化、材料新性質(zhì)發(fā)現(xiàn),以及材料組成工藝決定結(jié)構(gòu)的基礎(chǔ)研究這些方面的報道也較少. 下面我們將圍繞材料性質(zhì)分類對近幾年的代表性進(jìn)展進(jìn)行簡要回顧介紹.
4.2 高分子合成與自組裝
高分子合成的大數(shù)據(jù)研究主要集中在催化劑設(shè)計、聚合反應(yīng)中的物料配比投料、小分子和熱量管理,產(chǎn)物的自動分離表征和實驗方案協(xié)同調(diào)整等方面. Cooper小組開發(fā)出一種合成機(jī)器人,能夠使用機(jī)器學(xué)習(xí)算法對實驗迭代改進(jìn),實現(xiàn)目標(biāo)光催化劑的精準(zhǔn)合成[
在高分子的自組裝相圖預(yù)測方面,F(xiàn)redrickson等將SCFT解析中的Hamiltonian函數(shù)引入神經(jīng)網(wǎng)絡(luò)的打分函數(shù),極大地促進(jìn)了函數(shù)解析的收斂速度,通過深度學(xué)習(xí)建立了密度分布函數(shù)鞍點對高分子結(jié)構(gòu)和組成參數(shù)的依賴性,實現(xiàn)了自組裝相圖的快速計算[
4.3 機(jī)械熱性質(zhì)
由于高分子材料一般隨溫度升高經(jīng)歷玻璃化轉(zhuǎn)變溫度(Tg)和熔點(Tm)區(qū)間可表現(xiàn)為玻璃態(tài)塑料、高彈態(tài)橡膠和黏流態(tài)熔體,其機(jī)械性質(zhì)發(fā)生明顯改變. 因此,無論是高分子均聚物、共聚物、共混體系還是復(fù)合材料,其機(jī)械和熱性質(zhì)是密不可分的. 在熱性質(zhì)方面,常被看作高分子本征性質(zhì)的Tg,Tm以及結(jié)晶、玻璃化轉(zhuǎn)變熱焓等與高分子的化學(xué)、立構(gòu)和拓?fù)浣Y(jié)構(gòu)密切相關(guān),也是機(jī)器學(xué)習(xí)長期關(guān)注的預(yù)測目標(biāo). 在機(jī)械性質(zhì)方面,主要包括楊氏模量、拉伸模量、損耗角(tanδ)等源于高分子材料形變中的應(yīng)力-應(yīng)變關(guān)系既是理論計算方法,即本構(gòu)模型關(guān)注的重點,也因其非線性、非單調(diào)性等特點成為機(jī)器學(xué)習(xí)挑戰(zhàn)的難題.
對高分子的Tg和Tm的機(jī)器學(xué)習(xí)預(yù)測已經(jīng)有較長的研究歷史. 早期的流行方法是通過van Kervelen提出的基于基團(tuán)加和性方法來預(yù)測[
通過拉伸曲線和動態(tài)力學(xué)曲線(DMTA)可以得到材料楊氏模量、屈服模量、韌度、斷裂伸長率和能量耗散等重要力學(xué)性質(zhì)參數(shù),由于這些量與材料多尺度多因素相關(guān),可用機(jī)器學(xué)習(xí)來建立定量的組成與性質(zhì)聯(lián)系. Jin等[
一種變通的路線是將機(jī)器學(xué)習(xí)與計算模擬或本構(gòu)方程結(jié)合起來. 例如:錢虎軍等[
4.4 光電聲磁性質(zhì)
由于光電聲磁性質(zhì)往往是通過幾個納米尺度以內(nèi)官能團(tuán)的相互作用體現(xiàn),即使是包含聚集熒光猝滅(ACQ)、聚集誘導(dǎo)發(fā)光(AIE)等前沿究熱點,近程相互作用保障了其性質(zhì)的信號或代理量可以利用化學(xué)信息學(xué)方法較為準(zhǔn)確地計算和預(yù)測. 這類性質(zhì)預(yù)測的核心是將機(jī)器學(xué)習(xí)與高通量第一性原理計算相結(jié)合,據(jù)此來設(shè)計具有特定光電聲磁性質(zhì)的高分子材料已有不少報道. 部分代表性工作包括Lu等[
在高分子光伏材料方面,Saeki等[
4.5 分離性質(zhì)預(yù)測
高分子材料在物質(zhì)分離領(lǐng)域具有廣泛而重要的應(yīng)用. 物質(zhì)分離主要有相變(如蒸餾、升華、沉淀、結(jié)晶等)、色譜(氣相色譜、液相色譜等)、分配吸附(萃取、層析)、尺寸或密度差(過濾、離心等)、離子交換和膜分離等方法. 在此聚焦聚合物分離膜方面,按應(yīng)用場景可分為氣體、水處理、離子膜、能源膜和有機(jī)分離膜等,按分離物質(zhì)尺寸可分為微濾、超濾、納濾、滲透膜、膜蒸餾、膜萃取等,膜的組成、微結(jié)構(gòu)和表面是性能調(diào)控的核心因素. 而分離膜的性能指標(biāo)包含驅(qū)動力種類和能耗、通量、選擇性、抗污能力、穩(wěn)定性、循環(huán)穩(wěn)定性等因素,分離物質(zhì)需要考慮分配比、尺寸比、極性、靜電力、氫鍵、條件響應(yīng)性等,聚合物膜的組成、制備工藝和使用條件都會對膜性能產(chǎn)生重要影響. 因此,利用大數(shù)據(jù)研究聚合物分離膜的CPSPPr具有獨特的優(yōu)勢. 我們通過對聚合物質(zhì)子交換膜(PEM)的CPSPPr的開展了一系列大數(shù)據(jù)研究,包括溫度、水含量、復(fù)合材料對全氟磺酸(PFSA)膜[
在全世界可持續(xù)發(fā)展,我國的“碳達(dá)峰,碳中和”等的政策趨勢引導(dǎo)下,氣體分離膜材料的大數(shù)據(jù)研究呈現(xiàn)出爆發(fā)式增長. 模型氣體分離對包含CH4/CO2,CO2/N2,O2/N2等也過渡到較難的分離如多組分混合氣體、C1~C4混合氣和烯烴烷烴混合氣等,經(jīng)典的材料體系分子篩、多酸和MOF等仍占主流,高分子材料則聚焦在聚酰亞胺、芳綸、聚硅烷等對氣體具有不同滲透系數(shù)的致密膜材料. 利用剛性聚合物或自具微孔聚合物(PIM)制備氣體分離膜成為前沿?zé)狳c,Kumar等[
在能源膜領(lǐng)域,伴隨著鋰離子電池快速增長的巨大市場,聚合物鋰離子隔膜的研究也大量地豐富起來. Oyaizu等[
聚合物分離膜的大數(shù)據(jù)研究在近幾年被密集報道,值得一提的還有Razmjou等[
5 難題與挑戰(zhàn)
如前所述,建立高分子材料的定量CPSPPr是大數(shù)據(jù)研究的核心,在數(shù)學(xué)本質(zhì)上是譜學(xué)數(shù)據(jù)的預(yù)測. 目前基于量化計算對小分子的多尺度譜學(xué)數(shù)據(jù)已能較為準(zhǔn)確的計算和預(yù)測,對于多分散系數(shù)趨近于1的體系如蛋白、核酸等其結(jié)構(gòu)和生物活性利用生物信息學(xué)的一體化建模(information-driven integrative modeling)已經(jīng)能夠提供可與人類專家媲美的準(zhǔn)確預(yù)測. 蛋白與核酸結(jié)構(gòu)定量化的成功與PDB的長期建設(shè)密不可分,但對于高分子,由于其二面角旋轉(zhuǎn)位壘與熱漲落能量1 kBT相當(dāng),并缺少蛋白和核酸分子中的密集氫鍵約束,高分子材料的結(jié)構(gòu)數(shù)據(jù)不能夠用原子坐標(biāo)的辦法直接描述,需要更復(fù)雜的構(gòu)象集合來表示,但目前還缺少公認(rèn)可靠高效的概念和框架. 在實際的高分子材料體系,往往還包括一定量的復(fù)合成分、添加劑或助劑,這些物質(zhì)分布廣泛,小分子可用的比如SMILES定量描述系統(tǒng)失效,而高分子自帶的手性、支化、成環(huán)、長程作用的芳環(huán)堆砌、靜電作用等對構(gòu)象、聚集和性質(zhì)的影響規(guī)律往往還依賴計算模擬近似分析,缺少可遷移利用的基礎(chǔ)定量數(shù)據(jù). 總的來說,對于具有典型的多分散、局域精度高和大尺度準(zhǔn)確、存在非線性、非單調(diào)性累積協(xié)同效應(yīng)的高分子材料體系,從近程作用化學(xué)異構(gòu)和拓?fù)浣Y(jié)構(gòu)的化學(xué)信息學(xué)定量描述到跨尺度關(guān)聯(lián),大數(shù)據(jù)研究仍面臨權(quán)衡. 這些問題在傳統(tǒng)研究中長期存在,常見表述為臨界現(xiàn)象、相變和相轉(zhuǎn)變、標(biāo)度行為、多級弛豫等概念模型. 理論模型中會采用了多種近似,如假定結(jié)構(gòu)分布在平均場背景中、或假定高分子鏈長或拓?fù)浣Y(jié)構(gòu)滿足高斯分布、或假定物質(zhì)聚集可用隨機(jī)相近似(random phase approximation,RPA),或假定結(jié)構(gòu)和性質(zhì)關(guān)系在多層次具有自相似性(self similarity),或在臨界點附近如
其次,隨著研究論文報告數(shù)量快速增長,高分子材料多方面的一手?jǐn)?shù)據(jù)已相當(dāng)豐富但某些關(guān)注性質(zhì)仍趨于在較窄的分布區(qū)間,在利用大數(shù)據(jù)構(gòu)建CPSPPr過程中極有可能出現(xiàn)多重簡并,在機(jī)器學(xué)習(xí)的“黑盒子”算法中出現(xiàn)非唯一解. 在沒有高分子專家深入?yún)⑴c的情況下,有相當(dāng)一部分研究報道過分追求定量模型的高可靠性或者在給定數(shù)據(jù)集中的低泛化誤差(generalization error),再加上機(jī)器學(xué)習(xí)黑盒子的特點,需要在精度與覆蓋度、完備性與“小數(shù)據(jù)”精準(zhǔn)性、偏差-方差權(quán)衡等方面,合理控制預(yù)測性能和可解釋性. 然而近幾年報道的相當(dāng)一部分機(jī)器學(xué)習(xí)模型的解釋性非常差,甚至某些參量因素可能與目標(biāo)預(yù)測量形成與常規(guī)共識相悖的關(guān)系,這些預(yù)測模型可能對后續(xù)研究產(chǎn)生誤導(dǎo). 這類現(xiàn)象正是高分子材料局域弱效應(yīng),長程作用累積強(qiáng)響應(yīng)的典型特征寫照. 另外,在高分子材料大數(shù)據(jù)研究的更多場景,由于研究或應(yīng)用的關(guān)注點不同,每種高分子材料各方面的性質(zhì)屬性往往存在缺失. 目前通用的一些數(shù)據(jù)缺失值處理方法,如最可幾、均值法、近鄰插值等在高分子材料中極可能引入不確定性,特別是當(dāng)材料體系在相轉(zhuǎn)變臨界點附近等. 因此,大數(shù)據(jù)定量決策模型的唯一性和可解釋性是普遍亟需解決的難題之一. 目前已有一些科學(xué)家注意到這類問題,如基于博弈理論的Shapley值法[
歸功于量化計算和化學(xué)信息學(xué)的進(jìn)展,目前針對小分子、金屬材料和無機(jī)非金屬材料的“逆設(shè)計”已能實現(xiàn)高通量計算和高通量篩選. 但對于高分子材料,由于其多分散、多尺度響應(yīng)的特點,高效可靠的計算方法仍未實現(xiàn). 筆者看來,高分子材料要實現(xiàn)“逆設(shè)計”,首先需要建立一系列可靠的基準(zhǔn)數(shù)據(jù)集(benchmark dataset),這些數(shù)據(jù)集源于廣泛使用的、可靠的成分結(jié)構(gòu)和性質(zhì)表征方法,對CPSPPr中各要素有準(zhǔn)確描述,且對某類聚焦性質(zhì)、聚合物種類、加工方法等具有完備性和代表性. 這些數(shù)據(jù)集的建設(shè)一方面需要支持科研人員對商品或?qū)嶒灅悠烽_展批量的測試表征獲得一致性數(shù)據(jù),另一方面需要支持理論計算人員將已有的大量分散數(shù)據(jù)匯集起來,建立不同源數(shù)據(jù)之間的關(guān)聯(lián)和定量轉(zhuǎn)換關(guān)系. 特別是要改變工業(yè)和工程材料數(shù)據(jù)與實驗室測試數(shù)據(jù)脫節(jié),通用報告標(biāo)準(zhǔn)缺乏,相互不能參考,數(shù)據(jù)陷入不同標(biāo)準(zhǔn)中離散不可用的現(xiàn)狀. 即使是同領(lǐng)域的學(xué)術(shù)論文中,由于缺乏對數(shù)據(jù)、特征和實驗細(xì)節(jié)的充分表述,對后續(xù)研究和重復(fù)性驗證造成障礙. 如在高分子材料制備、加工過程數(shù)據(jù)的收集和預(yù)測,類似不飽和聚酯溶液黏度[
在生產(chǎn)方面、無論是原材料合成、母料制備還是器件生產(chǎn)裝配的上中下游企業(yè),如何將大量生產(chǎn)數(shù)據(jù)利用大數(shù)據(jù)先進(jìn)算法和系統(tǒng)分析,推動生產(chǎn)力革新. 目前的狀況是企業(yè)的生產(chǎn)自動化、物料和能量管理流通、測試和質(zhì)檢等部門數(shù)據(jù)分散且歸屬于不同的軟件管理系統(tǒng),這些數(shù)據(jù)存在不同編碼并防止批量導(dǎo)出等限制,前期需要企業(yè)投入相當(dāng)大的人力物力實現(xiàn)數(shù)據(jù)的統(tǒng)一流通. 由于大數(shù)據(jù)技術(shù)的人才培養(yǎng)群體還未成規(guī)模,大多數(shù)企業(yè)缺乏相關(guān)專業(yè)人才能夠高效地利用這些生產(chǎn)數(shù)據(jù),受權(quán)限和保密要求,生產(chǎn)數(shù)據(jù)與企業(yè)外的合作還需對數(shù)據(jù)進(jìn)一步脫密. 因此,面向生產(chǎn)的大數(shù)據(jù)研究和開發(fā)應(yīng)用首先要突破數(shù)據(jù)源的壁壘,此外在兼顧連續(xù)性生產(chǎn)的前提下,應(yīng)謹(jǐn)慎引入聚焦組成配方設(shè)計、工藝優(yōu)化、檢測質(zhì)檢一體化的相關(guān)預(yù)測模型的部署和更新. 在高分子材料領(lǐng)域,筆者認(rèn)為當(dāng)前大數(shù)據(jù)的模式、技術(shù)的成熟度還無法全面支撐智能制造工業(yè)4.0的實現(xiàn),但與現(xiàn)代生產(chǎn)制造企業(yè)的ERP,MES,CRM和BTO等管理和生產(chǎn)系統(tǒng)結(jié)合開發(fā)數(shù)據(jù)價值,在逐步提升制造模式和生產(chǎn)力水平的變革中一定會帶來正面的收益.
6 結(jié)語與展望
高分子材料大數(shù)據(jù)研究還處于積累和爆發(fā)階段,可以預(yù)見在未來幾年中,相關(guān)的研究報道和生產(chǎn)應(yīng)用實踐將急劇增加. 得益于生物信息學(xué)較為成熟的多學(xué)科交叉深入合作和數(shù)據(jù)共享模式,化學(xué)信息學(xué)對物質(zhì)屬性的覆蓋度和準(zhǔn)確率的提升,以及應(yīng)對復(fù)雜體系和模糊語義的機(jī)器學(xué)習(xí)算法發(fā)展,材料信息學(xué)在金屬、無機(jī)非金屬和有機(jī)小分子材料研究中取得了廣泛的成功,也切實推動了高分子材料的大數(shù)據(jù)研究. 由于高分子材料描述模糊和歧義命名等長期歷史積累問題,以及高分子的多分散、多尺度、非線性協(xié)同效應(yīng)顯著、長程弱關(guān)聯(lián)強(qiáng)響應(yīng)等特點,對高分子材料的準(zhǔn)確定量數(shù)據(jù)和高通量計算難以實現(xiàn),是造成高分子材料大數(shù)據(jù)研究進(jìn)展滯后的主要因素. 在數(shù)據(jù)的標(biāo)準(zhǔn)化和可共享流通方面,生產(chǎn)應(yīng)用數(shù)據(jù)與實驗室研究數(shù)據(jù)嚴(yán)重脫節(jié)、工業(yè)化和原料供應(yīng)數(shù)據(jù)不透明造成大量重復(fù)表征測試,基于不同關(guān)注點對高分子的基礎(chǔ)表征數(shù)據(jù)和性質(zhì)測試方法等關(guān)鍵信息缺失,使高分子材料可用的數(shù)據(jù)庫遠(yuǎn)未達(dá)到諸如CSD,Reaxys,PDB,UniProt等規(guī)模水平,但專一聚焦的高分子材料數(shù)據(jù)庫已有許多在路上. 高分子材料大數(shù)據(jù)研究基礎(chǔ)的數(shù)據(jù)源建設(shè)發(fā)展方向,很可能類似當(dāng)前計算模擬領(lǐng)域的通用力場和專用力場修正的發(fā)展模式,即通用高分子多譜學(xué)數(shù)據(jù)與功能高分子特殊結(jié)構(gòu)性質(zhì)數(shù)據(jù)的整合. 出版社(如ACS,Wiley,Elsevier, Springer,Cambridge,CRC等)、政府機(jī)構(gòu)(如NIST, NIMS等)以及跨國公司等已廣泛布局?jǐn)?shù)據(jù)的匯集和價值開發(fā),數(shù)據(jù)已成為重要資源. 數(shù)據(jù)的增加主要將朝著類似地理地圖大數(shù)據(jù)的方向發(fā)展,在頂層設(shè)計和支持下對具有多種應(yīng)用場景的高分子材料具有高覆蓋度、精細(xì)分辨,支持高通量快速分析,提供多尺度多角度全方位數(shù)據(jù)支持或數(shù)據(jù)共享. 同時在面向特定應(yīng)用和研究興趣,前沿領(lǐng)域的專業(yè)數(shù)據(jù)積累將更快地與新興大數(shù)據(jù)方法交叉,在高分子新材料研發(fā)或經(jīng)典問題的研究中產(chǎn)生突破進(jìn)展.
另一方面,大數(shù)據(jù)研究的核心方法進(jìn)展是機(jī)器學(xué)習(xí),傳統(tǒng)的理論和計算模擬方法進(jìn)展目前僅限于力場的發(fā)展,對于較大尺度的模擬仿真手段如何與大數(shù)據(jù)方法深度融合,極有可能是高分子經(jīng)典的多尺度難題取得突破的關(guān)鍵. 在高分子材料大數(shù)據(jù)研究的核心組成-工藝-結(jié)構(gòu)-性質(zhì)-性能關(guān)系中,應(yīng)鼓勵研究人員共享新材料多方面的表征數(shù)據(jù)、行業(yè)專家牽頭整理專業(yè)材料或應(yīng)用領(lǐng)域標(biāo)準(zhǔn)、系統(tǒng)開展不同標(biāo)準(zhǔn)下數(shù)據(jù)的轉(zhuǎn)換,建設(shè)一定規(guī)模的基準(zhǔn)數(shù)據(jù)集. 對于單獨小數(shù)據(jù)規(guī)?;蛘植嫉拇髷?shù)據(jù)模型要謹(jǐn)慎對待,客觀評價,避免為預(yù)測而預(yù)測,或“蹭熱度”的拼湊研究,可能會誤導(dǎo)后續(xù)研究. 同時也要著力培養(yǎng)交叉學(xué)科人才,從數(shù)據(jù)挖掘特別是高分子專業(yè)語言的可計算處理、機(jī)器學(xué)習(xí)算法、專業(yè)數(shù)據(jù)分析與可視化、模型評價和理論可解釋性解析等多方面合作,共同推進(jìn)高分子材料大數(shù)據(jù)研究的快速發(fā)展,從而提升材料和產(chǎn)品設(shè)計、生產(chǎn)制造的智能化水平.
欄目分類
- 2023JCR影響因子正式公布!
- 國內(nèi)核心期刊分級情況概覽及說明!本篇適用人群:需要發(fā)南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的學(xué)者
- 我用了一個很復(fù)雜的圖,幫你們解釋下“23版最新北大核心目錄有效期問題”。
- 重磅!CSSCI來源期刊(2023-2024版)最新期刊目錄看點分析!全網(wǎng)首發(fā)!
- CSSCI官方早就公布了最新南核目錄,有心的人已經(jīng)拿到并且投入使用!附南核目錄新增期刊!
- 北大核心期刊目錄換屆,我們應(yīng)該熟知的10個知識點。
- 注意,最新期刊論文格式標(biāo)準(zhǔn)已發(fā)布,論文寫作規(guī)則發(fā)生重大變化!文字版GB/T 7713.2—2022 學(xué)術(shù)論文編寫規(guī)則
- 盤點那些評職稱超管用的資源,1,3和5已經(jīng)“絕種”了
- 職稱話題| 為什么黨校更認(rèn)可省市級黨報?是否有什么說據(jù)?還有哪些機(jī)構(gòu)認(rèn)可黨報?
- 《農(nóng)業(yè)經(jīng)濟(jì)》論文投稿解析,難度指數(shù)四顆星,附好發(fā)選題!