軟件開發(fā)公司的關(guān)系數(shù)據(jù)庫用于保存項目開發(fā)和實施中的信息或數(shù)據(jù),從而保存數(shù)據(jù)之間的關(guān)系。 這個屬性使它成為數(shù)據(jù)科學(xué)家的有用工具。 然而,關(guān)系數(shù)據(jù)庫研究社區(qū)與數(shù)據(jù)科學(xué)家之間存在差距。 這導(dǎo)致數(shù)據(jù)科學(xué)中數(shù)據(jù)庫的使用效率低下。 北京軟件正試圖彌合關(guān)系數(shù)據(jù)庫與數(shù)據(jù)科學(xué)之間的差距。
大多數(shù)數(shù)據(jù)科學(xué)家使用R、Python和C/C等分析工具進(jìn)行研究。 這些工具很難與當(dāng)前的數(shù)據(jù)庫系統(tǒng)集成,導(dǎo)致數(shù)據(jù)分析緩慢而麻煩。 北京軟件開發(fā)公司:“數(shù)據(jù)科學(xué)家選擇開發(fā)? ? 重塑數(shù)據(jù)庫系統(tǒng)的一系列數(shù)據(jù)管理替代方案,它們可以執(zhí)行類似于傳統(tǒng)數(shù)據(jù)庫管理系統(tǒng)的任務(wù),但幾十年前在數(shù)據(jù)庫領(lǐng)域解決了許多問題。 “
“數(shù)據(jù)庫研究界在開發(fā)一種可用于有效分析和查詢處理的強大數(shù)據(jù)庫引擎方面取得了重大進(jìn)展。” 軟件開發(fā)公司試圖將數(shù)據(jù)庫科學(xué)中的這些創(chuàng)新與數(shù)據(jù)科學(xué)家最常用的分析工具結(jié)合起來。 北京軟件外包公司:“我們研究了如何促進(jìn)分析工具和關(guān)系數(shù)據(jù)庫管理系統(tǒng)的高效和易于集成。 “
大型數(shù)據(jù)集
在計算機科學(xué)中使用標(biāo)準(zhǔn)數(shù)據(jù)庫系統(tǒng)的另一個問題是處理的數(shù)據(jù)的大小。 大多數(shù)數(shù)據(jù)庫系統(tǒng)沒有針對大型數(shù)據(jù)集和使用遠(yuǎn)程服務(wù)器進(jìn)行大規(guī)模數(shù)據(jù)分析進(jìn)行優(yōu)化。 優(yōu)化數(shù)據(jù)庫系統(tǒng),可以考慮三種方法。
軟件公司:“我們主要研究三種數(shù)據(jù)庫-客戶端集成方法:客戶機-服務(wù)器連接、數(shù)據(jù)庫內(nèi)部處理和將數(shù)據(jù)庫嵌入到客戶機應(yīng)用程序中。” 對于每種方法,他檢查了現(xiàn)有數(shù)據(jù)庫系統(tǒng)中的實現(xiàn),并評估了它們在數(shù)據(jù)科學(xué)中常見的大型數(shù)據(jù)集和工作負(fù)載中的效率。
鴨子數(shù)據(jù)庫
最終的結(jié)果是一個名為DuckDB的新數(shù)據(jù)管理系統(tǒng),該系統(tǒng)致力于與R和Python(以及其他分析工具)進(jìn)行高效和簡單的集成。 管理系統(tǒng)被設(shè)計成一個成熟的數(shù)據(jù)庫系統(tǒng),不僅用于研究目的。 “在Duck DB期間,我們將學(xué)習(xí)數(shù)據(jù)庫-客戶端集成的所有經(jīng)驗教訓(xùn),并創(chuàng)建一個易于使用和高效的嵌入式數(shù)據(jù)庫?!?北京軟件外包公司將繼續(xù)成為CWI的博士后研究員,在那里他將繼續(xù)開發(fā)DuckDB。