日韩在线首页I俄罗斯pornI男女猛烈激情XX00高潮动态I超碰免费97I乱人伦99久久I欧美日韩成人一区I最新日韩视频在线观看I粉嫩AV四季AV绯色AVI五月导航

×

用于ETL的Python數(shù)據(jù)轉(zhuǎn)換工具

分類:互聯(lián)網(wǎng)熱點 編輯:新網(wǎng)小青年 瀏覽量:259
2020-07-20 13:33:06

前幾天,我去Reddit詢問是否應(yīng)該將Python用于ETL相關(guān)的轉(zhuǎn)換,并且壓倒性的回答是"是"。

但是,盡管我的Redditor同事熱心支持使用Python,但他們建議研究Pandas以外的庫-出于對大型數(shù)據(jù)集Pandas性能的擔憂。

經(jīng)過研究,我發(fā)現(xiàn)了很多用于數(shù)據(jù)轉(zhuǎn)換的Python庫:有些改進了Pandas的性能,而另一些提供了自己的解決方案

我找不到這些工具的完整列表,所以我想我可以使用所做的研究來編譯一個工具-如果我錯過了什么或弄錯了什么,請告訴我!

Pandas

總覽

Pandas當然不需要介紹,但是我還是給它一個介紹。

Pandas在Python中增加了DataFrame的概念,并在數(shù)據(jù)科學(xué)界廣泛用于分析和清理數(shù)據(jù)集。 它作為ETL轉(zhuǎn)換工具非常有用,因為它使操作數(shù)據(jù)非常容易和直觀。

優(yōu)點

    廣泛用于數(shù)據(jù)處理 簡單直觀的語法 與其他Python工具(包括可視化庫)良好集成 支持常見的數(shù)據(jù)格式(從SQL數(shù)據(jù)庫,CSV文件等讀取)

缺點

    由于它會將所有數(shù)據(jù)加載到內(nèi)存中,因此無法擴展,并且對于非常大(大于內(nèi)存)的數(shù)據(jù)集來說可能是一個錯誤的選擇

進一步閱讀

    10分鐘Pandas Pandas機器學(xué)習(xí)的數(shù)據(jù)處理

Dask

總覽

根據(jù)他們的網(wǎng)站," Dask是用于Python并行計算的靈活庫。"

從本質(zhì)上講,Dask擴展了諸如Pandas之類的通用接口,供在分布式環(huán)境中使用-例如,Dask DataFrame模仿了。

優(yōu)點

    可擴展性— Dask可以在本地計算機上運行并擴展到集群 能夠處理內(nèi)存不足的數(shù)據(jù)集 即使在相同的硬件上,使用相同的功能也可以提高性能(由于并行計算) 最少的代碼更改即可從Pandas切換 旨在與其他Python庫集成

缺點

    除了并行性,還有其他方法可以提高Pandas的性能(通常更為顯著) 如果您所做的計算量很小,則沒有什么好處 Dask DataFrame中未實現(xiàn)某些功能

進一步閱讀

    Dask文檔 為什么每個數(shù)據(jù)科學(xué)家都應(yīng)該使用Dask

Modin

總覽

Modin與Dask相似之處在于,它試圖通過使用并行性并啟用分布式DataFrames來提高Pandas的效率。 與Dask不同,Modin基于Ray(任務(wù)并行執(zhí)行框架)。

Modin優(yōu)于Dask的主要好處是Modin可以自動處理跨計算機核心分發(fā)數(shù)據(jù)(無需進行配置)。

優(yōu)點

    可伸縮性— Ray比Modin提供的更多 完全相同的功能(即使在相同的硬件上)也可以提高性能 最小的代碼更改即可從Pandas切換(更改import語句) 提供所有Pandas功能-比Dask更多的"嵌入式"解決方案

缺點

    除了并行性,還有其他方法可以提高Pandas的性能(通常更為顯著) 如果您所做的計算量很小,則沒有什么好處

進一步閱讀

    Modin文檔 Dask和Modin有什么區(qū)別?

Petl

總覽

petl包含了pandas的許多功能,但專為ETL設(shè)計,因此缺少額外的功能,例如用于分析的功能。 petl具有用于ETL的所有三個部分的工具,但本文僅專注于數(shù)據(jù)轉(zhuǎn)換。

盡管petl提供了轉(zhuǎn)換表的功能,但其他工具(例如pandas)似乎更廣泛地用于轉(zhuǎn)換和有據(jù)可查的文檔,因此petl對此吸引力較小。

優(yōu)點

    最小化系統(tǒng)內(nèi)存的使用,使其能夠擴展到數(shù)百萬行 對于在SQL數(shù)據(jù)庫之間進行遷移很有用 輕巧高效

缺點

    通過很大程度地減少對系統(tǒng)內(nèi)存的使用,petl的執(zhí)行速度會變慢-不建議在性能很重要的應(yīng)用程序中使用 較少使用此列表中的其他解決方案進行數(shù)據(jù)處理

進一步閱讀

    使用Petl快速了解數(shù)據(jù)轉(zhuǎn)換和遷移 petl轉(zhuǎn)換文檔

PySpark

總覽

Spark專為處理和分析大數(shù)據(jù)而設(shè)計,并提供多種語言的API。 使用Spark的主要優(yōu)點是Spark DataFrames使用分布式內(nèi)存并利用延遲執(zhí)行,因此它們可以使用集群處理更大的數(shù)據(jù)集,而Pandas之類的工具則無法實現(xiàn)。

如果要處理的數(shù)據(jù)非常大,并且數(shù)據(jù)操作的速度和大小很大,Spark是ETL的理想選擇。

優(yōu)點

    可擴展性和對更大數(shù)據(jù)集的支持 就語法而言,Spark DataFrames與Pandas非常相似 通過Spark SQL使用SQL語法進行查詢 與其他流行的ETL工具兼容,包括Pandas(您實際上可以將Spark DataFrame轉(zhuǎn)換為Pandas DataFrame,從而使您可以使用各種其他庫) 與Jupyter筆記本電腦兼容 內(nèi)置對SQL,流和圖形處理的支持

缺點

    需要一個分布式文件系統(tǒng),例如S3 使用CSV等數(shù)據(jù)格式會限制延遲執(zhí)行,需要將數(shù)據(jù)轉(zhuǎn)換為Parquet等其他格式 缺少對數(shù)據(jù)可視化工具(如Matplotlib和Seaborn)的直接支持,這兩種方法都得到了Pandas的良好支持

進一步閱讀

    Python中的Apache Spark:新手指南 PySpark簡介 PySpark文檔(尤其是語法)

值得一提

盡管我希望這是一個完整的列表,但我不希望這篇文章過長!

確實有很多許多用于數(shù)據(jù)轉(zhuǎn)換的Python工具,因此我包括了這一部分,至少是我錯過的其他項目(我可能會在本文的第二部分中進一步探討這些項目)。

結(jié)論

我希望這份清單至少可以幫助您了解Python必須提供哪些工具來進行數(shù)據(jù)轉(zhuǎn)換。 在進行了這項研究之后,我相信Python是ETL的優(yōu)秀選擇-這些工具及其開發(fā)人員使它成為了一個了不起的平臺。

就像我在本文開頭提到的那樣,我不是該領(lǐng)域的專家-如果您有任何補充,請隨時發(fā)表評論!

謝謝閱讀!



聲明:免責聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻自行上傳,本網(wǎng)站不擁有所有權(quán),也不承認相關(guān)法律責任。如果您發(fā)現(xiàn)本社區(qū)中有涉嫌抄襲的內(nèi)容,請發(fā)

送郵件至:operations@xinnet.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,本站將立刻刪除涉嫌侵權(quán)內(nèi)容。本站原創(chuàng)內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時

需注明出處:新網(wǎng)idc知識百科

免費咨詢獲取折扣

Loading
主站蜘蛛池模板: 国产欧美视频在线 | 国产男女视频网站 | 超碰在线94 | 中国一级簧色带免费看 | 香蕉视频最新网址 | 美女av免费看 | 最新国产乱人伦偷精品免费网站 | 性高湖久久久久久久久 | 中文久久久久 | 男女啪啪做爰高潮免费网站 | 国产欧美日韩视频一区二区三区 | 日本成熟少妇激情视频免费看 | 精品国产品香蕉在线 | 日韩人妻少妇一区二区三区 | 天天爽影院 | 成人性生交大免费看 | 美女裸体视频永久免费 | 香蕉成人臿臿在线观看 | 国产av无码专区亚洲awww | 欧美一区1区三区3区公司 | 夜夜嗨av一区二区三区四季av | 亚洲国产欧美一区点击进入 | 国产福利免费在线观看 | 亚洲欧美自拍偷拍视频 | 午夜成人片在线观看免费播放 | 久久亚洲精中文字幕冲田杏梨 | 欧美日韩亚洲国产综合 | 亚洲在线视频免费观看 | 日本公妇乱淫免费视频一区三区 | 国产裸体写真av一区二区 | 国产成人三级在线视频网站观看 | 日日夜夜草 | 男女裸交无遮挡啪啪激情试看 | 99精品视频免费观看 | 娇小性xxxxx极品娇小小说 | 成人无号精品一区二区三区 | 久久偷看各类wc女厕嘘嘘 | 亚洲精品乱码久久久久久金桔影视 | 在线精品视频一区二区三四 | 成年无码av片 | 成人免费小视频 | 嫩模周妍希视频一区二区 | 性生交大片免费看狂欲 | 日本a级片在线播放 | 丰满人妻熟妇乱偷人无码 | aaa午夜级特黄日本大片 | 中文人妻av高清一区二区 | 热久久中文字幕 | 特黄做受又大又粗又长大片 | 欧洲国产在线精品手机版 | 奇米一区二区三区四区久久 | 亚洲天堂在线观看完整版 | 午夜性刺激免费看视频 | 成人性三级欧美在线观看 | 久久无码无码久久综合综合 | 日本熟日本熟妇在线视频 | 久久蜜桃资源一区二区老牛 | 欧美a大片| 欧美毛片视频 | 插插网站| 久久国产成人精品国产成人亚洲 | 日本欧美一区二区三区乱码 | 无码国产偷倩在线播放 | 欧美伊香蕉久久综合网99 | 亚洲性人人天天夜夜摸 | 天天天天躁天天爱天天碰2018 | 免费视频成人片在线观看 | 国产免费高清视频1l.com.com.com少 | 精品国产成人av在线免 | 黄网站免费在线观看 | 麻豆视频在线免费观看 | 视频一区国产 | 四虎院影亚洲永久 | 日韩三级黄色毛片 | 国产乱码在线观看 | 可以免费看av的网址 | 无码精品人妻一区二区三区免费看 | 人妻少妇精品久久 | 国农村精品国产自线拍 | 人av在线 | 亚洲欧美日韩精品永久 | 中文无码一区二区视频在线播放量 | 91精品国产99久久久久久红楼 | 人人澡人人妻人人爽人人蜜桃 | 日韩乱码人妻无码超清蜜桃 | 久久久不卡国产精品一区二区 | 午夜精品影视国产一区在线麻豆 | 欧美黄网站在线观看 | 国产精品毛片完整版视频 | 无遮挡十八禁污污污网站 | 男人扒开女人双腿猛进视频 | 国产精品国一国二在线 | 亚洲成av人片在线观看香蕉 | 国产精品无套粉嫩白浆在线 | 国产人妻无码一区二区三区18 | 夜夜躁很很躁日日躁2020 | 女同hd系列中文字幕 | 久久草草亚洲蜜桃臀 | 亚洲好骚综合 |