pbootcms网站模板|日韩1区2区|织梦模板||网站源码|日韩1区2区|jquery建站特效-html5模板网

有使用 h5py 在 Python 中對(duì)大數(shù)據(jù)進(jìn)行分析工作的經(jīng)

Experience with using h5py to do analytical work on big data in Python?(有使用 h5py 在 Python 中對(duì)大數(shù)據(jù)進(jìn)行分析工作的經(jīng)驗(yàn)嗎?)
本文介紹了有使用 h5py 在 Python 中對(duì)大數(shù)據(jù)進(jìn)行分析工作的經(jīng)驗(yàn)嗎?的處理方法,對(duì)大家解決問(wèn)題具有一定的參考價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)吧!

問(wèn)題描述

我做了大量的統(tǒng)計(jì)工作,并使用 Python 作為我的主要語(yǔ)言.雖然我使用的一些數(shù)據(jù)集可能占用 20GB 的內(nèi)存,這使得使用 numpy、scipy 和 PyIMSL 中的內(nèi)存函數(shù)對(duì)它們進(jìn)行操作幾乎是不可能的.統(tǒng)計(jì)分析語(yǔ)言 SAS 在這里有一個(gè)很大的優(yōu)勢(shì),它可以對(duì)來(lái)自硬盤(pán)的數(shù)據(jù)進(jìn)行操作,而不是嚴(yán)格的內(nèi)存處理.但是,我想避免在 SAS 中編寫(xiě)大量代碼(出于各種原因),因此我試圖確定我對(duì) Python 有哪些選擇(除了購(gòu)買(mǎi)更多的硬件和內(nèi)存).

I do a lot of statistical work and use Python as my main language. Some of the data sets I work with though can take 20GB of memory, which makes operating on them using in-memory functions in numpy, scipy, and PyIMSL nearly impossible. The statistical analysis language SAS has a big advantage here in that it can operate on data from hard disk as opposed to strictly in-memory processing. But, I want to avoid having to write a lot of code in SAS (for a variety of reasons) and am therefore trying to determine what options I have with Python (besides buying more hardware and memory).

我應(yīng)該澄清一下,像 map-reduce 這樣的方法對(duì)我的大部分工作沒(méi)有幫助,因?yàn)槲倚枰獙?duì) 完整 組數(shù)據(jù)進(jìn)行操作(例如計(jì)算分位數(shù)或擬合邏輯回歸模型).

I should clarify that approaches like map-reduce will not help in much of my work because I need to operate on complete sets of data (e.g. computing quantiles or fitting a logistic regression model).

最近我開(kāi)始玩 h5py 并認(rèn)為這是我找到的最佳選擇允許 Python 像 SAS 一樣操作并操作磁盤(pán)中的數(shù)據(jù)(通過(guò) hdf5 文件),同時(shí)仍然能夠利用 numpy/scipy/matplotlib 等.我想知道是否有人在類(lèi)似的設(shè)置中使用 Python 和 h5py 的經(jīng)驗(yàn)和他們發(fā)現(xiàn)了什么.有沒(méi)有人能夠在迄今為止由 SAS 主導(dǎo)的大數(shù)據(jù)"設(shè)置中使用 Python?

Recently I started playing with h5py and think it is the best option I have found for allowing Python to act like SAS and operate on data from disk (via hdf5 files), while still being able to leverage numpy/scipy/matplotlib, etc. I would like to hear if anyone has experience using Python and h5py in a similar setting and what they have found. Has anyone been able to use Python in "big data" settings heretofore dominated by SAS?

購(gòu)買(mǎi)更多的硬件/內(nèi)存肯定會(huì)有所幫助,但從 IT 的角度來(lái)看,我很難將 Python 賣(mài)給需要分析大量數(shù)據(jù)集的組織,而 Python(或 R,或 MATLAB 等)需要持有內(nèi)存中的數(shù)據(jù).SAS 在這方面繼續(xù)擁有強(qiáng)大的賣(mài)點(diǎn),因?yàn)殡m然基于磁盤(pán)的分析可能較慢,但您可以自信地處理龐大的數(shù)據(jù)集.所以,我希望 Stackoverflow 能幫助我弄清楚如何降低使用 Python 作為主要大數(shù)據(jù)分析語(yǔ)言的風(fēng)險(xiǎn).

Buying more hardware/memory certainly can help, but from an IT perspective it is hard for me to sell Python to an organization that needs to analyze huge data sets when Python (or R, or MATLAB etc) need to hold data in memory. SAS continues to have a strong selling point here because while disk-based analytics may be slower, you can confidently deal with huge data sets. So, I am hoping that Stackoverflow-ers can help me figure out how to reduce the perceived risk around using Python as a mainstay big-data analytics language.

推薦答案

我們使用Python結(jié)合h5py、numpy/scipy和boost::python來(lái)做數(shù)據(jù)分析.我們的典型數(shù)據(jù)集大小可達(dá)數(shù)百 GB.

We use Python in conjunction with h5py, numpy/scipy and boost::python to do data analysis. Our typical datasets have sizes of up to a few hundred GBs.

HDF5 的優(yōu)勢(shì):

  • 可以使用 h5view 應(yīng)用程序、h5py/ipython 和 h5* 命令行工具方便地檢查數(shù)據(jù)
  • API 可用于不同的平臺(tái)和語(yǔ)言
  • 使用組構(gòu)造數(shù)據(jù)
  • 使用屬性注釋數(shù)據(jù)
  • 無(wú)憂的內(nèi)置數(shù)據(jù)壓縮
  • 單個(gè)數(shù)據(jù)集上的 io 速度很快

HDF5 陷阱:

  • 如果 h5 文件包含太多數(shù)據(jù)集/組 (> 1000),性能會(huì)下降,因?yàn)楸闅v它們非常慢.另一方面,io 對(duì)于一些大型數(shù)據(jù)集來(lái)說(shuō)速度很快.
  • 高級(jí)數(shù)據(jù)查詢(xún)(類(lèi)似 SQL)實(shí)施起來(lái)笨拙且速度慢(在這種情況下考慮 SQLite)
  • HDF5 并非在所有情況下都是線程安全的:必須確保使用正確的選項(xiàng)編譯庫(kù)
  • 更改 h5 數(shù)據(jù)集(調(diào)整大小、刪除等)會(huì)增大文件大小(在最好的情況下)或不可能(在最壞的情況下)(必須復(fù)制整個(gè) h5 文件以再次展平)

這篇關(guān)于有使用 h5py 在 Python 中對(duì)大數(shù)據(jù)進(jìn)行分析工作的經(jīng)驗(yàn)嗎?的文章就介紹到這了,希望我們推薦的答案對(duì)大家有所幫助,也希望大家多多支持html5模板網(wǎng)!

【網(wǎng)站聲明】本站部分內(nèi)容來(lái)源于互聯(lián)網(wǎng),旨在幫助大家更快的解決問(wèn)題,如果有圖片或者內(nèi)容侵犯了您的權(quán)益,請(qǐng)聯(lián)系我們刪除處理,感謝您的支持!

相關(guān)文檔推薦

How should I verify a log message when testing Python code under nose?(在鼻子下測(cè)試 Python 代碼時(shí),我應(yīng)該如何驗(yàn)證日志消息?)
Patch __call__ of a function(修補(bǔ)函數(shù)的 __call__)
How to call self in a mock method of an object in Python?(如何在 Python 中對(duì)象的模擬方法中調(diào)用 self?)
Mocking only a single method on an object(僅模擬對(duì)象上的單個(gè)方法)
Mocking a subprocess call in Python(在 Python 中模擬子進(jìn)程調(diào)用)
Checking call order across multiple mocks(檢查多個(gè)模擬的調(diào)用順序)
主站蜘蛛池模板: CXB船用变压器-JCZ系列制动器-HH101船用铜质开关-上海永上船舶电器厂 | 玻璃瓶厂家_酱菜瓶厂家_饮料瓶厂家_酒瓶厂家_玻璃杯厂家_徐州东明玻璃制品有限公司 | 洛阳防爆合格证办理-洛阳防爆认证机构-洛阳申请国家防爆合格证-洛阳本安防爆认证代办-洛阳沪南抚防爆电气技术服务有限公司 | 多功能三相相位伏安表-变压器短路阻抗测试仪-上海妙定电气 | 武汉不干胶印刷_标签设计印刷_不干胶标签印刷厂 - 武汉不干胶标签印刷厂家 | 台式核磁共振仪,玻璃软化点测定仪,旋转高温粘度计,测温锥和测温块-上海麟文仪器 | 塑料异型材_PVC异型材_封边条生产厂家_PC灯罩_防撞扶手_医院扶手价格_东莞市怡美塑胶制品有限公司 | 棉服定制/厂家/公司_棉袄订做/价格/费用-北京圣达信棉服 | 防火卷帘门价格-聊城一维工贸特级防火卷帘门厂家▲ | 真空干燥烘箱_鼓风干燥箱 _高低温恒温恒湿试验箱_光照二氧化碳恒温培养箱-上海航佩仪器 | 威海防火彩钢板,威海岩棉复合板,威海彩钢瓦-文登区九龙岩棉复合板厂 | 耐火浇注料价格-高强高铝-刚玉碳化硅耐磨浇注料厂家【直销】 | 学校用栓剂模,玻璃瓶轧盖钳,小型安瓿熔封机,实验室安瓿熔封机-长沙中亚制药设备有限公司 | 衬四氟_衬氟储罐_四氟储罐-无锡市氟瑞特防腐科技有限公司 | 东莞注册公司-代办营业执照-东莞公司注册代理记账-极刻财税 | 柔软云母板-硬质-水位计云母片组件-首页-武汉长丰云母绝缘材料有限公司 | 深圳货架厂家_金丽声精品货架_广东金丽声展示设备有限公司官网 | 龙门加工中心-数控龙门加工中心厂家价格-山东海特数控机床有限公司_龙门加工中心-数控龙门加工中心厂家价格-山东海特数控机床有限公司 | 首页-瓜尔胶系列-化工单体系列-油田压裂助剂-瓜尔胶厂家-山东广浦生物科技有限公司 | 泰国专线_泰国物流专线_广州到泰国物流公司-泰廊曼国际 | 电磁流量计厂家_涡街流量计厂家_热式气体流量计-青天伟业仪器仪表有限公司 | 石栏杆_青石栏杆_汉白玉栏杆_花岗岩栏杆 - 【石雕之乡】点石石雕石材厂 | 胃口福饺子加盟官网_新鲜现包饺子云吞加盟 - 【胃口福唯一官网】 | 道达尔润滑油-食品级润滑油-道达尔导热油-合成导热油,深圳道达尔代理商合-深圳浩方正大官网 | 成都珞石机械 - 模温机、油温机、油加热器生产厂家 | 蒜肠网-动漫,二次元,COSPLAY,漫展以及收藏型模型,手办,玩具的新媒体.(原变形金刚变迷TF圈) | 飞歌臭氧发生器厂家_水处理臭氧发生器_十大臭氧消毒机品牌 | 西安标准厂房_陕西工业厂房_西咸新区独栋厂房_长信科技产业园官方网站 | 熔体泵_熔体出料泵_高温熔体泵-郑州海科熔体泵有限公司 | 板式换网器_柱式换网器_自动换网器-郑州海科熔体泵有限公司 | 低压载波电能表-单相导轨式电能表-华邦电力科技股份有限公司-智能物联网综合管理平台 | 氟氨基酮、氯硝柳胺、2-氟苯甲酸、异香兰素-新晨化工 | 电动球阀_不锈钢电动球阀_电动三通球阀_电动调节球阀_上海湖泉阀门有限公司 | 有福网(yofus.com)洗照片冲印,毕业聚会纪念册相册制作个性DIY平台 | 济南玻璃安装_济南玻璃门_济南感应门_济南玻璃隔断_济南玻璃门维修_济南镜片安装_济南肯德基门_济南高隔间-济南凯轩鹏宇玻璃有限公司 | 塑钢件_塑钢门窗配件_塑钢配件厂家-文安县启泰金属制品有限公司 深圳南财多媒体有限公司介绍 | 超细|超微气流粉碎机|气流磨|气流分级机|粉体改性机|磨粉机|粉碎设备-山东埃尔派粉体科技 | 制氮设备-变压吸附制氮设备-制氧设备-杭州聚贤气体设备制造有限公司 | 全自动在线分板机_铣刀式在线分板机_曲线分板机_PCB分板机-东莞市亿协自动化设备有限公司 | 气动球阀_衬氟蝶阀_调节阀_电动截止阀_上海沃托阀门有限公司 | 全温恒温摇床-水浴气浴恒温摇床-光照恒温培养摇床-常州金坛精达仪器制造有限公司 |