Python適合大資料量的處理嗎

2021-04-22 01:47:35 字數 760 閱讀 4614

1樓:育知同創教育

需要澄清兩點之後才可以比較全面的看這個問題:

1. 百萬行級不算大資料量,以

回目前的互聯答網應用來看,大資料量的起點是10億條以上。

2.處理的具體含義,如果是資料載入和分發,用python是很高效的;如果是求一些常用的統計量和求一些基本演算法的結果,python也有現成的高效的

庫,c實現的和並行化的;如果是純粹自己寫的演算法,沒有任何其他可借鑑的,什麼庫也用不上,用純python寫是自討苦吃。

python的優勢不在於執行效率,而在於開發效率和高可維護性。針對特定的問題挑選合適的工具,本身也是一項技術能力。

2樓:強尼說

題主所謂的大資料量,不知到底有多大的資料量呢?按照我的經驗,python處理個幾億回

條資料還是綽綽答有餘的。但,倘若題主想要處理pb級別的資料,單純依靠python是不行的,還需要一些分布式演算法來進行輔助。

其實,大多數公司的資料量並不大,就拿我們資料分析師行業來說。大多數的資料分析師所處理的資料,很少有上百萬的資料量。當然,也有一些資料分析師是要處理上萬上億的資料量的,但佔比是沒有前者多的。

因此,當今資料分析領域中最活躍的工具並不是python,反而是excel。當然,excel作為資料的處理工具是有其獨到之處。靈活的函式功能+一力降十會的資料透視錶能讓使用者對excel如視珍寶。

通常在工作中,我就經常將幾百個錶用python進行合併,做簡單的清洗工作。而一旦清洗完畢,用抽樣工具一抽我們就可以進行抽樣以及資料分析了。

大資料入門書籍有哪些,適合入門大資料的書籍有哪些?

雨後不初晴 社交 電商 雲,o2o,大資料。每個階段都有熱點詞。這會兒最熱的應該就是 大資料 了。不過,有點濫,有點俗,似乎也有點泡沫化了。不用擔心,一般來講,講得最厲害的時候,時候還早呢 等到無聲無息了,那真是隨風潛入夜了。但是,說真的,處於這個風雲激盪創業年代的人們,如果能夠靜下心仔細瞭解點有關...

交換機埠接收資料量為負值是怎麼回事?這是否是導致廣播風暴的原因

接收的包數怎麼會是負的呢?這個是交換機系統的bug吧,顯示不正確。樓主你好 應該不是廣播風暴,廣播風暴是因為環路導致的,比如說a交換機的1埠接到b交換機的1埠,此時連線是正常的,如果a交換機1埠與b交換機1埠相連的同時,把a交換機的2埠與b交換機的2埠相連,此時資料就像是在原地轉圈一樣,會造成資料無...

當資料量比較大時,為什麼虛擬串列埠能一次接收到整段資料,而實際

看你設定的緩衝區大小了,虛擬串列埠預設給你設定乙個適中的緩衝區,而實際串列埠要看你上位機軟體怎麼設定了 虛擬串列埠和真實串列埠有什麼區別嗎?如果我有乙個vc程式可以收發真實串列埠的資料,是不是對虛擬串列埠也適用呢 對你的程式從bai 表述來說是沒有區別du的。但是如果使用 zhi真實串dao口,一般...