這個問題的答案是肯定的。大數(shù)據(jù)項目中的數(shù)據(jù)絕對可能過多。
發(fā)生這種情況的方式有很多種,出于多種原因,專業(yè)人士需要以多種方式限制和管理數(shù)據(jù)以獲得正確的結(jié)果。(閱讀關(guān)于大數(shù)據(jù)的 10 個大神話。)
一般來說,專家們談論區(qū)分模型中的“信號”和“噪聲”。換句話說,在大數(shù)據(jù)的海洋中,相關(guān)的洞察數(shù)據(jù)變得難以定位。在某些情況下,您就像大海撈針。
例如,假設一家公司正在嘗試使用大數(shù)據(jù)來生成有關(guān)部分客戶群及其在特定時間范圍內(nèi)的購買情況的特定見解。(閱讀大數(shù)據(jù)有什么作用?)
獲取大量數(shù)據(jù)資產(chǎn)可能會導致獲取不相關(guān)的隨機數(shù)據(jù),甚至可能產(chǎn)生一種偏差,使數(shù)據(jù)向一個方向或另一個方向傾斜。
它還大大減慢了這個過程,因為計算系統(tǒng)必須處理越來越大的數(shù)據(jù)集。
在如此眾多不同類型的項目中,數(shù)據(jù)工程師將數(shù)據(jù)整理為受限且特定的數(shù)據(jù)集非常重要 - 在上述情況下,這將僅是正在研究的那部分客戶的數(shù)據(jù),僅是當時的數(shù)據(jù)正在研究的框架,以及一種清除可能混淆事物或減慢系統(tǒng)速度的額外標識符或背景信息的方法。(閱讀工作角色:數(shù)據(jù)工程師。)
有關(guān)更多信息,讓我們看看它在機器學習前沿是如何工作的。(閱讀機器學習 101。)
機器學習專家談論一種稱為“過度擬合”的現(xiàn)象,即當機器學習程序?qū)π碌纳a(chǎn)數(shù)據(jù)放寬時,過于復雜的模型會導致效果較差。
當一組復雜的數(shù)據(jù)點與初始訓練集太匹配并且不允許程序輕松適應新數(shù)據(jù)時,就會發(fā)生過度擬合。
現(xiàn)在從技術(shù)上來說,過擬合并不是由于存在過多的數(shù)據(jù)樣本而引起的,而是由于過多的數(shù)據(jù)點的加冕而引起的。但您可能會說,擁有太多數(shù)據(jù)也可能是導致此類問題的一個因素。處理維數(shù)災難涉及到一些與早期大數(shù)據(jù)項目中相同的技術(shù),當時專業(yè)人士試圖查明他們向 IT 系統(tǒng)提供的內(nèi)容。
最重要的是,大數(shù)據(jù)可以給公司帶來巨大幫助,也可能成為一個重大挑戰(zhàn)。一方面是公司是否擁有正確的數(shù)據(jù)。專家知道,簡單地將所有數(shù)據(jù)資產(chǎn)轉(zhuǎn)儲到漏斗中并以這種方式提出見解是不可取的 - 在新的云原生和復雜的數(shù)據(jù)系統(tǒng)中,需要努力控制、管理和整理數(shù)據(jù),以便獲得更準確和更準確的數(shù)據(jù)。有效利用數(shù)據(jù)資產(chǎn)。
上一篇我們送上的文章是
頂尖企業(yè)如何有效地將物聯(lián)網(wǎng)應用到他們的 BI 戰(zhàn)略中? , _!在下一篇繼續(xù)做詳細介紹,如需了解更多,請持續(xù)關(guān)注。
本文由
日本NEC鋰電池中國營銷中心于2023-07-16 17:40:14 整理發(fā)布。
轉(zhuǎn)載請注明出處.