大數據是指任何大到傳統方法無法處理或分析的資料集合。
閱讀本文後,您將能夠:
複製文章連結
大數據是指極其龐大、複雜且快速成長的資料集合——事實上,資料規模之大以至於傳統的資料處理軟體無法管理它們。這些集合可能包含結構化和非結構化資料。雖然「大數據」沒有廣泛接受的、技術上精確的定義,但該詞彙通常用於快速擴展的海量資料集合。
自第一台電腦問世以來,數位儲存容量呈指數級增長。資料可以大規模儲存,並在幾秒鐘內擷取。雲端運算使資料儲存幾乎不受限制。這些發展共同使得大數據的出現成為可能。此外,隨著網際網路的廣泛使用,來自使用者活動、Web 託管內容和物聯網 (IoT) 裝置的資料可以被記錄和分析,以便進行預測或訓練進階人工智慧 (AI) 模型。
大數據可以來自公開來源,也可以是專有的。大數據的範例包括:
大數據的常見用途包括:
儘管對於「大數據」的確切構成尚未達成一致意見,但該詞彙通常適用於滿足數量 (volume)、速度 (velocity) 和多樣性 (variety) 一般標準的資料收集:
這些屬性一起被稱為「三個 V」。
AI 是指電腦執行認知任務的能力,例如產生文字或建立推薦。在某些方面,大數據和 AI 具有共生關係:
海量資料集使有效的 AI 成為可能,從而為進階演算法提供更準確、更全面的訓練。大型精選和標記資料集可用於訓練機器學習模型;深度學習模型能夠處理原始的未標記資料,但相應地需要更多的運算能力。
例如,大型語言模型 (LLM) ChatGPT 使用了數百萬份文件進行訓練。它從使用者處收到的輸入有助於進一步訓練它產生聽起來像人類的回應。另一個範例是社交媒體平台使用機器學習演算法來為使用者策劃內容。隨著數以百萬計的使用者檢視和點讚帖子,它們擁有大量關於人們想要查看的內容的資料,並且可以使用這些資料根據使用者行為來策劃新聞餽送或「為您推薦」頁面。
而 AI 具有快速處理和關聯能力,這意味著它可以用來分析人類或傳統資料查詢軟體無法自行處理的龐大資料集。Netflix 等串流媒體提供者使用基於過去觀看行為的專有演算法來預測觀眾最喜歡哪些類型的節目或電影。
資訊過載:就像一間過於雜亂的房間會讓人很難找到所需的物品一樣,如此龐大的資料庫也會讓人很難找到可用的相關資料。
資料分析:通常,擁有的資料越多,得出的結論就越準確。但從海量資料集中得出結論可能是一個挑戰,因為傳統軟體很難處理如此大量的資料(而且大數據遠遠超出了人類獨立分析的能力)。
資料擷取:擷取資料的成本可能很高,當資料儲存在雲端時尤為如此。物件儲存體維護成本低且幾乎不受限制,因此非常適合大數據集。但物件儲存體提供者通常會針對擷取儲存資料收取輸出費用。
確保資料準確性:不準確或不可信的資料會導致基於該資料訓練的預測模型和機器學習演算法產生錯誤的結果。然而,要即時檢查大量快速成長的資料的準確性是很困難的。
隱私和監管問題:大數據集合可能包含《一般資料保護規定》(GDPR) 等監管框架視為個人資料的資料。即使資料集目前不包含此類資料,新框架也可能會擴展個人資訊的定義,導致將已儲存的資料納入其中。組織可能不知道他們的資料集包含這些資料,但如果他們知道,那麼當他們的資料被不當存取或使用時,他們將受到罰款和處罰。此外,如果資料庫包含個人資訊,那麼當發生資料外洩時,資料庫擁有者將面臨更大的責任。
Cloudflare for AI 是一套產品和功能,可協助開發人員在任何地方建立 AI。Cloudflare R2 是一種無需輸出費用的物件儲存體,可讓開發人員輕鬆儲存訓練資料。Vectorize 將資料轉換為嵌入,用於訓練和完善機器學習模型。Cloudflare 還提供了用於執行產生式 AI 工作的 NVIDIA GPU 全球網路。瞭解 Cloudflare 的所有 AI 開發解決方案。