Big Data คือ ข้อมูลขนาดใหญ่ แน่นอนว่าไม่สามารถจัดเก็บ และประมวลผลบนเครื่องเดียวได้ ต้องกระจายไปทำงานหลาย ๆ เครื่อง
เป็นข้อมูลที่มาจากหลายแหล่ง
เป็นข้อมูลที่มีหลากหลายรูปแบบ
เป็นข้อมูลที่สร้างขึ้นมาอย่างรวดเร็ว
ดังนั้นจึงสามารถสรุปคุณบัติของ Big Data ได้ด้วยชื่อ 3V => Volume, Velocity และ Variety
เนื่องจากเทคโนโลยีที่เกี่ยวกับ Big Data มีเยอะมาก ๆ
ซึ่งถูกแบ่งออกเป็น 3 กลุ่ม คือ
1. Storage คือ การจัดเก็บข้อมูล นั่นคือเรื่อง Volume และ Variety
2. Processing คือ การประมวลผล นั่นคือเรื่อง Volume และ Velocity
3. Analytic คือ การวิเคราะห์ นั่นคือกระบวนการวิธีสำหรับเข้าถึงข้อมูลเชิงลึกจาก 1 และ 2
1. Storage
เนื่องจากข้อมูลนั้น ไม่มีรูปแบบที่ชัดเจน และไม่สามารถกำหนดได้เหมือนกับ RDBMS ดังนั้นเราจึงต้องการที่จัดเก็บแบบใหม่ !! แน่นอนว่า เทคโนโลยีที่มักได้ยิน หรือ ได้รับความนิยมสุด ๆ จะอยู่ภายใต้ชื่อ Hadoop ซึ่งสามารถแบ่งตามคุณลักษณะได้ 3 กลุ่มใหญ่ ๆ ดังนี้
1.1 Distributed data ข้อมูลจะกระจายไปทำงานหลาย ๆ เครื่อง หรือ node
1.2 Cluster computing กระบวนการทำงานของแต่ละ node จะอยู่ภายใต้ cluster ซึ่งเป็น software ที่เชื่อมแต่ละ node เข้าด้วยกัน เหมือนกับว่าทำงานอยู่ในเครื่อง หรือ ระบบเดียวกัน
1.3 Massive parallel processing ระบบการประมวลผลภายใน cluster สามารถทำงานแบบขนานกันได้ ซึ่งช่วยให้การทำงานเร็วขึ้น
2. Processing
ข้อมูลจะไร้ค่าอย่างมาก ถ้าปราศจากการประมวลผล ซึ่งมีรูปแบบการประมวลผล 2 แบบ คือ
2.1 Batch เป็นการประมวลผลที่ใช้เวลานาน
2.2 Streaming เป็นการประมวลผลแบบ realtime
ซึ่งในปัจจุบันจะพูดถึง Apache Spark อย่างมาก เนื่องจากสามารถทำงานได้อย่างรวดเร็ว ซึ่งเร็วกว่า Hadoop ประมาณ 10-100 เท่าเลย
3. Analytic
ข้อมูลในโลกของ Big Data นั้น ไม่เหมาะสมอย่างยิ่งที่จะนำมาวิเคราะห์ !! ดังนั้น จึงต้องทำการแปลงข้อมูล ไปอยู่ในข้อมูลที่มีรูปแบบก่อนเสมอ โดยเทคนิคในการวิเคราะห์ประกอบไปด้วย
3.1 Data mining
3.2 Predictive analytic
3.3 Text analytic
3.4 Video analytic
3.5 Social media analytic
3.6 Sentiment analytic
3.7 Location analytic
3.8 Machine learning
Refer: http://www.somkiat.cc/big-data-back-to-basic/