Niwat Chatawittayakul คอลัมนิส และนักธุรกิจ ปัจจุบันทำธุรกิจด้านวางแผนกลยุทธ์การตลาดและโฆษณาดิจิทัล อีกฝั่งสวมหมวกบริษัทสตาร์ทอัพด้านเทคโนโลยีโดย มุ่งความสนใจไปที่ BigData Blockchain และ Digital Transformation

4 +3 เข้าใจ Types ลักษณะหลัก ๆ ของข้อมูลก่อนทำ Data Viz

13 sec read

ดองบทความ ซีรี่ย์ดาต้า Viz ใน Blog ไว้เป็นเป็น 10 เลยครับท่านผู้เยี่ยมชม(เว็บ) เขียน ๆ ทิ้ง ๆ ไม่จบซักทียิ่งเขียนยิ่งยืดเยื้อ อันนี้เป็นอีกบทความที่ค้างไว้ตั้งแต่ปีที่แล้วแต่ ต้องตัดส่วน ๆ อื่น ๆ ออกไปไม่งั้นไม่ได้ขึ้นซักที เลยขอแยกการแบ่ง ประเภท Types ของ Data หรือลักษณะจำเพาะของข้อมูล ออกมาก่อน ซึ่งเป็นความเข้าใจพื้นฐานของการทำ Data Viz เลยเหมือนกันครับ

ลักษณะจำเพาะของข้อมูล เป็นเหมือนการทำความเข้าใจรูปทรงรูปร่างของเพื่อน ๆ หรือตัวเองก่อน เพื่อนหรือ เรา เป็นคนรูปร่างแบบไหน ผอม สูง ผิวขาว หรือ ผิวเข้ม แล้วมาดูว่ารูปร่างแบบนี้ใส่เสื้อผ้าแบบไหนแล้วดูดี การดู Data Source แล้วจะดูว่าต้องแต่งตัวไปนำเสนออย่างไร เราต้องเข้าใจ Types เบื้องต้นของเขาก่อนนะครับ

4 ลักษณะของข้อมูล (Attribute) (4 Difference Type of Data) การเข้าใจลักษณะของข้อมูล (Attribute) ไม่ได้แค่เรื่องการออกแบบกราฟเท่านั้นนะครับ ได้ไปถึงการเข้าใจช้อมูล เพื่อไปใช้ในการทำ Data Model ด้วยเช่นกัน แต่ก่อนข้ามไปตรงนั้น เรามีรู้จัก 4+3 ลักษณะข้อมูลแต่ละชนิดในบทความนี้ครับ

blank
  • Continuous Data ข้อมูลมีความต่อเนื่อง เป็นข้อมูลประเภทที่มีวัดค่าเชิงปริมาณ มีความต่อเนื่องของข้อมูลมาเรียงลำดับชุดข้อมูลได้ เช่นอุณหภูมิ ของอากาศระหว่างวัน ข้อมูลตัวเลขจะมีการไต่ขึ้น และลดลงอย่างเห็นได้ชัด ไม่กระโดดไปกระโดดมา
  • Discrete Data ข้อมูลที่ไม่มีความต่อเนื่อง เป็นพวกชุดตัวเลขที่ได้จากการนับ เช่น การเดินเข้าประตูเข้าออกของพนักงานบริษัท ข้อมูลการนับลักษณะนี้ ไม่มีโอกาสที่จะมีค่าเป็นทศนิยมได้เลย ฉะนั้นพวกข้อมูลการนับ Items มักจะอยู่ในกลุ่มนี้ครับ ข้อมูลจะกระโดดไปมา เช่น เรานับลูกค้าของร้านว่าซื้อเมนูกาแฟอะไรบ้าง สมมติเรา เอาคนซื้อลาเต้ในเดือนนั้นมา Plot Graph จะเห็นการกระโดดของตัวเลขไม่ต่อเนื่อง วันนี้ 20 พรุ่งนี้ 50 วันถัดมา 5

เวลาเอาข้อมูลทั้งสองมา Plot จะเห็นลักษณะจำเพาะ ตามภาพด้านล่างก็พอจะเดาได้ว่าข้อมูลแบบไหนเป็นข้อมูลต่อเนื่องหรือ ไม่ต่อเนื่อง

blank
  • Categorical Data ข้อมูลตัวแปรแบบกลุ่ม เป็นอิสระต่อกัน จัดประเภทแล้ว ทุกวันนี้ข้อมูลที่เราเห็น ๆ กันที่เอามาใช้ในบทความหรือ ใน Infographic ต่าง ๆ เป็นข้อมูลจัดกลุ่มเป็นส่วนใหญ่ ซึ่งแบ่งออกเป็น Ordinal และ Nominal Data อธิบายเพิ่มเติมตามนี้นะครับ
    • ข้อมูล Categorical Data ทั่วไปที่เราเห็นบ่อยคือ ข้อมูลเพศ เชื้อชาติ ระดับการศึกษา ตำแหน่งงานในบริษัท ถ้าเราลองนับเชื้อชาติของเด็กนักเรียนที่อยู่ในโรงเรียน นานาชาติดู เราจะได้จำนวนของนักเรียนแต่ละสัญชาติมา ซึ่งลักษณะนี้เป็นข้อมูล Category แบบ Nominal คือแบ่งด้วยกลุ่มชื่อเรียก เช่น สัญชาติ, เพศ, การศึกษา
    • แต่ถ้า Categorical Data นั้นไม่ได้แบ่งด้วยกลุ่มชื่อเรียก แต่เราเอาสเกลมาแบ่ง เรียงลำดับกัน มีอันดับอย่างชัดเจน เช่น ระดับความพึงพอใจ แย่ ดี ดีมาก มีการแบ่งลำดับอย่างชัดเชน พวกนี้จะเป็น Category Data ประเภท Ordinal
blank
เทียบให้เห็น ความต่าง Nominal vs Oedinal

ในการทำ Data Model หลายครั้งข้อมูลที่มาเป็น Category Data แบบข้างต้นต้องเอามาทำ Dummy Variable ก่อนเพื่อให้แปลงกลุ่มที่เป็นลักษณะนาม ชาย หญิง สัญชาติ ไทย อังกฤษ ออกมาเป็นตัวเลขในการเข้า Model ก่อน เพื่อให้ Model ทำงานได้

เพิ่มเติม บางตำรามีการแบ่งประเภทชุดข้อมูลเพิ่มเติมอีก 3 กลุ่ม

  • Hierarchical Data ข้อมูลที่มีโครงสร้างความสัมพันธ์กัน อยากนำเสนอความเกี่ยวโยงเป็นลำดับชั้น
  • GeoGraphic Data ข้อมูลที่เกี่ยวข้องกับภูมิศาสตร์ ตำแหน่งพิกัด บนแผนที่แล้วแสดงข้อมูลประกอบอธิบาย
  • Temporal Data ข้อมูลชั่วคราวช่วงเวลานึง (a state in time) ไม่ได้ต่อเนื่องในระยะยาว

จริง ๆ แล้ว 4 ประเภทหลักที่เล่ามาข้างต้น ส่วนที่มีปัญหากับการเลือกกราฟมาที่สุดคือ กราฟแบบที่เหมาะสมกับข้อมูลที่เป็น Discret และกราฟที่เหมาะสมกับข้อมูล Continuous Data บางครั้งเราเลือกไม่ถูกและแบบไหนเหมาะสมกว่ากัน ไว้เล่าให้ฟังอีกครั้งครับ หากสนใจเรื่องเรื่องการเลือกกราฟ เข้าไปอ่านเนื้อหาเก่าได้ที่นี่ครับ วิธีการวิเคราะห์การเลือกกราฟเบื้องต้นครับ