คำว่าการขุดข้อมูลหมายถึงอะไร? วิธีการทำเหมืองข้อมูล วิธีการขุดข้อมูลทางไซเบอร์เนติกส์

23.01.2022 น่าสนใจ

การทำเหมืองข้อมูล) และการวิเคราะห์เชิงสำรวจแบบ "คร่าวๆ" ซึ่งเป็นพื้นฐานของการประมวลผลข้อมูลเชิงวิเคราะห์เชิงปฏิบัติการ (OnLine Analytical Processing, OLAP) ในขณะที่หนึ่งในข้อกำหนดหลักของ Data Mining คือการค้นหาสิ่งที่ไม่ชัดเจน รูปแบบ. เครื่องมือการทำเหมืองข้อมูลสามารถค้นหารูปแบบดังกล่าวได้อย่างอิสระและยังสามารถสร้างสมมติฐานเกี่ยวกับความสัมพันธ์ได้อย่างอิสระอีกด้วย เนื่องจากการกำหนดสมมติฐานเกี่ยวกับการขึ้นต่อกันเป็นงานที่ยากที่สุด ข้อดีของ Data Mining เหนือวิธีการวิเคราะห์อื่นๆ จึงมีความชัดเจน

วิธีการทางสถิติส่วนใหญ่ในการระบุความสัมพันธ์ในข้อมูลใช้แนวคิดของการเฉลี่ยตัวอย่าง ซึ่งนำไปสู่การดำเนินการกับค่าที่ไม่มีอยู่จริง ในขณะที่การขุดข้อมูลดำเนินการกับค่าจริง

OLAP เหมาะสำหรับการทำความเข้าใจข้อมูลในอดีตมากกว่า Data Mining อาศัยข้อมูลในอดีตเพื่อตอบคำถามเกี่ยวกับอนาคต

อนาคตสำหรับเทคโนโลยีการขุดข้อมูล

ศักยภาพของ Data Mining เปิดไฟเขียวเพื่อขยายขอบเขตการประยุกต์ใช้เทคโนโลยี สำหรับแนวโน้มของ Data Mining มีแนวทางการพัฒนาดังต่อไปนี้:

  • การระบุประเภทของสาขาวิชาด้วยการวิเคราะห์พฤติกรรมที่สอดคล้องกัน การจัดรูปแบบอย่างเป็นทางการซึ่งจะช่วยอำนวยความสะดวกในการแก้ปัญหาการทำเหมืองข้อมูลที่เกี่ยวข้องกับพื้นที่เหล่านี้
  • การสร้างภาษาที่เป็นทางการและเครื่องมือเชิงตรรกะด้วยความช่วยเหลือซึ่งจะทำให้การให้เหตุผลเป็นทางการและระบบอัตโนมัติซึ่งจะกลายเป็นเครื่องมือในการแก้ปัญหาการทำเหมืองข้อมูลในสาขาวิชาเฉพาะ
  • การสร้างวิธีการทำเหมืองข้อมูลไม่เพียงแต่สามารถดึงรูปแบบจากข้อมูลเท่านั้น แต่ยังสร้างทฤษฎีบางอย่างจากข้อมูลเชิงประจักษ์ด้วย
  • เอาชนะช่องว่างที่สำคัญระหว่างความสามารถของเครื่องมือ Data Mining และความสำเร็จทางทฤษฎีในพื้นที่นี้

หากเราพิจารณาอนาคตของ Data Mining ในระยะสั้น จะเห็นได้ชัดว่าการพัฒนาเทคโนโลยีนี้มุ่งไปที่ด้านที่เกี่ยวข้องกับธุรกิจมากที่สุด

ในระยะสั้น ผลิตภัณฑ์ Data Mining อาจกลายเป็นเรื่องปกติและจำเป็นเหมือนกับอีเมล และตัวอย่างเช่น ผู้ใช้ใช้เพื่อค้นหาผลิตภัณฑ์ที่เกี่ยวข้องมากที่สุด ราคาต่ำสำหรับผลิตภัณฑ์เฉพาะหรือตั๋วที่ถูกที่สุด

ในระยะยาว อนาคตของ Data Mining นั้นน่าตื่นเต้นมาก อาจเป็นการค้นหาตัวแทนอัจฉริยะทั้งการรักษาโรคใหม่ๆ และความเข้าใจใหม่เกี่ยวกับธรรมชาติของจักรวาล

อย่างไรก็ตาม การทำเหมืองข้อมูลยังเต็มไปด้วยอันตรายที่อาจเกิดขึ้น ท้ายที่สุดแล้ว มีข้อมูลจำนวนเพิ่มมากขึ้นผ่านทางเวิลด์ไวด์เว็บ รวมถึงข้อมูลส่วนตัว และสามารถดึงความรู้ออกมาได้มากขึ้นเรื่อยๆ:

ไม่นานมานี้ Amazon ร้านค้าออนไลน์ที่ใหญ่ที่สุด พบว่าตัวเองเป็นศูนย์กลางของเรื่องอื้อฉาวเกี่ยวกับสิทธิบัตรที่ได้รับ "วิธีการและระบบในการช่วยเหลือผู้ใช้ในการซื้อสินค้า" ซึ่งไม่มีอะไรมากไปกว่าผลิตภัณฑ์ Data Mining อื่นที่ออกแบบมาเพื่อรวบรวม ข้อมูลส่วนบุคคลเกี่ยวกับผู้เยี่ยมชมร้านค้า เทคนิคใหม่นี้ช่วยให้คุณสามารถคาดการณ์คำขอในอนาคตโดยอิงตามข้อเท็จจริงในการซื้อ พร้อมทั้งสรุปเกี่ยวกับวัตถุประสงค์ของพวกเขาได้ วัตถุประสงค์ของเทคนิคนี้คือสิ่งที่กล่าวไว้ข้างต้น - รับข้อมูลเกี่ยวกับลูกค้าให้มากที่สุดเท่าที่จะเป็นไปได้ รวมถึงข้อมูลส่วนตัว (เพศ อายุ ความชอบ ฯลฯ) ดังนั้นข้อมูลเกี่ยวกับชีวิตส่วนตัวของลูกค้าร้านค้าตลอดจนสมาชิกในครอบครัวรวมถึงลูกๆ จึงถูกเก็บรวบรวม หลังนี้เป็นสิ่งต้องห้ามตามกฎหมายของหลายประเทศ - การรวบรวมข้อมูลเกี่ยวกับผู้เยาว์สามารถทำได้ที่นั่นเฉพาะเมื่อได้รับอนุญาตจากผู้ปกครองเท่านั้น

การวิจัยตั้งข้อสังเกตว่ามีทั้งโซลูชันที่ประสบความสำเร็จโดยใช้ Data Mining และประสบการณ์ที่ไม่ประสบความสำเร็จกับเทคโนโลยีนี้ พื้นที่ที่การประยุกต์ใช้เทคโนโลยี Data Mining มีแนวโน้มที่จะประสบความสำเร็จมากที่สุด ได้แก่ :

  • ต้องการการตัดสินใจบนฐานความรู้
  • มีสภาพแวดล้อมที่เปลี่ยนแปลง
  • มีข้อมูลที่เข้าถึงได้ เพียงพอ และมีความหมาย
  • ให้เงินปันผลสูงจากการตัดสินใจที่ถูกต้อง

แนวทางการวิเคราะห์ที่มีอยู่

เป็นเวลานานแล้วที่วินัยของ Data Mining ไม่ได้รับการยอมรับว่าเป็นสาขาการวิเคราะห์ข้อมูลอิสระเต็มรูปแบบ บางครั้งเรียกว่า "สนามหลังบ้านของสถิติ" (Pregibon, 1997)

จนถึงปัจจุบัน ได้มีการกำหนดมุมมองหลายประการเกี่ยวกับ Data Mining แล้ว ผู้สนับสนุนหนึ่งในนั้นคิดว่ามันเป็นภาพลวงตาที่เบี่ยงเบนความสนใจจากการวิเคราะห์แบบคลาสสิก

การทำเหมืองข้อมูล

Data Mining เป็นวิธีการและกระบวนการในการค้นหาข้อมูลจำนวนมากที่สะสมอยู่ ระบบข้อมูลบริษัทที่ไม่รู้จักมาก่อน ไม่สำคัญ มีประโยชน์ในทางปฏิบัติและเข้าถึงได้สำหรับการตีความความรู้ที่จำเป็นสำหรับการตัดสินใจในด้านต่างๆ ของกิจกรรมของมนุษย์ การทำเหมืองข้อมูลเป็นหนึ่งในขั้นตอนของวิธีการค้นพบความรู้ในฐานข้อมูลที่มีขนาดใหญ่กว่า

ความรู้ที่ค้นพบในกระบวนการ Data Mining จะต้องไม่ใช่เรื่องเล็กน้อยและไม่เคยมีใครรู้จักมาก่อน การไม่ไร้สาระหมายความว่าความรู้ดังกล่าวไม่สามารถค้นพบได้ด้วยการวิเคราะห์ด้วยภาพธรรมดาๆ พวกเขาจะต้องอธิบายความสัมพันธ์ระหว่างคุณสมบัติของวัตถุทางธุรกิจ ทำนายค่าของคุณสมบัติบางอย่างตามคุณสมบัติอื่น ๆ เป็นต้น ความรู้ที่พบควรนำไปใช้กับวัตถุใหม่

ประโยชน์เชิงปฏิบัติของความรู้นั้นเกิดจากความเป็นไปได้ของการนำไปใช้ในกระบวนการสนับสนุนการตัดสินใจของฝ่ายบริหารและปรับปรุงกิจกรรมของบริษัท

ความรู้จะต้องนำเสนอในรูปแบบที่เข้าใจได้สำหรับผู้ใช้ที่ไม่มีการฝึกอบรมทางคณิตศาสตร์พิเศษ ตัวอย่างเช่น โครงสร้างเชิงตรรกะ "ถ้าเช่นนั้น" เป็นสิ่งที่มนุษย์รับรู้ได้ง่ายที่สุด นอกจากนี้ กฎดังกล่าวยังสามารถใช้ใน DBMS ต่างๆ เป็นการสืบค้น SQL ในกรณีที่ความรู้ที่ดึงออกมาไม่โปร่งใสต่อผู้ใช้ จะต้องมีวิธีหลังการประมวลผลเพื่อนำมาเป็นรูปแบบที่สามารถตีความได้

การทำเหมืองข้อมูลไม่ใช่เพียงวิธีเดียว แต่เป็นการผสมผสานระหว่างวิธีการค้นพบความรู้ที่แตกต่างกันจำนวนมาก ทุกปัญหาที่แก้ไขได้ด้วยวิธีการ Data Mining แบ่งได้เป็น 6 ประเภท คือ

การทำเหมืองข้อมูลมีลักษณะเป็นสาขาวิชาที่หลากหลาย เนื่องจากมีองค์ประกอบของวิธีการเชิงตัวเลข สถิติทางคณิตศาสตร์และทฤษฎีความน่าจะเป็น ทฤษฎีสารสนเทศและตรรกะทางคณิตศาสตร์ ปัญญาประดิษฐ์ และการเรียนรู้ของเครื่อง

งานการวิเคราะห์ธุรกิจได้รับการกำหนดสูตรในรูปแบบที่แตกต่างกัน แต่วิธีแก้ปัญหาสำหรับงานส่วนใหญ่อยู่ที่งาน Data Mining งานใดงานหนึ่งหรือหลายงานรวมกัน ตัวอย่างเช่น การประเมินความเสี่ยงเป็นวิธีแก้ปัญหาการถดถอยหรือการจำแนกประเภท การแบ่งส่วนตลาดเป็นการรวมกลุ่ม การกระตุ้นความต้องการเป็นกฎการเชื่อมโยง ในความเป็นจริง งาน Data Mining เป็นองค์ประกอบที่คุณสามารถ "รวบรวม" วิธีแก้ปัญหาทางธุรกิจส่วนใหญ่ได้

เพื่อแก้ไขปัญหาข้างต้น จึงมีการใช้วิธีการและอัลกอริธึมการทำเหมืองข้อมูลที่หลากหลาย เนื่องจากข้อเท็จจริงที่ว่า Data Mining ได้พัฒนาและพัฒนาที่จุดตัดของสาขาวิชาต่างๆ เช่น สถิติทางคณิตศาสตร์ ทฤษฎีสารสนเทศ การเรียนรู้ของเครื่อง และฐานข้อมูล จึงค่อนข้างเป็นธรรมชาติที่อัลกอริธึมและวิธีการ Data Mining ส่วนใหญ่ได้รับการพัฒนาโดยใช้วิธีการต่างๆ จากสาขาวิชาเหล่านี้ . ตัวอย่างเช่น อัลกอริธึมการจัดกลุ่มเคมีนถูกยืมมาจากสถิติ

ระบบ OLAP ช่วยให้นักวิเคราะห์มีวิธีทดสอบสมมติฐานเมื่อวิเคราะห์ข้อมูลนั่นคืองานหลักของนักวิเคราะห์คือการสร้างสมมติฐานซึ่งเขาแก้ไขตามความรู้และประสบการณ์ของเขา อย่างไรก็ตาม ไม่เพียงแต่บุคคลที่มีความรู้เท่านั้น แต่ยังรวมถึง ข้อมูลที่รวบรวมมาวิเคราะห์ ความรู้ดังกล่าวมีอยู่ในข้อมูลจำนวนมหาศาลซึ่งบุคคลไม่สามารถค้นคว้าด้วยตนเองได้ ด้วยเหตุนี้ จึงมีความเสี่ยงที่จะพลาดสมมติฐานที่อาจให้ประโยชน์ที่สำคัญ

ในการตรวจจับความรู้ที่ "ซ่อนเร้น" จะใช้วิธีการวิเคราะห์อัตโนมัติแบบพิเศษโดยจำเป็นต้องดึงความรู้ออกจาก "การปิดกั้น" ของข้อมูลในทางปฏิบัติ คำว่า "การขุดข้อมูล" หรือ "การขุดข้อมูล" ได้รับการกำหนดให้กับพื้นที่นี้

มีคำจำกัดความมากมายของ DataMining ที่เสริมซึ่งกันและกัน นี่คือบางส่วนของพวกเขา

การทำเหมืองข้อมูลเป็นกระบวนการในการค้นหารูปแบบที่ไม่สำคัญและมีประโยชน์ในทางปฏิบัติในฐานข้อมูล (กลุ่มฐาน)

Data Mining คือกระบวนการแยก สำรวจ และจำลองข้อมูลปริมาณมากเพื่อค้นหารูปแบบ (รูปแบบ) ที่ไม่รู้จักก่อนหน้านี้ เพื่อให้บรรลุความได้เปรียบทางธุรกิจ (SAS Institute)

การทำเหมืองข้อมูลเป็นกระบวนการที่มีจุดมุ่งหมายเพื่อค้นหาความสัมพันธ์ รูปแบบ และแนวโน้มที่สำคัญใหม่ๆ โดยการกรองข้อมูลที่เก็บไว้จำนวนมากโดยใช้เทคนิคการจดจำรูปแบบ บวกกับการประยุกต์ใช้เทคนิคทางสถิติและคณิตศาสตร์ (GartnerGroup)

Data Mining คือการวิจัยและค้นพบโดย “เครื่องจักร” (อัลกอริธึม เครื่องมือปัญญาประดิษฐ์) ของความรู้ที่ซ่อนอยู่ในข้อมูลดิบไม่เคยมีใครรู้จักมาก่อน ไม่สำคัญ มีประโยชน์ในทางปฏิบัติ เข้าถึงได้สำหรับการตีความโดยมนุษย์ (A. Bargesyan “เทคโนโลยีการวิเคราะห์ข้อมูล”)

DataMining เป็นกระบวนการค้นหาความรู้ที่เป็นประโยชน์เกี่ยวกับธุรกิจ (N.M. Abdikeev “KBA”)

คุณสมบัติของความรู้ที่ค้นพบ

พิจารณาคุณสมบัติของความรู้ที่ค้นพบ

  • ความรู้จะต้องใหม่ไม่รู้มาก่อน ความพยายามที่ใช้ในการค้นหาความรู้ที่ผู้ใช้รู้อยู่แล้วไม่ได้ผล จึงเป็นความรู้ใหม่ที่ไม่เคยรู้มาก่อนซึ่งมีคุณค่า
  • ความรู้ต้องไม่ไร้สาระ ผลการวิเคราะห์ควรสะท้อนถึงสิ่งที่ไม่ชัดเจนและไม่คาดคิดรูปแบบของข้อมูลที่เรียกว่าความรู้ที่ซ่อนอยู่ ผลลัพธ์ที่สามารถรับได้โดยวิธีการที่ง่ายกว่า (เช่น การตรวจสอบด้วยสายตา) ไม่ได้แสดงให้เห็นถึงการใช้วิธี Data Mining ที่มีประสิทธิภาพ
  • ความรู้จะต้องเป็นประโยชน์ในทางปฏิบัติ ความรู้ที่พบต้องสามารถนำไปใช้ได้ รวมถึงข้อมูลใหม่ด้วยความน่าเชื่อถือในระดับสูงเพียงพอ ประโยชน์อยู่ที่ว่าความรู้นี้สามารถนำมาซึ่งประโยชน์บางอย่างเมื่อนำไปใช้
  • ความรู้จะต้องเข้าถึงได้สำหรับความเข้าใจของมนุษย์ รูปแบบที่พบจะต้องอธิบายได้อย่างมีเหตุผล มิฉะนั้น อาจมีความเป็นไปได้ที่จะเกิดขึ้นแบบสุ่ม นอกจากนี้ความรู้ที่ค้นพบจะต้องนำเสนอในรูปแบบที่มนุษย์สามารถเข้าใจได้

ใน DataMining แบบจำลองจะถูกใช้เพื่อแสดงความรู้ที่ได้รับ ประเภทของโมเดลขึ้นอยู่กับวิธีการที่ใช้สร้างโมเดลเหล่านั้น สิ่งที่พบบ่อยที่สุดคือ: กฎ แผนผังการตัดสินใจ กลุ่ม และฟังก์ชันทางคณิตศาสตร์

งานการขุดข้อมูล

ให้เราระลึกว่าเทคโนโลยี DataMining มีพื้นฐานมาจากแนวคิดของเทมเพลตซึ่งเป็นรูปแบบ จากการค้นพบรูปแบบเหล่านี้ซึ่งซ่อนไว้ด้วยตาเปล่า ปัญหา DataMining จึงได้รับการแก้ไข รูปแบบประเภทต่างๆ ที่สามารถแสดงในรูปแบบที่มนุษย์สามารถอ่านได้นั้นสอดคล้องกับงาน DataMining ที่เฉพาะเจาะจง

ไม่มีความเห็นเป็นเอกฉันท์ว่างานใดควรจัดประเภทเป็น DataMining แหล่งข้อมูลที่เชื่อถือได้ส่วนใหญ่มีรายการดังต่อไปนี้: การจำแนกประเภท,

การจัดกลุ่ม การทำนาย การเชื่อมโยง การแสดงภาพ การวิเคราะห์ และการค้นพบ

การเบี่ยงเบน การประเมิน การวิเคราะห์ความเชื่อมโยง สรุป

วัตถุประสงค์ของคำอธิบายต่อไปนี้คือการให้ ความคิดทั่วไปเกี่ยวกับปัญหา DataMining เปรียบเทียบบางส่วนและนำเสนอวิธีการบางอย่างในการแก้ไขปัญหาเหล่านี้ งาน Data Mining ที่พบบ่อยที่สุดคือการจัดหมวดหมู่ การจัดกลุ่ม การเชื่อมโยง การพยากรณ์ และการแสดงภาพ ดังนั้นงานจะถูกแบ่งตามประเภทของข้อมูลที่สร้างขึ้น นี่คือการจำแนกประเภททั่วไปที่สุดของงาน DataMining

การจัดหมวดหมู่

ภารกิจในการแบ่งชุดของวัตถุหรือการสังเกตออกเป็นกลุ่มที่ระบุนิรนัย เรียกว่าคลาส ซึ่งในแต่ละกลุ่มจะถือว่ามีความคล้ายคลึงกัน โดยมีคุณสมบัติและคุณลักษณะที่เหมือนกันโดยประมาณ ในกรณีนี้จะได้คำตอบตามการวิเคราะห์ ค่าคุณลักษณะ (คุณสมบัติ)

การจำแนกประเภทถือเป็นงานที่สำคัญที่สุดอย่างหนึ่งการทำเหมืองข้อมูล . มันถูกใช้ในการตลาด เมื่อประเมินความน่าเชื่อถือทางเครดิตของผู้กู้ยืมกำหนดความภักดีของลูกค้า การจดจำรูปแบบ การวินิจฉัยทางการแพทย์ และการใช้งานอื่นๆ อีกมากมาย หากนักวิเคราะห์ทราบคุณสมบัติของออบเจ็กต์ของแต่ละคลาส เมื่อการสังเกตใหม่เป็นของคลาสใดคลาสหนึ่ง คุณสมบัติเหล่านี้จะถูกขยายไปยังคลาสนั้นโดยอัตโนมัติ

ถ้าจำนวนคลาสถูกจำกัดไว้แค่สองคลาสล่ะก็การจำแนกประเภทไบนารี ซึ่งสามารถลดปัญหาที่ซับซ้อนอีกมากมายได้ ตัวอย่างเช่น แทนที่จะกำหนดระดับความเสี่ยงด้านเครดิตเป็น "สูง" "ปานกลาง" หรือ "ต่ำ" คุณสามารถใช้เพียงสอง - "ปัญหา" หรือ "ปฏิเสธ"

DataMining ใช้โมเดลที่แตกต่างกันมากมายในการจำแนกประเภท:โครงข่ายประสาทเทียม ต้นไม้ตัดสินใจ , รองรับเครื่องเวกเตอร์, วิธี k- Nearest Neighbors, อัลกอริธึมที่ครอบคลุม ฯลฯ ในการสร้างการเรียนรู้แบบมีผู้สอนจะใช้เมื่อตัวแปรเอาท์พุต(ป้ายชื่อชั้นเรียน ) ถูกระบุไว้สำหรับการสังเกตแต่ละครั้ง อย่างเป็นทางการ การจำแนกประเภทจะขึ้นอยู่กับพาร์ติชันช่องว่างคุณสมบัติ เข้าไปในพื้นที่ภายในแต่ละแห่งซึ่งเวกเตอร์หลายมิติ ถือว่าเหมือนกัน กล่าวอีกนัยหนึ่ง หากวัตถุตกอยู่ในขอบเขตของพื้นที่ที่เกี่ยวข้องกับคลาสใดคลาสหนึ่ง วัตถุนั้นจะอยู่ในคลาสนั้น

การจัดกลุ่ม

คำอธิบายสั้น. การจัดกลุ่มเป็นความต่อเนื่องของแนวคิดเชิงตรรกะ

การจำแนกประเภท นี่เป็นงานที่ซับซ้อนมากขึ้น ลักษณะเฉพาะของการจัดกลุ่มคือคลาสอ็อบเจ็กต์ไม่ได้ถูกกำหนดไว้ล่วงหน้าตั้งแต่แรก ผลลัพธ์ของการจัดกลุ่มคือการแบ่งวัตถุออกเป็นกลุ่ม

ตัวอย่างของวิธีการในการแก้ปัญหาการจัดกลุ่ม: การฝึกอบรม "ไม่ได้รับการดูแล" ของโครงข่ายประสาทเทียมชนิดพิเศษ - แผนที่ Kohonen ที่จัดระเบียบด้วยตนเอง

สมาคม

คำอธิบายสั้น. เมื่อแก้ไขปัญหาการค้นหากฎการเชื่อมโยง จะพบรูปแบบระหว่างเหตุการณ์ที่เกี่ยวข้องในชุดข้อมูล

ความแตกต่างระหว่างการเชื่อมโยงและงาน DataMining สองงานก่อนหน้า: การค้นหารูปแบบไม่ได้ดำเนินการบนพื้นฐานของคุณสมบัติของวัตถุที่วิเคราะห์ แต่ระหว่างเหตุการณ์ต่างๆ ที่เกิดขึ้นพร้อมกัน อัลกอริธึมที่รู้จักกันดีที่สุดในการแก้ปัญหาการค้นหากฎการเชื่อมโยงคืออัลกอริธึม Apriori

ลำดับหรือการเชื่อมโยงตามลำดับ

คำอธิบายสั้น. ลำดับช่วยให้คุณค้นหารูปแบบชั่วคราวระหว่างธุรกรรมได้ งานลำดับมีความคล้ายคลึงกับการเชื่อมโยง แต่เป้าหมายคือการสร้างรูปแบบไม่ใช่ระหว่างเหตุการณ์ที่เกิดขึ้นพร้อมกัน แต่ระหว่างเหตุการณ์ที่เกี่ยวข้องกับเวลา (เช่น เกิดขึ้นในช่วงเวลาใดช่วงหนึ่ง) กล่าวอีกนัยหนึ่ง ลำดับถูกกำหนดโดยความน่าจะเป็นสูงที่จะมีเหตุการณ์ต่อเนื่องกันที่เกี่ยวข้องกันในเวลา ในความเป็นจริง การเชื่อมโยงเป็นกรณีพิเศษของลำดับที่มีเวลาหน่วงเป็นศูนย์ งาน DataMining นี้เรียกอีกอย่างว่างานการค้นหารูปแบบตามลำดับ

กฎลำดับ: หลังจากเหตุการณ์ X เหตุการณ์ Y จะเกิดขึ้นหลังจากช่วงเวลาหนึ่ง

ตัวอย่าง. หลังจากซื้ออพาร์ทเมนต์ ผู้อยู่อาศัยในกรณี 60% ซื้อตู้เย็นภายในสองสัปดาห์ และภายในสองเดือนใน 50% ของกรณีจะซื้อทีวี วิธีแก้ไขปัญหานี้มีการใช้กันอย่างแพร่หลายในด้านการตลาดและการจัดการ ตัวอย่างเช่น ในการจัดการวงจรชีวิตลูกค้า

การถดถอย การพยากรณ์ (พยากรณ์)

คำอธิบายสั้น. จากการแก้ปัญหาการคาดการณ์ ค่าที่หายไปหรือในอนาคตของตัวบ่งชี้ตัวเลขเป้าหมายจะถูกประมาณตามลักษณะของข้อมูลในอดีต

เพื่อแก้ปัญหาดังกล่าว จึงมีการใช้วิธีสถิติทางคณิตศาสตร์ โครงข่ายประสาทเทียม ฯลฯ อย่างกว้างขวาง

งานเพิ่มเติม

การตรวจจับความเบี่ยงเบนการวิเคราะห์ความแปรปรวนหรือค่าผิดปกติ

คำอธิบายสั้น. เป้าหมายของการแก้ปัญหานี้คือการตรวจจับและวิเคราะห์ข้อมูลที่แตกต่างจากชุดข้อมูลทั่วไปมากที่สุด โดยระบุสิ่งที่เรียกว่ารูปแบบที่ไม่เคยมีมาก่อน

การประมาณค่า

งานการประมาณค่าลงมาเพื่อทำนายค่าต่อเนื่องของคุณลักษณะ

การวิเคราะห์ลิงค์

ภารกิจในการค้นหาการพึ่งพาในชุดข้อมูล

การแสดงภาพ (GraphMining)

จากผลของการแสดงภาพ ภาพกราฟิกของข้อมูลที่วิเคราะห์จะถูกสร้างขึ้น เพื่อแก้ปัญหาการแสดงภาพ จึงใช้วิธีกราฟิกเพื่อแสดงการมีอยู่ของรูปแบบในข้อมูล

ตัวอย่างของเทคนิคการแสดงภาพคือการนำเสนอข้อมูลในมิติ 2 มิติและ 3 มิติ

การสรุป

งานที่มีเป้าหมายเพื่ออธิบายกลุ่มวัตถุเฉพาะจากชุดข้อมูลที่วิเคราะห์

การแบ่งประเภทของงาน DataMining ค่อนข้างใกล้เคียงกับการจำแนกประเภทข้างต้น: การวิจัยและการค้นพบ การคาดการณ์และการจำแนกประเภท คำอธิบายและคำอธิบาย

การสำรวจและค้นพบอัตโนมัติ (ค้นหาฟรี)

งานตัวอย่าง: การค้นพบกลุ่มตลาดใหม่

สำหรับการแก้ปัญหา ของชั้นเรียนนี้ปัญหาในการใช้วิธีวิเคราะห์คลัสเตอร์

การทำนายและการจำแนกประเภท

ปัญหาตัวอย่าง: การทำนายการเติบโตของยอดขายตามมูลค่าปัจจุบัน

วิธีการ: การถดถอย โครงข่ายประสาท อัลกอริธึมทางพันธุกรรม แผนผังการตัดสินใจ

งานจำแนกประเภทและการพยากรณ์ประกอบด้วยกลุ่มของสิ่งที่เรียกว่าการสร้างแบบจำลองอุปนัย ซึ่งส่งผลให้เกิดการศึกษาวัตถุหรือระบบที่วิเคราะห์ ในกระบวนการแก้ไขปัญหาเหล่านี้ จะมีการพัฒนาแบบจำลองหรือสมมติฐานทั่วไปโดยอาศัยชุดข้อมูล

คำอธิบายและคำอธิบาย

ปัญหาตัวอย่าง: การกำหนดลักษณะลูกค้าตามข้อมูลประชากรและประวัติการซื้อ

วิธีการ: แผนผังการตัดสินใจ ระบบกฎ กฎการเชื่อมโยง การวิเคราะห์การเชื่อมต่อ

หากรายได้ของลูกค้ามากกว่า 50 หน่วยทั่วไปและอายุมากกว่า 30 ปี ชั้นเรียนของลูกค้าจะเป็นที่หนึ่ง

การเปรียบเทียบการจัดกลุ่มและการจำแนกประเภท

ลักษณะเฉพาะ

การจัดหมวดหมู่

การจัดกลุ่ม

การควบคุมการฝึกอบรม

ถูกควบคุม

ไม่สามารถควบคุมได้

กลยุทธ์

อบรมสั่งสอน

การเรียนรู้แบบไม่มีผู้ดูแล

ความพร้อมใช้งานของป้ายกำกับชั้นเรียน

ชุดฝึกซ้อม

โดยมีฉลากระบุด้วย

คลาสที่มันอยู่

การสังเกต

ป้ายชื่อคลาสเทรนเนอร์

ไม่ทราบชุด

พื้นฐานสำหรับการจำแนกประเภท

ข้อมูลใหม่จะถูกจัดประเภทตามชุดการฝึก

มีการให้ข้อมูลจำนวนมากเพื่อจุดประสงค์

การสถาปนาความเป็นอยู่

คลาสหรือกลุ่มข้อมูล

พื้นที่การใช้งาน DataMining

ควรสังเกตว่าในปัจจุบันเทคโนโลยี DataMining ถูกนำมาใช้กันอย่างแพร่หลายในการแก้ปัญหาทางธุรกิจ บางทีเหตุผลก็คือในทิศทางนี้ที่ผลตอบแทนจากการใช้เครื่องมือ DataMining สามารถเป็นไปตามแหล่งข้อมูลบางแห่งได้มากถึง 1,000% และค่าใช้จ่ายในการนำไปใช้สามารถชำระได้อย่างรวดเร็ว

เราจะดูรายละเอียดการประยุกต์ใช้เทคโนโลยี DataMining สี่ด้านหลัก: วิทยาศาสตร์ ธุรกิจ การวิจัยของรัฐบาล และเว็บ

งานทางธุรกิจ. สาขาวิชาหลัก: การธนาคาร การเงิน ประกันภัย CRM การผลิต โทรคมนาคม อีคอมเมิร์ซ การตลาด ตลาดหุ้น และอื่นๆ

    ฉันควรออกเงินกู้ให้กับลูกค้าหรือไม่?

    การแบ่งส่วนตลาด

    การดึงดูดลูกค้าใหม่

    การฉ้อโกงบัตรเครดิต

การประยุกต์ใช้ DataMining สำหรับ การแก้ปัญหาในระดับรัฐ. ทิศทางหลัก: ค้นหาผู้หลบเลี่ยงภาษี หมายถึงในการต่อสู้กับการก่อการร้าย

การประยุกต์ใช้ DataMining สำหรับ การวิจัยทางวิทยาศาสตร์. สาขาวิชาหลัก: การแพทย์ ชีววิทยา อณูพันธุศาสตร์และพันธุวิศวกรรม ชีวสารสนเทศศาสตร์ ดาราศาสตร์ เคมีประยุกต์ การวิจัยที่เกี่ยวข้องกับการติดยาเสพติด และอื่นๆ

การใช้ DataMining ในการแก้ปัญหา งานเว็บ. พื้นที่หลัก: เครื่องมือค้นหา ตัวนับ และอื่นๆ

อีคอมเมิร์ซ

ในด้านอีคอมเมิร์ซนั้น DataMining ถูกใช้เพื่อสร้าง

การจำแนกประเภทนี้ช่วยให้บริษัทสามารถระบุกลุ่มลูกค้าที่เฉพาะเจาะจงและดำเนินนโยบายการตลาดตามความสนใจและความต้องการของลูกค้าที่ระบุได้ เทคโนโลยี DataMining สำหรับอีคอมเมิร์ซมีความเกี่ยวข้องอย่างใกล้ชิดกับเทคโนโลยี WebMining

ภารกิจหลักของ DataMining ในการผลิตภาคอุตสาหกรรม:

· การวิเคราะห์ระบบที่ครอบคลุมของสถานการณ์การผลิต

· การพยากรณ์การพัฒนาสถานการณ์การผลิตในระยะสั้นและระยะยาว

· การพัฒนาตัวเลือกสำหรับโซลูชันการปรับให้เหมาะสม

· การคาดการณ์คุณภาพของผลิตภัณฑ์ขึ้นอยู่กับพารามิเตอร์บางอย่าง

กระบวนการทางเทคโนโลยี

· การตรวจจับแนวโน้มและรูปแบบที่ซ่อนอยู่ในการพัฒนาการผลิต

กระบวนการ;

· การพยากรณ์รูปแบบการพัฒนากระบวนการผลิต

· การตรวจหาปัจจัยอิทธิพลที่ซ่อนอยู่

· การตรวจจับและการระบุความสัมพันธ์ที่ไม่รู้จักก่อนหน้านี้ระหว่าง

พารามิเตอร์การผลิตและปัจจัยที่มีอิทธิพล

· การวิเคราะห์สภาพแวดล้อมปฏิสัมพันธ์ของกระบวนการผลิตและการพยากรณ์

การเปลี่ยนแปลงในลักษณะของมัน

กระบวนการ;

· การแสดงภาพผลการวิเคราะห์ การจัดทำรายงานเบื้องต้นและโครงการ

แนวทางแก้ไขที่เป็นไปได้พร้อมการประเมินความน่าเชื่อถือและประสิทธิผลของการใช้งานที่เป็นไปได้

การตลาด

ในด้านการตลาด DataMining ถูกนำมาใช้กันอย่างแพร่หลาย

คำถามทางการตลาดขั้นพื้นฐาน: "ขายอะไร", "ขายอย่างไร", "ใครคือใคร"

ผู้บริโภค?"

การบรรยายเรื่องปัญหาการจำแนกประเภทและการจัดกลุ่ม อธิบายรายละเอียดการใช้การวิเคราะห์กลุ่มเพื่อแก้ไขปัญหาทางการตลาด เช่น การแบ่งส่วนผู้บริโภค

วิธีการทั่วไปอีกชุดหนึ่งในการแก้ปัญหาทางการตลาดคือวิธีการและอัลกอริธึมในการค้นหากฎการเชื่อมโยง

การค้นหารูปแบบเวลาก็ใช้ได้ที่นี่เช่นกัน

ขายปลีก

ในการขายปลีกเช่นเดียวกับในด้านการตลาดมีการใช้สิ่งต่อไปนี้:

· อัลกอริธึมสำหรับการค้นหากฎการเชื่อมโยง (เพื่อกำหนดชุดกฎที่เกิดขึ้นบ่อยครั้ง

สินค้าที่ผู้ซื้อซื้อพร้อมกัน) การระบุกฎดังกล่าวช่วยได้

วางสินค้าบนชั้นวางสินค้า พัฒนากลยุทธ์ในการซื้อสินค้า

และการจัดวางในโกดัง ฯลฯ

· การใช้ลำดับเวลา เช่น เพื่อกำหนด

ปริมาณสินค้าที่ต้องการในคลังสินค้า

· วิธีการจำแนกและการจัดกลุ่มเพื่อระบุกลุ่มหรือประเภทของไคลเอนต์

ความรู้ที่มีส่วนช่วย การส่งเสริมการขายที่ประสบความสำเร็จสินค้า.

ตลาดหลักทรัพย์

นี่คือรายการปัญหาตลาดหุ้นที่สามารถแก้ไขได้โดยใช้เทคโนโลยีข้อมูล

การขุด: การทำนายคุณค่าในอนาคต เครื่องมือทางการเงินและตัวชี้วัด

ค่านิยมในอดีต

· การคาดการณ์แนวโน้ม (ทิศทางการเคลื่อนไหวในอนาคต - การเติบโต การลดลง ทรงตัว) การเงิน

เครื่องดนตรีและความแข็งแกร่งของมัน (แข็งแกร่ง แข็งแกร่งปานกลาง ฯลฯ );

· การระบุโครงสร้างคลัสเตอร์ของตลาด อุตสาหกรรม ภาคตามชุดที่กำหนด

ลักษณะเฉพาะ;

· การจัดการพอร์ตโฟลิโอแบบไดนามิก

· การพยากรณ์ความผันผวน

· การประเมินความเสี่ยง;

· ทำนายการเกิดวิกฤตและคาดการณ์การพัฒนา

· การเลือกสินทรัพย์ ฯลฯ

นอกเหนือจากขอบเขตของกิจกรรมที่อธิบายไว้ข้างต้นแล้ว เทคโนโลยี DataMining ยังสามารถนำไปใช้ในพื้นที่ธุรกิจที่หลากหลายซึ่งมีความจำเป็นในการวิเคราะห์ข้อมูลและมีการสะสมข้อมูลย้อนหลังจำนวนหนึ่ง

การประยุกต์ใช้ DataMining ใน CRM

หนึ่งในพื้นที่ที่มีแนวโน้มมากที่สุดสำหรับการใช้ DataMining คือการใช้เทคโนโลยีนี้ใน CRM เชิงวิเคราะห์

CRM (CustomerRelationshipManagement) - การจัดการลูกค้าสัมพันธ์

ที่ การแบ่งปันเทคโนโลยีเหล่านี้ผสมผสานการดึงความรู้เข้ากับ "การดึงเงิน" จากข้อมูลลูกค้า

สิ่งสำคัญในการทำงานของฝ่ายการตลาดและการขายคือการรวบรวมมุมมองแบบองค์รวมของลูกค้า ข้อมูลเกี่ยวกับคุณลักษณะ คุณลักษณะ และโครงสร้างของฐานลูกค้า CRM ใช้สิ่งที่เรียกว่าการทำโปรไฟล์ลูกค้าให้ภาพรวมที่สมบูรณ์ ข้อมูลที่จำเป็นเกี่ยวกับลูกค้า

การทำโปรไฟล์ลูกค้าประกอบด้วยองค์ประกอบต่อไปนี้: การแบ่งส่วนลูกค้า ความสามารถในการทำกำไรของลูกค้า การรักษาลูกค้า การวิเคราะห์การตอบสนองของลูกค้า แต่ละองค์ประกอบเหล่านี้สามารถตรวจสอบได้โดยใช้ DataMining และการวิเคราะห์ร่วมกันเนื่องจากองค์ประกอบการทำโปรไฟล์สามารถให้ความรู้ที่เป็นไปไม่ได้ที่จะได้รับจากคุณลักษณะแต่ละอย่างในท้ายที่สุด

การทำเหมืองบนเว็บ

WebMining สามารถแปลได้ว่า "การขุดข้อมูลบนเว็บ" เว็บข่าวกรองหรือเว็บ

หน่วยสืบราชการลับพร้อม “เปิดบทใหม่” ในการพัฒนาธุรกิจอิเล็กทรอนิกส์อย่างรวดเร็ว ความสามารถในการกำหนดความสนใจและความชอบของผู้เยี่ยมชมแต่ละคนโดยการสังเกตพฤติกรรมของเขาถือเป็นข้อได้เปรียบทางการแข่งขันที่สำคัญและสำคัญในตลาดอีคอมเมิร์ซ

ระบบ WebMining สามารถตอบคำถามได้มากมาย เช่น ผู้เยี่ยมชมคนใดที่เป็นลูกค้าที่มีศักยภาพของเว็บสโตร์ กลุ่มลูกค้าเว็บสโตร์กลุ่มใดที่สร้างรายได้มากที่สุด อะไรคือความสนใจของผู้เยี่ยมชมรายใดรายหนึ่งหรือกลุ่มผู้เยี่ยมชม

วิธีการ

การจำแนกวิธีการ

มีสองกลุ่มวิธี:

  • วิธีการทางสถิติโดยใช้ประสบการณ์สะสมเฉลี่ยซึ่งสะท้อนให้เห็นในข้อมูลย้อนหลัง
  • วิธีไซเบอร์เนติกส์ รวมถึงวิธีการทางคณิตศาสตร์ที่แตกต่างกันมากมาย

ข้อเสียของการจำแนกประเภทนี้คือทั้งอัลกอริธึมทางสถิติและไซเบอร์เนติกส์อาศัยการเปรียบเทียบประสบการณ์ทางสถิติกับผลลัพธ์ของการติดตามสถานการณ์ปัจจุบันไม่ทางใดก็ทางหนึ่ง

ข้อดีของการจำแนกประเภทนี้คือความง่ายในการตีความ - ใช้เพื่ออธิบายวิธีการทางคณิตศาสตร์ของวิธีการสมัยใหม่ในการดึงความรู้จากอาร์เรย์ของการสังเกตเบื้องต้น (หัตถการและย้อนหลัง) เช่น ในงาน Data Mining

มาดูกลุ่มที่นำเสนอข้างต้นกันดีกว่า

วิธีการทางสถิติ การทำเหมืองข้อมูล

ในสิ่งเหล่านี้ วิธีการแสดงถึงสี่ส่วนที่สัมพันธ์กัน:

  • การวิเคราะห์เบื้องต้นเกี่ยวกับลักษณะของข้อมูลทางสถิติ (การทดสอบสมมติฐานของความคงที่, ภาวะปกติ, ความเป็นอิสระ, ความสม่ำเสมอ, การประเมินประเภทของฟังก์ชันการแจกแจง, พารามิเตอร์ ฯลฯ )
  • ระบุการเชื่อมต่อและ รูปแบบ(การวิเคราะห์การถดถอยเชิงเส้นและไม่เชิงเส้น การวิเคราะห์สหสัมพันธ์ ฯลฯ );
  • การวิเคราะห์ทางสถิติหลายตัวแปร (การวิเคราะห์จำแนกเชิงเส้นและไม่เชิงเส้น การวิเคราะห์กลุ่ม การวิเคราะห์องค์ประกอบ การวิเคราะห์ปัจจัย ฯลฯ)
  • แบบจำลองแบบไดนามิกและการพยากรณ์ตามอนุกรมเวลา

คลังแสงของวิธีการทางสถิติสำหรับ Data Mining แบ่งออกเป็นสี่กลุ่ม:

  1. การวิเคราะห์เชิงพรรณนาและคำอธิบายแหล่งข้อมูล
  2. การวิเคราะห์ความสัมพันธ์ (การวิเคราะห์สหสัมพันธ์และการถดถอย การวิเคราะห์ปัจจัย การวิเคราะห์ความแปรปรวน)
  3. การวิเคราะห์ทางสถิติหลายตัวแปร (การวิเคราะห์องค์ประกอบ การวิเคราะห์จำแนก การวิเคราะห์การถดถอยหลายตัวแปร สหสัมพันธ์ตามรูปแบบบัญญัติ ฯลฯ)
  4. การวิเคราะห์อนุกรมเวลา (แบบจำลองไดนามิกและการพยากรณ์)

วิธีการขุดข้อมูลทางไซเบอร์เนติกส์

ทิศทางที่สองของ Data Mining คือแนวทางที่หลากหลายที่รวมเอาแนวคิดทางคณิตศาสตร์คอมพิวเตอร์และการใช้ทฤษฎีปัญญาประดิษฐ์

กลุ่มนี้รวมถึงวิธีการต่อไปนี้:

  • โครงข่ายประสาทเทียม (การจดจำ การจัดกลุ่ม การพยากรณ์)
  • การเขียนโปรแกรมเชิงวิวัฒนาการ (รวมถึงอัลกอริธึมสำหรับวิธีการบัญชีกลุ่มของการโต้แย้ง)
  • อัลกอริธึมทางพันธุกรรม (การเพิ่มประสิทธิภาพ);
  • หน่วยความจำเชื่อมโยง (ค้นหาแอนะล็อก, ต้นแบบ);
  • ตรรกะคลุมเครือ
  • ต้นไม้การตัดสินใจ
  • ระบบประมวลผลความรู้ของผู้เชี่ยวชาญ

การวิเคราะห์คลัสเตอร์

วัตถุประสงค์ของการจัดกลุ่มคือการค้นหาโครงสร้างที่มีอยู่

การจัดกลุ่มเป็นขั้นตอนเชิงพรรณนา ไม่ได้ทำการอนุมานทางสถิติใดๆ แต่ให้โอกาสในการดำเนินการวิเคราะห์เชิงสำรวจและศึกษา "โครงสร้างของข้อมูล"

แนวคิดของ "คลัสเตอร์" นั้นถูกกำหนดไว้อย่างคลุมเครือ: แต่ละการศึกษามี "คลัสเตอร์" ของตัวเอง แนวคิดของคลัสเตอร์แปลว่า "คลัสเตอร์", "พวง" คลัสเตอร์สามารถกำหนดลักษณะเป็นกลุ่มของออบเจ็กต์ที่มีคุณสมบัติทั่วไปได้

ลักษณะของคลัสเตอร์สามารถอธิบายได้เป็นสอง:

  • ความสม่ำเสมอภายใน
  • การแยกภายนอก

คำถามที่นักวิเคราะห์ถามเมื่อแก้ไขปัญหาต่างๆ มากมายคือวิธีจัดระเบียบข้อมูลให้เป็นโครงสร้างภาพ เช่น ขยายอนุกรมวิธาน

การจัดกลุ่มเริ่มแรกมีการใช้กันอย่างแพร่หลายในสาขาวิทยาศาสตร์ เช่น ชีววิทยา มานุษยวิทยา และจิตวิทยา การจัดกลุ่มไม่ค่อยได้ถูกนำมาใช้ในการแก้ปัญหาทางเศรษฐกิจมาเป็นเวลานาน เนื่องจากลักษณะเฉพาะของข้อมูลและปรากฏการณ์ทางเศรษฐกิจ

คลัสเตอร์สามารถแยกจากกัน หรือแบบเอกสิทธิ์เฉพาะบุคคล (ไม่ทับซ้อนกัน ไม่รวมเฉพาะ) และทับซ้อนกัน

ควรสังเกตว่าจากการใช้วิธีการวิเคราะห์คลัสเตอร์ที่หลากหลาย ทำให้ได้คลัสเตอร์ที่มีรูปร่างหลากหลาย ตัวอย่างเช่น คลัสเตอร์ประเภท "ลูกโซ่" เป็นไปได้ เมื่อกลุ่มถูกแทนด้วย "สายโซ่" แบบยาว คลัสเตอร์แบบยาว ฯลฯ และวิธีการบางอย่างสามารถสร้างคลัสเตอร์ที่มีรูปร่างตามอำเภอใจได้

วิธีการต่างๆ อาจพยายามสร้างกลุ่มที่มีขนาดเฉพาะ (เช่น เล็กหรือใหญ่) หรือสันนิษฐานว่ามีกลุ่มที่มีขนาดต่างกันในชุดข้อมูล วิธีการวิเคราะห์คลัสเตอร์บางวิธีมีความอ่อนไหวต่อสัญญาณรบกวนหรือค่าผิดปกติเป็นพิเศษ และวิธีอื่นๆ ก็มีความไวน้อยกว่า จากการใช้วิธีการจัดกลุ่มที่แตกต่างกัน อาจได้รับผลลัพธ์ที่แตกต่างกัน ซึ่งเป็นเรื่องปกติและเป็นคุณลักษณะของการทำงานของอัลกอริทึมเฉพาะ ควรคำนึงถึงคุณสมบัติเหล่านี้เมื่อเลือกวิธีการจัดกลุ่ม

ให้กันเถอะ คำอธิบายสั้น ๆแนวทางการจัดกลุ่ม

อัลกอริทึมตามการแยกข้อมูล (Partitioning Algorithm) ได้แก่ วนซ้ำ:

  • การแบ่งวัตถุออกเป็น k กลุ่ม
  • การกระจายออบเจ็กต์ซ้ำเพื่อปรับปรุงการจัดกลุ่ม
  • ลำดับชั้นอัลกอริทึม:
  • การรวมตัว: แต่ละวัตถุเริ่มแรกเป็นกระจุก, กระจุก,
  • เชื่อมต่อกันเป็นกระจุกที่ใหญ่ขึ้น ฯลฯ

วิธีการตามความหนาแน่น:

  • ขึ้นอยู่กับความสามารถในการเชื่อมต่อวัตถุ
  • เพิกเฉยต่อเสียงรบกวนและค้นหากลุ่มที่มีรูปร่างตามอำเภอใจ

กริด - วิธีการ (วิธีการแบบกริด):

  • การหาปริมาณของวัตถุในโครงสร้างกริด

วิธีการใช้โมเดล (ตามโมเดล):

  • โดยใช้แบบจำลองเพื่อค้นหาคลัสเตอร์ที่เหมาะกับข้อมูลมากที่สุด

วิธีการวิเคราะห์คลัสเตอร์ วิธีการวนซ้ำ

ด้วยการสังเกตจำนวนมาก วิธีการวิเคราะห์คลัสเตอร์แบบลำดับชั้นจึงไม่เหมาะสม ในกรณีเช่นนี้ จะใช้วิธีการที่ไม่เรียงลำดับชั้นตามการหาร ซึ่งเป็นวิธีการวนซ้ำของการแยกส่วนประชากรดั้งเดิม ในระหว่างกระบวนการแบ่ง คลัสเตอร์ใหม่จะถูกสร้างขึ้นจนกว่ากฎการหยุดจะบรรลุผล

การจัดกลุ่มแบบไม่มีลำดับชั้นดังกล่าวประกอบด้วยการแบ่งชุดข้อมูลออกเป็นกลุ่มแต่ละกลุ่มตามจำนวนที่กำหนด มีสองแนวทาง ประการแรกคือการกำหนดขอบเขตของกลุ่มให้เป็นพื้นที่ที่มีความหนาแน่นมากที่สุดในพื้นที่หลายมิติของแหล่งข้อมูล เช่น การกำหนดคลัสเตอร์ที่มี "การควบแน่นของจุด" ขนาดใหญ่ แนวทางที่สองคือการลดการวัดความแตกต่างระหว่างวัตถุให้เหลือน้อยที่สุด

อัลกอริธึมเคมีน

วิธีที่ไม่เรียงลำดับชั้นที่พบบ่อยที่สุดคืออัลกอริทึมเคมีน หรือที่เรียกว่า การวิเคราะห์คลัสเตอร์อย่างรวดเร็ว. คำอธิบายที่สมบูรณ์ของอัลกอริทึมสามารถพบได้ใน Hartigan และ Wong (1978) ต่างจากวิธีการแบบลำดับชั้นซึ่งไม่ต้องการสมมติฐานเบื้องต้นเกี่ยวกับจำนวนคลัสเตอร์ เพื่อให้สามารถใช้วิธีนี้ได้ จำเป็นต้องมีสมมติฐานเกี่ยวกับจำนวนคลัสเตอร์ที่เป็นไปได้มากที่สุด

อัลกอริธึมเคมีนสร้าง k คลัสเตอร์ที่อยู่ใกล้ที่สุดเท่าที่จะเป็นไปได้ ระยะทางไกลจากกันและกัน. ปัญหาประเภทหลักที่อัลกอริธึมเคมีนแก้ไขคือการมีอยู่ของสมมติฐาน (สมมติฐาน) เกี่ยวกับจำนวนคลัสเตอร์ และควรจะแตกต่างกันมากที่สุด การเลือก k อาจขึ้นอยู่กับการวิจัยก่อนหน้านี้ ข้อพิจารณาทางทฤษฎี หรือสัญชาตญาณ

แนวคิดทั่วไปของอัลกอริทึม: จำนวนคงที่ k ของกลุ่มการสังเกตจะถูกเปรียบเทียบกับกลุ่มเพื่อให้ค่าเฉลี่ยในคลัสเตอร์ (สำหรับตัวแปรทั้งหมด) แตกต่างกันมากที่สุดเท่าที่จะเป็นไปได้

คำอธิบายของอัลกอริทึม

1. การกระจายวัตถุเบื้องต้นออกเป็นกระจุก

  • เลือกหมายเลข k และในขั้นตอนแรกจุดเหล่านี้จะถือเป็น "ศูนย์กลาง" ของกระจุกดาว
  • แต่ละคลัสเตอร์สอดคล้องกับศูนย์เดียว

การเลือกเซนทรอยด์เริ่มต้นสามารถทำได้ดังนี้:

  • การเลือกการสังเกต k เพื่อเพิ่มระยะทางเริ่มต้นให้สูงสุด
  • การเลือกแบบสุ่มของการสังเกต k;
  • การเลือกข้อสังเกต k แรก

เป็นผลให้แต่ละออบเจ็กต์ถูกกำหนดให้กับคลัสเตอร์เฉพาะ

2. กระบวนการวนซ้ำ

มีการคำนวณจุดศูนย์กลางของกลุ่ม ซึ่งจะถูกนำไปใช้ในการคำนวณค่าเฉลี่ยเชิงพิกัดของกลุ่ม วัตถุถูกแจกจ่ายอีกครั้ง

กระบวนการคำนวณจุดศูนย์กลางและการกระจายวัตถุจะดำเนินต่อไปจนกว่าจะตรงตามเงื่อนไขข้อใดข้อหนึ่ง:

  • ศูนย์คลัสเตอร์มีเสถียรภาพเช่น การสังเกตทั้งหมดเป็นของกลุ่มที่พวกเขาอยู่ก่อนการวนซ้ำปัจจุบัน
  • จำนวนการวนซ้ำเท่ากับจำนวนการวนซ้ำสูงสุด

รูปนี้แสดงตัวอย่างอัลกอริทึมเคมีนสำหรับ k เท่ากับ 2

ตัวอย่างของอัลกอริทึมเคมีน (k=2)

การเลือกจำนวนคลัสเตอร์ถือเป็นปัญหาที่ซับซ้อน หากไม่มีสมมติฐานเกี่ยวกับตัวเลขนี้ ขอแนะนำให้สร้าง 2 กลุ่ม จากนั้น 3, 4, 5 เป็นต้น โดยเปรียบเทียบผลลัพธ์ที่ได้รับ

การตรวจสอบคุณภาพของการจัดกลุ่ม

หลังจากได้รับผลการวิเคราะห์คลัสเตอร์แบบเคมีนแล้ว คุณควรตรวจสอบความถูกต้องของการจัดกลุ่ม (เช่น ประเมินว่าแต่ละคลัสเตอร์มีความแตกต่างกันอย่างไร)

เมื่อต้องการทำเช่นนี้ จะมีการคำนวณค่าเฉลี่ยสำหรับแต่ละคลัสเตอร์ การจัดกลุ่มที่ดีควรให้วิธีการที่แตกต่างกันมากสำหรับการวัดทั้งหมด หรืออย่างน้อยก็ส่วนใหญ่

ข้อดีของอัลกอริธึมเคมีน:

  • สะดวกในการใช้;
  • ความเร็วในการใช้งาน
  • ความเข้าใจและความโปร่งใสของอัลกอริทึม

ข้อเสียของอัลกอริธึมเคมีน:

  • อัลกอริธึมมีความไวต่อค่าผิดปกติมากเกินไปซึ่งสามารถบิดเบือนค่าเฉลี่ยได้

วิธีแก้ปัญหาที่เป็นไปได้สำหรับปัญหานี้คือการใช้การดัดแปลงอัลกอริธึม - อัลกอริธึม k-median

  • อัลกอริธึมอาจช้าในฐานข้อมูลขนาดใหญ่ วิธีแก้ไขปัญหาที่เป็นไปได้คือการใช้การสุ่มตัวอย่างข้อมูล

เครือข่ายแบบเบย์

ในทฤษฎีความน่าจะเป็น แนวคิดเรื่องการพึ่งพาข้อมูลถูกจำลองผ่านการพึ่งพาแบบมีเงื่อนไข (หรืออย่างเคร่งครัด: การไม่มีความเป็นอิสระแบบมีเงื่อนไข) ซึ่งอธิบายว่าความมั่นใจของเราในผลลัพธ์ของเหตุการณ์บางอย่างเปลี่ยนแปลงไปอย่างไรเมื่อเราได้รับความรู้ใหม่เกี่ยวกับข้อเท็จจริง โดยที่เรารู้อยู่แล้ว ข้อเท็จจริงอื่นๆ บางชุด

สะดวกและใช้งานง่ายในการแสดงการขึ้นต่อกันระหว่างองค์ประกอบต่างๆ ผ่านเส้นทางที่เชื่อมโยงองค์ประกอบเหล่านี้ในกราฟ หากความสัมพันธ์ระหว่างองค์ประกอบ x และ y ไม่ตรงและดำเนินการผ่านองค์ประกอบที่สาม z ก็มีเหตุผลที่จะคาดหวังว่าจะมีองค์ประกอบ z บนเส้นทางระหว่าง x และ y โหนดตัวกลางดังกล่าวจะ "ตัด" การพึ่งพาระหว่าง x และ y เช่น จำลองสถานการณ์ของความเป็นอิสระแบบมีเงื่อนไขระหว่างพวกเขาด้วยค่าที่ทราบของปัจจัยที่มีอิทธิพลโดยตรงภาษาการสร้างแบบจำลองดังกล่าวเป็นเครือข่ายแบบเบย์ซึ่งใช้เพื่ออธิบายการพึ่งพาแบบมีเงื่อนไขระหว่างแนวคิดของสาขาวิชาเฉพาะ

เครือข่ายแบบเบย์เป็นโครงสร้างกราฟิกสำหรับแสดงความสัมพันธ์ของความน่าจะเป็นระหว่างตัวแปรจำนวนมาก และสำหรับการอนุมานความน่าจะเป็นตามตัวแปรเหล่านั้นการจำแนกประเภท "ไร้เดียงสา" (Bayesian) เป็นวิธีการจำแนกประเภทที่ค่อนข้างโปร่งใสและเข้าใจได้ "ไร้เดียงสา" มันถูกเรียกเพราะมันอยู่บนพื้นฐานของสมมติฐานร่วมกันความเป็นอิสระของสัญญาณ

คุณสมบัติการจำแนกประเภท:

1. การใช้ตัวแปรทั้งหมดและกำหนดการขึ้นต่อกันทั้งหมดระหว่างตัวแปรเหล่านั้น

2. มีสองสมมติฐานเกี่ยวกับตัวแปร:

  • ตัวแปรทั้งหมดมีความสำคัญเท่าเทียมกัน
  • ตัวแปรทั้งหมดมีความเป็นอิสระทางสถิติ เช่น ค่าของตัวแปรตัวหนึ่งไม่ได้บอกอะไรเกี่ยวกับค่าของอีกตัวแปรหนึ่งเลย

มีสองสถานการณ์หลักสำหรับการใช้เครือข่าย Bayesian:

1. การวิเคราะห์เชิงพรรณนา สาขาวิชาจะแสดงเป็นกราฟ โหนดซึ่งแสดงถึงแนวคิด และส่วนโค้งที่กำหนดซึ่งแสดงด้วยลูกศร แสดงให้เห็นถึงการขึ้นต่อกันโดยตรงระหว่างแนวคิดเหล่านี้ ความสัมพันธ์ระหว่าง x และ y หมายถึง การรู้ค่าของ x ช่วยให้คุณเดาค่าของ y ได้ดีขึ้น การไม่มีการเชื่อมโยงโดยตรงระหว่างแนวความคิดจะจำลองความเป็นอิสระแบบมีเงื่อนไขระหว่างแนวคิดเหล่านั้นด้วยค่าที่ทราบของแนวคิด "การแยก" ชุดบางชุด ตัวอย่างเช่น ขนาดรองเท้าของเด็กมีความสัมพันธ์กับความสามารถในการอ่านของเด็กตามช่วงอายุอย่างเห็นได้ชัด ดังนั้นขนาดรองเท้าที่ใหญ่ขึ้นจะทำให้เด็กมีความมั่นใจมากขึ้นว่าเด็กอ่านหนังสืออยู่แล้ว แต่ถ้าเรารู้อายุแล้ว การรู้ขนาดรองเท้าจะไม่ให้ข้อมูลเพิ่มเติมเกี่ยวกับความสามารถในการอ่านของเด็กอีกต่อไป


อีกตัวอย่างหนึ่งที่ตรงกันข้าม ให้พิจารณาปัจจัยที่ไม่เกี่ยวข้องในตอนแรก เช่น การสูบบุหรี่และไข้หวัด แต่ถ้าเราทราบอาการ เช่น บุคคลหนึ่งมีอาการไอในตอนเช้า การรู้ว่าบุคคลนั้นไม่สูบบุหรี่จะเพิ่มความมั่นใจของเราว่าบุคคลนั้นจะเป็นหวัด

2. การจำแนกประเภทและการพยากรณ์ เครือข่ายแบบเบย์ช่วยให้แนวคิดจำนวนหนึ่งมีอิสระตามเงื่อนไข ทำให้สามารถลดจำนวนพารามิเตอร์ของการแจกแจงร่วม ทำให้สามารถประมาณค่าปริมาณข้อมูลที่มีอยู่ได้อย่างมั่นใจ ดังนั้น ด้วยตัวแปร 10 ตัว ซึ่งแต่ละตัวสามารถรับค่าได้ 10 ค่า จำนวนพารามิเตอร์ของการแจกแจงร่วมคือ 10 พันล้าน - 1 ถ้าเราถือว่ามีเพียง 2 ตัวแปรเท่านั้นที่พึ่งพาซึ่งกันและกันระหว่างตัวแปรเหล่านี้ จำนวนพารามิเตอร์จะกลายเป็น 8 * (10-1) + (10*10-1) = 171 การมีแบบจำลองการกระจายร่วมที่สมจริงในแง่ของทรัพยากรการคำนวณ เราสามารถทำนายค่าที่ไม่ทราบของแนวคิดได้ เช่น ค่าที่เป็นไปได้มากที่สุดของ แนวคิดนี้ให้คุณค่าที่ทราบของแนวคิดอื่น.

ข้อดีของเครือข่ายแบบ Bayesian ในรูปแบบ DataMining มีดังนี้

โมเดลกำหนดการขึ้นต่อกันระหว่างตัวแปรทั้งหมด ซึ่งทำให้ง่ายจัดการกับสถานการณ์ที่ไม่ทราบค่าของตัวแปรบางตัว

เครือข่ายแบบเบย์นั้นค่อนข้างง่ายในการตีความและอนุญาตการสร้างแบบจำลองเชิงคาดการณ์ทำให้ง่ายต่อการดำเนินการวิเคราะห์สถานการณ์แบบ what-if;

วิธีแบบเบย์ช่วยให้คุณสามารถรวมรูปแบบต่างๆ เข้าด้วยกันอย่างเป็นธรรมชาติอนุมานจากข้อมูล และ ตัวอย่างเช่น ความรู้ของผู้เชี่ยวชาญที่ได้รับอย่างชัดเจน

การใช้เครือข่ายแบบ Bayesian จะช่วยหลีกเลี่ยงปัญหาเรื่องการโอเวอร์ฟิต(overfitting) นั่นคือ ความซับซ้อนมากเกินไปของแบบจำลองซึ่งเป็นจุดอ่อนหลายวิธี (เช่น แผนผังการตัดสินใจและโครงข่ายประสาทเทียม)

วิธี Naive Bayes มีข้อเสียดังต่อไปนี้:

เป็นการถูกต้องที่จะคูณความน่าจะเป็นแบบมีเงื่อนไขเฉพาะเมื่อป้อนข้อมูลทั้งหมดเท่านั้นตัวแปรมีความเป็นอิสระทางสถิติอย่างแท้จริง แม้ว่าวิธีนี้บ่อยครั้งก็ตามแสดงผลได้ค่อนข้างดีเมื่อไม่เป็นไปตามเงื่อนไขทางสถิติความเป็นอิสระ แต่ในทางทฤษฎีแล้วสถานการณ์เช่นนี้ควรได้รับการจัดการที่ซับซ้อนกว่านี้วิธีการบนพื้นฐานของการฝึกอบรมเครือข่ายแบบเบย์

ไม่สามารถประมวลผลตัวแปรต่อเนื่องโดยตรงได้ - จำเป็นต้องมีการแปลงเป็นมาตราส่วนช่วงเวลาเพื่อให้คุณลักษณะไม่ต่อเนื่องกัน อย่างไรก็ตามเช่นนั้นการเปลี่ยนแปลงบางครั้งอาจนำไปสู่การสูญเสียรูปแบบที่สำคัญ

ผลลัพธ์การจำแนกประเภทในแนวทาง Naive Bayes ได้รับอิทธิพลจากเท่านั้นแต่ละค่าของตัวแปรอินพุต, อิทธิพลรวมของคู่หรือค่าสามเท่าของคุณลักษณะที่แตกต่างกันจะไม่ถูกนำมาพิจารณาที่นี่ สิ่งนี้สามารถปรับปรุงได้คุณภาพของแบบจำลองการจำแนกประเภทในแง่ของความแม่นยำในการทำนายอย่างไรก็ตาม มันจะเพิ่มจำนวนตัวเลือกที่ทดสอบ

โครงข่ายประสาทเทียม

โครงข่ายประสาทเทียม (ต่อไปนี้จะเรียกว่าโครงข่ายประสาทเทียม) สามารถเป็นแบบซิงโครนัสและอะซิงโครนัสได้ในโครงข่ายประสาทเทียมแบบซิงโครนัส ในแต่ละช่วงเวลาสถานะจะเปลี่ยนแปลงเท่านั้นเซลล์ประสาทหนึ่งอัน ในแบบอะซิงโครนัส - สถานะจะเปลี่ยนแปลงทันทีในเซลล์ประสาททั้งกลุ่มตามกฎชั้น. สถาปัตยกรรมพื้นฐานสองแบบสามารถแยกแยะได้: เครือข่ายแบบเลเยอร์และแบบตาข่ายแนวคิดหลักในเครือข่ายแบบเลเยอร์คือแนวคิดของเลเยอร์เลเยอร์คือเซลล์ประสาทตั้งแต่หนึ่งเซลล์ขึ้นไปที่อินพุตรับสัญญาณเหมือนกันโครงข่ายประสาทเทียมแบบชั้นคือโครงข่ายประสาทเทียมที่เซลล์ประสาทถูกแบ่งออกเป็นกลุ่ม (ชั้น) แยกกัน เพื่อให้ข้อมูลได้รับการประมวลผลทีละชั้นในเครือข่ายแบบเลเยอร์ เซลล์ประสาทของเลเยอร์ i-th จะรับสัญญาณอินพุต แปลงมัน และส่งพวกมันผ่านจุดแตกแขนงไปยังเซลล์ประสาทของเลเยอร์ (i+1) และต่อเนื่องไปจนถึงชั้น k-th ซึ่งผลิตสัญญาณเอาท์พุตสำหรับล่ามและผู้ใช้ จำนวนเซลล์ประสาทในแต่ละชั้นไม่สัมพันธ์กับจำนวนเซลล์ประสาทในชั้นอื่นๆ และสามารถกำหนดได้ตามใจชอบภายในเลเยอร์เดียว ข้อมูลจะถูกประมวลผลแบบขนาน และทั่วทั้งเครือข่าย การประมวลผลจะดำเนินการตามลำดับ - จากเลเยอร์หนึ่งไปอีกเลเยอร์หนึ่ง เครือข่ายประสาทเทียมแบบหลายชั้น ได้แก่ เพอร์เซปตรอนหลายชั้น เครือข่ายฟังก์ชันพื้นฐานแนวรัศมี ค็อกนิตรอน ไม่ระบุตัวตน เครือข่ายหน่วยความจำแบบเชื่อมโยงอย่างไรก็ตาม สัญญาณไม่ได้ถูกส่งไปยังเซลล์ประสาททั้งหมดในเลเยอร์เสมอไป ตัวอย่างเช่น ในค็อกไนตรอน แต่ละเซลล์ประสาทในชั้นปัจจุบันจะรับสัญญาณจากเซลล์ประสาทที่อยู่ใกล้กับเซลล์ประสาทในชั้นก่อนหน้าเท่านั้น

เครือข่ายแบบหลายชั้นอาจเป็นแบบชั้นเดียวหรือหลายชั้นก็ได้

เครือข่ายชั้นเดียว- เครือข่ายประกอบด้วยชั้นเดียว

เครือข่ายหลายชั้น- เครือข่ายที่มีหลายชั้น

ในเครือข่ายหลายชั้น เลเยอร์แรกเรียกว่าเลเยอร์อินพุต เลเยอร์ต่อมาเรียกว่าภายในหรือซ่อน และเลเยอร์สุดท้ายเรียกว่าเลเยอร์เอาต์พุต ดังนั้นเลเยอร์กลางจึงเป็นเลเยอร์ทั้งหมดในโครงข่ายประสาทเทียมหลายชั้น ยกเว้นอินพุตและเอาต์พุตเลเยอร์อินพุตของเครือข่ายสื่อสารกับข้อมูลอินพุต และเลเยอร์เอาต์พุตสื่อสารกับเอาต์พุตดังนั้นเซลล์ประสาทจึงสามารถนำเข้าส่งออกและซ่อนได้เลเยอร์อินพุตถูกจัดระเบียบจากเซลล์ประสาทอินพุต ซึ่งรับข้อมูลและกระจายไปยังอินพุตของเซลล์ประสาทในเลเยอร์ที่ซ่อนอยู่ของเครือข่ายเซลล์ประสาทที่ซ่อนอยู่คือเซลล์ประสาทที่อยู่ในเลเยอร์ที่ซ่อนอยู่ของโครงข่ายประสาทเทียมเซลล์ประสาทเอาท์พุตซึ่งมีการจัดระเบียบเลเยอร์เอาท์พุตของเครือข่ายสร้างขึ้นผลลัพธ์ของโครงข่ายประสาทเทียม

ในเครือข่ายแบบตาข่ายเซลล์ประสาทแต่ละอันส่งสัญญาณเอาท์พุตไปยังเซลล์ประสาทอื่น ๆ รวมทั้งตัวมันเองด้วย สัญญาณเอาท์พุตของเครือข่ายอาจเป็นสัญญาณเอาท์พุตของเซลล์ประสาททั้งหมดหรือบางส่วนหลังจากการทำงานของเครือข่ายหลายรอบ

สัญญาณอินพุตทั้งหมดจะถูกส่งไปยังเซลล์ประสาททั้งหมด

การฝึกอบรมโครงข่ายประสาทเทียม

ก่อนที่จะใช้โครงข่ายประสาทเทียมนั้นจะต้องได้รับการฝึกอบรมก่อนกระบวนการฝึกอบรมโครงข่ายประสาทเทียมประกอบด้วยการปรับพารามิเตอร์ภายในให้เหมาะกับงานเฉพาะอัลกอริธึมโครงข่ายประสาทเทียมเป็นแบบวนซ้ำ ขั้นตอนต่างๆ เรียกว่ายุคหรือวัฏจักรยุคสมัยคือการทำซ้ำในกระบวนการเรียนรู้ ซึ่งรวมถึงการนำเสนอตัวอย่างทั้งหมดจากชุดการฝึกอบรม และอาจรวมถึงการตรวจสอบคุณภาพการเรียนรู้ในชุดทดสอบมากมาย. กระบวนการเรียนรู้ดำเนินการตามตัวอย่างการฝึกอบรมชุดการฝึกอบรมประกอบด้วยค่าอินพุตและค่าเอาต์พุตที่สอดคล้องกันของชุดข้อมูล ในระหว่างการฝึก โครงข่ายประสาทเทียมจะค้นหาการพึ่งพาบางอย่างระหว่างฟิลด์เอาท์พุตและฟิลด์อินพุตดังนั้นเราจึงต้องเผชิญกับคำถาม - เราต้องการช่องป้อนข้อมูล (คุณสมบัติ) ใด?ความจำเป็นในการใช้งาน ในขั้นต้นจะมีการเลือกแบบฮิวริสติกแล้วสามารถเปลี่ยนจำนวนอินพุตได้

ปัญหาที่อาจเกิดขึ้นคือจำนวนข้อสังเกตในชุดข้อมูล และแม้ว่าจะมีกฎบางอย่างที่อธิบายความสัมพันธ์ระหว่างจำนวนการสังเกตที่ต้องการกับขนาดของเครือข่าย แต่ความถูกต้องยังไม่ได้รับการพิสูจน์จำนวนข้อสังเกตที่ต้องการขึ้นอยู่กับความซับซ้อนของปัญหาที่กำลังแก้ไข เมื่อจำนวนคุณลักษณะเพิ่มขึ้น จำนวนการสังเกตก็เพิ่มขึ้นแบบไม่เชิงเส้น ปัญหานี้เรียกว่า "คำสาปแห่งมิติ" ในกรณีที่มีปริมาณไม่เพียงพอข้อมูล ขอแนะนำให้ใช้แบบจำลองเชิงเส้น

นักวิเคราะห์จะต้องกำหนดจำนวนเลเยอร์ในเครือข่ายและจำนวนเซลล์ประสาทในแต่ละเลเยอร์ถัดไปคุณต้องกำหนดค่าน้ำหนักและออฟเซ็ตที่สามารถทำได้ลดข้อผิดพลาดในการตัดสินใจให้เหลือน้อยที่สุด น้ำหนักและความเอนเอียงจะถูกปรับโดยอัตโนมัติเพื่อลดความแตกต่างระหว่างสัญญาณเอาท์พุตที่ต้องการและที่ได้รับ ซึ่งเรียกว่าข้อผิดพลาดในการฝึกข้อผิดพลาดในการฝึกสำหรับโครงข่ายประสาทเทียมที่สร้างขึ้นนั้นคำนวณโดยการเปรียบเทียบค่าเอาต์พุตและเป้าหมาย (ที่ต้องการ) ฟังก์ชันข้อผิดพลาดเกิดขึ้นจากผลต่างที่เกิดขึ้น

ฟังก์ชันข้อผิดพลาดเป็นฟังก์ชันวัตถุประสงค์ที่ต้องการการย่อเล็กสุดในกระบวนการการเรียนรู้ภายใต้การดูแลของโครงข่ายประสาทเทียมเมื่อใช้ฟังก์ชันข้อผิดพลาด คุณสามารถประเมินคุณภาพของโครงข่ายประสาทเทียมระหว่างการฝึกได้ ตัวอย่างเช่น มักใช้ผลรวมของข้อผิดพลาดกำลังสองคุณภาพของการฝึกอบรมโครงข่ายประสาทเทียมจะกำหนดความสามารถในการแก้ไขงานที่ได้รับมอบหมาย

การฝึกอบรมโครงข่ายประสาทเทียม

เมื่อฝึกโครงข่ายประสาทเทียมมักเกิดปัญหาร้ายแรงเกิดขึ้นปัญหาเรื่องการโอเวอร์ฟิตโอเวอร์ฟิตติ้งหรือโอเวอร์ฟิตติ้ง - โอเวอร์ฟิตติ้งโครงข่ายประสาทเทียมไปยังชุดตัวอย่างการฝึกอบรมเฉพาะ ซึ่งเครือข่ายสูญเสียไปความสามารถในการพูดคุยทั่วไปOvertraining เกิดขึ้นเมื่อมีการฝึกมากเกินไปแต่ไม่เพียงพอตัวอย่างการฝึกอบรมหรือโครงสร้างโครงข่ายประสาทเทียมที่ซับซ้อนเกินไปการฝึกอบรมขึ้นใหม่เกิดจากการเลือกชุดฝึกอบรมเป็นการสุ่ม ตั้งแต่ก้าวแรกของการเรียนรู้ ข้อผิดพลาดก็ลดลง บนขั้นตอนต่อไปเพื่อลดพารามิเตอร์ข้อผิดพลาด (ฟังก์ชันวัตถุประสงค์)ปรับให้เข้ากับลักษณะของชุดฝึกซ้อม อย่างไรก็ตามสิ่งนี้เกิดขึ้น“การปรับเปลี่ยน” ไม่ใช่ตามรูปแบบทั่วไปของซีรีส์ แต่เป็นคุณสมบัติของส่วนนั้น -ชุดย่อยการฝึกอบรม ในขณะเดียวกัน ความแม่นยำของการพยากรณ์ก็ลดลงทางเลือกหนึ่งในการต่อสู้กับการฝึกมากเกินไปของเครือข่ายคือการแบ่งตัวอย่างการฝึกออกเป็นสองส่วนชุด (การฝึกอบรมและการทดสอบ)โครงข่ายประสาทเทียมได้รับการฝึกฝนในชุดฝึกอบรม มีการตรวจสอบแบบจำลองที่สร้างขึ้นบนชุดทดสอบ เซตเหล่านี้ต้องไม่ตัดกันในแต่ละขั้นตอน พารามิเตอร์โมเดลจะเปลี่ยนไป แต่จะลดลงอย่างต่อเนื่องค่าของฟังก์ชันวัตถุประสงค์เกิดขึ้นอย่างแม่นยำในชุดการฝึก เมื่อเราแบ่งชุดออกเป็นสองชุด เราจะสามารถสังเกตการเปลี่ยนแปลงในข้อผิดพลาดการคาดการณ์ในชุดทดสอบควบคู่ไปกับการสังเกตในชุดการฝึก บางจำนวนขั้นตอนข้อผิดพลาดในการคาดการณ์ลดลงในทั้งสองชุด อย่างไรก็ตามในขั้นตอนหนึ่ง ข้อผิดพลาดในชุดทดสอบจะเริ่มเพิ่มขึ้น ในขณะที่ข้อผิดพลาดในชุดการฝึกยังคงลดลงอย่างต่อเนื่อง ช่วงเวลานี้ถือเป็นจุดเริ่มต้นของการฝึกอบรมใหม่

เครื่องมือขุดข้อมูล

การพัฒนาในภาค DataMining ของตลาดโลก ซอฟต์แวร์ทั้งผู้นำที่มีชื่อเสียงระดับโลกและบริษัทที่กำลังพัฒนาใหม่ต่างก็มีงานยุ่ง เครื่องมือ DataMining สามารถนำเสนอเป็นแอปพลิเคชันแบบสแตนด์อโลนหรือเป็นส่วนเสริมสำหรับผลิตภัณฑ์หลักได้ตัวเลือกหลังถูกนำมาใช้โดยผู้นำตลาดซอฟต์แวร์หลายรายดังนั้นจึงกลายเป็นประเพณีที่นักพัฒนาแพ็คเกจทางสถิติสากลนอกเหนือจากวิธีการแบบเดิม การวิเคราะห์ทางสถิติรวมอยู่ในแพ็คเกจชุดวิธีการ DataMining เฉพาะ เหล่านี้เป็นแพ็คเกจเช่น SPSS (SPSS, Clementine), Statistica (StatSoft), สถาบัน SAS (SAS Enterprise Miner)ผู้ให้บริการโซลูชัน OLAP บางรายยังเสนอชุดของวิธี DataMining เช่น กลุ่มผลิตภัณฑ์ Cognos มีซัพพลายเออร์หลายรายที่รวมโซลูชัน DataMining ไว้ในฟังก์ชันการทำงานของ DBMS ได้แก่ Microsoft (MicrosoftSQLServer), Oracle, IBM (IBMIntelligentMinerforData)

บรรณานุกรม

  1. Abdikeev N.M. ดันโก้ ที.พี. อิลเดเมนอฟ เอส.วี. Kiselev A.D. “การปรับรื้อกระบวนการทางธุรกิจ หลักสูตร MBA", M.: Eksmo Publishing House, 2548. - 592 น. - (บริหารธุรกิจมหาบัณฑิต)
  1. Abdikeev N.M. , Kiselev A.D. “การจัดการความรู้ในองค์กรและการรื้อฟื้นธุรกิจ” - M.: Infra-M, 2011. - 382 p. – ไอ 978-5-16-004300-5
  1. Barseghyan A.A., Kupriyanov M.S., Stepanenko V.V., Kholod I.I. “วิธีการและแบบจำลองของการวิเคราะห์ข้อมูล: OLAP และ Data Mining”, เซนต์ปีเตอร์สเบิร์ก: BHV-Petersburg, 2004, 336 หน้า, ISBN 5-94157-522-X
  1. ดยุค ใน., ซาโมเลนโก ., “การทำเหมืองข้อมูล.หลักสูตรการฝึกอบรม" เซนต์ปีเตอร์สเบิร์ก: Peter, 2001, 386 p.
  1. Chubukova I.A. หลักสูตรการทำเหมืองข้อมูล http://www.intuit.ru/department/database/datamining/
  1. เอียนเอช. Witten, Eibe Frank, Mark A. Hall, Morgan Kaufmann, Data Mining: เครื่องมือและเทคนิคการเรียนรู้ของเครื่องเชิงปฏิบัติ (ฉบับที่สาม), ISBN 978-0-12-374856-0
  1. Petrushin V.A. , ข่าน ล. , การทำเหมืองข้อมูลมัลติมีเดียและการค้นพบความรู้

การทำเหมืองข้อมูลคืออะไร

การจำแนกประเภทของงาน Data Mining

ปัญหาการค้นหากฎการเชื่อมโยง

ปัญหาการจัดกลุ่ม

คุณสมบัติของ Data Miner ใน Statistica 8

เครื่องมือวิเคราะห์ STATISTICA Data Miner

ตัวอย่างการทำงานใน Data Minin

การสร้างรายงานและสรุป

การเรียงลำดับข้อมูล

การวิเคราะห์ราคาแปลงที่อยู่อาศัย

การวิเคราะห์คำพยากรณ์ความอยู่รอด

บทสรุป


การทำเหมืองข้อมูลคืออะไร

ศัพท์คอมพิวเตอร์สมัยใหม่ Data Mining แปลว่า "การดึงข้อมูล" หรือ "การทำเหมืองข้อมูล" บ่อยครั้งควบคู่ไปกับ Data Mining มีการใช้คำว่า Knowledge Discovery และ Data Warehouse การเกิดขึ้นของข้อกำหนดเหล่านี้ซึ่งเป็นส่วนหนึ่งของ Data Mining มีความเกี่ยวข้องกับรอบใหม่ในการพัฒนาเครื่องมือและวิธีการในการประมวลผลและจัดเก็บข้อมูล ดังนั้นเป้าหมายของ Data Mining คือการระบุกฎและรูปแบบที่ซ่อนอยู่ในข้อมูลปริมาณมาก (ใหญ่มาก)

ความจริงก็คือจิตใจของมนุษย์ไม่ได้ถูกปรับให้รับรู้ข้อมูลที่แตกต่างกันจำนวนมหาศาล คนทั่วไป ยกเว้นบุคคลบางคน ไม่สามารถเข้าใจความสัมพันธ์มากกว่าสองหรือสามความสัมพันธ์ได้ แม้จะเป็นกลุ่มตัวอย่างเล็กๆ ก็ตาม แต่ยังรวมถึงสถิติแบบดั้งเดิมด้วย เป็นเวลานานซึ่งอ้างว่าเป็นเครื่องมือหลักในการวิเคราะห์ข้อมูลก็มักจะล้มเหลวในการแก้ปัญหาในชีวิตจริง มันดำเนินการโดยใช้คุณลักษณะโดยเฉลี่ยของกลุ่มตัวอย่าง ซึ่งมักจะเป็นค่าสมมติ (ความสามารถในการละลายโดยเฉลี่ยของลูกค้า เมื่อคุณจะต้องสามารถคาดการณ์ความสามารถในการละลายและความตั้งใจของลูกค้าได้ ทั้งนี้ขึ้นอยู่กับฟังก์ชันความเสี่ยงหรือฟังก์ชันการสูญเสีย ความเข้มเฉลี่ยของสัญญาณในขณะที่คุณสนใจ ลักษณะเฉพาะและสาเหตุของสัญญาณพีคส์ เป็นต้น)

ดังนั้น วิธีการทางสถิติทางคณิตศาสตร์จึงมีประโยชน์ในการทดสอบสมมติฐานที่กำหนดไว้ล่วงหน้าเป็นหลัก ในขณะที่การกำหนดสมมติฐานในบางครั้งอาจเป็นงานที่ค่อนข้างซับซ้อนและใช้เวลานาน เทคโนโลยี Data Mining สมัยใหม่จะประมวลผลข้อมูลเพื่อ ค้นหาอัตโนมัติลักษณะเทมเพลต (รูปแบบ) ของส่วนใด ๆ ของข้อมูลหลายมิติที่ต่างกัน ต่างจากการประมวลผลเชิงวิเคราะห์ออนไลน์ (OLAP) การทำเหมืองข้อมูลจะเปลี่ยนภาระในการกำหนดสมมติฐานและระบุรูปแบบที่ไม่คาดคิดจากมนุษย์ไปยังคอมพิวเตอร์ การทำเหมืองข้อมูลไม่ใช่เพียงวิธีเดียว แต่เป็นการผสมผสานระหว่างวิธีการค้นพบความรู้ที่แตกต่างกันจำนวนมาก การเลือกวิธีการมักจะขึ้นอยู่กับประเภทของข้อมูลที่มีอยู่และข้อมูลใดที่คุณพยายามได้รับ ตัวอย่างเช่น นี่คือวิธีการบางอย่าง: การเชื่อมโยง (สหภาพ), การจำแนกประเภท, การจัดกลุ่ม, การวิเคราะห์และการพยากรณ์อนุกรมเวลา, โครงข่ายประสาทเทียม ฯลฯ

ให้เราพิจารณาคุณสมบัติของความรู้ที่ค้นพบที่ให้ไว้ในคำจำกัดความโดยละเอียด

ความรู้จะต้องใหม่ไม่รู้มาก่อน ความพยายามที่ใช้ในการค้นหาความรู้ที่ผู้ใช้รู้อยู่แล้วไม่ได้ผล จึงเป็นความรู้ใหม่ที่ไม่เคยรู้มาก่อนซึ่งมีคุณค่า

ความรู้ต้องไม่ไร้สาระ ผลลัพธ์ของการวิเคราะห์ควรสะท้อนถึงรูปแบบที่ไม่ชัดเจนและไม่คาดคิดในข้อมูล ซึ่งประกอบขึ้นเป็นความรู้ที่ซ่อนอยู่ ผลลัพธ์ที่สามารถรับได้โดยวิธีการที่ง่ายกว่า (เช่น การตรวจสอบด้วยสายตา) ไม่ได้แสดงให้เห็นถึงการใช้วิธี Data Mining ที่มีประสิทธิภาพ

ความรู้จะต้องเป็นประโยชน์ในทางปฏิบัติ ความรู้ที่พบต้องสามารถนำไปใช้ได้ รวมถึงข้อมูลใหม่ด้วยความน่าเชื่อถือในระดับสูงเพียงพอ ประโยชน์อยู่ที่ว่าความรู้นี้สามารถนำมาซึ่งประโยชน์บางอย่างเมื่อนำไปใช้

ความรู้จะต้องเข้าถึงได้สำหรับความเข้าใจของมนุษย์ รูปแบบที่พบจะต้องอธิบายได้อย่างมีเหตุผล มิฉะนั้น อาจมีความเป็นไปได้ที่จะเกิดขึ้นแบบสุ่ม นอกจากนี้ความรู้ที่ค้นพบจะต้องนำเสนอในรูปแบบที่มนุษย์สามารถเข้าใจได้

ใน Data Mining แบบจำลองจะถูกนำมาใช้เพื่อแสดงถึงความรู้ที่ได้รับ ประเภทของโมเดลขึ้นอยู่กับวิธีการที่ใช้สร้างโมเดลเหล่านั้น สิ่งที่พบบ่อยที่สุดคือ: กฎ แผนผังการตัดสินใจ กลุ่ม และฟังก์ชันทางคณิตศาสตร์

ขอบเขตของ Data Mining ไม่จำกัด แต่อย่างใด - Data Mining เป็นสิ่งจำเป็นในทุกที่ที่มีข้อมูล ประสบการณ์ขององค์กรดังกล่าวหลายแห่งแสดงให้เห็นว่าผลตอบแทน การใช้ข้อมูลการขุดสามารถเข้าถึง 1,000% ตัวอย่างเช่นมีรายงานผลกระทบทางเศรษฐกิจที่สูงกว่าต้นทุนเริ่มต้น 10-70 เท่าจาก 350 ถึง 750,000 ดอลลาร์ มีข้อมูลเกี่ยวกับโครงการมูลค่า 20 ล้านดอลลาร์ที่จ่ายเองภายในเวลาเพียง 4 เดือน อีกตัวอย่างหนึ่งคือการประหยัดเงินได้ปีละ 700,000 เหรียญสหรัฐ ผ่านการดำเนินการ Data Mining ในเครือข่ายซูเปอร์มาร์เก็ตในสหราชอาณาจักร การทำเหมืองข้อมูลมีคุณค่าอย่างยิ่งต่อผู้จัดการและนักวิเคราะห์ในกิจกรรมประจำวันของพวกเขา นักธุรกิจตระหนักดีว่าด้วยความช่วยเหลือของวิธีการขุดข้อมูล พวกเขาจะได้รับความได้เปรียบทางการแข่งขันที่จับต้องได้

การจำแนกประเภทของงาน DataMining

วิธีการ DataMining ช่วยให้คุณสามารถแก้ไขปัญหามากมายที่นักวิเคราะห์ต้องเผชิญ สิ่งสำคัญคือ: การจำแนกประเภท การถดถอย การค้นหากฎการเชื่อมโยง และการจัดกลุ่ม ด้านล่างนี้เป็นคำอธิบายโดยย่อเกี่ยวกับงานหลักของการวิเคราะห์ข้อมูล

1) งานการจำแนกประเภทขึ้นอยู่กับการกำหนดคลาสของวัตถุตามลักษณะของมัน ควรสังเกตว่าในปัญหานี้ชุดของคลาสที่สามารถจำแนกวัตถุได้นั้นทราบล่วงหน้า

2) ปัญหาการถดถอย เช่นเดียวกับปัญหาการจำแนกประเภท ช่วยให้คุณสามารถกำหนดค่าของพารามิเตอร์บางตัวตามคุณลักษณะที่ทราบของวัตถุได้ ต่างจากปัญหาการจำแนกประเภท ค่าของพารามิเตอร์ไม่ใช่ชุดคลาสจำกัด แต่เป็นชุดของจำนวนจริง

3) งานสมาคม เมื่อค้นหากฎการเชื่อมโยง เป้าหมายคือการค้นหาการขึ้นต่อกัน (หรือการเชื่อมโยง) บ่อยครั้งระหว่างออบเจ็กต์หรือเหตุการณ์ การขึ้นต่อกันที่พบจะแสดงในรูปแบบของกฎ และสามารถใช้เพื่อทำความเข้าใจลักษณะของข้อมูลที่วิเคราะห์ได้ดีขึ้น และเพื่อคาดการณ์การเกิดเหตุการณ์ต่างๆ

4) หน้าที่ของการจัดกลุ่มคือการค้นหากลุ่มอิสระ (กลุ่ม) และคุณลักษณะของกลุ่มเหล่านั้นในชุดข้อมูลที่วิเคราะห์ทั้งหมด การแก้ปัญหานี้จะช่วยให้คุณเข้าใจข้อมูลได้ดีขึ้น นอกจากนี้ การจัดกลุ่มวัตถุที่เป็นเนื้อเดียวกันยังทำให้สามารถลดจำนวนลงได้ และช่วยอำนวยความสะดวกในการวิเคราะห์อีกด้วย

5) Sequential Patterns คือ การสร้างรูปแบบระหว่างเหตุการณ์ที่เกี่ยวข้องกับเวลา เช่น ตรวจจับการพึ่งพาว่าหากเหตุการณ์ X เกิดขึ้นหลังจากนั้น เวลาที่กำหนดเหตุการณ์ Y จะเกิดขึ้น

6) การวิเคราะห์ความเบี่ยงเบน - การระบุรูปแบบที่ไม่เคยมีมาก่อน

งานที่ระบุไว้จะแบ่งออกเป็นเชิงพรรณนาและเชิงคาดการณ์ตามวัตถุประสงค์

งานเชิงพรรณนามุ่งเน้นไปที่การปรับปรุงความเข้าใจในข้อมูลที่กำลังวิเคราะห์ จุดสำคัญในแบบจำลองดังกล่าวคือความง่ายและความโปร่งใสของผลลัพธ์สำหรับการรับรู้ของมนุษย์ เป็นไปได้ว่ารูปแบบที่ค้นพบจะเป็นลักษณะเฉพาะของข้อมูลเฉพาะที่กำลังศึกษาและจะไม่สามารถพบได้ที่อื่น แต่ก็ยังสามารถเป็นประโยชน์ได้จึงควรทราบ งานประเภทนี้ประกอบด้วยการจัดกลุ่มและการค้นหากฎการเชื่อมโยง

การแก้ปัญหาเชิงคาดการณ์แบ่งออกเป็นสองขั้นตอน ในขั้นแรก แบบจำลองจะถูกสร้างขึ้นตามชุดข้อมูลที่ทราบผลลัพธ์ ในระยะที่สอง ใช้เพื่อทำนายผลลัพธ์ตามชุดข้อมูลใหม่ ในกรณีนี้ จำเป็นอย่างยิ่งที่แบบจำลองที่สร้างขึ้นจะต้องทำงานอย่างถูกต้องแม่นยำที่สุดเท่าที่จะเป็นไปได้ ถึง สายพันธุ์นี้งานรวมถึงปัญหาการจำแนกและการถดถอย นอกจากนี้ยังอาจรวมถึงปัญหาในการค้นหากฎการเชื่อมโยงด้วย หากสามารถใช้ผลลัพธ์ของการแก้ปัญหาเพื่อคาดการณ์การเกิดเหตุการณ์บางอย่างได้

ตามวิธีการแก้ปัญหา แบ่งออกเป็น การเรียนรู้แบบมีผู้สอน (การเรียนรู้กับครู) และการเรียนรู้แบบไม่มีผู้สอน (การเรียนรู้โดยไม่มีครู) ชื่อนี้มาจากคำว่า Machine Learning ซึ่งมักใช้ในวรรณคดีอังกฤษและหมายถึงเทคโนโลยี Data Mining ทั้งหมด

ในกรณีของการเรียนรู้แบบมีผู้สอน ปัญหาการวิเคราะห์ข้อมูลจะได้รับการแก้ไขในหลายขั้นตอน ขั้นแรก โดยใช้อัลกอริธึม Data Mining แบบจำลองของข้อมูลที่วิเคราะห์ - ตัวแยกประเภท - จะถูกสร้างขึ้น จากนั้นจึงฝึกลักษณนาม กล่าวอีกนัยหนึ่งคือมีการตรวจสอบคุณภาพของงานและหากไม่เป็นที่น่าพอใจก็จะมีการฝึกอบรมตัวแยกประเภทเพิ่มเติม สิ่งนี้จะดำเนินต่อไปจนกว่าจะบรรลุระดับคุณภาพที่ต้องการหรือเป็นที่ชัดเจนว่าอัลกอริทึมที่เลือกทำงานไม่ถูกต้องกับข้อมูล หรือตัวข้อมูลเองไม่มีโครงสร้างที่สามารถระบุได้ งานประเภทนี้รวมถึงปัญหาการจำแนกประเภทและการถดถอย

การเรียนรู้แบบไม่มีผู้ดูแลรวมงานที่ระบุรูปแบบเชิงพรรณนา เช่น รูปแบบการซื้อของลูกค้าที่ร้านค้าขนาดใหญ่ แน่นอนว่าหากมีรูปแบบเหล่านี้อยู่ โมเดลนั้นก็ควรเป็นตัวแทนและไม่เหมาะสมที่จะพูดถึงการฝึกอบรม จึงเป็นที่มาของชื่อ - การเรียนรู้แบบไม่มีผู้ดูแล ข้อดีของปัญหาดังกล่าวคือสามารถแก้ไขได้โดยไม่ต้องมีความรู้เกี่ยวกับข้อมูลที่วิเคราะห์มาก่อน ซึ่งรวมถึงการจัดกลุ่มและการค้นหากฎการเชื่อมโยง

ปัญหาการจำแนกประเภทและการถดถอย

เมื่อวิเคราะห์ มักจะจำเป็นต้องพิจารณาว่าวัตถุที่กำลังศึกษาอยู่ในคลาสใดที่รู้จัก กล่าวคือ เพื่อจำแนกประเภทเหล่านั้น ตัวอย่างเช่น เมื่อบุคคลติดต่อธนาคารเพื่อขอสินเชื่อ พนักงานธนาคารจะต้องตัดสินใจว่าลูกค้าที่มีศักยภาพนั้นมีความน่าเชื่อถือหรือไม่ เห็นได้ชัดว่าการตัดสินใจดังกล่าวเกิดขึ้นจากข้อมูลเกี่ยวกับวัตถุที่กำลังศึกษา (ในกรณีนี้คือบุคคล): สถานที่ทำงาน เงินเดือน อายุ องค์ประกอบครอบครัว ฯลฯ จากการวิเคราะห์ข้อมูลนี้ ธนาคาร พนักงานจะต้องจัดประเภทบุคคลดังกล่าวให้เป็นหนึ่งในสองชั้นที่รู้จักกันดีว่า "น่าเชื่อถือ" และ "ไม่น่าเชื่อถือ"

อีกตัวอย่างหนึ่งของงานการจัดหมวดหมู่คือการกรองอีเมล ในกรณีนี้ โปรแกรมกรองจะต้องจัดประเภทข้อความขาเข้าเป็นสแปม (อีเมลไม่พึงประสงค์) หรือเป็นจดหมาย การตัดสินใจครั้งนี้ได้รับการยอมรับตามความถี่ของคำบางคำในข้อความ (เช่น ชื่อผู้รับ ที่อยู่ที่ไม่มีตัวตน คำและวลี: ได้รับ "รับ" " ข้อเสนอที่ทำกำไร"และอื่นๆ.).

ปัจจุบันองค์ประกอบของปัญญาประดิษฐ์กำลังได้รับการแนะนำอย่างแข็งขันในกิจกรรมเชิงปฏิบัติของผู้จัดการ ต่างจากระบบปัญญาประดิษฐ์แบบดั้งเดิม เทคโนโลยีการค้นหาอัจฉริยะและการวิเคราะห์ข้อมูลหรือ "Data Mining" (DM) ไม่ได้พยายามจำลองปัญญาประดิษฐ์ แต่เพิ่มขีดความสามารถด้วยพลังของเซิร์ฟเวอร์คอมพิวเตอร์สมัยใหม่ เครื่องมือค้นหาและคลังข้อมูล บ่อยครั้งถัดจากคำว่า “Data Mining” จะมีคำว่า “Knowledge Discovery in Databases”

ข้าว. 6.17.

การทำเหมืองข้อมูลเป็นกระบวนการในการค้นพบข้อมูลดิบซึ่งก่อนหน้านี้ไม่รู้จัก ไม่สำคัญ มีประโยชน์ในทางปฏิบัติ และตีความได้ซึ่งจำเป็นสำหรับการตัดสินใจในด้านต่างๆ ของกิจกรรมของมนุษย์ การทำเหมืองข้อมูลมีคุณค่าอย่างยิ่งต่อผู้จัดการและนักวิเคราะห์ในกิจกรรมประจำวันของพวกเขา นักธุรกิจตระหนักดีว่าด้วยความช่วยเหลือของวิธีการขุดข้อมูล พวกเขาจะได้รับความได้เปรียบทางการแข่งขันที่จับต้องได้

พื้นฐาน เทคโนโลยีที่ทันสมัยการทำเหมืองข้อมูล (Data Mining ที่ขับเคลื่อนด้วยการค้นพบ) มีพื้นฐานอยู่บนแนวคิดของรูปแบบ ซึ่งสะท้อนถึงส่วนของความสัมพันธ์หลายมิติในข้อมูล รูปแบบเหล่านี้แสดงถึงรูปแบบที่มีอยู่ในตัวอย่างข้อมูลที่สามารถแสดงออกมาอย่างกะทัดรัดในรูปแบบที่มนุษย์สามารถอ่านได้ การค้นหารูปแบบดำเนินการโดยใช้วิธีการที่ไม่ถูกจำกัดโดยสมมติฐานนิรนัยเกี่ยวกับโครงสร้างตัวอย่างและประเภทของการกระจายของค่าของตัวบ่งชี้ที่วิเคราะห์ ในรูป รูปที่ 6.17 แสดงแผนภาพการแปลงข้อมูลโดยใช้เทคโนโลยี Data Mining

ข้าว. 6.18.

พื้นฐานของระบบพยากรณ์ทุกประเภทคือข้อมูลในอดีตที่จัดเก็บไว้ในฐานข้อมูลในรูปแบบของอนุกรมเวลา หากเป็นไปได้ที่จะสร้างเทมเพลตที่สะท้อนถึงไดนามิกของพฤติกรรมของตัวบ่งชี้เป้าหมายอย่างเพียงพอ มีความเป็นไปได้ที่จะสามารถคาดการณ์พฤติกรรมของระบบในอนาคตได้ด้วยความช่วยเหลือของพวกเขา ในรูป รูปที่ 6.18 แสดงวงจรการใช้เทคโนโลยี Data Mining แบบครบวงจร

จุดสำคัญของ Data Mining คือความไม่สำคัญของรูปแบบที่ต้องการ ซึ่งหมายความว่ารูปแบบที่พบจะต้องสะท้อนถึงความสม่ำเสมอของข้อมูลที่ไม่ชัดเจนและไม่คาดคิด (ไม่คาดคิด) ซึ่งประกอบขึ้นเป็นความรู้ที่ซ่อนอยู่ ถึง นักธุรกิจความเข้าใจเกิดขึ้นว่าข้อมูล "ดิบ" มีความรู้ที่ลึกซึ้ง และด้วยการขุดค้นที่เหมาะสม จึงสามารถค้นพบนักเก็ตที่แท้จริงที่สามารถนำไปใช้ในการแข่งขันได้

ขอบเขตของ Data Mining ไม่จำกัด แต่อย่างใด - เทคโนโลยีนี้สามารถนำไปใช้ได้ทุกที่ที่มีข้อมูล "ดิบ" จำนวนมาก!


ประการแรก วิธีการทำ Data Mining ได้รับความสนใจจากองค์กรเชิงพาณิชย์ที่กำลังปรับใช้โครงการตามคลังข้อมูล (Data Warehousing) ประสบการณ์ขององค์กรดังกล่าวหลายแห่งแสดงให้เห็นว่าผลตอบแทนจากการขุดข้อมูลสามารถเข้าถึง 1,000% มีรายงานผลกระทบทางเศรษฐกิจที่สูงกว่าต้นทุนเริ่มต้นที่ 350 ถึง 750,000 ดอลลาร์ถึง 10-70 เท่า มีข้อมูลเกี่ยวกับโครงการมูลค่า 20 ล้านดอลลาร์ที่จ่ายเองภายในเวลาเพียง 4 เดือน อีกตัวอย่างหนึ่งคือการประหยัดเงินได้ปีละ 700,000 ดอลลาร์เนื่องจากการดำเนินการ Data Mining ในเครือข่ายซูเปอร์มาร์เก็ตแห่งหนึ่งในสหราชอาณาจักร

Microsoft ได้ประกาศอย่างเป็นทางการว่ากำลังเสริมความแข็งแกร่งให้กับกิจกรรมในด้าน Data Mining กลุ่มวิจัยพิเศษของ Microsoft นำโดย Osama Fayyad และพันธมิตรที่ได้รับเชิญ 6 ราย (Angoss, Datasage, Epiphany, SAS, Silicon Graphics, SPSS) กำลังเตรียมโครงการร่วมกันเพื่อพัฒนามาตรฐานการแลกเปลี่ยนข้อมูลและเครื่องมือสำหรับการบูรณาการเครื่องมือ Data Mining เข้ากับฐานข้อมูลและคลังข้อมูล .

การทำเหมืองข้อมูลเป็นสาขาสหสาขาวิชาชีพที่เกิดขึ้นและกำลังพัฒนาบนพื้นฐานของความสำเร็จของสถิติประยุกต์ การจดจำรูปแบบ วิธีปัญญาประดิษฐ์ ทฤษฎีฐานข้อมูล ฯลฯ (รูปที่ 6.19) ด้วยเหตุนี้วิธีการและอัลกอริธึมที่มีอยู่มากมายจึงถูกนำมาใช้ในระบบการขุดข้อมูลที่มีอยู่มากมาย [ดยุค วี.เอ. www.inftech.webservis.ru/it/datamining/ar2.html] ระบบเหล่านี้หลายระบบรวมแนวทางต่างๆ เข้าด้วยกันในคราวเดียว อย่างไรก็ตาม ตามกฎแล้ว แต่ละระบบมีองค์ประกอบสำคัญในการเดิมพันหลัก

รูปแบบมาตรฐานมีห้าประเภทที่ระบุโดยใช้วิธีการทำเหมืองข้อมูล: การเชื่อมโยง ลำดับ การจำแนกประเภท การจัดกลุ่ม และการพยากรณ์

ข้าว. 6.19.ขอบเขตการประยุกต์ใช้เทคโนโลยี Data Mining

การเชื่อมโยงเกิดขึ้นเมื่อหลายเหตุการณ์เกี่ยวข้องกัน ตัวอย่างเช่น การศึกษาที่ดำเนินการในซุปเปอร์มาร์เก็ตคอมพิวเตอร์อาจแสดงให้เห็นว่า 55% ของผู้ที่ซื้อคอมพิวเตอร์ก็ซื้อเครื่องพิมพ์หรือสแกนเนอร์ด้วย และหากมีส่วนลดสำหรับชุดดังกล่าว พวกเขาก็ซื้อเครื่องพิมพ์ในกรณี 80% การมีข้อมูลเกี่ยวกับสมาคมดังกล่าว จึงเป็นเรื่องง่ายสำหรับผู้จัดการในการประเมินว่าส่วนลดที่ให้มานั้นมีประสิทธิภาพเพียงใด

หากมีเหตุการณ์ต่อเนื่องกันตามลำดับเวลา เราจะพูดถึงลำดับเหตุการณ์ ตัวอย่างเช่น หลังจากซื้อบ้าน ในกรณี 45% ซื้อเตาในครัวใหม่ภายในหนึ่งเดือน และภายในสองสัปดาห์ 60% ของผู้พักอาศัยใหม่จะได้ตู้เย็น

ด้วยความช่วยเหลือของการจำแนกประเภทจะมีการระบุสัญญาณที่แสดงถึงกลุ่มที่วัตถุนั้นอยู่ ซึ่งทำได้โดยการวิเคราะห์ออบเจ็กต์ที่จัดประเภทแล้วและกำหนดกฎเกณฑ์บางชุด

การจัดกลุ่มแตกต่างจากการจัดประเภทตรงที่กลุ่มต่างๆ ไม่ได้ถูกกำหนดไว้ล่วงหน้า การใช้การทำคลัสเตอร์ทำให้เครื่องมือ Data Mining สามารถระบุกลุ่มข้อมูลที่เป็นเนื้อเดียวกันต่างๆ ได้อย่างอิสระ