ชุดข้อมูลแมชชีนเลิร์นนิง ที่เป็นมิตรต่อความเป็นส่วนตัว: ข้อมูลสังเคราะห์

ชุดข้อมูลแมชชีนเลิร์นนิง ด้วยการเพิ่มจำนวนของเทคโนโลยี AI เช่น GitHub Copilot สำหรับการกรอกโค้ด การแพร่กระจายที่เสถียรสำหรับการสร้างรูปภาพ และ GPT-3 สำหรับข้อความ ทำให้นักวิจารณ์จำนวนมากเริ่มพิจารณาข้อมูลที่พวกเขาใช้ในการฝึกโมเดล AI/ML ของตน ปัญหาด้านความเป็นส่วนตัวและความเป็นเจ้าของเกี่ยวกับเครื่องมือเหล่านี้เป็นเรื่องที่ยุ่งยาก และข้อมูลที่ใช้ในการฝึกเครื่องมือ AI ที่โดดเด่นน้อยกว่าก็สามารถให้ผลลัพธ์ที่เป็นปัญหาได้ไม่แพ้กัน โมเดลใดก็ตามที่ใช้ข้อมูลจริงมีโอกาสที่จะเปิดเผยข้อมูลนั้นหรือปล่อยให้ผู้ไม่หวังดีทำวิศวกรรมย้อนกลับข้อมูลผ่านการโจมตีต่างๆ 

นั่นคือที่มาของข้อมูลสังเคราะห์ ข้อมูลสังเคราะห์คือข้อมูลที่สร้างขึ้นผ่านโปรแกรมคอมพิวเตอร์แทนที่จะรวบรวมผ่านเหตุการณ์ในโลกแห่งความเป็นจริง เราติดต่อกับ Kalyan Veeramachaneni นักวิทยาศาสตร์การวิจัยหลักของ MIT และผู้ร่วมก่อตั้ง DataCebo บริษัทสตาร์ทอัพด้านข้อมูลขนาดใหญ่เกี่ยวกับโครงการของเขาในการเปิดแหล่งที่มาของพลังของข้อมูลขนาดใหญ่และให้การเรียนรู้ของเครื่องรวบรวมข้อมูลที่จำเป็นในการสร้างแบบจำลองของจริง โลกโดยไม่มีปัญหาความเป็นส่วนตัวในโลกแห่งความจริง

ก่อนหน้านี้เราได้กล่าวถึงข้อมูลสังเคราะห์ในพอดคาสต์ในอดีต 

คำตอบด้านล่างได้รับการแก้ไขเพื่อรูปแบบและความชัดเจน 

ถาม:คุณช่วยบอกเราเล็กน้อยเกี่ยวกับข้อมูลสังเคราะห์และสิ่งที่ทีมของคุณกำลังจะเผยแพร่ได้ไหม

ตอบ:เป้าหมายของข้อมูลสังเคราะห์คือการแสดงข้อมูลในโลกแห่งความเป็นจริงอย่างถูกต้องเพียงพอที่จะใช้ในการฝึกปัญญาประดิษฐ์ (AI) และโมเดลการเรียนรู้ของเครื่องที่ใช้ในโลกแห่งความเป็นจริง

ตัวอย่างเช่น สำหรับบริษัทที่ทำงานเพื่อพัฒนาระบบนำทางสำหรับรถยนต์ไร้คนขับ ไม่สามารถรับข้อมูลการฝึกอบรมที่แสดงถึงทุกสถานการณ์การขับขี่ที่อาจเกิดขึ้นได้ ในกรณีนี้ ข้อมูลสังเคราะห์เป็นวิธีที่มีประโยชน์ในการแนะนำระบบให้รู้จักกับสถานการณ์ที่แตกต่างกันมากที่สุดเท่าที่จะเป็นไปได้

ในเดือนกันยายน ทีมงานของฉันที่DataCeboได้เปิดตัวSDMetrics 0.7ซึ่งเป็นชุดเครื่องมือโอเพ่นซอร์สสำหรับประเมินคุณภาพของฐานข้อมูลสังเคราะห์โดยเปรียบเทียบกับฐานข้อมูลจริงที่จำลองขึ้นมา SDMetrics สามารถวิเคราะห์ปัจจัยต่างๆ ที่เกี่ยวข้องกับว่าข้อมูลสังเคราะห์เป็นตัวแทนของข้อมูลต้นฉบับได้ดีเพียงใด ตั้งแต่การปฏิบัติตามขอบเขตไปจนถึงความคล้ายคลึงกันของความสัมพันธ์ ตลอดจนความเสี่ยงด้านความเป็นส่วนตัวที่คาดการณ์ไว้ นอกจากนี้ยังสามารถสร้างรายงานและภาพกราฟิกเพื่อสร้างกรณีที่ชัดเจนยิ่งขึ้นสำหรับผู้ที่ไม่ใช่วิศวกรเกี่ยวกับมูลค่าของชุดข้อมูลสังเคราะห์ที่กำหนด

ตรวจสอบ  เว็บไซต์ SDMetrics  เพื่อดูองค์ประกอบต่างๆ ของกล่องเครื่องมือ SDMetrics

ถาม:ข้อมูลสังเคราะห์มีการป้องกันสถานการณ์ประเภทใดบ้าง

ตอบ:ข้อมูลสังเคราะห์มีศักยภาพมากมายจากมุมมองด้านความเป็นส่วนตัว มีตัวอย่างมากมายเกี่ยวกับปัญหาความเป็นส่วนตัวที่สำคัญที่เกี่ยวข้องกับการรวบรวม จัดเก็บ แบ่งปัน และวิเคราะห์ข้อมูลของบุคคลจริง รวมถึงกรณีของนักวิจัยและแฮ็กเกอร์ที่สามารถยกเลิกการระบุข้อมูลที่ไม่ระบุชื่อได้ โดยทั่วไปปัญหาประเภทนี้มักไม่ค่อยเกิดขึ้นกับข้อมูลสังเคราะห์ เนื่องจากชุดข้อมูลไม่สอดคล้องโดยตรงกับเหตุการณ์จริงหรือผู้คนตั้งแต่แรก

ข้อมูลในโลกแห่งความเป็นจริงมักมีข้อผิดพลาดและความไม่ถูกต้อง และอาจพลาดกรณีขอบที่ไม่ได้เกิดขึ้นเป็นประจำ ชุดข้อมูลสังเคราะห์สามารถพัฒนาได้เพื่อให้มั่นใจว่าข้อมูลมีคุณภาพถึงระดับรายละเอียด ซึ่งรวมถึงการแก้ไขฉลากที่ผิดพลาดโดยอัตโนมัติและการเติมค่าที่ขาดหายไป 

นอกจากนี้ ข้อมูลในโลกแห่งความเป็นจริงอาจมีอคติทางวัฒนธรรมในลักษณะที่อาจส่งผลกระทบต่ออัลกอริทึมที่ฝึกฝน วิธีการสังเคราะห์ข้อมูลสามารถใช้คำจำกัดความทางสถิติของความเป็นธรรมเพื่อแก้ไขอคติเหล่านี้ที่แกนหลักของปัญหา: ในข้อมูลเอง ชุดข้อมูลแมชชีนเลิร์นนิง

ถาม:คุณจะสร้างข้อมูลสังเคราะห์ที่ดูเหมือนข้อมูลจริงได้อย่างไร

ตอบ:ข้อมูลสังเคราะห์ถูกสร้างขึ้นโดยใช้วิธีการเรียนรู้ของเครื่องที่มีทั้งการเรียนรู้ของเครื่องแบบดั้งเดิมและวิธีการเรียนรู้เชิงลึกที่เกี่ยวข้องกับโครงข่ายประสาทเทียม 

พูดกว้าง ๆ มีข้อมูลสองประเภท: มีโครงสร้างและไม่มีโครงสร้าง โดยทั่วไปข้อมูลที่มีโครงสร้างจะเป็นแบบตาราง กล่าวคือเป็นประเภทข้อมูลที่สามารถจัดเรียงในตารางหรือสเปรดชีตได้ ในทางตรงกันข้าม ข้อมูลที่ไม่มีโครงสร้างครอบคลุมแหล่งที่มาและรูปแบบที่หลากหลาย รวมถึงรูปภาพ ข้อความ และวิดีโอ 

มีวิธีการต่างๆ มากมายที่ใช้เพื่อสร้างข้อมูลสังเคราะห์ประเภทต่างๆ ประเภทของข้อมูลที่จำเป็นอาจส่งผลต่อวิธีการสร้างที่ดีที่สุดที่จะใช้ ในแง่ของแมชชีนเลิร์นนิงแบบคลาสสิก วิธีที่พบมากที่สุดคือการจำลองแบบมอนติคาร์โล ซึ่งสร้างผลลัพธ์ที่หลากหลายโดยกำหนดพารามิเตอร์เริ่มต้นที่เฉพาะเจาะจง โมเดลเหล่านี้มักจะออกแบบโดยผู้เชี่ยวชาญที่รู้จักโดเมนซึ่งข้อมูลสังเคราะห์นั้นถูกสร้างขึ้นเป็นอย่างดี ในบางกรณีจะใช้การจำลองตามหลักฟิสิกส์ ตัวอย่างเช่น แบบจำลองการคำนวณตามพลศาสตร์ของไหลที่สามารถจำลองรูปแบบการบินได้ 

ในทางตรงกันข้าม วิธีการเรียนรู้เชิงลึกมักจะเกี่ยวข้องกับเครือข่ายฝ่ายตรงข้ามเชิงกำเนิด (GAN) ตัวเข้ารหัสแบบแปรผัน (VAE) หรือฟิลด์ความกระจ่างใสของระบบประสาท (NeRF) วิธีการเหล่านี้ได้รับชุดย่อยของข้อมูลจริงและเรียนรู้รูปแบบเชิงกำเนิด เมื่อเรียนรู้แบบจำลองแล้ว คุณสามารถสร้างข้อมูลสังเคราะห์ได้มากเท่าที่คุณต้องการ วิธีการอัตโนมัตินี้ทำให้การสร้างข้อมูลสังเคราะห์เป็นไปได้สำหรับแอปพลิเคชันทุกประเภท ข้อมูลสังเคราะห์จำเป็นต้องตรงตามเกณฑ์บางประการจึงจะเชื่อถือได้และมีประสิทธิภาพ ตัวอย่างเช่น การรักษารูปร่างของคอลัมน์การครอบคลุมหมวดหมู่และความสัมพันธ์. เพื่อเปิดใช้งานสิ่งนี้ กระบวนการที่ใช้สร้างข้อมูลสามารถควบคุมได้โดยการระบุการแจกแจงทางสถิติเฉพาะสำหรับคอลัมน์ สถาปัตยกรรมแบบจำลอง และวิธีการแปลงข้อมูล การเลือกวิธีการแจกแจงหรือการแปลงที่จะใช้นั้นขึ้นอยู่กับข้อมูลและกรณีการใช้งานเป็นอย่างมาก 

ถาม:ข้อดีของการใช้ข้อมูลสังเคราะห์เทียบกับข้อมูลจำลองคืออะไร

ตอบ: การจำลองข้อมูลซึ่งโดยปกติจะสร้างขึ้นด้วยมือและเขียนขึ้นโดยใช้กฎนั้นไม่สามารถนำไปใช้ได้จริงในระดับที่เป็นประโยชน์สำหรับบริษัทส่วนใหญ่ที่ใช้ข้อมูลขนาดใหญ่ 

แอปพลิเคชันที่ขับเคลื่อนด้วยข้อมูลส่วนใหญ่จำเป็นต้องเขียนตรรกะของซอฟต์แวร์ที่สอดคล้องกับความสัมพันธ์ที่เห็นในข้อมูลเมื่อเวลาผ่านไป และข้อมูลจำลองจะไม่จับความสัมพันธ์เหล่านี้

ตัวอย่างเช่น สมมติว่าคุณเป็นผู้ค้าปลีกออนไลน์ที่ต้องการแนะนำข้อตกลงเฉพาะสำหรับลูกค้าที่ซื้อทีวีและทำธุรกรรมอื่นๆ อย่างน้อยเจ็ดรายการ หากต้องการทดสอบว่าตรรกะนี้จะทำงานตามที่ระบุเมื่อเขียนในซอฟต์แวร์หรือไม่ คุณต้องใช้ข้อมูลที่มีรูปแบบเหล่านั้น ซึ่งอาจเป็นข้อมูลการผลิตจริงหรือข้อมูลสังเคราะห์ที่อ้างอิงจากข้อมูลในโลกแห่งความเป็นจริงก็ได้

มีตัวอย่างมากมายเช่นนี้ที่รูปแบบในข้อมูลมีความสำคัญต่อการทดสอบตรรกะที่เขียนในซอฟต์แวร์ ข้อมูลจำลองไม่สามารถจับสิ่งนั้นได้ ทุกวันนี้มีการเพิ่มตรรกะที่ใช้ข้อมูลมากขึ้นเรื่อยๆ ในแอปพลิเคชันซอฟต์แวร์ การรวบรวมตรรกะนี้ทีละรายการผ่านกฎแทบจะเป็นไปไม่ได้ที่จะทำในระดับที่จำเป็นในการให้คุณค่าที่แท้จริงแก่องค์กรที่ใช้งาน 

เราจะหารือเกี่ยวกับข้อจำกัดของข้อมูลจำลองในรายละเอียดเพิ่มเติมในบล็อกของเรา 

ถาม:ห้องสมุดนี้มีประโยชน์หรือข้อกังวลใด ๆ หรือไม่? จะปลอดภัยกว่าไหม? มีใครสามารถทำวิศวกรรมย้อนกลับข้อมูลจริงที่รู้โมเดลและอัลกอริทึมได้หรือไม่?

ตอบ: แหล่ง ข้อมูล Synthetic Data Vaultของ DataCebo มีเทคนิคการสร้างแบบจำลองและอัลกอริทึมจำนวนมาก การทำให้อัลกอริทึมเหล่านี้เป็นสาธารณะช่วยให้เกิดความโปร่งใส ปรับปรุงการตรวจสอบข้ามจากชุมชน และปรับปรุงวิธีการพื้นฐานเพื่อให้มีความเป็นส่วนตัวมากขึ้น จากนั้นอัลกอริทึมเหล่านี้จะนำไปใช้กับข้อมูลโดยผู้ควบคุมข้อมูลในการตั้งค่าส่วนตัว เพื่อฝึกโมเดล ผลลัพธ์อย่างหนึ่งของแนวทางนี้คือตัวแบบไม่ได้เปิดเผยต่อสาธารณะ 

นอกจากนี้ยังมีเทคนิคการเพิ่มความเป็นส่วนตัวบางอย่างที่เพิ่มเข้ามาในระหว่างกระบวนการฝึกอบรม เทคนิคเหล่านี้ไม่ได้เป็นส่วนหนึ่งของไลบรารีโอเพ่นซอร์ส ในขณะที่อธิบายไว้ในเอกสาร  

การรู้เทคนิคเหล่านี้ในตัวมันเองอาจไม่นำไปสู่การทำวิศวกรรมย้อนกลับ เนื่องจากมีการสุ่มเข้ามาเกี่ยวข้องในปริมาณที่เพียงพอ อย่างไรก็ตาม เป็นคำถามที่น่าสนใจที่ชุมชนควรพิจารณา 

SDMetrics รุ่น ใหม่ของเราเกี่ยวข้องกับวิธีการประเมินข้อมูลสังเคราะห์บนแกนต่างๆ เมตริกเหล่านี้เกี่ยวกับคุณภาพของข้อมูลสังเคราะห์ ประสิทธิภาพของข้อมูลสังเคราะห์สำหรับงานเฉพาะ และเมตริกความเป็นส่วนตัวบางรายการ

เรารู้สึกว่าเมตริกเหล่านี้มีความสำคัญอย่างยิ่งที่จะต้องเป็นโอเพ่นซอร์ส เนื่องจากจะช่วยให้การประเมินเป็นมาตรฐานในชุมชนได้ การสร้างข้อมูลสังเคราะห์—และตัวข้อมูลสังเคราะห์เอง—ท้ายที่สุดจะอยู่ในการตั้งค่า “หลังกำแพง” เนื่องจากไดนามิกดังกล่าว เราจึงต้องการสร้างมาตรฐานที่ทุกคนสามารถอ้างอิงได้เมื่อมีคนอ้างอิงเมตริกที่พวกเขาใช้ในการประเมินข้อมูล (ปิดวอลล์) ของตน ผู้คนสามารถกลับไปที่ SDMetrics เพื่อดูรหัสที่อยู่ใต้เมตริก และหวังว่าจะมีความเชื่อมั่นมากขึ้นในเมตริกที่ใช้อยู่

Face-sso (By K&O) หากท่านสนใจ เครื่องสแกนใบหน้ารุ่นต่างๆ หลากหลายรุ่น หรือ ติดตั้งระบบสแกนใบหน้า สามารถติดต่อสอบถามได้โดยตรง เรามีแอดมินคอยคอบคำถาม 24 ชั้วโมงที่ Line OA เครื่องสแกนใบหน้า สามารถ ขอราคาพิเศษได้ ตามงบประมาณที่เหมาะสม สอบถามได้สบายใจทั้ง เรื่องค่าบริการ ราคา และ งบประมาณ มั่นใจเพราะเป็นราคาที่สุด คุ้มค่าที่สุด

หากท่านมีความสนใจ บทความ หรือ Technology สามารถติดต่อได้ตามเบอร์ที่ให้ไว้ด้านล่างนี้
Tel.086-594-5494
Tel.095-919-6699

ใส่ความเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *