คู่มือบริษัท

ดาต้าบริคส์

Databricks คือแพลตฟอร์มข้อมูลและ AI ที่รวมวิศวกรรมข้อมูล การวิเคราะห์ และการเรียนรู้ของเครื่องจักรไว้บนรากฐาน 'เลคเฮาส์' แห่งเดียว

ภาพรวม

Databricks คือแพลตฟอร์มข้อมูลและ AI ที่รวมวิศวกรรมข้อมูล การวิเคราะห์ และการเรียนรู้ของเครื่องจักรไว้บนรากฐาน 'เลคเฮาส์' แห่งเดียว สิ่งสำคัญคือช่วยให้บริษัทต่างๆ จัดการชุดข้อมูลขนาดใหญ่และสร้าง AI ได้โดยตรงในที่ที่มีข้อมูลอยู่แล้ว

Databricks เป็นที่เข้าใจดีที่สุดในบริบทของกลยุทธ์ การเข้าถึงโมเดล การตัดสินใจเกี่ยวกับแพลตฟอร์ม และความร่วมมือในระบบนิเวศ

เจาะลึก

Databricks ก่อตั้งขึ้นในปี 2013 โดยผู้สร้างดั้งเดิมของ Apache Spark รวมถึง Ali Ghodsi และ Matei Zaharia จาก AMPLab ของ UC Berkeley แนวคิดอันเป็นเอกลักษณ์ของมันคือ 'เลคเฮาส์' ซึ่งผสมผสานการจัดเก็บข้อมูล Data Lake ราคาถูกและยืดหยุ่นเข้ากับความน่าเชื่อถือและประสิทธิภาพของคลังข้อมูล ซึ่งเปิดใช้งานโดยรูปแบบตาราง Delta Lake แบบเปิด ที่ด้านบนสุด ได้แก่ Unity Catalog สำหรับการกำกับดูแล, MLflow สำหรับการติดตามการทดสอบ และ Databricks Runtime ที่สร้างบน Spark ในปี 2023 Databricks เข้าซื้อกิจการ MosaicML และต่อมาได้เปิดตัว DBRX ซึ่งเป็นโมเดลภาษาแบบเปิดขนาดใหญ่ ซึ่งส่งสัญญาณถึงการเปลี่ยนแปลงครั้งใหญ่ไปสู่ ​​generative AI ขณะนี้แพลตฟอร์มดังกล่าวทำการตลาด 'แพลตฟอร์มข้อมูลอัจฉริยะ' สำหรับการสร้างและให้บริการตัวแทน AI เกี่ยวกับข้อมูลองค์กร

ข้อมูลเชิงลึกทางเทคนิค

โดยที่แกนหลัก Databricks เรียกใช้การคำนวณแบบกระจายบน Apache Spark โดยแบ่งงานใหญ่ๆ ออกเป็นคลัสเตอร์ต่างๆ ของเครื่องจักร Delta Lake เพิ่มธุรกรรม ACID และบันทึกธุรกรรมนอกเหนือจากพื้นที่จัดเก็บอ็อบเจ็กต์ราคาถูก ดังนั้น Data Lake จึงมีพฤติกรรมเหมือนกับฐานข้อมูลที่เชื่อถือได้ MLflow สร้างมาตรฐานให้กับวงจรการใช้งาน ML—การติดตามการรัน โมเดลแพ็คเกจ และการจัดการการปรับใช้ สำหรับ generative AI เครื่องมือ Mosaic AI จะจัดการการปรับแต่งอย่างละเอียด การค้นหาเวกเตอร์ และการให้บริการโมเดล ช่วยให้บริษัทต่างๆ สร้างผู้ช่วยที่เสริมการดึงข้อมูลได้โดยตรงกับข้อมูลที่ได้รับการควบคุม

การเรียนรู้ Databricks

Databricks คือแพลตฟอร์มข้อมูลและ AI ที่รวมวิศวกรรมข้อมูล การวิเคราะห์ และการเรียนรู้ของเครื่องจักรไว้บนรากฐาน 'เลคเฮาส์' แห่งเดียว สิ่งสำคัญคือช่วยให้บริษัทต่างๆ จัดการชุดข้อมูลขนาดใหญ่และสร้าง AI ได้โดยตรงในที่ที่มีข้อมูลอยู่แล้ว Databricks เป็นที่เข้าใจดีที่สุดในบริบทของกลยุทธ์ การเข้าถึงโมเดล การตัดสินใจเกี่ยวกับแพลตฟอร์ม และความร่วมมือในระบบนิเวศ เพื่อสร้างความเข้าใจอย่างลึกซึ้ง ให้ปฏิบัติต่อ Databricks เสมือนเป็นโมเดลการดำเนินงาน ไม่ใช่คุณลักษณะเดียว: กำหนดผลลัพธ์ที่ต้องการ ชี้แจงสมมติฐาน และแยกสิ่งที่ระบบสามารถทำได้อย่างน่าเชื่อถือจากสิ่งที่ยังต้องใช้วิจารณญาณจากผู้เชี่ยวชาญ

ในทางปฏิบัติ ทีมที่แข็งแกร่งที่ใช้ Databricks จะประเมินกลยุทธ์ของผู้ขาย ความน่าเชื่อถือของแผนงาน และความเสี่ยงในการล็อคอินก่อนตัดสินใจ โดยจะบันทึกเกณฑ์ความสำเร็จที่ชัดเจน ทดสอบกับข้อมูลและขั้นตอนการทำงานที่สมจริง และทำซ้ำตามรูปแบบความล้มเหลวที่สังเกตได้ แทนที่จะชนะการวัดประสิทธิภาพเพียงครั้งเดียว นี่คือจุดที่ความเข้าใจทางทฤษฎีกลายเป็นความสามารถที่คงทนของผลิตภัณฑ์ นโยบาย และการดำเนินงาน

โรดแมปของผู้จำหน่ายมีอิทธิพลต่อฟีเจอร์ที่ทีมของคุณสามารถสร้างได้ต่อไป ในขณะเดียวกัน การประกาศเปิดตัวอาจแซงหน้าความเสถียรในขั้นตอนการทำงานจริง แนวทางที่ยืดหยุ่นที่สุดคือการรวมความเร็วของการทดลองเข้ากับวินัยในการกำกับดูแล: ดำเนินการนำร่อง จับหลักฐาน เผยแพร่บันทึกการตัดสินใจ และอัปเดตการป้องกันอย่างต่อเนื่องเมื่อพฤติกรรมของโมเดล ความคาดหวังของผู้ใช้ และข้อกำหนดด้านกฎระเบียบมีการเปลี่ยนแปลง

ผลกระทบเชิงกลยุทธ์

โรดแมปของผู้จำหน่ายมีอิทธิพลต่อฟีเจอร์ที่ทีมของคุณสามารถสร้างได้ต่อไป

โรดแมปของผู้จำหน่ายมีอิทธิพลต่อฟีเจอร์ที่ทีมของคุณสามารถสร้างได้ต่อไป ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

ข้อกำหนดทางการค้าและตัวเลือกการใช้งานส่งผลต่อต้นทุนและความเสี่ยงในระยะยาว

ข้อกำหนดทางการค้าและตัวเลือกการใช้งานส่งผลต่อต้นทุนและความเสี่ยงในระยะยาว ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

สิ่งจูงใจของบริษัทจะกำหนดค่าเริ่มต้นของผลิตภัณฑ์ ท่าทางที่ปลอดภัย และความเปิดกว้าง

สิ่งจูงใจของบริษัทจะกำหนดค่าเริ่มต้นของผลิตภัณฑ์ ท่าทางที่ปลอดภัย และความเปิดกว้าง ในการปรับใช้คุณภาพสูง สิ่งนี้จะถูกแปลเป็นกฎการปฏิบัติงานที่วัดผลได้ ขอบเขตความเป็นเจ้าของ และขั้นตอนการตรวจสอบที่เกิดซ้ำ เพื่อให้ทีมสามารถปรับขนาดความมั่นใจแทนที่จะปรับขนาดความคลุมเครือ

อนาคตของ Databricks

Databricks กำลังแข่งขันกันเพื่อให้องค์กรต่างๆ สร้าง AI จากข้อมูลของตนเอง โดยแข่งขันกับ Snowflake และบริษัทคลาวด์ยักษ์ใหญ่ คาดว่าจะมีการลงทุนจำนวนมากในตัวแทน AI การเรียกค้นที่ได้รับการควบคุม และเครื่องมือที่ช่วยให้ผู้ที่ไม่ใช่ผู้เชี่ยวชาญสามารถสืบค้นข้อมูลในภาษาธรรมชาติ การเดิมพันแบบโอเพ่นซอร์ส (Delta Lake, MLflow, DBRX) มีจุดมุ่งหมายเพื่อล็อคความคิดในขณะที่สร้างรายได้จากการให้บริการและการกำกับดูแล ด้วยการประเมินมูลค่าส่วนตัวที่สูงลิ่วและการเก็งกำไร IPO ที่มั่นคง Databricks กำลังวางตำแหน่ง Lakehouse ให้เป็นสารตั้งต้นเริ่มต้นสำหรับ AI ที่สร้างสรรค์ระดับองค์กร

การใช้งานจริงในโลกแห่งความเป็นจริง

ผู้ค้าปลีกดำเนินงาน Spark ทุกคืนบน Databricks เพื่อประมวลผลบันทึกการขายนับพันล้านรายการลงในตารางที่ชัดเจนสำหรับการคาดการณ์

ทีมวิทยาศาสตร์ข้อมูลใช้ MLflow บน Databricks เพื่อติดตามการทดลองและปรับใช้โมเดลการคาดการณ์การเปลี่ยนใจ

ธนาคารสร้างแชทบอตที่ได้รับการควบคุมด้วยการค้นหาเวกเตอร์โมเสค AI ซึ่งตอบคำถามเกี่ยวกับเอกสารนโยบายภายใน

กลุ่มการวิเคราะห์ใช้ Delta Lake เพื่อให้ Data Lake ที่ยุ่งเหยิงมีความน่าเชื่อถือและเป็นตารางธุรกรรมสำหรับแดชบอร์ด BI

รูปแบบการดำเนินงาน

Databricks ในทางปฏิบัติ

ผู้ค้าปลีกดำเนินงาน Spark ทุกคืนบน Databricks เพื่อประมวลผลบันทึกการขายนับพันล้านรายการลงในตารางที่ชัดเจนสำหรับการคาดการณ์

ผู้ค้าปลีกดำเนินงาน Spark ทุกคืนบน Databricks เพื่อประมวลผลบันทึกการขายนับพันล้านรายการลงในตารางที่ชัดเจนสำหรับการคาดการณ์ ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการผลิตที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

Databricks ในทางปฏิบัติ

ทีมวิทยาศาสตร์ข้อมูลใช้ MLflow บน Databricks เพื่อติดตามการทดลองและปรับใช้โมเดลการคาดการณ์การเปลี่ยนใจ

ทีมวิทยาศาสตร์ข้อมูลใช้ MLflow บน Databricks เพื่อติดตามการทดลองและปรับใช้โมเดลการคาดการณ์การเลิกใช้งาน โดยปกติแล้วทีมจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการผลิตที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

Databricks ในทางปฏิบัติ

ธนาคารสร้างแชทบอตที่ได้รับการควบคุมด้วยการค้นหาเวกเตอร์โมเสค AI ซึ่งตอบคำถามเกี่ยวกับเอกสารนโยบายภายใน

ธนาคารสร้างแชทบอตที่ได้รับการควบคุมด้วยการค้นหาเวกเตอร์ Mosaic AI ซึ่งจะตอบคำถามเกี่ยวกับเอกสารนโยบายภายใน ทีมมักจะได้รับผลลัพธ์ที่ดีกว่าเมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

Databricks ในทางปฏิบัติ

กลุ่มการวิเคราะห์ใช้ Delta Lake เพื่อให้ Data Lake ที่ยุ่งเหยิงมีความน่าเชื่อถือและเป็นตารางธุรกรรมสำหรับแดชบอร์ด BI

กลุ่มการวิเคราะห์ใช้ Delta Lake เพื่อให้ Data Lake ที่ยุ่งเหยิงมีความน่าเชื่อถือ และตารางธุรกรรมสำหรับแดชบอร์ด BI โดยปกติแล้วทีมจะได้รับผลลัพธ์ที่ดีขึ้น เมื่อพวกเขากำหนดเกณฑ์คุณภาพล่วงหน้า รักษาเส้นทางการยกระดับโดยมนุษย์สำหรับกรณี Edge และติดตามทั้งประสิทธิภาพการทำงานที่เพิ่มขึ้นและต้นทุนข้อผิดพลาดเมื่อเวลาผ่านไป

ความเสี่ยงและรั้ว

!

การประกาศเปิดตัวอาจแซงหน้าความเสถียรในขั้นตอนการทำงานจริง

!

การกำหนดราคา API หรือการเปลี่ยนแปลงนโยบายสามารถทำลายสมมติฐานได้ในชั่วข้ามคืน

!

การพึ่งพาผู้ขายรายเดียวจะเพิ่มค่าใช้จ่ายในการล็อคอินและการย้ายข้อมูล

แผนงานการดำเนินงาน

1

ประเมินผู้ให้บริการโดยใช้งานและชุดข้อมูลของคุณเอง

ประเมินผู้ให้บริการโดยใช้งานและชุดข้อมูลของคุณเอง ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

2

ตรวจสอบความเป็นส่วนตัว ความปลอดภัย และข้อกำหนดทางกฎหมายก่อนรวมระบบ

ตรวจสอบความเป็นส่วนตัว ความปลอดภัย และข้อกำหนดทางกฎหมายก่อนรวมระบบ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

3

รักษาแผนสำรองสำหรับรุ่นหรือผู้จำหน่าย

รักษาแผนสำรองสำหรับรุ่นหรือผู้จำหน่าย ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

4

ตรวจสอบบันทึกประจำรุ่นเพื่อให้การเปลี่ยนแปลงแผนงานไม่ทำให้ทีมแปลกใจ

ตรวจสอบบันทึกประจำรุ่นเพื่อให้การเปลี่ยนแปลงแผนงานไม่ทำให้ทีมแปลกใจ ถือว่าแต่ละขั้นตอนเป็นเหมือนประตูหลักฐาน: หากไม่ตรงตามเกณฑ์ ให้หยุดการเปิดตัวชั่วคราว ปิดช่องว่าง จากนั้นจึงขยายการใช้งานเท่านั้น

สำรวจต่อไป