คอลเลกชันอันมหาศาลของ ต้นฉบับชาวยิวในยุคกลาง Cairo Genizah หรือที่รู้จักกันในนาม กำลังประสบกับช่วงเวลาสำคัญด้วยปัญญาประดิษฐ์ หลังจากหลายทศวรรษที่สามารถเข้าถึงข้อมูลได้เพียงส่วนเล็กๆ เท่านั้น การผสมผสานของ การแปลงเป็นดิจิทัลจำนวนมาก และระบบการจดจำข้อความกำลังเริ่มเปิดเผยคลังข้อมูลอันเป็นเอกลักษณ์นี้ให้กับนักวิจัยและประชาชนทั่วไปได้อย่างแท้จริง
สิ่งที่จนกระทั่งเมื่อไม่นานนี้ดูเหมือนเป็นความฝันสำหรับนักภาษาศาสตร์และนักประวัติศาสตร์ นั่นคือความสามารถที่จะ ค้นหา อ่าน และเปรียบเทียบ แนวคิดในการทำให้ชิ้นส่วนภาษาฮีบรูยุคกลางหลายแสนชิ้นสามารถเข้าถึงได้จากคอมพิวเตอร์ทุกเครื่องได้กลายเป็นโครงการที่เป็นรูปธรรมแล้ว ผ่านแพลตฟอร์ม Ktiv ของหอสมุดแห่งชาติอิสราเอลและโปรแกรม MiDRASH ได้มีการถอดความเบื้องต้นของชิ้นส่วนเกือบทั้งหมดของ Genizah และขณะนี้กำลังอยู่ในระหว่างการเตรียมการสำหรับการแก้ไข ปรับปรุง และเผยแพร่แบบเปิด
คลังเอกสารยุคกลางขนาดยักษ์ที่ในที่สุดก็สามารถอ่านได้
การโทร ไคโร เจนิซาห์ ถือเป็นชุดเอกสารของชาวยิวยุคกลางที่ใหญ่และหลากหลายที่สุดในโลก เป็นเวลาเกือบพันปีที่ชุมชนชาวยิวในเมืองหลวงของอียิปต์ได้เก็บรักษาเอกสารทางศาสนา กฎหมาย การค้า และวรรณกรรมไว้ที่นั่น ซึ่งเนื่องด้วยประเพณีที่จะไม่ทำลายงานเขียนในนามของพระเจ้า จึงไม่สามารถทิ้งได้ง่ายๆ ผลที่ได้คือชุดเอกสารที่คาดว่าในปัจจุบันน่าจะมีอยู่ประมาณ [จำนวนที่ขาดหายไป] 400.000 ชิ้นซึ่งได้รับการอนุรักษ์ไว้เป็นอย่างดีเนื่องมาจากสภาพอากาศแห้งแล้งของอียิปต์
แม้จะมีความสำคัญ แต่คอลเล็กชั่นนี้ได้รับการใช้เพียงบางส่วนเท่านั้น จนกระทั่งเมื่อไม่นานมานี้ มีการจัดทำรายการวัสดุไม่ถึงหนึ่งในสาม และแทบจะไม่มีเลย 10-15% มีบันทึกผลการเรียน อ่านได้ ส่วนที่เหลือแม้จะถูกแปลงเป็นดิจิทัลและเข้าถึงได้ในรูปแบบภาพ แต่ก็ยังยากที่จะใช้งานอย่างเป็นระบบ เนื่องจากการอ่านต้นฉบับภาษาฮีบรูแบบเขียนหวัดหรือแบบกึ่งเขียนหวัดในยุคกลางนั้นต้องใช้ประสบการณ์และเวลาอย่างมาก
ระยะใหม่ของโครงการนี้เปลี่ยนแปลงภูมิทัศน์นี้ ทีมงานนานาชาติได้พัฒนาบนโครงสร้างพื้นฐานของ Ktiv ซึ่งเป็นฐานข้อมูลดิจิทัลของต้นฉบับภาษาฮีบรูที่รู้จักทั้งหมด ซึ่งบริหารจัดการโดยหอสมุดแห่งชาติอิสราเอล ระบบถอดเสียงอัตโนมัติ มีความสามารถในการแปลงชิ้นส่วนเหล่านั้นเป็น ข้อความดิจิทัลที่ค้นหาได้อย่างน้อยก็ในเวอร์ชันแรกที่จะได้รับการปรับปรุงต่อไป
ตามข้อมูลที่เผยแพร่โดยสถาบัน ได้มีการสร้างสำเนาเบื้องต้นสำหรับองค์ประกอบเกือบทั้งหมดของ Cairo Genizah แล้ว นอกจากนี้ ต้นฉบับภาษาฮีบรูเพิ่มเติมอีกหลายพันฉบับ มาจากคอลเล็กชันยุคกลางอื่นๆ สำหรับสาขาที่ดำเนินการทีละชิ้นมานานกว่าศตวรรษ ความก้าวหน้าในด้านขนาดนั้นยากที่จะกล่าวเกินจริง
MiDRASH: AI และมนุษยศาสตร์ในการให้บริการต้นฉบับภาษาฮีบรู
ศูนย์กลางของการเปลี่ยนแปลงนี้คือ MiDRASH (การโยกย้ายประเพณีข้อความและการเขียนผ่านการวิเคราะห์การคำนวณขนาดใหญ่ของต้นฉบับยุคกลางในอักษรฮีบรู) โครงการสหวิทยาการ ซึ่งรวบรวมผู้เชี่ยวชาญจากอิสราเอลและยุโรปเข้าด้วยกัน โครงการริเริ่มนี้เริ่มต้นขึ้นในปี พ.ศ. 2023 ด้วยทุน ERC Synergy มูลค่า 10 ล้านยูโร ที่สภาวิจัยยุโรปมอบให้เป็นระยะเวลาหกปี ซึ่งถือเป็นโครงการแรกในประเภทนี้ที่มุ่งเน้นการศึกษาด้านชาวยิวโดยเฉพาะ
เป้าหมายของ MiDRASH ไม่ได้จำกัดอยู่แค่การถอดความข้อความเก่าๆ เท่านั้น ดังที่ศาสตราจารย์ Daniel Stökl Ben Ezra หนึ่งในผู้อำนวยการได้อธิบายไว้ว่า ความทะเยอทะยานนี้ การสร้างวัฒนธรรมวรรณกรรมยิวยุคกลางของหนังสือขึ้นมาใหม่การติดตามว่าผู้เขียนคนใดอ้างอิงผู้อื่น คำอธิบายของพวกแรบไบ (มิดราช) เผยแพร่ระหว่างชุมชนมุสลิมและคริสเตียนอย่างไร หรือประเพณีการเขียนมีการเปลี่ยนแปลงไปอย่างไรในแต่ละศตวรรษ
เพื่อทำให้สิ่งนี้เป็นไปได้ ทีมงานจึงเลือกที่จะทำงานภายในแพลตฟอร์มโอเพ่นซอร์ส สคริปทอเรียมระบบนี้ออกแบบมาเพื่อการถอดความต้นฉบับและจารึกโดยอัตโนมัติ โดยพัฒนาแบบจำลองเฉพาะสำหรับอักษรฮีบรูยุคกลาง ซึ่งได้รับการฝึกฝนจากสำเนาหลายพันฉบับที่ผู้เชี่ยวชาญรวบรวมด้วยมือมาเป็นเวลาหลายปี ผลลัพธ์ที่ได้คือระบบที่สามารถแบ่งบรรทัดและคำในภาพโบราณ และแปลงเป็นข้อความที่แก้ไขได้
ผู้รับผิดชอบเน้นย้ำว่า แม้ว่าการถอดความในเบื้องต้นจะมีข้อผิดพลาด ซึ่งหลีกเลี่ยงไม่ได้กับลายมือที่ไม่สม่ำเสมอ ชิ้นส่วนที่แตกหัก หรือหมึกที่ซีดจาง อรรถประโยชน์ในทางปฏิบัติ มีขนาดใหญ่มาก: มันช่วยให้คุณค้นหาข้อความในพระคัมภีร์ ส่วนต่างๆ ของคัมภีร์ทัลมุด จดหมาย สัญญา หรือข้อความพิธีกรรมได้อย่างรวดเร็ว ซึ่งเป็นสิ่งที่ก่อนหน้านี้ต้องให้ผู้ป่วยอ่านทีละหน้า
จากไมโครฟิล์มสู่แพลตฟอร์มเปิด: เส้นทางอันยาวไกล

การปฏิวัติดิจิทัลในปัจจุบันของ ต้นฉบับชาวยิวในยุคกลาง มันไม่ได้ผุดขึ้นมาจากที่ไหนเลย หอสมุดแห่งชาติอิสราเอลเองก็จำได้ว่าในช่วงต้นปี ค.ศ. 1950 ภายใต้แรงผลักดันของนายกรัฐมนตรีเดวิด เบนกูเรียน สถาบันไมโครฟิล์มต้นฉบับภาษาฮีบรูจึงได้ก่อตั้งขึ้น เนื่องจากการย้ายคอลเล็กชันทั้งหมดไปยังเยรูซาเล็มนั้นไม่สามารถทำได้จริง วิธีแก้ปัญหาคือการถ่ายภาพคอลเล็กชันต่างๆ ลงบนไมโครฟิล์มให้ได้มากที่สุดเท่าที่จะเป็นไปได้ เพื่อวางรากฐานสำหรับคลังภาพขนาดใหญ่
ในช่วงหลายทศวรรษที่ผ่านมา บางส่วนได้รับการรวมเข้าไว้ 1.500 คอลเลกชัน จากแหล่งข้อมูลที่หลากหลาย และตั้งแต่ปี พ.ศ. 2006 เป็นต้นมา เอกสารจาก Cairo Genizah ได้ถูกรวมเข้ากับโครงการ Friedberg Geniza ซึ่งช่วยเร่งกระบวนการแปลงข้อมูลเป็นดิจิทัลอย่างเป็นระบบ ในปี พ.ศ. 2014 หอสมุดแห่งชาติได้เริ่มแปลงคลังภาพถ่ายให้เป็นคลังข้อมูลดิจิทัลที่สามารถเข้าถึงได้ทางออนไลน์ ซึ่งทำให้ผู้ใช้สามารถค้นหาและดูต้นฉบับภาษาฮีบรูหลายพันฉบับทางออนไลน์ได้เป็นครั้งแรก
MiDRASH สร้างขึ้นโดยตรงจากงานก่อนหน้านั้น โดยใช้โครงสร้างพื้นฐานของ Ktiv ซึ่งได้รวบรวมต้นฉบับภาษาฮีบรูที่รู้จักส่วนใหญ่ไว้ในฐานข้อมูลเดียว ทีมงานจึงใช้อัลกอริทึมของ การเรียนรู้ของเครื่อง เพื่อระบุตัวอักษร คำ และโครงสร้างข้อความ การผสมผสานระหว่างคลังข้อมูลส่วนกลางและเครื่องมือคำนวณขั้นสูงนี้ ช่วยหลีกเลี่ยงปัญหาสำคัญประการหนึ่งที่พบในสาขาอื่นๆ เช่น การศึกษาต้นฉบับภาษาอาหรับ ซึ่งเนื้อหามีการกระจายตัวมากกว่ามาก
ดร. ซาฟรา ซิว หัวหน้าโครงการวิจัยที่หอสมุดแห่งชาติ ให้คำจำกัดความ MiDRASH ว่าเป็น จุดสะท้อน สำหรับใครก็ตามที่ทำงานกับต้นฉบับภาษาฮีบรูยุคกลาง ในมุมมองของเขา การก้าวกระโดดไปข้างหน้าไม่เพียงแต่ทำให้เข้าถึงได้ง่ายขึ้นเท่านั้น แต่ยังรวมถึงการเปิดโอกาสให้มีการวิเคราะห์ประเภทต่างๆ ที่ด้วยขนาดที่ใหญ่โต จึงเป็นไปไม่ได้เมื่อต้องอ่านเอกสารแต่ละฉบับด้วยมือและแทบจะอ่านเพียงลำพัง
การประชุมเชิงปฏิบัติการความร่วมมือระหว่างประเทศและการถอดเสียง
โครงการ MiDRASH ดำเนินงานในฐานะกลุ่มความร่วมมือระหว่างประเทศที่ผสานรวมความเชี่ยวชาญด้านเทคนิคและมนุษยศาสตร์ นักวิจัยหลักประกอบด้วยศาสตราจารย์นาชุม เดอร์โชวิตซ์ (มหาวิทยาลัยเทลอาวีฟ), ดร. อาวี ชมิดแมน (มหาวิทยาลัยบาร์-อิลัน) และศาสตราจารย์จูดิธ โอลโซวี-ชลังเงอร์ (มหาวิทยาลัยอ็อกซ์ฟอร์ด) พร้อมด้วยทีมงานจากมหาวิทยาลัยไฮฟา หอสมุดแห่งชาติอิสราเอล และ โครงการเจนิซา พรินซ์ตันกำกับโดย ศาสตราจารย์ มาริน่า รัสโตว์
โครงการนี้ไม่ได้จำกัดอยู่แค่การทำงานในห้องปฏิบัติการเท่านั้น แต่ยังเปิดช่องทางให้สาธารณชนมีส่วนร่วมอีกด้วย ระหว่างวันที่ 24 ถึง 27 พฤศจิกายน ได้มีการจัดงานขนาดใหญ่ขึ้นในกรุงเยรูซาเล็ม พร้อมการถ่ายทอดสดทางออนไลน์ กิจกรรมถอดเสียงมาราธอน มุ่งเน้นไปที่ต้นฉบับภาษาฮีบรูยุคกลางและสมัยใหม่ในรูปแบบตัวเขียนแบบหวัดและแบบกึ่งหวัด ในช่วงนี้ อาสาสมัครที่ผ่านการฝึกอบรมจะตรวจสอบและแก้ไขการถอดเสียงที่สร้างโดย AI
แนวทางการทำงานร่วมกันนี้มีวัตถุประสงค์สองประการ ประการหนึ่งคือ เพื่อปรับปรุง คุณภาพและความแม่นยำ ในด้านหนึ่ง ตัวข้อความเองจะถูกวิเคราะห์ ในอีกแง่หนึ่ง การแก้ไขโดยมนุษย์จะถูกใช้เพื่อฝึกฝนแบบจำลองการรู้จำเพิ่มเติม ซึ่งจะทำให้จำนวนข้อผิดพลาดลดลงในอนาคต และแม้แต่ลายมือที่มีปัญหาที่สุดก็จะถูกรู้จำได้ดีขึ้น แนวคิดคือระบบจะค่อยๆ เรียนรู้จากประสบการณ์ที่สั่งสมมาของนักภาษาศาสตร์ นักบรรพชีวินวิทยา และผู้เชี่ยวชาญด้านภาษาฮีบรู
หอสมุดแห่งชาติของอิสราเอลระบุว่าสำเนาฉบับสมบูรณ์ของ Cairo Genizah จะถูกรวมไว้ใน Ktiv และเผยแพร่ให้สาธารณชนเข้าถึงพร้อมกับ ภาพต้นฉบับ ของต้นฉบับแต่ละฉบับ ด้วยวิธีนี้ นักวิจัยทุกคนสามารถเปรียบเทียบสิ่งที่เครื่องมองเห็นกับสิ่งที่มองเห็นในสำเนาได้ เพื่อรักษาความโปร่งใส และอนุญาตให้มีการอ่านค่าใหม่หรือการแก้ไขในอนาคต
คำถามใหม่สำหรับเรื่องเก่า
เมื่อขั้นตอนการถอดความจำนวนมากเสร็จสมบูรณ์ ผู้นำโครงการมุ่งหวังที่จะก้าวไปไกลกว่าการเข้าถึงเพียงอย่างเดียว แผนดังกล่าวคือเพื่อให้สามารถดำเนินการได้ การวิเคราะห์ทางภาษาและข้อความ ในระดับใหญ่: การตรวจจับโซ่ของคำพูด การระบุการอธิบายความ การสร้างเส้นทางของความคิดใหม่ หรือการติดตามวิวัฒนาการของรูปแบบทางเทววิทยาและกฎหมายบางประการตลอดหลายศตวรรษ
ในทางปฏิบัติ นั่นหมายความว่าต้นฉบับของชาวยิวในยุคกลางจะไม่ถูกแยกไว้เพียงชิ้นเดียวบนชั้นวางหรือในคลังข้อมูลดิจิทัลอีกต่อไป และเริ่มทำงานเป็น เครือข่ายข้อความที่เชื่อมโยงกันAI ช่วยค้นหารูปแบบ ความคล้ายคลึง และการเกิดซ้ำที่อาจสูญหายไปในการอ่านแบบรายบุคคล ในขณะที่ผู้เชี่ยวชาญจะให้บริบททางประวัติศาสตร์และภาษาศาสตร์เพื่อตีความว่าการเชื่อมโยงเหล่านั้นหมายถึงอะไร
ความสนใจเฉพาะด้านบางประการของทีม ได้แก่ การติดตามเส้นทางของมิดราชิม เรื่องเล่าและคำอธิบายของนักบวชรับไบที่แพร่หลายในชุมชนชาวยิวในเขตมุสลิมและคริสเตียน ความสามารถในการทำแผนที่ว่าข้อความเดียวกันในเวอร์ชันต่างๆ แตกต่างกันอย่างไรตามภูมิภาคหรือยุคสมัย จะช่วยเปิดประตูสู่ความเข้าใจที่ดีขึ้นเกี่ยวกับ... การติดต่อทางวัฒนธรรมความขัดแย้งภายในและการตีความหลักคำสอนใหม่ที่เกิดขึ้นในยุคกลาง
นักวิจัยยืนยันว่าการถอดความด้วยเครื่อง แม้จะมีข้อบกพร่องอยู่บ้าง แต่ก็เป็นเพียงจุดเริ่มต้นเท่านั้น การพัฒนาเพิ่มเติมจะเกิดขึ้นได้บนรากฐานนี้ การศึกษาเปรียบเทียบ คำศัพท์ โครงสร้างประโยค หรือรูปแบบการเขียน แต่ยังรวมถึงการวิเคราะห์ทางสังคมและเศรษฐกิจที่อิงจากจดหมาย สัญญาทางการค้า หรือเอกสารทางกฎหมาย ซึ่งจนถึงขณะนี้แทบไม่มีการสำรวจอย่างเป็นระบบเลย
ผลกระทบระดับโลกและโอกาสสำหรับยุโรป
แม้ว่าโครงการนี้จะเริ่มต้นและประสานงานจากอิสราเอล แต่ผลกระทบได้แผ่ขยายไปยังชุมชนวิชาการยุโรปอย่างเต็มที่ เงินช่วยเหลือ ERC Synergy ที่ให้ทุนแก่ MiDRASH เป็นส่วนหนึ่งของนโยบายของสหภาพยุโรป สนับสนุนโครงสร้างพื้นฐานดิจิทัล สำหรับสาขามนุษยศาสตร์ และนักวิจัยหลักหลายคนทำงานในมหาวิทยาลัยในฝรั่งเศส สหราชอาณาจักร และประเทศอื่นๆ
สำหรับผู้เชี่ยวชาญชาวยุโรปด้านประวัติศาสตร์เมดิเตอร์เรเนียน ศาสนายูดาห์ยุคกลาง หรือศาสนาอิสลามคลาสสิก การมีฐานข้อมูลที่ครอบคลุมและค้นหาได้เช่นนี้ถือเป็นการเปลี่ยนแปลงครั้งสำคัญ จนถึงปัจจุบัน การสร้างชีวิตความเป็นอยู่ของชุมชนชาวยิวที่อาศัยอยู่ในดินแดนของชาวมุสลิม ซึ่งเป็นที่ที่ชาวมุสลิมอาศัยอยู่นั้น ถือเป็นภารกิจที่ซับซ้อน 90% ของประชากรชาวยิวในยุคกลาง— จำเป็นต้องเดินทางและจำกัดการเข้าถึงคลังเอกสาร เมื่อ Ktiv ค่อยๆ เปิดขึ้น เอกสารส่วนใหญ่ก็สามารถเข้าถึงได้จากวิทยาเขตหรือศูนย์วิจัยใดๆ
ยิ่งไปกว่านั้น วิธีการที่พัฒนาขึ้นใน MiDRASH นำเสนอแบบจำลองที่สามารถขยายไปยังคอลเล็กชันเอกสารสารคดีอื่นๆ ของยุโรปได้ ตั้งแต่คอลเล็กชันต้นฉบับภาษาละตินไปจนถึงเอกสารสำคัญทางราชการหรือเอกสารของศาสนจักร แนวคิดในการผสานรวมการแปลงเป็นดิจิทัล การถอดความอัตโนมัติ และความร่วมมือสาธารณะกำลังเกิดขึ้น เส้นทางที่สามารถทำซ้ำได้ เพื่ออนุรักษ์และศึกษาแหล่งมรดกอื่นๆ ที่มีความเสี่ยงต่อการเสื่อมโทรม
หัวหน้าโครงการมั่นใจว่าการตีพิมพ์ผลการวิจัยในวารสารวิทยาศาสตร์ที่ผ่านการตรวจสอบโดยผู้ทรงคุณวุฒิ จะช่วยเสริมสร้างแนวทางนี้ให้สอดคล้องกับมาตรฐานทางวิชาการ ขณะเดียวกัน การเข้าถึงแบบเปิด ภาพและคำบรรยายเหล่านี้มีแนวโน้มที่จะช่วยอำนวยความสะดวกในการทำงานร่วมกันระหว่างมหาวิทยาลัยในอิสราเอล ยุโรป และอเมริกา โดยสร้างเครือข่ายการวิจัยที่กว้างขึ้นเกี่ยวกับต้นฉบับของชาวยิวในยุคกลาง
ความก้าวหน้าของปัญญาประดิษฐ์ที่นำมาใช้กับ Cairo Genizah และต้นฉบับภาษาฮีบรูอื่นๆ ทำให้เอกสารที่แทบจะจัดการไม่ได้กลายเป็นเอกสาร แหล่งกำเนิดที่มีชีวิตและขยายตัวสิ่งที่เคยต้องใช้เวลาหลายปีในการอ่านอย่างละเอียดถี่ถ้วน ขณะนี้สามารถสืบค้นได้ภายในไม่กี่วินาที โดยไม่ลดความสำคัญของงานผู้เชี่ยวชาญ แต่กลับตรงกันข้าม เพราะช่วยให้เรามีเวลาในการถามคำถามที่ซับซ้อนมากขึ้นและตีความมรดกอย่างลึกซึ้ง ซึ่งค่อยๆ กลายเป็นสมบัติล้ำค่าที่ซ่อนเร้นและกลายมาเป็นทรัพยากรร่วมกันในระดับโลก
