เอกสารหลุดที่ได้ไปรับมาจาก 404 Media เปิดเผยว่า NVIDIA ได้ดูถ่ายวิดีโอทั่วทั้งอินเทอร์เน็ต เช่น วิดีโอภาพยนตร์และเกม เพื่อใช้ในผลิตภัณฑ์ AI ของตน ซึ่งผู้ใช้งานผลิตภัณฑ์และเครื่องมือเหล่านั้นมีความเสี่ยงที่จะกระทำการละเมิดลิขสิทธิ์โดยไม่ตั้งใจ
เหมือนกับผู้ผลิตเครื่องมือ AI อื่น ๆ NVIDIA ต้องการข้อมูลการฝึกสำหรับตัวสร้างข้อความ วิดีโอ และเสียงของตนเพื่อ "เรียนรู้" วิธีการสร้างทรัพยากร การดึงข้อมูลทั่วไปหมายถึง การให้ข้อมูลวิดีโอ ข้อความ และเสียงที่มีอยู่ลงในโมเดลการฝึกโดยไม่ได้รับอนุญาตจากผู้ทำ
เทคนิคนี้หมายถึง YouTube และ Netflix (และบริษัทที่มีสื่อบนแพลตฟอร์มเหล่านั้น) มีวัสดุที่มีลิขสิทธิ์ถูกเก็บไว้โดยไม่ได้ยินตามที่ร้องขอ
หน่วยงานตรวจสอบในสหรัฐฯ และสหภาพยุโรปกำลังกำหนดว่าการดึงข้อมูลเป็นการกระทำที่ละเมิดกฎลิขสิทธิ์หรือไม่ รายงานของ 404 Media ย้ำให้เห็นว่าบริษัทเทคโนโลยีต่าง ๆ เล่นเลือดกับกฎหมายลิขสิทธิ์เมื่อเข้าสู่ AI สร้างและวงการอื่น ๆ เช่นบันเทิงและเกมถูกไล่ไปด้วยการตัดสินใจเหล่านี้
พนักงานที่บริษัทต้องมีความกังวลเกี่ยวกับพฤติกรรมเหล่านี้ในข้อความที่ตรวจสอบโดยสื่อส่งออกผ่านไป แม้กระนั้น NVIDIA ได้บอก 404 Media ว่า คำสั่งการดึงข้อมูลของเรา "เป็นไปตามกฎหมายลิขสิทธิ์ทุกข้อและทุกจุด [...] การใช้ได้ในระดับที่เป็นธรรม ป้องกันความสามารถในการใช้งานงานสร้าง ดังเช่นการฝึกโมเดล"
นักพัฒนาเกมและบริษัทแม่เป็นเจ้าของลิขสิทธิ์และ YouTube เป็น แพลตฟอร์มที่สำคัญ สำหรับวงการนี้ การให้ทาระคืองานของพวกเขาถูกเอาไปโดยไม่ได้คิดดูด้วยความใจดีกับบริษัทที่ซื้อเว็บ นอกจากนี้ยังให้ละมุนโปรดักที่ใหญ่ให้ NVIDIA ขายบริการและผลิตภัณฑ์ของตน
วิศกร AI ของ Nvidia ต้องการวิดีโอการเล่นเกมเพื่อปรับปรุงข้อมูลการฝึกฝีอีก
พนักงานที่พูดกับสื่อต่างหน้าบอกว่าตนและคนอื่น ๆ ถูกบอกให้เก็บวิดีโอความยาวทั้งหมดที่สามารถช่วยในการฝึกโมเดล AI ของบริษัทเทคโนโลยี และว่าวิดีโอของเกม๊คือที่ต้องการมากโดยพิเศษโดยมีการร่วมงานกับ NVIDIA "จีโฟร์นาว" บริการคลาวด์
ในบทสนทนาบางอย่างใน Slack วิจัยผู้เชี่ยวชาญเยิม แฟน โตเด็กบรูว่าความสามารถการสตรีมของบริการในการจับภาพวิดีโอและเก็บข้อมูล ทั้งภาพเกมที่มีคุณภาพสูง เขาพูดว่า ข้อมูลที่เข้าไปมีประโยชน์มากเลย
"เราจะร่วมงานกับ [จีโฟร์นาว] และทีมวิศวกรที่เกี่ยวข้องเพื่อตั้งการจับข้อมูลเกมสด ทำให้ระบบขยายเติบและประมวลผลเพื่อฝึกฝี
เช่นเดียวกับพนักงานที่ช่วยหารือเรื่องนี้แต่ก็ได้รับรู้ด้วยว่าดำเนินการดึงข้อมูลขึ้นเป็น "ผลตัดสินของผู้บริหาร" เพื่ออย่าต้องกังวล ปัญหาที่เกี่ยวกับการกระทำงานที่เปิด (เช่น โต้ตอบของ YouTube) จะเห็นและแก้ไขในอนาคตเมื่อ
ในเรื่องของ 404 สิ้นค้า คำพูดจากเอกสารภายในและช่อง Slack โดยนักวิจัย AI หลาย ๆ คนแสดงถึงความพยายามของ NVIDIA ที่จะหลีกเลี่ยงการเข่าสู่ข่าวเลว เซน VP มิง-ยู หลิว บอกว่า ไม่สามารถมี "ความรู้สึกที่เป็นลบ" ถ้าบริษัทไม่เผยแพรข้อมูลการดาวน์โหลดของตน
"สิ่งที่เรารับทำที่นี่ จะทำให้เกิดสุสาธารณะ," โดยเขาเขียน พร้อมกับเจ้าหน้าที่อื่น ๆ สร้างด้วยตนเองเครื่องดึงข้อมูล YouTube และบัญชี API เพื่อช่วยในขั้นตอน
จนกว่าหน่วยงานสำนัคากำหนดว่าสิ่งที่ทำและไม่ทำละเมิดลิขสิทธิ์ในโลกของ AI การดึงข้อมูลได้นาวิดา และบริษัทอื่น ๆ คือธรรมดาที่จะดำเนินการในโซนสีเทาของกฎหมาย มิต๊ Robert Mahari ของ MIT บอกถึง 404 การพิสูจน์ว่าการดึงข้อมูลนั้นอาจจะ "ยากอย่างแท้จริงทางเทคนิค"
"นโยบายของ บริษัท ที่ดีที่สุดซึ่งเกี่ยวกับเพื่อนสัมพันธ์ คือไม่บอกใครว่าคุณเป็นผู้ฝึกบนอะไร ดังนั้นถ้าคุณไม่บอกใคร มันจะยากที่จะพิสูจน์"
รายงานสมบูรณ์และละเอียดในข้อ 404 เรื่องดึงข้อมูลของ NVIDIA can be read here.