الوافد الجديد إلى تصنيف بيانات الذكاء الاصطناعي ، تتطلع Encord إلى ركوب موجة المد الصاعدة - TechCrunch

الوافد الجديد إلى تصنيف بيانات الذكاء الاصطناعي ، تتطلع Encord إلى ركوب موجة المد الصاعدة – TechCrunch


قبل أن تتمكن حتى من التفكير في بناء خوارزمية لقراءة الأشعة السينية أو تفسير لطاخة الدم ، يجب أن تعرف الآلة ما هو موجود في الصورة. لا يمكن تحقيق كل وعود الذكاء الاصطناعي في مجال الرعاية الصحية – وهي منطقة اجتذبت 11.3 مليار دولار من الاستثمارات الخاصة في عام 2021 ، بدون مجموعات البيانات المصنفة بعناية والتي تخبر الآلات بما تبحث عنه بالضبط.

أصبح إنشاء مجموعات البيانات المصنفة صناعة بحد ذاتها ، حيث تفتخر الشركات في شمال حالة يونيكورن. اليوم ، تتطلع Encord ، وهي شركة ناشئة صغيرة من Y Combinator للتو ، لأخذ جزء من الحدث. بهدف إنشاء مجموعات بيانات مصنفة لمشاريع رؤية الكمبيوتر ، أطلقت Encord نسختها التجريبية الخاصة من برنامج وضع العلامات بمساعدة الذكاء الاصطناعي يسمى CordVision. يأتي الإطلاق بعد برامج تجريبية في ستانفورد ميديسين ، ميموريال سلون كيترينج وكينغز كوليدج لندن. تم اختباره أيضًا بواسطة Kheiron Medical و Viz AI.

طورت Encord مجموعة من الأدوات التي تسمح لأخصائيي الأشعة بتكبير صور DICOM ، وهو تنسيق يُستخدم عالميًا لنقل الصور الطبية. وبدلاً من أن يجلس اختصاصي الأشعة ويقوم بتعليق صورة كاملة ، فقد تم تصميم البرنامج للتأكد من أن الأجزاء الرئيسية فقط من الصورة قد تم تصنيفها.

تأسس Encord في عام 2020 من قبل إريك لانداو ، الذي يتمتع بخلفية في الفيزياء التطبيقية ، وأولريك ستيج هانسن. كان هانسن يعمل في مشروع أطروحة الماجستير في إمبريال كوليدج لندن ، والذي تمحور حول تصور مجموعات كبيرة من بيانات الصور الطبية. كان هانسن هو الذي لاحظ في البداية كم كانت تستغرق وقتًا طويلاً في تنظيم مجموعات البيانات المصنفة.

تعتبر مجموعات البيانات المصنفة مهمة لأنها توفر “حقائق أساسية” يمكن للخوارزميات التعلم منها. هناك بعض الطرق لبناء الذكاء الاصطناعي التي لا تتطلب مجموعات بيانات مصنفة ، ولكن الذكاء الاصطناعي (خاصة في مجال الرعاية الصحية) يعتمد بشكل كبير على التعلم الخاضع للإشراف ، الأمر الذي يتطلبها.

لإنشاء مجموعة بيانات معنونة ، سيخوض أكثر من طبيب حرفيًا الصور واحدًا تلو الآخر ، ويرسم مضلعات حول الميزات ذات الصلة. في أوقات أخرى ، يمكن القيام بذلك باستخدام أدوات مفتوحة المصدر أو أجهزة استشعار. لكن في كلتا الحالتين ، تشير الأدبيات العلمية إلى أن هذه الخطوة تمثل عقبة رئيسية في عالم الذكاء الاصطناعي للرعاية الصحية ، خاصةً عندما يتعلق الأمر بالأشعة ، وهو أحد المجالات التي يُتوقع أن يقوم فيها الذكاء الاصطناعي بخطوات كبيرة ، لكنه فشل إلى حد كبير في تقديم أي تحولات نموذجية كبيرة .

“أعلم أن هناك الكثير من الشكوك [of AI in the medical world]. قال لانداو لموقع TechCrunch: “نعتقد أن التقدم بطيء حقًا”. “نعتقد أن الانتقال إلى نهج حيث تفكر حقًا في بيانات التدريب في المقام الأول سيساعد في تسريع تقدم هذه النماذج.”

كما لاحظ مؤلفو ورقة بحثية في عام 2021 في Frontiers in Radiology ، فإن الأمر يتطلب من القائمين على الملصقات البشرية ما يصل إلى 24 عامًا من العمل لتسمية مجموعة بيانات تضم حوالي 100000 صورة. يشير بيان موقف آخر لعام 2021 صادر عن الرابطة الأوروبية للطب النووي (EANM) والجمعية الأوروبية لتصوير القلب والأوعية الدموية (EACVI) إلى أن “الحصول على البيانات المصنفة في تحليل الصور الطبية يمكن أن يكون مستهلكًا للوقت ومكلفًا.” لكنه يشير أيضًا إلى ظهور تقنيات جديدة يمكنها تسريع الأمور.

اعتمادات الصورة: منصة وضع العلامات Encord DICOM

ومن المفارقات أن هذه التقنيات الجديدة هي نفسها نسخ من الذكاء الاصطناعي. أظهرت ورقة 2021 Frontiers in Radiology ، على سبيل المثال ، أن تطبيق نهج التعلم النشط ، يمكن أن تكون العملية أسرع بنسبة 87 بالمائة. سيستغرق الأمر 3.2 سنة عمل فقط ، مقابل 24 عامًا ، للعودة إلى مثال 100000 صورة.

CordVision ، في الأساس ، هو نسخة من عملية التعلم النشط تسمى النمذجة الدقيقة. تعمل هذه التقنية ، على نطاق واسع ، من خلال جعل الفريق يقوم بتسمية عينة صغيرة تمثيلية من الصور. ثم يتم تدريب ذكاء اصطناعي محدد على تلك الصور ثم يتم تطبيقه على المجموعة الأوسع ، والتي تسميها منظمة العفو الدولية. بعد ذلك ، يمكن للمراجعين البشريين التحقق من عمل الذكاء الاصطناعي بدلاً من عمل العلامات من البداية.

قام Landu بتقسيمها جيدًا في منشور مدونة على صفحته المتوسطة: تخيل إنشاء خوارزمية مصممة لاكتشاف The Batman في أفلام Batman. سيتم تدريب نموذجك الصغير على خمس صور تصور باتمان كريستيان بيل. قد يتم تدريب شخص آخر على التعرف على باتمان بن أفليك ، وما إلى ذلك. معًا ، تقوم ببناء خوارزمية أكبر باستخدام كل جزء صغير ، ثم تقوم بتحريرها في السلسلة ككل.

قال “هذا شيء وجدنا أنه يعمل بشكل جيد ، لأنه يمكنك أن تفلت من فعل عدد قليل جدًا جدًا من التعليقات التوضيحية وتمهيد العملية”.

نشر كورد بيانات لدعم ادعاءات لانداو. على سبيل المثال ، إحدى الدراسات التي أجريت بالاشتراك مع Kings College London قارنت CordVision ببرنامج وضع العلامات الذي طورته Intel. تناولت خمسة مُلصِقات 25744 إطار فيديو للتنظير الداخلي. أخصائيو الجهاز الهضمي الذين استخدموا كوردفيجن تحركوا أسرع بمقدار 6.4 مرة.

كانت الطريقة فعالة أيضًا عند تطبيقها على مجموعة اختبار من 15،521 COVID-19 X-rays. راجع الأشخاص 5 في المائة فقط من إجمالي الصور ، وكانت الدقة النهائية لنموذج وضع العلامات بالذكاء الاصطناعي 93.7 في المائة.

ومع ذلك ، فإن Cord ليست الشركة الوحيدة التي حددت هذا الاختناق وسعت إلى استخدام الذكاء الاصطناعي لتسهيل عملية وضع العلامات. تقوم الشركات الموجودة في هذا المجال بالفعل بالإبلاغ عن تقييمات كبيرة. على سبيل المثال ، وصل Scale AI إلى تقييم 7.3 مليار دولار في عام 2021 ووصل Snorkel إلى وضع وحيد القرن.

أكبر منافس للشركة ، حسب قبول لانداو ، هو على الأرجح Labelbox. تفاخر Labelbox بحوالي 50 عميلًا عندما غطتهم TechCrunch في المرحلة الأولى. في كانون الثاني (يناير) ، أغلقت الشركة سلسلة D بقيمة 110 ملايين دولار مما جعلها على مسافة قريبة من علامة 1 مليار دولار.

لا تزال CordVision سمكة صغيرة جدًا. لكنها عالقة في البيانات التي تصف موجة المد والجزر. يقول لانداو إن الشركة تطارد الأماكن التي لا تزال تستخدم أدوات مفتوحة المصدر أو داخلية للقيام بتصنيف البيانات الخاصة بها.

حتى الآن ، جمعت الشركة 17.1 دولارًا أمريكيًا من التمويل الأولي والمجموعة الأولى منذ تخرجها من Y Combinator. نمت الشركة من مؤسسيها إلى فريق مكون من 20 شخصًا. يقول لانداو إن Encord لا يحرق الأموال. لا تسعى الشركة لجمع الأموال في الوقت الحالي ، وتعتقد أن الزيادات الحالية ستكون كافية للحصول على هذه الأداة من خلال عملية التسويق.



Source link

Leave a Comment

Your email address will not be published.