يحول برنامج AI المسمى DALL-E كلماتك إلى صور

برنامج DALL-E Mini من مجموعة من مطوري البرامج مفتوحة المصدر ليس مثاليًا ، ولكن في بعض الأحيان يأتي بشكل فعال مع الصور التي تتطابق مع أوصاف نصوص الأشخاص.

لقطة شاشة

عند التمرير عبر موجزات الوسائط الاجتماعية مؤخرًا ، هناك فرصة جيدة لأن تكون قد لاحظت رسومًا توضيحية مصحوبة بتعليقات. إنهم مشهورون الآن.

من المحتمل أن تكون الصور التي تراها ممكنة بفضل برنامج تحويل النص إلى صورة يسمى DALL-E. قبل نشر الرسوم التوضيحية ، يقوم الأشخاص بإدخال الكلمات ، والتي يتم تحويلها بعد ذلك إلى صور من خلال نماذج الذكاء الاصطناعي.

على سبيل المثال ، نشر مستخدم Twitter تغريدة مع النص ، “أكون أو لا أكون ، حاخام يحمل الأفوكادو ، منحوتة من الرخام.” تُظهر الصورة المرفقة ، وهي أنيقة للغاية ، تمثالًا رخاميًا لرجل ملتح يرتدي رداءًا وقبعة بولر ، ممسكًا بأفوكادو.

تأتي نماذج الذكاء الاصطناعي من برنامج Imagen الخاص بـ Google وكذلك OpenAI ، وهي شركة ناشئة مدعومة من Microsoft قامت بتطوير DALL-E 2. على موقعها على الويب ، تطلق OpenAI على DALL-E 2 “نظام ذكاء اصطناعي جديد يمكنه إنشاء صور وفنون واقعية من وصفًا بلغة طبيعية “.

لكن معظم ما يحدث في هذه المنطقة يأتي من مجموعة صغيرة نسبيًا من الأشخاص يشاركون صورهم ، وفي بعض الحالات ، يولدون مشاركة عالية. هذا لأن Google و OpenAI لم تجعل التكنولوجيا متاحة على نطاق واسع للجمهور.

العديد من مستخدمي OpenAI الأوائل هم أصدقاء وأقارب الموظفين. إذا كنت تريد الوصول ، فيجب عليك الانضمام إلى قائمة الانتظار وتحديد ما إذا كنت فنانًا محترفًا أو مطورًا أو باحثًا أكاديميًا أو صحفيًا أو مبتكرًا عبر الإنترنت.

كتبت جوان جانج من شركة OpenAI في صفحة المساعدة على موقع الشركة: “نحن نعمل بجد لتسريع الوصول ، ولكن من المحتمل أن يستغرق الأمر بعض الوقت حتى نصل إلى الجميع ؛ اعتبارًا من 15 يونيو ، قمنا بدعوة 10.217 شخصًا لتجربة DALL-E”. موقع الكتروني.

نظام واحد متاح للجمهور هو DALL-E Mini. إنه يعتمد على كود مفتوح المصدر من فريق منظم بشكل فضفاض من المطورين وغالبًا ما يكون مثقلًا بالطلب. يمكن الترحيب بمحاولات استخدامه من خلال مربع حوار يقول “حركة مرور كثيرة جدًا ، يرجى المحاولة مرة أخرى.”

إنها تذكرنا قليلاً بخدمة Gmail من Google ، والتي جذبت الأشخاص بمساحة تخزين غير محدودة للبريد الإلكتروني في عام 2004. كان بإمكان المستخدمين الأوائل الدخول عن طريق الدعوة فقط في البداية ، تاركين الملايين في الانتظار. يعد Gmail الآن أحد أشهر خدمات البريد الإلكتروني في العالم.

قد لا يكون إنشاء الصور من النص في كل مكان مثل البريد الإلكتروني. لكن التكنولوجيا لها بالتأكيد لحظة ، وجزء من جاذبيتها يكمن في الحصرية.

يتطلب مختبر الأبحاث الخاص Midjourney من الأشخاص ملء نموذج إذا كانوا يرغبون في تجربة روبوت إنشاء الصور من قناة على تطبيق الدردشة Discord. فقط مجموعة مختارة من الأشخاص يستخدمون Imagen وينشرون الصور منه.

تعد خدمات تحويل النص إلى صورة معقدة ، حيث تحدد أهم أجزاء مطالبات المستخدم ثم تخمين أفضل طريقة لتوضيح هذه المصطلحات. دربت Google نموذج Imagen الخاص بها بمئات من شرائح الذكاء الاصطناعي الداخلية الخاصة بها على 460 مليون زوج من الصور والنصوص الداخلية ، بالإضافة إلى البيانات الخارجية.

الواجهات بسيطة. يوجد بشكل عام مربع نص وزر لبدء عملية الإنشاء ومنطقة أدناه لعرض الصور. للإشارة إلى المصدر ، يضيف كل من Google و OpenAI علامات مائية في الزاوية اليمنى السفلية للصور من DALL-E 2 و Imagen.

الشركات والمجموعات التي تبني البرنامج قلقة بشكل مبرر بشأن اقتحام الجميع للبوابات في وقت واحد. قد يكون التعامل مع طلبات الويب لتنفيذ الاستعلامات باستخدام نماذج الذكاء الاصطناعي هذه مكلفًا. والأهم من ذلك ، أن النماذج ليست مثالية ولا تؤدي دائمًا إلى نتائج تمثل العالم بدقة.

قام المهندسون بتدريب النماذج على مجموعات واسعة من الكلمات والصور من الويب ، بما في ذلك الصور المنشورة على موقع Flickr.

تدرك شركة OpenAI ، التي يقع مقرها في سان فرانسيسكو ، إمكانية حدوث ضرر من أحد النماذج التي تعلمت كيفية صنع الصور عن طريق البحث في الويب بشكل أساسي. لمحاولة معالجة المخاطر ، قام الموظفون بإزالة المحتوى العنيف من بيانات التدريب ، وهناك عوامل تصفية تمنع DALL-E 2 من إنشاء الصور إذا أرسل المستخدمون مطالبات قد تنتهك سياسة الشركة ضد العري أو العنف أو المؤامرات أو المحتوى السياسي.

قال برافولا داريوال ، عالم أبحاث OpenAI: “هناك عملية مستمرة لتحسين أمان هذه الأنظمة”.

التحيزات في النتائج مهمة أيضًا لفهمها وتمثل مصدر قلق أوسع للذكاء الاصطناعي. أوضح بوريس دايما ، وهو مطور من تكساس ، وآخرون ممن عملوا في DALL-E Mini المشكلة في شرح برامجهم.

وكتبوا أن “المهن التي تظهر مستويات أعلى من التعليم (مثل المهندسين أو الأطباء أو العلماء) أو العمل البدني العالي (مثل صناعة البناء) يمثلها في الغالب الرجال البيض”. “على النقيض من ذلك ، فإن الممرضات أو السكرتيرات أو المساعدين هن في العادة من النساء ، وغالبًا ما يكونون من البيض أيضًا.”

وصفت Google أوجه قصور مماثلة في نموذج Imagen الخاص بها في ورقة أكاديمية.

على الرغم من المخاطر ، فإن OpenAI متحمس لأنواع الأشياء التي يمكن للتكنولوجيا تمكينها. قال داريوال إنه يمكن أن يفتح فرصًا إبداعية للأفراد ويمكن أن يساعد في التطبيقات التجارية للتصميم الداخلي أو تزيين المواقع الإلكترونية.

يجب أن تستمر النتائج في التحسن بمرور الوقت. DALL-E 2 ، الذي تم تقديمه في أبريل ، يبث صورًا أكثر واقعية من الإصدار الأولي الذي أعلنته شركة OpenAI العام الماضي ، وأصبح نموذج إنشاء النصوص للشركة ، GPT ، أكثر تعقيدًا مع كل جيل.

وقال داريوال “يمكنك توقع حدوث ذلك في كثير من هذه الأنظمة”.

راقب: بريس السابق. أوباما يتعامل مع المعلومات المضللة ، ويقول إنها يمكن أن تزداد سوءًا مع الذكاء الاصطناعي

You may also like...