مقالات فناوری

ضرورت آموزش استخراج داده‌ها در دانشگاه‌ها

ضرورت آموزش استخراج داده‌ها در دانشگاه‌ها

وب اسکرپینگ یا جستجوگر داده‌ها هنوز در محافل عمومی و دانشگاهی مورد توجه قرار نگرفته است. با این حال، با افزایش حجم داده‌های وب در هر سال، تجزیه و تحلیل کلان داده‌ها به تدریج به بخشی اجتناب‌ناپذیر از تحقیقات علمی تبدیل می‌شود.

وب اسکرپینگ یا جستجوگر داده‌ها هنوز در محافل عمومی و دانشگاهی مورد توجه قرار نگرفته است. با این حال، با افزایش حجم داده‌های وب در هر سال، تجزیه و تحلیل کلان داده‌ها به تدریج به بخشی اجتناب‌ناپذیر از تحقیقات علمی تبدیل می‌شود.

به گزارش ایرنا از تارنمای فناوری technative،‌ وب اسکرپینگ Web Scraping روشی است که برای استخراج حجم زیادی از داده ها از وب سایت ها استفاده می شود. بعد از استخراج، داده ها را به شکل هایی مانند excel ،XML یا SQL ذخیره می کنند.

وب اسکرپینگ، خراش دادن وب یا جمع آوری داده های عمومی وب نقش فزاینده ای در فرآیند تصمیم گیری در بخش خصوصی ایفا می کند. امروزه، صنعت داده‌های جایگزین تقریباً ۷ میلیارد دلار ارزش دارد.

اگرچه برخی از کارشناسان دراین باره هم نظرند که وب اسکرپینگ هنوز تا رسیدن به ظرفیت واقعی خود فاصله دارد، تحقیقات اخیر Oxylabs نشان می‌دهد بیش از ۵۲ درصد از شرکت‌های مالی بریتانیا از فرآیندهای خودکار برای جمع‌آوری داده‌ها استفاده می‌کنند. بیشتر شرکت کنندگان در این تحقیق (۶۳ درصد) از داده های جایگزین برای به دست آوردن بینش تجاری رقابتی استفاده می کنند.

در برخی موارد داده های موجود و آنهایی که وجودشان در یک صنعت برای تصمیم گیری معمول است، کافی نیستند؛ از این رو در اصطلاح علم فناوری اطلاعات از داده آلترناتیو Alternative Data یا داده جایگزین استفاده می شود.

با وجود استفاده فعال از منابع داده غیرسنتی در تجارت، بخش عمومی و دانشگاه در این زمینه عقب است. ابهامات قانونی و رویه‌های پیچیده ممکن است دلایل اصلی محدود کردن بخش عمومی باشد، با این حال، آزادی بسیار بیشتری در محافل دانشگاهی وجود دارد. پس چرا بسیاری از دانشجویان و محققان در دانشگاه های درک مبهمی از امکانات و ابزارهای وب اسکرپینگ دارند؟

 

وب اسکرپینگ برای علم

تجزیه و تحلیل کلان داده ها از منابع جایگزین می تواند به آزمودن و تایید فرضیه های موجود و فرمول بندی فرضیه های جدید کمک کند. این دیدگاه بسیار گسترده‌تر و در موارد خاص، نسبت به منابع داده‌های سنتی، دیدگاهی کمتر جانبدارانه ارائه می‌دهد. با این حال، اگر بخواهید اطلاعات مربوط وب اسکرپینگ برای علم را جستجو کنید، سریعا متوجه می شوید که این اطلاعات عمدتاً مربوط به دانشمندان علوم داده است و به ندرت به سایر حوزه ها راه یافته است.

با وجود این بی اطلاعی، امکان تحلیل داده های وب جایگزین در مطالعات اجتماعی، اقتصادی یا روانشناختی پایان ناپذیر است. برای مثال، بانک ژاپن به طور فعال از داده های جایگزین برای اطلاع رسانی سیاست پولی خود استفاده می کند. این بانک از داده‌های تحرک، مانند جمعیت شبانه در مناطق منتخب در توکیو و روند خرده فروشی و تفریحی بر اساس هزینه‌ کرد کارت های اعتباری، برای ارزیابی فعالیت اقتصادی استفاده می‌کند.

در طول همه‌گیری بیماری کرونا، مطالعات ویروس‌شناسی و روان‌شناسی نیز شناخت ارزشمندی از داده‌های جایگزین وب فراهم کرد. روندهای جستجوی محلی گوگل می‌تواند شیوع بیماری‌ها را با دقت بیشتری نسبت به سایر اقدامات پیش‌بینی کند. از اسکرپینگ داده‌های عمومی توییتر برای درک نگرش‌ها و تجربیات عموم مردم درمورد دورکاری استفاده شد. سایر نمونه‌های برجسته شامل استفاده از داده‌های جایگزین برای تحقیقات علمی در مطالعات افسردگی و شخصیتی بر اساس فعالیت‌های عمومی رسانه‌های اجتماعی است.

مزایای وب اسکرپینگ به سادگی در تحقیقات بازاریابی و تجارت الکترونیک قابل مشاهده است. دانشمندان می توانند جمع آوری قیمت کالاهای خاص (مانند لوازم الکترونیکی، مسکن و غذا) را برای محاسبه شاخص قیمت مصرف کننده به صورت خودکار انجام دهند. محققان بازاریابی می‌توانند محصولات مشابهی را که تحت شرایط مختلف فروخته می‌شوند (مثلاً قیمت‌های تخفیف‌یافته) ردیابی کنند تا تأثیر عوامل خاص را روی یک عامل غیرمنطقی برآورد کنند.

دست آخر اینکه، داده‌های عمومی وب اسکرپینگ برای مطالعات هوش مصنوعی (AI) و یادگیری ماشین (ML) ضروری است. مطالعات هوش مصنوعی و یادگیری ماشینی بسیار محبوبیت یافته اند و تقریباً هر دانشگاه بزرگی برنامه های مطالعاتی مرتبط با هوش مصنوعی و یادگیری ماشینی ارائه می کند. چالشی که دانشجویان اغلب در این برنامه‌ها با آن روبرو هستند، نبود مجموعه داده‌های مناسب برای آموزش الگوریتم‌های هوش مصنوعی و یادگیری ماشینی است. دانش اسکرپینگ داده‌های عمومی به دانشجویان هوش مصنوعی و یادگیری ماشینی کمک می‌کند مجموعه داده‌های با کیفیت را برای یادگیری ماشینی کارآمدتر ایجاد کنند.

 

روزنامه‌نگاری تحقیقی

یکی از حوزه هایی که جمع آوری داده های وب عمومی اجتناب ناپذیر است، روزنامه نگاری تحقیقی و پژوهش های سیاسی است. این نوع تحقیقات به داده های بی طرفانه و تخصصی بستگی دارد که به ندرت از طریق منابع داده سنتی در دسترس است.

روزنامه‌نگاران تحقیقی و دانشمندان علوم سیاسی می‌توانند از اسکرپینگ برای مطالعه طیف گسترده‌ای از مسائل از ردیابی نفوذ لابی‌ها با بررسی گزارش‌های بازدیدکنندگان از ساختمان‌های دولتی گرفته تا نظارت بر تبلیغات سیاسی ممنوع و گروه‌های افراطی در پلتفرم‌های اجتماعی و انجمن‌های عمومی استفاده کنند. می توان گفت وب اسکرپینگ برای حل مشکلات اجتماعی و برای عملکرد دولت دموکراتیک و حاکمیت قانون حیاتی است.

 

شکاف آگاهی

وب اسکرپینگ نوشدارویی برای همه آلام علمی نیست و به سختی به علوم فیزیکی یا زیستی در انجام آزمایش‌ها کمک می‌کند، اما می‌تواند کلید طلایی داده‌ها برای مطالعات اجتماعی، اقتصادی، سیاسی و در برخی موارد بالینی باشد. جمع‌آوری خودکار داده‌های بزرگ دستاوردی است که بسیاری از دانشمندان سال‌ها انتظار آن را می کشیدند. با این حال، این ایده از چندین تصور غلط رنج می برد.

در علوم اجتماعی، دانشگاهیان گاهی بر آزمایش‌ها یا داده‌های نظرسنجی تکیه می‌کنند، فقط به این دلیل که جمع‌آوری این نوع شواهد آسان‌تر از جمع‌آوری داده‌های وب به نظر می‌رسد. حتی اگر دانشجویان تلاش کنند اطلاعات ضروری را به صورت آنلاین و بدون آموزش رسمی در مورد وب اسکرپینگ پیدا کنند، معمولاً به وارد کردن دستی داده‌ها (کپی و چسباندن) متوسل می‌شوند که زمان‌بر و مستعد خطا است.

منابع محبوب داده‌های تحقیقات دانشگاهی، پایگاه‌های داده بزرگی هستند که به سازمان‌های عمومی یا مؤسسات دولتی تعلق دارند و مجموعه داده‌ها توسط شرکت ها ارایه می شوند. متأسفانه، راحتی استفاده از این روش، بدون هزینه نیست. داده‌های دولتی به کندی جمع‌آوری می‌شوند، می‌توانند به سرعت منسوخ شوند و به ندرت شناخته تازه ای فراهم می کنند؛ چرا که همان نقاط داده توسط هزاران دانشمند تجزیه و تحلیل می‌شوند. داده های ارائه شده توسط سازمان های خصوصی ممکن است جانبدارانه باشند. اگر اطلاعات حساس باشد، کسب و کار ممکن است اصرار داشته باشد که نتایج نهایی مطالعه را ببیند که اغلب به سوگیری گزارش می انجامد.

منابع بی‌شماری از داده‌های جایگزین رایگان در وب، امکان انجام تحقیقات منحصربه‌فرد را فراهم می‌کند که در غیر این صورت محال بود. این کار مانند داشتن یک مجموعه داده بی نهایت است که می تواند با هر اطلاعاتی به روز شود. اگرچه وب اسکرپینگ قطعاً نیامند دانش خاصی است، اما راه حل های امروزی جمع آوری داده ها به کاربران امکان می دهد حجم عظیمی از داده های جایگزین را تنها با مهارت های برنامه نویسی اولیه استخراج کنند. آنها می توانند داده ها را در لحظه برگردانند و پیش بینی های علمی را دقیق تر کنند، در حالی که روش های سنتی جمع آوری داده ها اغلب دارای تاخیر زمانی قابل توجهی است.

توجه به این نکته مهم است که به ندرت دلیل خوبی (هم از نظر زمانی و هم از نظر منابع) برای دانشگاهیان وجود دارد که خراش دهنده ها و تجزیه و تحلیل داده خود را از ابتدا بسازند. اشخاص ثالث می توانند به راحتی مدیریت پروکسی، حل CAPTCHA، یا ساختن اثر انگشت منحصر به فرد را انجام دهند تا دانشمندان بتوانند وقت خود را به طور کامل به تجزیه و تحلیل داده ها و تحقیق اختصاص دهند.

CAPTCHA یا (Completely Automated Public Turing Test To Tell Computers and Humans Apart ) به معنی «آزمایش اتوماتیک عمومی برای تشخیص انسان از کامپیوتر» است.

 

ترس از ابهام قانونی

وب اسکرپینگ با نگرانی های حقوقی مختلفی احاطه شده است که باعث شده برخی از محققان از استفاده از کلان داده های عمومی در مطالعات خود دلسرد شوند. از آنجا که این صنعت نسبتاً جدید و به روی بازیگران مختلف باز است، مواردی از فعالیت های غیرحرفه ای یافت می شود. با این حال، هر ابزار دیجیتالی می تواند برای اهداف مثبت و منفی به کار رود.

هیچ چیز ذاتاً غیراخلاقی در مورد وب اسکرپینگ وجود ندارد؛ زیرا به سادگی فعالیت هایی را که افراد دستی انجام می دهند، به صورت خودکار انجام می دهد. Googlebot معروف ترین وب اسکرپ است که می شناسیم و روزانه به آن وابسته ایم. وب اسکرپینگ کاربرد گسترده ای در تجارت الکترونیک دارد. وب سایت های بزرگ مقایسه پرواز، هزاران سایت خطوط هوایی را برای جمع آوری داده های قیمت گذاری عمومی خراش می دهند. دریافت بهترین معامله برای سفر به نیویورک به فناوری های جمع آوری داده های وب عمومی بستگی دارد.

از آنجا که وب اسکرپینگ مستلزم برخی مخاطرات است، دانشگاهیان اغلب این روش به طور کامل کنار می گذارند و به منابع داده های سنتی بازمی گردند. بهترین راه رهایی از این ابهام، مشورت با یک متخصص حقوقی قبل از آغاز یک پروژه بزرگ جمع آوری داده است.

 

نکته پایانی

وب اسکرپینگ هنوز در محافل عمومی و دانشگاهی مورد توجه قرار نگرفته است. با این حال، با افزایش حجم داده‌های وب در هر سال، تجزیه و تحلیل کلان داده‌ها به تدریج به بخشی اجتناب‌ناپذیر از تحقیقات علمی تبدیل می‌شود. همانطور که امروزه آموزش مبانی اس پی اس اس حتی در دانشکده های علوم اجتماعی معمول است، آشنا کردن دانشجویان با شیوه‌های وب اسکرپینگ باید عادی شود.

درست است که این شیوه مستلزم برخی مخاطرات و ملاحظات اخلاقی است، اما آزمایش‌های علمی در آزمایشگاه‌ها نیز همین مسائل را در بردارد. حتی اگر سازمان‌ها قبل از وب اسکرپینگ باید با متخصصان حقوقی مشورت کنند، اما بهترین شیوه‌های صنعتی وجود دارد که با رعایت آنها، مخاطرات مرتبط با جمع‌آوری داده‌های وب را به حداقل می‌رساند.

مطالب مرتبط

تگ‌ها

مطالب پربیننده

پربیننده
آخرین مطالب

عضویت در خبرنامه