كيفية كشط الباب الزجاجي

يعد Glassdoor مصدرًا رائعًا للباحثين عن عمل والموظفين وأصحاب العمل على حدٍ سواء. فهو يحتوي على قدر كبير من المعلومات عن الشركات والوظائف، بما في ذلك الرواتب والمراجعات وأسئلة المقابلة وصور المكتب والمزيد. كل هذه البيانات تجعل Glassdoor هدفًا جذابًا لتجميع الويب.

في هذا الدليل الشامل، سنتعرف على تقنيات واستراتيجيات مختلفة لاستخراج أنواع مختلفة من البيانات من Glassdoor.

نظرة عامة على بنية Glassdoor

قبل أن نتعمق في التفاصيل، دعونا نفهم كيفية تنظيم موقع Glassdoor الإلكتروني:

العرض من جانب العميل - يستخدم Glassdoor React لعرض معظم واجهة المستخدم الخاصة به على جانب العميل بدلاً من جانب الخادم. وهذا يعني أن HTML الأولي الذي يتم تقديمه للمتصفح يكون في حده الأدنى ويتم تحميل معظم المحتوى وعرضه باستخدام Javascript.
واجهة برمجة تطبيقات GraphQL – يتم جلب البيانات المعروضة على صفحات Glassdoor عبر واجهة برمجة تطبيقات GraphQL. يقدم موقع الويب طلبات AJAX إلى واجهة برمجة التطبيقات هذه للحصول على البيانات المنظمة التي يتم عرضها بعد ذلك على الصفحة.
الثقيلة المضادة للكشط - يستخدم Glassdoor العديد من إجراءات مكافحة الخدش مثل الكشف عن الروبوتات، وتحديد المعدل، وحظر الكاشطات.

باختصار، Glassdoor هو تطبيق React من صفحة واحدة يستخدم GraphQL لاسترداد البيانات ويتمتع بدفاعات قوية ضد التجريد. تطرح هذه البنية بعض التحديات الفريدة للكاشطات التي يتعين علينا التغلب عليها.

كشط صفحات نظرة عامة على الشركة

كل شركة على Glassdoor لديها صفحة نظرة عامة مخصصة تحتوي على معلومات أساسية مثل المقر الرئيسي والصناعة والإيرادات وما إلى ذلك. دعونا نرى كيفية جمع هذه التفاصيل.

للحصول على صفحة نظرة عامة على الشركة، نحتاج إلى معرف Glassdoor الخاص بها والذي تم تضمينه في عنوان URL للصفحة:

https://www.glassdoor.com/Overview/Working-at-Google-EI_IE9079.16,22.htm

هنا EI_IE9079 يشير إلى معرف شركة Google. يمكننا استخراج هذا المعرف من أي عنوان URL للشركة لإنشاء عنوان URL لصفحة النظرة العامة.

لن يؤدي استخلاص ملف HTML الأولي لهذه الصفحة إلى تزويدنا ببيانات منظمة. المفتاح هو استخراج بيانات GraphQL من الصفحة التي تحتوي على جميع المعلومات بتنسيق JSON منظم.

إليك كيفية استخراج بيانات GraphQL:

import json
import re 

html = # page HTML
match = re.search(r‘window.__ENV__ = (\{.*?\})‘, html)
if match:
    data = json.loads(match.group(1))

وهذا يعطينا بيانات GraphQL الكاملة للصفحة. يمكننا الآن تحليل الحقول مثل description, headquarters, revenue، الخ:

overview = data[‘EmployerPage‘][‘Employer‘]

print(overview[‘description‘]) 
print(overview[‘headquarters‘])
print(overview[‘revenue‘])

وهذا كل شيء! باستخدام بضعة أسطر فقط من كود Python، يمكننا استخراج البيانات المنظمة للنظرة العامة على Glassdoor لأي شركة.

كشط قوائم الوظائف

يسمح Glassdoor بتصفح قوائم الوظائف المفتوحة التي تنشرها الشركات. تحتوي هذه القوائم على العنوان والموقع والوصف والمزيد.

للحصول على وظائف الشركة ننتقل إلى:

https://www.glassdoor.com/Jobs/Google-Jobs-E9079.htm

يتم تحميل قوائم الوظائف ديناميكيًا عبر مكالمات AJAX عند التمرير لأسفل أو تغيير الصفحات. تأتي البيانات من GraphQL مرة أخرى ونحتاج إلى تحليلها.

نقوم أولاً بتقديم طلب إلى الصفحة 1 للحصول على إجمالي عدد الوظائف الذي نستخدمه لحساب عدد الصفحات. ثم نقوم بكشط كل صفحة لاستخراج بيانات الوظيفة:

import math
import json 

def get_jobs(companyId):
    url = f‘https://www.glassdoor.com/Jobs/-Jobs-E{companyId}.htm‘

    # request page 1 to get total job count
    page = requests.get(url) 
    total = extract_job_count(page.text) 
    pages = math.ceil(total / 20)

    jobs = []

    # scrape data from each page
    for page in range(1, pages+1):
        page = requests.get(f‘{url}?p={page}‘)
        data = json.loads(extract_graphql(page.text))  
        jobs.extend(data[‘jobs‘])

    return jobs

وهذا يسمح لنا بإلغاء جميع الوظائف لأي شركة بشكل منهجي. المفتاح هو حساب الصفحات بناءً على إجمالي عدد الوظائف وترقيم الصفحات من خلال مكالمات AJAX.

كشط مراجعات الشركة

يمكن القول أن المراجعات هي البيانات الأكثر قيمة على Glassdoor. دعونا نناقش كيفية حذف جميع المراجعات الخاصة بالشركة.

كما هو الحال مع الوظائف، ننتقل إلى صفحة مراجعات الشركة:

https://www.glassdoor.com/Reviews/Google-Reviews-E9079.htm

نحن بحاجة إلى فهم كيفية ترقيم المراجعات. يعرض Glassdoor عددًا ثابتًا من المراجعات لكل صفحة ونحتاج إلى مسح جميع الصفحات للحصول على البيانات الكاملة.

يمكن حساب عدد صفحات المراجعة مقدمًا عن طريق استخراج ملف numberOfPages الحقل من بيانات GraphQL. ثم نقوم بترقيم الصفحات فوق كل صفحة ونجمع التقييمات:

import math
import json

def get_reviews(companyId):
    url = f‘https://www.glassdoor.com/Reviews/-Reviews-E{companyId}.htm‘ 

    # extract number of pages from initial request
    page = requests.get(url)
    data = json.loads(extract_graphql(page.text))
    pages = data[‘numberOfPages‘]

    reviews = []

    for page in range(1, pages+1):
        page = requests.get(f‘{url}?p={page}‘) 
        data = json.loads(extract_graphql(page.text))

        # extract reviews
        reviews.extend(data[‘reviews‘]) 

    return reviews

نقوم هنا باستخراج عدد صفحات المراجعة مقدمًا ثم تكرار كل صفحة لإنشاء المجموعة الكاملة للمراجعات.

يمكن لهذه التقنية حذف جميع التقييمات لأي شركة على Glassdoor!

شطب الرواتب

بالإضافة إلى المراجعات، تعد بيانات الرواتب مفيدة للغاية أيضًا. لدى Glassdoor قسم مخصص للرواتب لكل شركة. دعونا نلقي نظرة على كشط سجلات الرواتب.

نبدأ بعنوان URL لصفحة الرواتب:

https://www.glassdoor.com/Salary/Google-Salaries-E9079.htm

وسيشمل نهجنا العام مرة أخرى ما يلي:

حساب عدد الصفحات من إجمالي عدد الرواتب
ترقيم الصفحات من خلال كل صفحة لكشط سجلات الرواتب

وهنا التنفيذ:

import math
import json

def get_salaries(companyId):
    url = f‘https://www.glassdoor.com/Salary/-Salaries-E{companyId}.htm‘

    # extract page count
    page = requests.get(url)
    data = json.loads(extract_graphql(page.text)) 
    pages = data[‘numPages‘]

    salaries = []

    for page in range(1, pages+1):
        page = requests.get(f‘{url}?p={page}‘)
        data = json.loads(extract_graphql(page.text))

        # extract salary records 
        salaries.extend(data[‘salaries‘])

    return salaries

يتيح لنا ذلك استخراج جميع رواتب الشركة بشكل منهجي عبر صفحات متعددة.

كشط أسئلة المقابلة

تعد رؤى المقابلة مصدرًا رائعًا آخر للبيانات على Glassdoor. دعونا نلقي نظرة على كيفية التخلص من جميع أسئلة المقابلة المنشورة لشركة ما.

صفحة المقابلة الخاصة بالشركة موجودة على:

https://www.glassdoor.com/Interview/Google-Interview-Questions-E9079.htm

يتم تحميل أسئلة المقابلة ديناميكيًا عبر طلبات AJAX عند التمرير لأسفل أو تغيير الصفحات.

خطة لعبنا مألوفة:

حساب عدد الصفحات من إجمالي عدد الأسئلة
استخراج الأسئلة من كل صفحة

وهنا التنفيذ:

import math
import json

def get_questions(companyId):
    url = f‘https://www.glassdoor.com/Interview/-Interview-Questions-E{companyId}.htm‘

    # get total question count
    page = requests.get(url)
    data = json.loads(extract_graphql(page.text))
    total = data[‘interviewQuestionCount‘]
    pages = math.ceil(total / 20)

    questions = []

    for page in range(1, pages+1):
        page = requests.get(f‘{url}?p={page}‘)
        data = json.loads(extract_graphql(page.text))

        # extract questions
        questions.extend(data[‘interviewQuestions‘])

    return questions

باختصار، نحن نحسب إجمالي الصفحات بناءً على عدد الأسئلة، وترقيم الصفحات من خلال مكالمات AJAX، واستخراج الأسئلة - مما يسمح لنا بالحصول على جميع المعلومات المتعلقة بالمقابلة الخاصة بالشركة.

كشط صور المكتب

لإكمال عملية استخراج بيانات Glassdoor، فلنلتقط أيضًا صور مكتب الشركة التي توفر رؤية مرئية رائعة.

يمكن الوصول إلى صفحة الصور الخاصة بالشركة على:

https://www.glassdoor.com/Photos/Google-Office-Photos-E9079.htm

تنطبق إستراتيجية ترقيم الصفحات القياسية لدينا - حساب الصفحات من إجمالي عدد الصور، وترقيم الصفحات من خلال مكالمات AJAX، واستخراج الصور:

import math 
import json

def get_photos(companyId):
    url = f‘https://www.glassdoor.com/Photos/-Office-Photos-E{companyId}.htm‘

    # get total photo count 
    page = requests.get(url)
    data = json.loads(extract_graphql(page.text))
    total = data[‘officePhotoCount‘]
    pages = math.ceil(total / 20)

    photos = []

    for page in range(1, pages+1):
        page = requests.get(f‘{url}?p={page}‘)
        data = json.loads(extract_graphql(page.text))

        # extract photos
        photos.extend(data[‘officePhotos‘])

    return photos

وبهذا يمكننا استخراج جميع الصور المكتبية المتاحة للشركة!

التعامل مع مكافحة القشط

على الرغم من أن التقنيات التي تمت مناقشتها تسمح باستخراج نقاط بيانات مختلفة من Glassdoor، إلا أنه عادةً ما يتم حظر الكاشطات على نطاق واسع.

يحتوي Glassdoor على مجموعة من آليات مكافحة الاستخلاص لمنع استخراج البيانات الشاملة بما في ذلك:

حجب IP
بصمة المتصفح
أنظمة الكشف عن الروبوتات
معدل الحد

فيما يلي بعض النصائح لتجنب الكتل أثناء كشط Glassdoor:

استخدم الوكلاء: قم بتدوير الوكلاء السكنيين المختلفين لكل طلب حتى تظهر المكشطة الخاصة بك كمستخدمين مختلفين.
معدل الحد: تأكد من وجود تأخير بين الطلبات وكشط بمعدل متواضع.
تقليد المتصفح: قم بتعيين وكيل مستخدم صالح، وقبول الرؤوس، وتمكين Javascript لتظهر كمتصفح حقيقي.
كتل المراقبة: تحقق مما إذا تم حظر عنوان IP أو الوكلاء لديك وقم بتبديل مركز البيانات أو الموفر وفقًا لذلك.
استخدام خدمات القشط: الاستفادة من واجهات برمجة التطبيقات (APIs) مثل ScraperAPI وOctoparse التي تتمتع بدعم مدمج لتجاوز آليات مكافحة الكشط.

مع اتخاذ الاحتياطات الصحيحة، من الممكن استخراج البيانات من Glassdoor على نطاق واسع دون أن يتم حظرها.

كشط الباب الزجاجي باستخدام ScraperAPI

ScraperAPI عبارة عن واجهة برمجة تطبيقات مدفوعة الأجر تتعامل مع جميع تحديات مكافحة التجريف وتسمح باستخراج البيانات على نطاق واسع.

وهو يدعم زحف أجاكس والوكلاء ويتكامل مباشرة مع المكتبات الشائعة مثل طلبات بايثون.

إليك كيفية استخلاص مراجعات الشركة باستخدام ScraperAPI:

import requests
import math
import json

API_KEY = ‘XXX‘ # assign key

def get_reviews(companyId):

    url = f‘https://www.glassdoor.com/Reviews/-Reviews-E{companyId}.htm‘

    # initial request to get page count
    response = requests.get(url, 
        headers={‘apikey‘: API_KEY})

    pages = extract_page_count(response.text)

    reviews = []

    for page in range(1, pages+1):
        response = requests.get(f‘{url}?p={page}‘,
            headers={‘apikey‘: API_KEY})

        data = json.loads(response.text)    
        reviews.extend(data[‘reviews‘])

    return reviews

هنا يتعامل ScraperAPI مع الوكلاء والمتصفحات والجوانب الأخرى مما يسمح لنا بالتركيز على استخراج البيانات.

هذه طريقة سهلة لبناء كاشطات Glassdoor قابلة للتطوير دون الحاجة إلى القلق بشأن الأنظمة المضادة للكشط.

الاعتبارات القانونية

عند بناء كاشطات Glassdoor، من المهم التأكد من أن عملك متوافق مع القانون. وفيما يلي بعض الجوانب الرئيسية التي يجب مراعاتها:

شروط الخدمة – دراسة شروط الخدمة الخاصة بشركة Glassdoor لفهم المسموحات والقيود المفروضة على استخدام بياناتها. بشكل عام، يُسمح بتجميع كميات معقولة بشكل دوري لأغراض غير تجارية.
بيانات شخصية – تجنب حذف أي بيانات شخصية للمستخدم من Glassdoor مثل الأسماء ومعرفات البريد الإلكتروني وما إلى ذلك مما يثير مشكلات الخصوصية.
حقوق التأليف والنشر - تخضع مراجعات Glassdoor والبيانات الأخرى المقدمة من المستخدمين لحقوق الطبع والنشر. لا تقم بإعادة إنتاج المحتوى حرفيًا من الموقع.
حدود السعر - احترم أي حدود للمعدلات تفرضها شركة Glassdoor ولا تفرط في تحميل خوادمها بعدد زائد من الطلبات.
استخدم حالات – لا تستخدم بيانات Glassdoor لأغراض غير أخلاقية مثل مضايقة الموظفين والتمييز وما إلى ذلك.

سيساعد الالتزام بهذه المبادئ على ضمان بقاء مكشطتك على الجانب الأيمن من القانون.

وفي الختام

في هذا الدليل، استكشفنا استراتيجيات وتقنيات مختلفة لاستخراج بيانات الشركة من Glassdoor باستخدام Python بما في ذلك:

استخراج معلومات النظرة العامة وقوائم الوظائف والرواتب والمراجعات وأسئلة المقابلة والصور عن طريق تحليل بيانات GraphQL API
حساب صفحات ترقيم الصفحات من إجمالي الأعداد وكشط جميع الصفحات بشكل منهجي
التعامل مع أنظمة مكافحة الخدش الخاصة بشركة Glassdoor باستخدام الوكلاء والخدمات مثل ScraperAPI
ضمان الامتثال القانوني من خلال احترام شروط الخدمة والخصوصية وحقوق النشر وحدود الأسعار

يمكن تكييف الأساليب التي تمت مناقشتها لبناء كاشطات Glassdoor قوية تجمع البيانات المفيدة على نطاق واسع بطريقة قوية وأخلاقية.

تجريف سعيد!

نظرة عامة على بنية Glassdoor

كشط صفحات نظرة عامة على الشركة

كشط قوائم الوظائف

كشط مراجعات الشركة

شطب الرواتب

كشط أسئلة المقابلة

كشط صور المكتب

التعامل مع مكافحة القشط

كشط الباب الزجاجي باستخدام ScraperAPI

الاعتبارات القانونية

وفي الختام

الانضمام إلى محادثة إلغاء الرد

المنشورات المشابهة

ما الفرق بين تجريف الويب والزحف؟

ما هي بعض بدائل BeautifulSoup لتحليل HTML في بايثون؟

كيفية تجريف الويب باستخدام HTTPX وPython