import json import os import requests import random import re import time from bot.utils.data_utils import extract_query_name from bs4 import BeautifulSoup from bot.config import BASE_URL from django.conf import settings from urllib.parse import urlparse def parse_proxy_url(proxy_url): parsed = urlparse(proxy_url) return { "server": f"{parsed.scheme}://{parsed.hostname}:{parsed.port}", "username": parsed.username, "password": parsed.password } def parse_proxy_url_for_requests(proxy_url): """Parse proxy URL into requests-compatible format""" if not proxy_url: return None parsed = urlparse(proxy_url) return { 'http': proxy_url, 'https': proxy_url } import logging logger = logging.getLogger(__name__) def get_alibaba_html(url, proxy=None, max_retries=5): """ Fetch Alibaba product page HTML using requests with proper headers and proxies """ headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36', 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8', 'Accept-Language': 'en-US,en;q=0.5', 'Accept-Encoding': 'gzip, deflate, br', 'Connection': 'keep-alive', 'Upgrade-Insecure-Requests': '1', 'Sec-Fetch-Dest': 'document', 'Sec-Fetch-Mode': 'navigate', 'Sec-Fetch-Site': 'none', 'Sec-Fetch-User': '?1', 'Cache-Control': 'max-age=0', 'Referer': 'https://www.alibaba.com/', } for attempt in range(max_retries): current_proxy = proxy or random.choice(PROXY_LIST) try: proxy_config = parse_proxy_url_for_requests(current_proxy) print(f"[Proxy Try {attempt+1}] Using: {current_proxy}") # Add human-like delay between requests human_delay(1, 2) # Make the request with timeout and proxy response = requests.get( url, headers=headers, proxies=proxy_config, timeout=30, # 30 second timeout allow_redirects=True, verify=True # SSL verification ) # Check for successful response response.raise_for_status() # Additional check for Alibaba-specific error pages if "sorry" in response.text.lower() or "captcha" in response.text.lower(): raise Exception("Alibaba blocking detected") soup = BeautifulSoup(response.text, 'html.parser') # Find the