o ›Œh1)ã@sÎddlZddlZdejd<ddlmZddlmZmZddlm Z m Z mZmZm Z ddlTddlTddlTddlTdd lmZdd lmZddlmZddlTddlZddlZejdd dGdd„dƒZdS)éNÚfalseÚTOKENIZERS_PARALLELISM)ÚPathé)ÚUrlModelÚCrawlResult)Úinit_dbÚget_cached_urlÚ cache_urlÚDB_PATHÚflush_db)Ú*)ÚList)ÚThreadPoolExecutor)ÚWebScrapingStrategyÚignorezBField "model_name" has conflict with protected namespace "model_".)Úmessagec@s8eZdZd%dededefdd„Zdd „Zedd edddde ƒf de ded edededededede defdd„Zedd edddde ƒf dee ded edededededede deefdd„Zede ƒddddd fdedede dededededefdd„Zdeded ed!edede dededed"edefd#d$„ZdS)&Ú WebCrawlerNFÚcrawler_strategyÚalways_by_pass_cacheÚverbosecCsh|pt|d|_||_tj t dt ¡¡d¡|_ tj |j ddtj |j ›dddtƒd|_dS)N)rÚCRAWL4_AI_BASE_DIRECTORYz .crawl4aiT)Úexist_okz/cacheF) ÚLocalSeleniumCrawlerStrategyrrÚosÚpathÚjoinÚgetenvrÚhomeÚcrawl4ai_folderÚmakedirsrÚready)Úselfrrr©r#úQ/var/www/Befach/backend/venv/lib/python3.10/site-packages/crawl4ai/web_crawler.pyÚ__init__s zWebCrawler.__init__cCs0tdƒ|jddtƒdddd|_tdƒdS)Nu([LOG] ðŸŒ¤ï¸ Warming up the WebCrawlerzhttps://google.com/éF)ÚurlÚword_count_thresholdÚextraction_strategyÚbypass_cacherTu'[LOG] ðŸŒž WebCrawler is ready to crawl)ÚprintÚrunÚNoExtractionStrategyr!©r"r#r#r$ÚwarmupsûzWebCrawler.warmupTÚ url_modelÚproviderÚ api_tokenÚextract_blocks_flagÚcss_selectorÚ screenshotÚuse_cached_htmlr)Úchunking_strategyÚreturncKs*|j|j|| p tƒ| f|j||dœ|¤ŽS)N)r*r4r5)r,r'r-Úforced)r"r0r1r2r3r(r4r5r6r)r7Úkwargsr#r#r$Ú fetch_page*süùøzWebCrawler.fetch_pageÚ url_modelscsÐ| ptƒ} ‡fdd„}tƒP} t| j|||gt|ƒ|gt|ƒ|gt|ƒ|gt|ƒ|gt|ƒ|gt|ƒ|gt|ƒ| gt|ƒ| gt|ƒg|gt|ƒ¢RŽƒ}Wdƒ|S1sawY|S)Ncsˆj|g|¢Ri|¤ŽS)N)r;)r0Úargsr:r.r#r$Úfetch_page_wrapperSsz2WebCrawler.fetch_pages..fetch_page_wrapper)r-rÚlistÚmapÚlen)r"r<r1r2r3r(r6r4r5r)r7r:r>ÚexecutorÚresultsr#r.r$Úfetch_pagesDs0 õôÿ ÿîzWebCrawler.fetch_pagesr'r*Ú user_agentc Ks¶zª|ptƒ}| |_t|tƒstdƒ‚t|tƒstdƒ‚t|tƒ}d}d}d} |s/|js/t |ƒ}| dd¡r;|js;WdS|rSt|dƒ}t|dƒ} |rS|d}|sSd}|rW|s|r_|j |¡t ¡}t|j j|fi| ¤Žƒ}t ¡}| rˆtd|›d t|ƒ›d ||d›dƒ|r|j ¡}|j||| |||||| t|ƒf i| ¤Ž}t|ƒ|_|WStyÚ}z$t|d ƒs¼t|ƒ|_td|›d|j›ƒt|dd|jdWYd}~Sd}~ww)NzUnsupported extraction strategyzUnsupported chunking strategyr/Tréé u[LOG] ðŸš€ Crawling done for z, success: ú, time taken: ú.2fú secondsÚmsgu[ERROR] ðŸš« Failed to crawl z , error: ÚF)r'ÚhtmlÚsuccessÚ error_message)r-rÚ isinstanceÚExtractionStrategyÚ ValueErrorÚChunkingStrategyÚmaxÚMIN_WORD_THRESHOLDrr Úgetr!Úsanitize_input_encoderÚupdate_user_agentÚtimeÚcrawlr+ÚboolÚtake_screenshotÚprocess_htmlrNÚ ExceptionÚhasattrÚstrrKr)r"r'r(r)r7r*r4r5rErr:ÚcachedÚscreenshot_dataÚextracted_contentrMÚt1Út2Úcrawl_resultÚer#r#r$r,jsT & ( €üzWebCrawler.runrMrcr(Ú is_cachedc KsÌt ¡}zFt ¡} tƒ}dd„| ¡Dƒ}|j||f||| dd¡| dt¡dœ|¤Ž}| r>td|›dt ¡| d ›d ƒ|durItd|›ƒ‚Wnty\}ztt |ƒƒ‚d}~wwt | dd ¡ƒ}t | dd ¡ƒ}| dg¡}| dg¡}| di¡}|dur¶| rtd|›d|j›ƒ| |¡}| ||¡}tj|dt dd}| r¶td|›dt ¡|d ›dƒ|sºdn|}| sÕt|||||dt |¡t |¡t |¡|d t||t|ƒ||||||dd dS)NcSsi|]\}}|dvr||“qS))Ú only_textÚ$image_description_min_word_thresholdr#)Ú.0ÚkÚvr#r#r$Ú ºsz+WebCrawler.process_html..riFrj)r(r4rirju![LOG] ðŸš€ Content extracted for z, success: True, time taken: rIrJz,Failed to extract content from the website: Úcleaned_htmlrLÚmarkdownÚmediaÚlinksÚmetadatau*[LOG] ðŸ”¥ Extracting semantic blocks for z, Strategy: rF)ÚindentÚdefaultÚensure_asciiu[LOG] ðŸš€ Extraction done for rHz seconds.T)r5)r'rMrorprqrrrsr5rcrNrO)rYrÚitemsÚscraprVÚ$IMAGE_DESCRIPTION_MIN_WORD_THRESHOLDr+rRÚInvalidCSSSelectorErrorr`rWÚnameÚchunkr,ÚjsonÚdumpsr rÚformat_html)r"r'rMrcr(r)r7r4r5rrhr:ÚtrdÚscrapping_strategyÚextra_paramsÚresultrgrorprqrrrsÚsectionsr#r#r$r]§s†þ ÿú ÷ ÿ€ÿ ö õzWebCrawler.process_html)NFF)Ú__name__Ú __module__Ú__qualname__ÚCrawlerStrategyr[r%r/ÚDEFAULT_PROVIDERrUÚ RegexChunkingrr`rQrSrr;rrDr,Úintr]r#r#r#r$rsÞ õþýüûùø ÷ öõ óõþýüûùø ÷ öõ ó)öþüûúùø ÷ ô=þýüûúùø ÷ öõ ór)rrYÚenvironÚpathlibrÚmodelsrrÚdatabaserr r rrÚutilsr7r)rÚtypingrÚconcurrent.futuresrÚcontent_scraping_strategyrÚconfigÚwarningsr}Úfilterwarningsrr#r#r#r$Ús"