python - Screen scraping: getting around "HTTP Error 403: request disallowed by robots.txt" -


क्या निम्न के आसपास पाने का कोई तरीका है?

  httperror_seek_wrapper: HTTP त्रुटि 403: Robots.txt  

द्वारा अस्वीकृत अनुरोध साइट-स्वामी से संपर्क करने के लिए एकमात्र तरीका है (barnesandnoble.com) .. मैं एक ऐसी साइट का निर्माण कर रहा हूं जो उन्हें अधिक बिक्री लाएगा, न कि निश्चित रूप से वे एक निश्चित गहराई पर पहुंच से वंचित क्यों होंगे।

मैं पायथन 2 पर मैकेनाइक और सुंदरसूप का उपयोग कर रहा हूं।

कार्य-आस-पास के लिए उम्मीद करना

आप अपने उपयोगकर्ता एजेंट के बारे में झूठ बोलने की कोशिश कर सकते हैं (जैसे, विश्वास करने की कोशिश करके कि आप इंसान हैं और रोबोट नहीं हैं) अगर आप बार्न्स एंड एंबेडेड के साथ संभावित कानूनी परेशानियां प्राप्त करना चाहते हैं; नोबल। क्यों न अपने व्यवसाय विकास विभाग से संपर्क करें और उन्हें आपको अधिकृत करने के लिए मना कर दें? वे कोई संदेह नहीं कर रहे हैं कि उनकी साइट रोबोट के कुछ वर्गों जैसे कि मूल्य तुलना इंजनों द्वारा स्क्रैप होने से बचने की कोशिश कर रहे हैं, और यदि आप उन्हें समझा सकते हैं कि आप एक नहीं हैं, अनुबंध पर हस्ताक्षर करते हैं, तो वे अच्छी तरह से तैयार हो सकते हैं आपके लिए एक अपवाद।

एक "तकनीकी" समाधान जो कि उनकी नीतियों को तोड़ता है, जैसे robots.txt में एन्कोड किया गया एक उच्च-कानूनी-जोखिम दृष्टिकोण है जिसे मैं कभी भी अनुशंसा नहीं करता। BTW, कैसे करता है उनके robots.txt पढ़ा?


Comments