Какво е "Web Scraping"? - SoftUni Digital
Loading...

Какво е "Web Scraping"?

avatar Георги Кацаров 1 минута
Какво е "Web Scraping"?

Web Scraping-ът е вид data scaping, при който извличаме данни от уебсайтове. Софтуерът, който се използва за Web scrapping може да достъпва директно световната мрежа, използвайки Hypertext Transfer Protocol (HTTP) или чрез уеб браузър. Въпреки че самият процес се извършва собственоръчно от потребителя, терминът „web scraping“ най-често се използва по адрес на автоматизиран процес, който се извършва с помощта на бот или web crawler. Той представлява процеса на копиране, при който специфични данни се събират и копират от уеб пространството, в централна база данни с цел последваща обработка и анализ.

Web scraping-ът на даден уебсайт включва процеси, като “fetching” и извличане на данните. “Fetching” е процес при който изтегляме цялата уебстраница (нещо което браузърите правят автоматично, когато посетите дадена страница). Веднъж след като изтеглите желаната страница, вие вече можете да пристъпите към извличането на данните. Данните могат да са най-различни, като например т.нар. „contact scrapping“, при който се извличат данните за контакти на компании, които са посочени в дадена страница.

Като цяло web scraping-ът се използва за набиране на данни, които се използва от приложения за нуждите на уеб индексирането, web и data mining и още множество други аспекти. Компании като Amazon AWS и Google разработват и поддържат собствени инструменти и услуги за уеб скрапинг. По-нови форми на web scraping включва преслушване на потоци от данни, от уеб сървъри. Например JSON е сред най-често срещаните решения за транспорт/съхранение на данни, когато става въпрос за обмен на данни между клиент/потребител и уеб сървър.

Съществуват методи, които се използват от някои уеб сайтове, с цел предотвравяне на web scraping, като например засичане и блокиране на ботове, които искат да достъпят техните страници. За да се преборят с тези методи, SEO специалистите използват web scraping системи, които използват похвати свързани с DOM parsing и natural language processing, за да симулират поведение на човек при браузване на защитени по този начин страници.

Ако вече сте придобили базови умения в работата по оптимизиране на търсенето, извличането на полезно съдържание посредством Web Scrapping e само едно от всички ценни умения, с които можете да ги надградите. Ако искате да разгърнете знанията си пълноценно – най-доброто решение не нашият курс „SEO Advanced – април 2020“. Запишете се още днес, очакваме ви!

Можем ли да използваме бисквитки?
Ние използваме бисквитки и подобни технологии, за да предоставим нашите услуги. Можете да се съгласите с всички или част от тях.
Назад
Функционални
Използваме бисквитки и подобни технологии, за да предоставим нашите услуги. Използваме „сесийни“ бисквитки, за да Ви идентифицираме временно. Те се пазят само по време на активната употреба на услугите ни. След излизане от приложението, затваряне на браузъра или мобилното устройство, данните се трият. Използваме бисквитки, за да предоставим опцията „Запомни Ме“, която Ви позволява да използвате нашите услуги без да предоставяте потребителско име и парола. Допълнително е възможно да използваме бисквитки за да съхраняваме различни малки настройки, като избор на езика, позиции на менюта и персонализирано съдържание. Използваме бисквитки и за измерване на маркетинговите ни усилия.
Рекламни
Използваме бисквитки, за да измерваме маркетинг ефективността ни, броене на посещения, както и за проследяването дали дадено електронно писмо е било отворено.