Semalt Expert의 Chrome 웹 스크레이퍼 자습서

Chrome을 사용하는 경우 웹 페이지를 긁는 데 도움이되는 브라우저 확장 프로그램이 있습니다. ``Scrapper ''라고하며 문제없이 활용할 수 있습니다. Scrapper는 웹 사이트 콘텐츠를 스크랩하고 결과를 Google 문서에 업로드하는 데 도움이됩니다.

스크레이퍼 확장 프로그램을 사용하여 웹 사이트를 스크랩하는 방법은 무엇입니까?

1. Chrome에서 Chrome 웹 스토어를 선택하십시오.

2. 확장에서 ''Scrapper ''를 검색하십시오.

3. 첫 번째 검색 결과는 ''Scrapper ''라는 확장명입니다.

4. "Chrome에 추가"로 나열된 버튼을 선택하십시오.

5. 영국 MPs 목록으로 돌아갑니다.

6. 다음 링크를 클릭하십시오;

7. 이제 하나의 MP를 찾아서 항목이 표시되어 있는지 확인하십시오.

8. "Scrape Similar ..."옵션을 마우스 오른쪽 버튼으로 클릭하여 선택하십시오.

9. 스크레이퍼 용 콘솔이 다른 창에 나타납니다.

10. 스크레이퍼 콘솔에서 스크랩 된 내용을 봅니다.

11. 콘텐츠가 Google 스프레드 시트로 저장되도록하려면 "Google 문서 도구에 저장 ..."을 선택하십시오.

스크래핑 연장

이 레시피를 고수하기 전에 HTML의 기본을 이해하는 것이 좋습니다. 예를 들어이 링크 를 통해 HTML에 대한 간단한 소개를 읽을 수 있습니다.

유명한 이탈리아 여배우 아시아 아르젠토가 출연 한 모든 영화에 관심이 있다고 가정 해 봅시다.

1. IMDB에는 매우 상세한 액터 아카이브가 있습니다. Asia Argento 사이트는 http://www.imdb.com/name/nm0000782/;

2. 여기에서 여배우가 수행 한 모든 역할을 볼 수 있습니다. 관심있는 정보를 폐기하기 시작합니다.

3. 위에서 설명한 방식으로 긁으십시오.

4. 목록이 약간 왜곡 된 것을 볼 수 있습니다. 여기에있는 목록은 다르게 구성 될 수 있기 때문입니다.

5. 스크레이퍼 콘솔로갑니다. 왼쪽 상단에 XPath라는 작은 상자가 표시됩니다.

6. Xpath는 XML과 HTML에서 작동하는 일종의 쿼리 언어입니다.

7. XPath는 관심있는 페이지 부분을 찾는 데 도움을 줄 수 있습니다. 다음으로 적절한 요소를 찾고 XPath를 작성하십시오.

8. 이제 우리의 테이블을 정리하자;

9. 필요한 모든 데이터가있는 기존 XPath는 "// div [3] / div [3] / div [2] / div"입니다.

10. XPath는 시스템에 HTML 문서를보고 세 번째 요소를 선택한 다음 두 번째 요소를 선택한 다음 모든 요소를 선택하도록합니다.

11. 그러나 데이터를 분리하고 싶습니다.

12. 스크레이퍼가 콘솔의 열 섹션을 사용하여이를 수행하십시오.

13. 먼저 제목을 찾으십시오. 제목을 보려면 요소 검사를 사용하십시오.

14. 태그 내에서 제목을 확인하십시오. XPath에 태그를 추가하십시오.

15. 표현이 적절하게 작동하는 것처럼 보이므로 첫 번째 열로 만드십시오.

16. "열"섹션에서 첫 번째 열의 이름을 "제목"으로 바꿉니다.

17. XPath를 추가하십시오.

열 섹션에서 XPath는 상대적이며 "./b"가 <b> 요소를 선택 함을 의미합니다.

19. 제목 열의 XPath에서 "./b"를 추가하고 "scrape"를 선택하십시오.

20. 이제 1 년 동안 계속갑니다. 연도는 한 범위 내에서 찾을 수 있습니다.

21. 제목 열 옆의 작은 더하기를 선택하여 새 열을 작성하십시오.

22. XPath "./span"을 사용하여 "year"에 대한 열을 만듭니다.

23. 스크랩을 클릭하고 연도가 어떻게 추가되었는지 봅니다.

24. 완료!