wget 웹 사이트 다운로드

우리는 wget 프로젝트에 기부에 대한 TYPO3 및 Magento 파트너 AOE 미디어에 감사드립니다. 감사 ? 도와 주셔서 감사합니다 그것은 wget -mkEpnp 내 서버에서 남은 모든 전체 웹 사이트를 다운로드하려면이 명령을 실행하는 것입니다. 필요에 맞게 조정: 적어도 URL의 끝에 URL을 변경 합니다. 대상 사이트의 크기에 따라 몇 시간, 심지어 며칠이 걸릴 수 있습니다. 그리고 아카이브 크기를 뒤늦게 추측할 수 있기 때문에 진행 상황을 볼 수 없습니다. wget와 함께 전체 사이트를 다운로드 하는 또 다른 예: wget–거울–변환-링크–adjust-확장–페이지-필수–http://example.org 이 매우 유용한 기사를 읽은 후 HTTrack에 관련 된 코멘트를 보았다 (그리고 성공적으로 복사 99% ColdFusion에 작성 된 웹사이트의, 나머지 1% 수동으로 수행 했다 포함 된 자바 스크립트, 또한, 모든 것을 이동, HTTPS에 모든 것을 했다 또는 그래서!) wget –mirror –convert-links –adjust-extension –page-requisites –no-parent https://www.yoursite.com 파일을 재귀적으로 다운로드할 때 파일을 다운로드 하 고 있는 대로 저장 합니다. 다운로드한 웹 페이지에는 웹 사이트를 가리키는 링크가 계속 있으므로 오프라인으로 사용할 수 없습니다. 다행히도 wget에는 웹 페이지의 링크를 로컬 링크로 변환하는 링크 변환 기능이 있습니다. 이 기능을 사용하려면 -k 스위치를 사용하십시오: 인터넷 연결이 잘 되면 다운로드가 종종 실패하거나 매우 느린 속도로 발생할 수 있습니다.

기본적으로 wget은 문제가 발생할 경우 최대 20회까지 다운로드를 다시 시도합니다. 그러나, 특히 나쁜 인터넷 연결에, 이 충분 하지 않을 수 있습니다. 빈번한 오류로 다운로드 속도가 느리면 실행할 수 있습니다: 일부 호스트는 wget을 사용하여 전체 웹 사이트를 다운로드하고 완전히 차단할 수 있음을 감지할 수 있습니다. 사용자 에이전트를 스푸핑하는 것은 일반 Chrome 사용자로 이 절차를 위장하는 것이 좋습니다. 사이트가 IP를 차단하는 경우 다음 단계는 VPN을 통해 작업을 계속하고 여러 가상 컴퓨터를 사용하여 대상 사이트의 계층화된 부분을 다운로드하는 것입니다( 아우). 서버가 스마트하고 요청을 느리게 하고 지연해야 하는 경우 –wait 및 –random-wait 옵션을 체크 아웃할 수 있습니다. 이 명령을 실행하면 wget이 다운로드 로그를 저장할 위치를 알려줍니다. 이 파일은 일반적으로 wget-log, wget-log.1 또는 이와 유사한 이름으로 명명됩니다: 이 명령은 웹 사이트를 www.website.org/tutorials/html/ 다운로드합니다.