Скрапинг веб-сайтов с помощью Python (+ файлы к книге) -Автор: Р. Митчелл Издательство: ДМК-Пресс Год выпуска: 2016 Жанр: Программирование на Python Количество страниц: e-book (изначально электронное) - 256 стр., сканированные страницы - 283 стр. ISBN: 978-5-97060-223-2 Язык: русский Формат: PDF Качество: e-book (изначально электронное), хорошее (сканированные страницы) Иллюстрации: цветные и черно-белые Описание:
Изучите методы скрапинга и краулинга веб-сайтов, чтобы получить доступ к неограниченному объему данных в любом уголке Интернета в любом формате. С помощью этого практического руководства вы узнаете, как использовать скрипты Python и веб-API, чтобы одновременно собрать и обработать данные с тысяч или даже миллионов веб-страниц.
Идеально подходящая для программистов, специалистов по безопасности и веб-администраторов, знакомых с языком Python, книга знакомит не только с основными принципами работы веб-скраперов, но и углубляется в более сложные темы, такие, как анализ сырых данных или использование скраперов для тестирования интерфейса веб-сайта. Примеры программного кода, приведенные в книге, помогут разобраться в этих принципах на практике. К книге на специализированном сайте размещены файлы примеров, которые прилагаются здесь в виде папки "Файлы к книге".
Прочитав эту книгу, вы научитесь:
- выполнять парсинг сложных HTML страниц;
- сканировать веб-страницы и сайты;
- работать с API;
- применять несколько методов хранения собранных данных;
- скачивать, обрабатывать и извлекать данные из документов;
- использовать инструменты и методы для очистки плохо отформатированных данных;
- читать и записывать естественные языки;
- выполнять краулинг с использованием регистрационных форм;
- выполнять скрапинг Javascript-кода;
- обрабатывать изображения и распознавать текст. Инструменты и примеры, приведенные в этой книге, позволяют легко автоматизировать несколько повторяющихся задач, высвобождая время для решения более насущных проблем. Это легко читаемая, ориентированная на конкретный результат книга, рассказывающая о реальных проблемах и решениях.
Вы не можете начинать темы Вы не можете отвечать на сообщения Вы не можете редактировать свои сообщения Вы не можете удалять свои сообщения Вы не можете голосовать в опросах Вы не можете прикреплять файлы к сообщениям Вы не можете скачивать файлы
!ВНИМАНИЕ!
Сайт не предоставляет электронные версии произведений, а занимается лишь коллекционированием и каталогизацией ссылок, присылаемых и публикуемых на форуме нашими читателями. Если вы являетесь правообладателем какого-либо представленного материала и не желаете, чтобы ссылка на него находилась в нашем каталоге, свяжитесь с нами, и мы незамедлительно удалим ее. Файлы для обмена на трекере предоставлены пользователями сайта, и администрация не несет ответственности за их содержание. Просьба не заливать файлы, защищенные авторскими правами, а также файлы нелегального содержания!