Страница 1 из 2 12 ПоследняяПоследняя
Показано с 1 по 10 из 12

Тема: Как спарсить текст с сайта python, кто знает?

  1. Как спарсить текст с сайта python, кто знает?

    Привет, ребята! Вопрос из тех, что заставляют почесать голову. Нужно понять, как спарсить текст с сайта python. Изучаю Python и наткнулся на задачу, где нужно вытащить текст с веб-страницы. Пытался гуглить, даже нашел пару примеров, но не все до конца понятно. Буду благодарен за любые советы, советы с кодом здесь прям приветствуются, потому что куда ж без них ? Спасибо заранее!



  2. Ждём вас в нашем чате в Телеграмм ==>> @pythoneer_chat

    А ТАКЖЕ: Канал о Python, статьи и книги ==>>
    @pythoneer_ru

  3. Привет! Если тебе нужно спарсить текст с сайта, то лучше всего использовать библиотеку BeautifulSoup вместе с requests. Вот тебе пример кода:

    Программный код:
    import requests

    from bs4 import BeautifulSoup



    url 
    'https://example.com'

    response requests.get(url)

    soup BeautifulSoup(response.text'html.parser')



    text soup.get_text()

    print(
    text
    Первое, что тебе нужно сделать — это установить библиотеки:
    Программный код:
    pip install requests beautifulsoup4 
    . Потом запускай этот код и наслаждайся текстом! Если вдруг что-то пойдет не так, проверяй URL или зависимости.

  4. Цитата Сообщение от NatureSpirit
    Привет! Если тебе нужно спарсить текст с сайта, то лучше всего использовать библиотеку BeautifulSoup вместе с requests. Вот тебе пример кода:

    Программный код:
    import requests

    from bs4 import BeautifulSoup



    url 
    'https://example.com'

    response requests.get(url)

    soup BeautifulSoup(response.text'html.parser')



    text soup.get_text()

    print(
    text
    Первое, что тебе нужно сделать — это установить библиотеки:
    Программный код:
    pip install requests beautifulsoup4 
    . Потом запускай этот код и наслаждайся текстом! Если вдруг что-то пойдет не так, проверяй URL или зависимости.
    Классный пример! There's еще такая тема с lxml, можно попробовать его тоже, если сохнуть по производительности. Но для начала soup ок.

  5. Yo, если коротко, то requests + BeautifulSoup — это топ! Только еще проверь, что в HTML нет всяких наворотов типа JS-рендеринга, а то придется еще с selenium возиться.

  6. Цитата Сообщение от Andrey
    Yo, если коротко, то requests + BeautifulSoup — это топ! Только еще проверь, что в HTML нет всяких наворотов типа JS-рендеринга, а то придется еще с selenium возиться.
    Selenium вообще огонь, если у тебя динамические страницы. Только ресурсы жует много.

  7. Если хочешь лоу-левел флекс с минимумом доп.библ, попробуй урлиб и регексы. Чекни пример:

    Программный код:
    import urllib.request

    import re



    url 
    'https://example.com'

    response urllib.request.urlopen(url)

    html response.read().decode('utf-8')



    text re.sub('<.*?>'''html)

    print(
    text
    Но это так, если по олдскулу решить хочешь ?

  8. Цитата Сообщение от Людмила Викторовна
    Если хочешь лоу-левел флекс с минимумом доп.библ, попробуй урлиб и регексы. Чекни пример:

    Программный код:
    import urllib.request

    import re



    url 
    'https://example.com'

    response urllib.request.urlopen(url)

    html response.read().decode('utf-8')



    text re.sub('<.*?>'''html)

    print(
    text
    Но это так, если по олдскулу решить хочешь ?
    Ха, пенопластовые санкции! Реально хардкорный метод, но может пригодиться, если что-то слетает.

  9. Попробуй еще парсер Scrapy, если много страниц надо проходить. С ним можно прям паутинами работать! Если неск страниц, то да, soup рулит.

  10. Цитата Сообщение от Юрий Петрович
    Попробуй еще парсер Scrapy, если много страниц надо проходить. С ним можно прям паутинами работать! Если неск страниц, то да, soup рулит.
    Scrapy прям стэнфорд среди парсеров ? но если его купить научиться, потом можно горы покорять!

Страница 1 из 2 12 ПоследняяПоследняя