Articles of screen scraping

Не удается извлечь текст и найти все по BeautifulSoup

Я хочу извлечь все доступные элементы в équipements, но я могу получить только первые четыре элемента, а затем получил «+ плюс». import urllib2 from bs4 import BeautifulSoup import re import requests headers = {‘User-Agent’:’Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6′} url = ‘https://www.airbnb.fr/rooms/8261637?s=bAMrFL5A’ req = urllib2.Request(url = url, headers = headers) html […]

Изменения в Google Play

За последний год или около того я создал несколько сценариев, чтобы очистить обзоры приложений Android от Google Play. В прошлом это прекрасно работало, подражая интерфейсу Google Play, чтобы вызвать https://play.google.com/store/getreviews с необходимыми параметрами и проанализировать результаты HTML. Недавние обновления интерфейса Google Play изменили структуру HTML, но также, похоже, реализуют некоторую защиту от выскабливания. Теперь есть […]

Извлечение определенных данных с веб-страницы с использованием PHP

Возможный дубликат: HTML-соскабливание в Php Я хотел бы знать, есть ли способ получить с веб-страницы определенную строку текста, которая обновляется каждый раз, а затем с использованием PHP. Я искал «по всему Интернету» и ничего не нашел. Просто увидел, что preg_match может это сделать, но я не понял, как его использовать. предположите, что веб-страница содержит следующее: […]

HtmlAgilityPack – захватить данные из таблицы html

Моя программа использует HtmlAgilityPack и захватывает HTML-страницу, сохраняет ее в переменной, и я пытаюсь получить из двух таблиц HTML, которые находятся под конкретными тегами Div Class (boardcontainer). С моим текущим кодом он просматривает всю веб-страницу для каждой таблицы и отображает их, но когда ячейка пуста, она выдает исключение: «Исключение NullReferenceException было необработанным – ссылка на […]

Проблема с html-тегами при очистке данных с помощью красивого супа

Общая часть кода: # -*- coding: cp1252 -*- import csv import urllib2 import sys import time from bs4 import BeautifulSoup from itertools import islice page = urllib2.urlopen(‘http://www.vodafone.de/privat/tarife/red-smartphone-tarife.html’).read() soup = BeautifulSoup(page) prices = soup.findAll(‘div’, {“class”: “price”}) После этого я пытаюсь использовать следующие коды для получения данных: Код 1: for price in prices: print unicode(price.string).encode(‘utf8’) Output1: No […]

BeautifulSoup get_text не разделяет все tags и JavaScript

Я пытаюсь использовать BeautifulSoup для получения текста с веб-страниц. Ниже приведен сценарий, который я написал для этого. Он принимает два аргумента: сначала входной файл HTML или XML, второй выходной файл. import sys from bs4 import BeautifulSoup def stripTags(s): return BeautifulSoup(s).get_text() def stripTagsFromFile(inFile, outFile): open(outFile, ‘w’).write(stripTags(open(inFile).read()).encode(“utf-8”)) def main(argv): if len(sys.argv) 3: print ‘Usage:\t\t’, sys.argv[0], ‘input.html output.txt’ […]

Получение HTML со страницы за логином

Этот вопрос является продолжением моего предыдущего вопроса о том, как получить HTML с страницы ASPX. Я решил попробовать использовать объект webclient, но проблема в том, что я получаю HTML-код логина, потому что требуется логин. Я попытался войти в систему с помощью объекта webclient: WebClient ww = new WebClient(); ww.DownloadString(“Login.aspx?UserName=&Password=”); string html = ww.DownloadString(“Internal.aspx”); Но я […]

Экспорт ASPX в HTML

Мы строим CMS. Сайт будет создан и управляться пользователями на страницах aspx, но мы хотели бы создать статический сайт HTML. То, как мы сейчас это делаем, – это код, который я нашел здесь, который перегружает метод Render на странице Aspx и записывает строку HTML в файл. Это отлично работает для одной страницы, но дело с […]

Как читать и анализировать содержимое веб-страницы в R

Я хотел бы прочитать содержимое URL (eq, http://www.haaretz.com/ ) в R. Мне интересно, как я могу это сделать

Каков наилучший способ анализа веб-страницы в Ruby?

Я смотрю на библиотеки XML и HTML на rubyforge для простого способа вытащить данные из веб-страницы. Например, если я хочу проанализировать страницу пользователя в stackoverflow, как я могу получить данные в удобном формате? Скажем, я хочу проанализировать мою собственную страницу пользователя для моего текущего рейтинга репутации и списка значков. Я попытался преобразовать источник, полученный с […]