AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / coding / Perguntas / 79562472
Accepted
AmyTheGhostHunter
AmyTheGhostHunter
Asked: 2025-04-08 23:29:13 +0800 CST2025-04-08 23:29:13 +0800 CST 2025-04-08 23:29:13 +0800 CST

Ponto de extremidade XHR retornando apenas dados da página de carregamento

  • 772

Desejo acessar as tabelas do seguinte site:

https://www.marketbeat.com/ratings/

No entanto, as páginas só podem ser alteradas definindo a "Data do Relatório".

Eu sei que posso alterar a data via automação do navegador... mas é muito lento e fiquei curioso para saber se existe uma maneira mais rápida. Tentei acessar o endpoint XHR, mas o payload para a data não está funcionando.

Ao inspecionar a aba Rede, vejo que há uma solicitação de postagem XHR. No entanto, se eu tentar solicitar o endpoint com um payload que define a data, recebo apenas dados do dia atual, como se eu não tivesse definido uma data. Acho que o payload não está funcionando corretamente.

from bs4 import BeautifulSoup
import pandas as pd
import requests

payload = {
  "ctl00$cphPrimaryContent$txtStartDate": "09/17/2024",
}
r = requests.post('https://www.marketbeat.com/ratings/', json=payload)
soup = BeautifulSoup(r.text, 'html.parser')
tables = pd.read_html(str(soup))

Posso estar enganado e esse ponto final é de alguma forma oculto ou somente para uso interno?

Além disso, se eu usar o Selenium para alterar a "Data do Relatório", depois de usar .clear() no input_element, a página será recarregada, outro element_id será atribuído ao campo de entrada e o valor não será apagado, mas redefinido para seu valor inicial.

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys


driver = webdriver.Chrome()
driver.get('https://www.marketbeat.com/ratings/')

input_element = driver.find_element(By.ID, "cphPrimaryContent_txtStartDate")#.sendKeys("value", "1/1/2023");

if(input_element.is_displayed()):
    input_element.clear()
    input_element.send_keys("1/1/2023")

Então isso também não funciona. Qualquer sugestão seria super útil. Obrigado.

python
  • 1 1 respostas
  • 28 Views

1 respostas

  • Voted
  1. Best Answer
    furas
    2025-04-09T05:15:33+08:002025-04-09T05:15:33+08:00

    Com requestsisso precisa de mais obras.

    Primeiro ele envia como FORMprecisa data=payloadem vez dejson=payload

    Mas ele também precisa de outros valores no payload.
    Não testei se ele precisa de todos os valores, mas o navegador envia todos eles.

    payload["__EVENTTARGET"] = "ctl00$cphPrimaryContent$txtStartDate"
    payload["ctl00$cphPrimaryContent$txtStartDate"] = "4/7/2025"
    payload["ctl00$cphPrimaryContent$ScriptManagerTwo"] = "ctl00$cphPrimaryContent$pnlUpdate|ctl00$cphPrimaryContent$txtStartDate"
    payload["ctl00$cphPrimaryContent$ddlMarketCap"] = "A"
    payload["ctl00$cphPrimaryContent$ddlActionTaken"] = "All Actions"
    payload["ctl00$cphPrimaryContent$ddlRating"] = "All Ratings"
    payload["OnPageRegistrationEmail"] =""
    payload["txtRegistrationEmail"] =""
    payload["ctl00$txtLoginOnModalEmail"] = ""
    payload["ctl00$txtLoginOnModalPassword"] = ""
    payload["ctl00$txtCreateOnModalEmail"] = ""
    payload["ctl00$txtCreateOnModalPassword"] = ""
    payload["__ASYNCPOST"] = "true"
    payload[""] = ""
    

    Também precisa de outros valores que provavelmente podem mudar quando você recarrega a página.
    Primeiro: eu uso Sessiona GETpágina principal com Cookies.

    session = requests.Session()
    session.headers.update({'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64; rv:137.0) Gecko/20100101 Firefox/137.0'})
    
    response = session.get('https://www.marketbeat.com/ratings/')
    

    Segundo: Eu também o uso para obter valores de todos <input>que começam com__

    soup = BeautifulSoup(response.text, 'lxml')
    inputs = soup.find_all('form')[1].find_all('input')
    
    payload = dict()
    
    for item in inputs:
        name = item['name']
        if name.startswith(('__')): #, 'ctl')):
            value = item.attrs.get('value', "")
            print(name, '==>', value)
            payload[name] = value
    

    Ele também precisa de um cabeçalho X-MicrosoftAjaxpara enviar novos valores.

    Às vezes, a conexão trava quando não tenho, User-Agentmas não tenho certeza se realmente preciso. Mas o servidor pode usar esse valor para detectar se é um navegador real, então eu o mantenho.

    headers = {
        # it seems it may hang connection without `User-Agent` (it can be set here or in session at the beginning)
        'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64; rv:137.0) Gecko/20100101 Firefox/137.0',
        # 'Referer': 'https://www.marketbeat.com/ratings/',
        # 'X-Requested-With': 'XMLHttpRequest',
        'X-MicrosoftAjax': 'Delta=true'
    }
    

    Ele envia apenas esta parte que precisa ser substituída em HTML no navegador (mais alguns valores separados por |), mas read_htmlcarrega sem problemas.


    Código funcional completo que usei para testes.

    import io
    import requests
    import pandas as pd
    from bs4 import BeautifulSoup
    
    # --- use Session to have all Cookies ---
    
    session = requests.Session()
    session.headers.update({'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64; rv:137.0) Gecko/20100101 Firefox/137.0'})
    
    # --- get form with some variables needed in next request ---
    
    url = 'https://www.marketbeat.com/ratings/'
    
    response = session.get(url)
    #print('--- response ---')
    #print(response.status_code)
    #print('--- end ---')
    
    # --- search variables starting with __ ---
    
    soup = BeautifulSoup(response.text, 'lxml')
    inputs = soup.find_all('form')[1].find_all('input')
    
    payload = dict()
    
    for item in inputs:
        name = item['name']
        if name.startswith(('__')): #, 'ctl')):
            value = item.attrs.get('value', "")
            print(name, '==>', value)
            payload[name] = value
    
    # --- add new values ---
    
    payload["__EVENTTARGET"] = "ctl00$cphPrimaryContent$txtStartDate"
    payload["ctl00$cphPrimaryContent$txtStartDate"] = "4/7/2025"
    payload["ctl00$cphPrimaryContent$ScriptManagerTwo"] = "ctl00$cphPrimaryContent$pnlUpdate|ctl00$cphPrimaryContent$txtStartDate"
    payload["ctl00$cphPrimaryContent$ddlMarketCap"] = "A"
    payload["ctl00$cphPrimaryContent$ddlActionTaken"] = "All Actions"
    payload["ctl00$cphPrimaryContent$ddlRating"] = "All Ratings"
    payload["OnPageRegistrationEmail"] =""
    payload["txtRegistrationEmail"] =""
    payload["ctl00$txtLoginOnModalEmail"] = ""
    payload["ctl00$txtLoginOnModalPassword"] = ""
    payload["ctl00$txtCreateOnModalEmail"] = ""
    payload["ctl00$txtCreateOnModalPassword"] = ""
    payload["__ASYNCPOST"] = "true"
    payload[""] = ""
    
    print('--- payload ---')
    for key, val in payload.items():
        print(key, '==>', val)
    
    # --- needed headers ---
    
    headers = {
        # it seems it may hang connection without `User-Agent` (it can be set here or in session at the beginning)
        'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64; rv:137.0) Gecko/20100101 Firefox/137.0',
        # 'Referer': 'https://www.marketbeat.com/ratings/',
        # 'X-Requested-With': 'XMLHttpRequest',
        'X-MicrosoftAjax': 'Delta=true'
    }
    
    # --- send POST ---
    
    response = session.post(url, data=payload, headers=headers)
    print('--- response ---')
    print(response.status_code)
    #print(response.text[:2000])  # display only part to check if it sends expected data
    print('--- end ---')
    
    # --- get it as DataFrame ---
    
    tables = pd.read_html(io.StringIO(response.text))
    #print('len(tables):', len(tables))
    print(tables[0])
    
    • 0

relate perguntas

  • Como divido o loop for em 3 quadros de dados individuais?

  • Como verificar se todas as colunas flutuantes em um Pandas DataFrame são aproximadamente iguais ou próximas

  • Como funciona o "load_dataset", já que não está detectando arquivos de exemplo?

  • Por que a comparação de string pandas.eval() retorna False

  • Python tkinter/ ttkboostrap dateentry não funciona quando no estado somente leitura

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Reformatar números, inserindo separadores em posições fixas

    • 6 respostas
  • Marko Smith

    Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

    • 2 respostas
  • Marko Smith

    Problema com extensão desinstalada automaticamente do VScode (tema Material)

    • 2 respostas
  • Marko Smith

    Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

    • 1 respostas
  • Marko Smith

    Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

    • 1 respostas
  • Marko Smith

    Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

    • 6 respostas
  • Marko Smith

    `(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

    • 3 respostas
  • Marko Smith

    Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

    • 1 respostas
  • Marko Smith

    PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

    • 2 respostas
  • Marko Smith

    AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

    • 1 respostas
  • Martin Hope
    Fantastic Mr Fox Somente o tipo copiável não é aceito na implementação std::vector do MSVC 2025-04-23 06:40:49 +0800 CST
  • Martin Hope
    Howard Hinnant Encontre o próximo dia da semana usando o cronógrafo 2025-04-21 08:30:25 +0800 CST
  • Martin Hope
    Fedor O inicializador de membro do construtor pode incluir a inicialização de outro membro? 2025-04-15 01:01:44 +0800 CST
  • Martin Hope
    Petr Filipský Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não? 2025-03-23 21:39:40 +0800 CST
  • Martin Hope
    Catskul O C++20 mudou para permitir a conversão de `type(&)[N]` de matriz de limites conhecidos para `type(&)[]` de matriz de limites desconhecidos? 2025-03-04 06:57:53 +0800 CST
  • Martin Hope
    Stefan Pochmann Como/por que {2,3,10} e {x,3,10} com x=2 são ordenados de forma diferente? 2025-01-13 23:24:07 +0800 CST
  • Martin Hope
    Chad Feller O ponto e vírgula agora é opcional em condicionais bash com [[ .. ]] na versão 5.2? 2024-10-21 05:50:33 +0800 CST
  • Martin Hope
    Wrench Por que um traço duplo (--) faz com que esta cláusula MariaDB seja avaliada como verdadeira? 2024-05-05 13:37:20 +0800 CST
  • Martin Hope
    Waket Zheng Por que `dict(id=1, **{'id': 2})` às vezes gera `KeyError: 'id'` em vez de um TypeError? 2024-05-04 14:19:19 +0800 CST
  • Martin Hope
    user924 AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos 2024-03-20 03:12:31 +0800 CST

Hot tag

python javascript c++ c# java typescript sql reactjs html

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve