多个复选框单击不起作用。它总是点击第一个元素

Question

Moran Hanane

Asked: 2025-02-07 17:15:56 +0800 CST2025-02-07 17:15:56 +0800 CST 2025-02-07 17:15:56 +0800 CST

我如何抓取此 URL 的“详细信息”部分中的数据：https://gallica.bnf.fr/ark:/12148/cb42768809f/date？

772

大家好，我是网络抓取方面的新手。

我正在尝试将此网页（ https://gallica.bnf.fr/ark:/12148/cb42768809f/date ）的“详细信息”部分中的数据进行网络抓取，以便能够使用其每个字段填充 SQL 数据库。

这是一个测试 URL。我通过该网站的 API 请求了一个包含 500 个类似 URL 的列表。我打算在 Python 函数运行后将其应用于此列表的所有 URL。

有什么建议可以帮助我从这个网页中提取我需要的信息吗？非常感谢！

首先，我尝试使用 beautifulsoup，但问题是只有单击下拉按钮时才会出现“详细信息”部分。

我尝试了几个漂亮的代码片段，比如下面的代码，但是没有起作用：

def get_metadata_bs4(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.text, "html.parser")

    try:
        
        title = soup.find("h1").text.strip() if soup.find("h1") else "Titre inconnu"

        
        publisher = soup.select_one("dl dd:nth-of-type(1)").text.strip() if soup.select_one("dl dd:nth-of-type(1)") else "Auteur inconnu"

        
        Date of publication = soup.select_one("dl dd:nth-of-type(2)").text.strip() if soup.select_one("dl dd:nth-of-type(2)") else "Date inconnue"

        return {"title": title, "author": author, "Date of publication": Date of publication}
    
    except Exception as e:
        print(f"Erreur pour {url}: {e}")
        return None

# Tester avec un seul lien
url_test = "https://gallica.bnf.fr/ark:/12148/cb42768809f/date"
print(get_metadata_bs4(url_test))

因此我尝试了 selenium，但这是我第一次使用这个 Python 库...我尝试找到源代码的正确 X-Path，并在以下代码块中用这个 X-path 替换“metadata-class”：

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time

# Configuration Selenium
chrome_options = Options()
chrome_options.add_argument("--headless")  # Mode sans interface graphique
driver = webdriver.Chrome(options=chrome_options)

def get_metadata_from_notice(url):
    driver.get(url)
    time.sleep(2)  # Laisser le temps de charger
    
    try:
        # Cliquer sur le dropdown "Informations détaillées"
        dropdown = WebDriverWait(driver, 5).until(
            EC.element_to_be_clickable((By.XPATH, "//div[contains(text(), 'Informations détaillées')]"))
        )
        dropdown.click()
        time.sleep(2)  # Attendre le chargement après le clic
    except Exception as e:
        print(f"⚠️ Erreur lors du clic sur {url} : {e}")
        return None

    try:
        # Extraction des métadonnées après ouverture du dropdown
        metadata_section = driver.find_element(By.XPATH, "//div[@class='metadata-class']")  # À remplacer par la bonne classe
        metadata_text = metadata_section.text
        return {"url": url, "metadata": metadata_text}
    except Exception as e:
        print(f"⚠️ Impossible de récupérer les métadonnées pour {url} : {e}")
        return None

# Test sur une URL
test_url = "https://gallica.bnf.fr/ark:/12148/cb42768809f/date"
print(get_metadata_from_notice(test_url))

# Fermer Selenium
driver.quit()

但它一直给我这样的结果：

⚠️ Impossible de récupérer les métadonnées pour https://gallica.bnf.fr/ark:/12148/cb42768809f/date
⚠️ Erreur sur https://gallica.bnf.fr/ark:/12148/cb452698066/date : Message: 
Stacktrace:
    GetHandleVerifier [0x00007FF7940A02F5+28725]
    (No symbol) [0x00007FF794002AE0]
    (No symbol) [0x00007FF793E9510A]
    (No symbol) [0x00007FF793EE93D2]
    (No symbol) [0x00007FF793EE95FC]
    (No symbol) [0x00007FF793F33407]
    (No symbol) [0x00007FF793F0FFEF]
    (No symbol) [0x00007FF793F30181]
    (No symbol) [0x00007FF793F0FD53]
    (No symbol) [0x00007FF793EDA0E3]
    (No symbol) [0x00007FF793EDB471]
    GetHandleVerifier [0x00007FF7943CF30D+3366989]
    GetHandleVerifier [0x00007FF7943E12F0+3440688]
    GetHandleVerifier [0x00007FF7943D78FD+3401277]
    GetHandleVerifier [0x00007FF79416AAAB+858091]
    (No symbol) [0x00007FF79400E74F]
    (No symbol) [0x00007FF79400A304]
    (No symbol) [0x00007FF79400A49D]
    (No symbol) [0x00007FF793FF8B69]
    BaseThreadInitThunk [0x00007FFC0A7D259D+29]
    RtlUserThreadStart [0x00007FFC0BA0AF38+40]

2 个回答

Voted

iliak · Answer 1 · 2025-02-07T18:00:41+08:00

iliak

2025-02-07T18:00:41+08:002025-02-07T18:00:41+08:00

不需要使用 Selenium，只需在 shell 中执行简单的 curl 请求即可获得结果：

curl https://gallica.bnf.fr/services/ajax/notice/ark:/12148/cb42768809f/date

我如何找到这个？只需打开浏览器的 devtools，选择网络选项卡，然后单击“详细信息”，就会出现一个新的 GET 条目。

2

S A · Answer 2 · 2025-02-07T20:07:00+08:00

正如@iliak提到的，您可以通过 get 请求获取信息。您必须插入services/ajax/notice/您的 URL。然后您必须解析 json 以获取数据。

对于 selenium，请尝试以下代码。它获取信息并使用 pandas 格式化数据。

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time
import pandas as pd

# Configuration Selenium
chrome_options = Options()
chrome_options.add_argument("--headless")  # Mode sans interface graphique
driver = webdriver.Chrome(options=chrome_options)
wait = WebDriverWait(driver, 10)

def get_metadata_from_notice(url):
    driver.get(url)

    details = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, "div#moreInfosRegion")))
    details.click()
    metadata_section = wait.until(EC.visibility_of_element_located((By.CSS_SELECTOR, "dl.noticeDetailsArea")))
    # metadata_text = metadata_section.text
    # return {"url": url, "metadata": metadata_text}

    titles = metadata_section.find_elements(By.XPATH,"./dt")
    data =[]
    for title in titles:
        content = title.find_element(By.XPATH,"./following-sibling::dd[1]").text
        data.append({"Title":title.text, "Content":content})
    return data


# Test sur une URL
test_url = "https://gallica.bnf.fr/ark:/12148/cb42768809f/date"
df = pd.DataFrame(get_metadata_from_notice(test_url))
print(df)

# Fermer Selenium
driver.quit()

输出：

                 title                                            content
0              Title :   Bulletin paroissial (Valence (Drôme), Paroiss...
1              Title :   Bulletin paroissial mensuel de la cathédrale ...
2          Publisher :                                        F. Rouet ()
3   Publication date :                                               1907
4            Subject :   Guerre mondiale (1914-1918) -- Aspect religie...
5       Relationship :     http://catalogue.bnf.fr/ark:/12148/cb42768809f
6           Language :                                             french
7           Language :                                             French
8         Identifier :                        ark:/12148/cb42768809f/date
9             Source :   Bibliothèque nationale de France, département...
10
11

我如何抓取此 URL 的“详细信息”部分中的数据：https://gallica.bnf.fr/ark:/12148/cb42768809f/date？

重新格式化数字，在固定位置插入分隔符

为什么 C++20 概念会导致循环约束错误，而老式的 SFINAE 不会？

VScode 自动卸载扩展的问题（Material 主题）

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我如何抓取此 URL 的“详细信息”部分中的数据：https://gallica.bnf.fr/ark:/12148/cb42768809f/date？

2 个回答

相关问题