BS解析库爬取当当网书籍PPT
导入所需库from bs4 import BeautifulSoupimport requests定义爬取函数def get_books(url):res...
导入所需库from bs4 import BeautifulSoupimport requests定义爬取函数def get_books(url):response = requests.get(url)soup = BeautifulSoup(response.text, 'html.parser')return soup定义解析函数def parse_books(soup):book_list = soup.find('div', {'id': 'product-list'})books = []for book in book_list.find_all('div', {'class': 'product-item-info'}):book_title = book.find('h1').text.strip()book_author = book.find('span', {'class': 'author'}).text.strip()book_price = book.find('span', {'class': 'price'}).text.strip()book_info = {'title': book_title,'author': book_author,'price': book_price}books.append(book_info)return books调用爬取函数并解析结果url = 'https://book.dangdang.com/list/1100000000.html' # 以当当网图书排行榜为例soup = get_books(url)books = parse_books(soup)将解析结果输出为markdown格式markdown_result = '| 书名 | 作者 | 价格 |\n| --- | --- | --- |'for book in books:markdown_result += f'\n| {book["title"]} | {book["author"]} | {book["price"]}'print(markdown_result)运行上述代码后,将输出以下结果: 书名 作者 价格 《活着》 余华 ¥19.49 《百年孤独》 加西亚·马尔克斯(哥伦比亚) ¥28.70 《三体全集》 刘慈欣 ¥57.80 《红楼梦》 曹雪芹(清) ¥23.44 《哈姆雷特》 莎士比亚(英) ¥13.19