Add process_symbol function to handle kline data for specific symbol

2026-01-14 11:12:10 +08:00
parent 0786311907
commit 1849e67f54
1 changed files with 86 additions and 1 deletions
--- a/download_binance_kline.py
+++ b/download_binance_kline.py
@@ -7,6 +7,7 @@ from psycopg2.extras import execute_values
 import logging
 from datetime import datetime
 import xml.etree.ElementTree as ET
+from download_unzip_csv import download_unzip_csv

 # 配置日志
 logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
@@ -229,6 +230,81 @@ def download_kline_data_by_url(url):
        logger.error(f"Failed to download {url}: {e}")
        return None

+def process_symbol(symbol, interval=INTERVAL):
+    """
+    处理指定交易对的所有K线数据，包括下载、解析、合并和插入数据库
+    
+    参数:
+        symbol: 交易对，例如: "BTCUSDT"
+        interval: 时间间隔，例如: "1d"，默认使用全局INTERVAL
+    
+    返回:
+        pandas.DataFrame: 合并后的K线数据
+    """
+    logger.info(f"Processing symbol: {symbol}, interval: {interval}")
+    
+    # 组装S3列表URL
+    s3_url = f"https://s3-ap-northeast-1.amazonaws.com/data.binance.vision?delimiter=/&prefix=data/futures/um/monthly/klines/{symbol}/{interval}/"
+    
+    # 获取所有可下载文件URL
+    file_urls = list_s3_files(s3_url)
+    
+    if not file_urls:
+        logger.warning(f"No files found for {symbol}-{interval}")
+        return None
+    
+    # 合并所有DataFrame
+    all_dfs = []
+    for file_url in file_urls:
+        if not file_url.endswith('.zip'):
+            continue
+        
+        try:
+            # 调用download_unzip_csv下载并解析数据
+            df = download_unzip_csv(file_url, header=None, names=KLINE_COLUMNS)
+            
+            # 添加symbol列
+            df["symbol"] = symbol
+            
+            # 转换时间戳为datetime
+            df["open_time"] = pd.to_datetime(df["open_time"], unit='ms')
+            df["close_time"] = pd.to_datetime(df["close_time"], unit='ms')
+            
+            all_dfs.append(df)
+            logger.info(f"Processed {os.path.basename(file_url)} with {len(df)} rows")
+        except Exception as e:
+            logger.error(f"Failed to process {file_url}: {e}")
+            continue
+    
+    if not all_dfs:
+        logger.warning(f"No data processed for {symbol}-{interval}")
+        return None
+    
+    # 合并所有DataFrame
+    merged_df = pd.concat(all_dfs, ignore_index=True)
+    logger.info(f"Merged {len(all_dfs)} files into a single DataFrame with {len(merged_df)} rows")
+    
+    # 去重
+    merged_df = merged_df.drop_duplicates(subset=["symbol", "open_time"])
+    logger.info(f"After deduplication, {len(merged_df)} rows remain")
+    
+    # 插入到PostgreSQL数据库
+    conn = create_connection()
+    if conn:
+        try:
+            # 确保表存在
+            create_table(conn)
+            
+            # 插入数据
+            insert_data(conn, merged_df)
+            logger.info(f"Successfully inserted {len(merged_df)} rows into database for {symbol}")
+        finally:
+            # 关闭连接
+            conn.close()
+    
+    return merged_df
+
+
 def main():
    # 创建数据库连接
    conn = create_connection()
@@ -282,4 +358,13 @@ def main():
    logger.info("Script completed successfully")

 if __name__ == "__main__":
+    # 测试新添加的process_symbol函数
+    import sys
+    if len(sys.argv) > 1:
+        # 从命令行获取交易对
+        symbol = sys.argv[1]
+        interval = sys.argv[2] if len(sys.argv) > 2 else INTERVAL
+        process_symbol(symbol, interval)
+    else:
+        # 默认运行main函数
        main()