Files
d3i-szct/dock/dcm/dcm_scrape_task.py
T
2026-06-02 17:46:38 +08:00

68 lines
2.9 KiB
Python

import asyncio
import json
import pandas as pd
import models
from tornado.httpclient import HTTPResponse, HTTPRequest
from dock.dcm import dcm_api
from paste.util import udict
from paste.core.logging import echo_log
from models.dcm_task import DcmTask
async def get_task_request(task_list_id: int = 600058, current_page: int = 1, num_per_page: int = 200,
sort_field_id: int = -1, sort_type: str = '', only_data_flag: bool = False,
search_num: str = None):
"""
获取 DCM 任务列表数据。
通过 POST 请求向 DCM 的任务列表接口提交表单数据,获取任务分页数据。
自动注入有效的 Cookie(如 JSESSIONID)至请求头,并解析返回的 JSON 响应。
Args:
task_list_id (int): 任务列表类型 ID,默认为企业待办:600058
current_page (int): 当前页码。
num_per_page (int): 每页显示数据量,默认 200。
sort_field_id (int): 排序字段 ID,默认不排序为 -1。
sort_type (str): 排序类型,默认无排序字段,排序类型为空。
only_data_flag (bool): 仅数据标志,默认为:False。
search_num(str): 可选的任务号关键词,默认搜索时不传此参数。
"""
api_url = f"/home/bizbase/tasklist/gethumantasklistdata"
request_body = {
"taskListID": task_list_id,
"currentPage": current_page,
"numPerPage": num_per_page,
"sortFieldID": sort_field_id,
"sortType": sort_type,
"onlyDataFlag": only_data_flag,
}
if search_num is not None:
request_body["searchNum"] = search_num
# 构造 API 请求
return await dcm_api.new_api_request(api_url, request_body)
async def after_task_request(response: HTTPResponse, retry_queue: asyncio.Queue[HTTPRequest]):
"""
任务请求响应后的处理程序。
:param response: 响应对象
:param retry_queue: 重试队列
"""
response_body = response.body.decode()
response_data = json.loads(response_body)
list_data = udict.get_by_path(response_data, 'resultInfo.data.listDataSet.listData')
task_df = pd.DataFrame(list_data)
# 更换映射方向,用于将源数据列名改为与数据库表对应
forward_mapping = {dict_f: table_f for table_f, dict_f in DcmTask.FieldMapping.items()}
mapped_df = task_df.rename(columns=forward_mapping)
# 这里把空数据都换成 None,以便存入数据库时是 null
mapped_df.replace(models.EmptyInDF + models.EmptyDatetimeInDF, None, inplace=True)
# 筛选数据状态
_created, _updated = await DcmTask.save_batch(mapped_df)
echo_log(f"成功创建企业待办:{_created}条,更新:{_updated}条.")
if retry_queue:
echo_log(f"企业待办重试队列中有:{retry_queue.qsize()} 个请求在等待.")