職位描述
崗位職責:1.遵循robots協議采集互聯網上公開的信息;2.負責采集程序和Crawlab爬蟲管理平臺的維護;3.與業務溝通抓取需求,負責數據的采集、清洗、存儲、調度等流程;4.有豐富的逆向經驗,能夠解決采集過程中遇到的反爬;5.優化采集程序,提高采集效率和穩定性。崗位要求:1.本科學歷,3年以上爬蟲工作經驗;2.熟練掌握python, js等語言;3.熟悉多線程編程,了解https協議;4.熟悉Crawlab或類似的爬蟲管理平臺,有豐富的爬蟲經驗(至少兩年);5.熟悉redis/mongodb/PostgreSQL等數據庫的使用;了解docker等虛擬化技術,有相關項目部署經驗;6.有扎實的python基礎,熟練使用scrapy爬蟲框架,了解運行原理并能解決相關問題;6.了解常見的反爬方式,包括但不限于ip限制,滑塊,驗證碼,數據加密,請求參數加密等(有瑞數6經驗者優先)。
企業介紹
火石創造創立于2015年8月,是現代產業數據智能服務商、中國產業大數據和產業大腦領域領先企業。現已建成覆蓋九大戰新產業、41個工業門類、300+細分領域,積累超過550億產業本體數據的全球公域產業數據中心。基于產研、數據和智能的深度融合,打造出產業數字底座、產業大腦、產業招商大腦、金融產業通、火石數鏈等核心產品,探索形成數據智能支撐決策智能、流程數字化實現多跨協同以及資源要素和企業全生命周期需求的精準匹配等多條產業數據價值化的有效路徑。公司承建了臺州市、保定市、重慶市長壽區數字底座和多個城市、園區產業大腦,是北京高精尖產業大數據平臺、湖北科創企業智慧大腦、浙江省生物醫藥產業大腦、長壽區數字底座、張江科學城產業大腦等標志性項目的建設和運營方,助力產業高質量發展、加速新型工業化。迄今,已為全國28個省(區、市)、80多個城市、300多個園區、數百家數產集團及金融機構、數萬家企業提供產業數據和場景應用服務,核心產品與解決方案深受客戶與合作伙伴好評。此外,還構建起產業數據資產五級標準和增值運營生態,加快實現數據資產構建和價值化閉環。公司總部在杭州,在北京、上海、成都、重慶、深圳等地設有子公司,組建了一支IT、數據技術、產業經濟學和行業領域專家跨界復合型團隊,持續構建業界領先的生成式產業經濟大模型能力及研發體系,涵蓋自然語言處理、知識圖譜關系挖掘、決策智能、智能內容生成等關鍵技術領域,以“人工智能+”引領產業升級。公司擁有自主知識產權150多項,其中國家發明專利近50項,為省重點研發計劃項目入選單位。已通過國家高新技術企業、產業大腦省級研發中心、省民營企業數字化轉型促進中心、產業大數據工程研究中心、產業數字化服務商、大數據示范企業、專精特新中小企業等認定,以及數據安全管理能力國家級認證,是產業大數據行業首家獲證單位。