python +ip2region IP库地址文件实现秒级查询1万不同ip归属地址,,一、服务器环境介绍:
python +ip2region IP库地址文件实现秒级查询1万不同ip归属地址,,一、服务器环境介绍:
一、服务器环境介绍:服务器硬件:4核4g内存
服务器系统:centos6.9 x86_64位最小化安装
二、环境安装
参考地址:https://github.com/lionsoul2014/ip2region
直接下载包到服务器上的/root目录下
wget https://github.com/lionsoul2014/ip2region/archive/master.zip
unzip解压
unzip master.zip
到此准备工作基本完成
以下都是github.com官网上的说明,我这边复制在自己的博文里了
99.9%准确率,定时更新:
数据聚合了一些知名ip到地名查询提供商的数据,这些是他们官方的的准确率,经测试着实比纯真啥的准确多了。
每次聚合一下数据需要1-2天,会不定时更新。
每条ip数据段都固定了格式:城市Id|国家|区域|省份|城市|ISP
只有中国的数据精确到了城市,其他国家只能定位到国家,后前的选项全部是0,已经包含了全部你能查到的大大小小的国家。 (请忽略前面的城市Id,个人项目需求)
体积小:
生成的数据库文件ip2region.db只有1.5M(1.2版本前是3.5M)
已经集成的客户端有:java, C#, php, c, python,nodejs,php扩展(支持linux, php5, php7版本已支持),golang。
提供了两种查询算法,响应时间如下:
客户端/binary算法/b-tree算法/Memory算法:
c#/0.x毫秒/0.x毫秒/0.x毫秒
java/0.x毫秒/0.x毫秒/0.1x毫秒 (使用RandomAccessFile)
php/0.x毫秒/0.1x毫秒/0.1x毫秒
c/0.0x毫秒/0.0x毫秒/0.00x毫秒(b-tree算法基本稳定在0.02x毫秒级别)
python/0.x毫秒/0.1x毫秒/未知
任何客户端b-tree都比binary算法快,当然Memory算法固然是最快的!
maven仓库地址:
<dependency> <groupId>org.lionsoul</groupId> <artifactId>ip2region</artifactId> <version>1.4</version></dependency>nuget安装命令Install-Package IP2Region5. 测试程序:c#:cd IP2Region_ConsoleTestdotnet runexample result:请输入IP地址:36.149.160.55java:cd binding/javaant alljava -jar ip2region-{version}.jar ./data/ip2region.dbphp:php binding/php/testSearcher.php ./data/ip2region.dbc:cd binding/c/gcc -g -O2 testSearcher.c ip2region.c./a.out ../../data/ip2region.dbpython:python binding/python/testSearcher.py ./data/ip2region.db均会看到如下界面:initializing B-tree ... +----------------------------------+| ip2region test script || Author: [email protected] || Type ‘quit‘ to exit program |+----------------------------------+p2region>> 101.105.35.572163|中国|华南|广东省|深圳市|鹏博士 in 0.02295 millseconds输入ip地址开始测试,第一次会稍微有点慢,在运行命令后面接入binary,memory来尝试其他算法,建议使用b-tree算法,速度和并发需求的可以使用memory算法。具体集成请参考不同客户端的测试源码。
6.如何生成ip2region.db文件
从ip2region 1.2.2版本开始里面提交了一个dbMaker-{version}.jar的可以执行jar文件,用它来完成这个工作:
1, 确保你安装好了java环境(不玩Java的童鞋就自己谷歌找找拉,临时用一用,几分钟的事情)
2, cd到ip2region的根目录,然后运行如下命令:
java -jar dbMaker-{version}.jar -src 文本数据文件 -region 地域csv文件 [-dst 生成的ip2region.db文件的目录]
#文本数据文件:db文件的原始文本数据文件路径,自带的ip2region.db文件就是/data/ip.merge.txt生成而来的,你可以换成自己的或者更改/data/ip.merge.txt重新生成
#地域csv文件:该文件目的是方便配置ip2region进行数据关系的存储,得到的数据包含一个city_id,这个直接使用/data/origin/global_region.csv文件即可
#ip2region.db文件的目录:是可选参数,没有指定的话会在当前目录生成一份./data/ip2region.db文件
3, 获取生成的ip2region.db文件覆盖原来的ip2region.db文件即可
4, 默认的ip2region.db文件生成命令:
cd ip2region项目根目录
java -jar dbMaker-1.2.2.jar -src ./data/ip.merge.txt -region ./data/global_region.csv
#会看到一大片的输出
三、演示
以下是我采用的php和Python语言进行的实际测试演示:
php演示测试:
[[email protected] ~]# cd /root/ip2region-master[[email protected] ip2region-master]# lsbinding CHANGES.md data dbMaker-1.2.2.jar LICENSE.md README.md[[email protected] ip2region-master]# cd binding/[[email protected] binding]# lsc c# c_mmap golang java nodejs php php_extension python python3[[email protected] binding]# cd php[[email protected] php]# lsIp2Region.class.php testSeacher.php[[email protected] php]# php testSeacher.php /opt/ip2region-master/data/ip2region.db initializing B-tree ... +----------------------------------+| ip2region test script || Author: [email protected] || Type ‘quit‘ to exit program |+----------------------------------+ip2region>> 211.144.7.320|中国|0|北京|北京|联通 in 2.38013 millsecondsip2region>> 124.207.48.234 0|中国|0|北京|北京|鹏博士 in 0.12134 millsecondsip2region>>
Python演示:
[[email protected] python3]# python3 testSearcher.py /opt/ip2region-master/data/ip2region.dbinitializing b-tree...+----------------------------------+| ip2region test program || Author: [email protected] || Type ‘quit‘ or ‘exit‘ to exit program |+----------------------------------+ip2region>> 66.249.82.860|台湾|0|台湾|0|0 in 1.554199 millsecondsip2region>> 101.108.251.1870|泰国|0|曼谷|曼谷|TOT in 0.149414 millsecondsip2region>>
四、实际应用:
采用python脚本,来查询一个存有1017万个不同IP的文本文件中的ip归属地
以下结合原作者的testSearcher.py Python脚本,来获取这存有1017万个不同IP的归属地址。此Python脚本简单修改如下:
[[email protected] python3]# cat /root/ip2region-master/binding/python3/searcher.py #-*- coding:utf-8 -*-"""" ip2region python seacher client module"" Autho: koma<[email protected]>" Date : 2015-11-06"""import struct, sys, os, timefrom ip2Region import Ip2Regiondef testSearch(): """ " ip2region test function """ llen = len(sys.argv) if llen < 3: print ("Usage: python testSearcher.py [ip2region db file] [alrogrithm]") print ("Algorithm: binary or b-tree") return 0 dbFile = sys.argv[1] method = 1 algorithm = "b-tree" search_file = sys.argv[2] if (not os.path.isfile(dbFile)) or (not os.path.exists(dbFile)): print ("[Error]: Specified db file is not exists.") return 0 if (not os.path.isfile(search_file)) or (not os.path.exists(search_file)): print("查询文件不存在") return 0 if llen > 3: algorithm = sys.argv[3] if algorithm == "binary": method = 2 elif algorithm == "memory": method = 3 searcher = Ip2Region(dbFile); with open(search_file,"rt") as f: for line in f: line = line.strip() #print(line) if line == "": print("[Error]: Invalid ip address.") continue if line == "quit" or line == "exit": print("[Info]: Thanks for your use, Bye.") break if not searcher.isip(line): print("[Error]: Invalid ip address.") continue #sTime = time.time() * 1000 if method == 1: data = searcher.btreeSearch(line) elif method == 2: data = searcher.binarySearch(line) else: data = searcher.memorySearch(line) #eTime = time.time() * 1000 if isinstance(data, dict): #print("%s in %f millseconds" % (data["city_id"], data["region"].decode(‘utf-8‘), eTime - sTime)) #print( "%s" % (data["region"].decode(‘utf-8‘))) print("%s|%s" % (line, data["region"].decode(‘utf-8‘))) else: print("[Error]: ", data) searcher.close()if __name__ == "__main__": testSearch()
测试如下:
[[email protected] python3]# cd /root/ip2region-master[[email protected] ip2region-master]# time python3 ./binding/python3/searcher.py ./data/ip2region.db /root/unip_guishu >/opt/ipdizhi.txtreal 15m54.394suser 14m47.138ssys 0m56.876s
[[email protected] ip2region-master]# tail -10 /opt/ipdizhi.txt 99.97.22.46|美国|0|0|0|美国电话电报99.97.26.40|美国|0|0|0|美国电话电报99.97.29.64|美国|0|0|0|美国电话电报99.97.30.121|美国|0|0|0|美国电话电报99.98.238.52|美国|0|南卡罗来纳|0|美国电话电报99.98.254.160|美国|0|加利福尼亚|0|美国电话电报99.99.218.167|美国|0|德克萨斯|休斯顿|美国电话电报99.99.232.239|美国|0|德克萨斯|0|美国电话电报99.99.37.198|美国|0|加利福尼亚|0|美国电话电报99.99.55.172|美国|0|俄亥俄|0|美国电话电报
总结:当然这个查询的时间和服务器的硬件有很大的关系,后来我在一台CPU为16核心的上测试,查询结果可以达到秒级10万不同ip的归属地查询结果
python +ip2region IP库地址文件实现秒级查询1万不同ip归属地址
相关内容
- 暂无相关文章
评论关闭