目前正在从事一个以称为 SNOMED 的医学词汇为中心的项目。snomed 的核心是一个(关系)数据集,长度为 350,000 个术语/记录。我们希望能够快速查询此数据集以获取我们希望具有某种形状或形式的自动完成/建议的数据输入部分。
它目前位于 MySQL MyISAM DB 中,仅用于开发目的,但我们想开始使用一些内存选项。目前包括索引在内是 30MB。MEMORY MySQL 引擎和 MemCached 是显而易见的,所以我的问题是您会建议其中哪一个,或者那里有更好的东西?如果这有所作为,我们主要在应用程序级别使用 Python。
旁注:数据集有一个单独的关系,将这些概念映射到大约 130 万条记录的常见别名和缩写......最终我们也希望在这里使用其中的一个子集。
目前尚不清楚您的具体要求是什么,但是对于这么小的数据库,查询在任何引擎上都可能很快,因为所有数据都可以放入内存中。
MyISAM 和 InnoDB 之类的东西需要一些调整才能工作。Memcached 仅在您需要扩展到非常高负载的基于读取的工作负载时才有用,即那些对于单个服务器来说太高而无法从传统内存数据库中提供服务的工作负载(Memcached 的主要功能是能够跨池扩展)服务器)。但是 memcached 不能进行常规查询,例如范围扫描,只能查找特定键,因此它不是通用数据库。
我建议使用 innodb 的缓冲池大于您的数据集,并正确选择主键。主键范围扫描应该执行得非常好,并且应该能够用于前缀匹配(例如完成用例)。
在普通硬件上,您将能够扩展到每秒 1000 个查询。如果你需要更多,要么添加复制从属服务器,要么考虑使用 memcached 之类的东西。
考虑在 StackOverflow 上提问?
您可以将表保留为 MEMORY 类型。它会非常快,但需要您在使用前播种。我有一种感觉,你可以从中获得很多性能。在内存中,它的读取操作肯定比 InnoDB 和 MyISAM 快。
我会说尝试几种不同的方式,然后用 ApacheBench 超载搜索,看看什么在压力下最容易屈服。