食品の安全性・有効性について
消費者は安全性と
有効性を求めている
機能性食品に関する消費者アンケート結果によると、消費者がサプリメントに求めているのは第一に有効性(72%)、次いで安全性(45%)です(※複数回答あり)。社会が成熟し、情報が氾濫する時代となった今、本当に信頼できるものが求められているのです。
サプリメントが効くってどういうこと?
−食品の有効性−
そもそも、食品に効果効能があることはどのように示せばよいのでしょうか。
例えば「このサプリメントを摂取して私は体重が11kg減った!」とか、著名な先生の推薦文がついているとか、そうした情報だけでは、食品の有効性が「科学的に」示されたとはいえません。体重が減った人が何人かいたとしても、逆に同じくらいの数、体重が増える人がいるかもしれません。意地悪な(科学的には「懐疑的な」)考え方をすれば、仮に体重が減った人のほうが多くても、サプリメントの効果というよりむしろ、季節変化など別の原因が働いていたのかもしれません(と言われてしまうかもしれません)。
ヒト臨床試験(ヒト試験)を行う目的は、他の要因による影響を極力取り除きつつ、対象となる医薬品や食品が本当に目的とする効果があるものであることを、科学的に確かめることにあります。
簡単に言うと、食品が有効性のあるものであるということは、その食品摂取の対象となる層から無作為(ランダム)に摂取者を選んだとき、同じ層の摂取しない人に比べて、確かに効果が見られるということです。
当然消費者層のすべての人に試験に参加してもらうことはできません。実際には、あらかじめ決めておいた条件に合致する比較的少数の方々(被験者)に参加していただき、ヒト臨床試験(ヒト試験)を行うことになります。
被験者選定を含め、ヒト臨床試験(ヒト試験)全体をプランニングすることを実験計画や試験デザインといい、結果の解析には主に生物統計学という手法が用いられます。
長期間摂取しても大丈夫?
−安全性の確認−
そもそもその食品を摂取して安全なのか、ということは、有効性よりもずっと重要な問題でしょう。私たちが日常的に口にすることのある食材を原料にしていることが多い健康食品は、医薬品ほど安全性の評価に意識が向けられることは少ないようです。しかし一般的な食品を原料にしていても、健康食品は有効成分を濃縮していたりしていることが多いため、私たちが普段であれば口にしないような量の成分を口にしてしまいがちなので、安全性の評価が必要になってきます。
安全性の評価は、細胞レベルの毒性試験や動物実験に始まります。ヒト臨床試験(ヒト試験)の段階では、長期間摂取や過剰摂取をしたのちの、内科的所見の有無や血液検査で異常が見られないかなどを調べることで、安全性を評価します。
ヒト臨床試験(ヒト試験)の計画
−様々な試験デザイン−
ここでは、サプリメントを摂取した場合、しなかった場合に比べて確かに○○が良くなった!ということを科学的に明らかにするために、どんな試験を行うのかを簡単に解説します。
例として、体脂肪を減らす効果が見込まれる食品Aをとりあげましょう。
「食品Aを摂取した場合、摂取しなかった場合に比べて確かに体脂肪が減った!」
というのは、摂取した以上は、そもそも摂取しなかった場合は作りだせないため、実際は無理ですね。そこで、次のように考えます。
「食品Aを摂取した人は、摂取しなかった(別の)人に比べて確かに体脂肪が減った!」
どうでしょうか。 ここで、摂取した人と、しなかった人がそれぞれ2人くらいだったとしたら、ちょっと怪しい気がしますね。「たまたま」という可能性も大きいでしょう。さらに、食品Aを摂取した人は実は体脂肪が限界まで高い人で、摂取しなかった人はこれ以上減ることがないほど体脂肪が低い人だったらどうでしょう。これでは科学的な証明にはならず、本当に体脂肪を下げる効果があるのかどうかが示されたとはいえませんね。 ここまでをまとめると、ヒト臨床試験(ヒト試験)は、「01.ある程度の多人数」で、「02.できるだけ被験者の条件を揃えて」実施する必要があることがわかります。もちろん限界がありますから、試験の目的達成のために、揃える条件を絞ったり、どの程度の人数があれば十分かを予測したりして、試験計画を立てることになります。
上の例では、摂取した人と、何も摂取しなかった人に分けて話をしましたが、人間はあれこれ考えてしまう動物なので、摂取したからにはきっと効果が出るはずだ、と思い込んでしまうものです。そして、このような思い込みゆえの効果が実際に表れてしまうことがよくあります。こうした影響をできるだけ取り除くため、医薬品の臨床試験では有効成分の入った本物の薬と、有効成分のない偽薬(プラセボ)をそれぞれのグループに投薬して比較することが考え出されました。これをプラセボ対照比較試験と呼び、食品のヒト臨床試験(ヒト試験)でも行われています。
さらに厳密に考えていくと、被験者自身は飲んでいるものが本物か、プラセボかがわからなくても、もし試験を監督する医師や被験者と接する運営者がわかっていたら、本物を飲んでいる被験者に対し無意識にでも何らかの影響を与えてしまうかもしれません。こうした影響さえも取り除くために、担当医師や被験者の管理者にも本物・プラセボの区別を試験期間中に知らせないようにすることが考えられます。このような試験の行い方を、二重盲検法と呼びます。
今のところ、被験者を無作為にグループ分けして行う、二重盲検プラセボ対照比較試験が最もエビデンスのレベルが高い(科学的な信頼度が高い)と考えられています。しかし、状況によっては対照群を用意することが困難だったりすることもあるため、一般的には試験の目的によって様々な試験デザインを選択していきます。
また、摂取群と対照群をある一定の期間をはさんで入れ替える、という方法もあります。これをクロスオーバー比較試験と呼び、被験者をより少なくして、精度の高い試験を行うことが可能ですが、試験期間が長くなりすぎることがあるため、摂取期間が比較的短めの場合によく実施されることが多いようです。
何名の被験者が必要か? −サンプル数の決め方−
試験を行うためには被験者の数(サンプル数)を決めなければなりませんが、サンプル数を決める前に、統計的有意差についておおよそ理解しておくとよいでしょう。
試験では「摂取群と対照群には差があるか」だけを見ているかのように思えますが、本当はそれぞれのグループが属しているであろう、大きな集団の差を問題にしているのです。そしてグループ間の平均値の差が大きすぎるなどの理由で、仮にそれぞれのグループが属していると考えられる集団(母集団)が同じものだと考えるのに少々無理が生じたとき、「統計的有意差がある」とし、摂取群と対照群には確かに差がある、と考えます。この「少々無理がある」というのは、具体的にはそれぞれのグループが互いに同じ母集団に属している確率(有意確率)がある値より低いことを指します。この値を有意水準と呼び、医学研究においては5%を採用することが一般的です。
さて、グループ間の統計的有意差は、どのような状況で見出しやすいのかというと、「01.グループ間の平均値の差が大きく」「02.それぞれのグループの分布のばらつき(標準偏差)が小さく」そして「03.サンプル数が大きいほどよい」ということになります。平均値の差についてはいうまでもないとして、分布のばらつきが小さく、それぞれのグループの数が多いほどグループ間の差が際立つことは直感的に想像できるでしょう。このうち試験計画の段階で完全にコントロールできるのはサンプル数だけです。ただし、サンプル数が十分に大きければ、どれほど小さな差であっても統計的有意差は出てしまうため、統計的有意差が見出されたときは、実際に平均値等でどれだけ差が生じたのかを意識することも大切です。
ちなみに分布のばらつきを抑えるためには、あらかじめ条件の似通った被験者を集めることが有効ですし、平均値の差を大きくするには、より大きな効果が予想される被験者を集めたほうがよいでしょう。そのため多めの被験者を集めて、より条件に合致した被験者を選び出し、本試験にエントリーさせることが行われます。これをスクリーニングと呼びます。